初級統計師考試統計基礎:統計數據的整理
來源:考試大發布時間:2011-11-25 17:33:53
統計數據的整理
數據搜集來之后,要對其進行加工整理,以使之系統化、條理化,符合統計分析的要求。數據整理通常包括數據的預處理、分組或分類、匯總等,其中,編制頻數分布是統計整理的重要內容。
一、數據的預處理
數據的預處理是在分組或分類之前對數據所做的審核、篩選和排序等。
(一)數據的審核與篩選
來自不同渠道的統計數據和不同類型的統計數據,在審核的內容和方法上也有差別。對于由直接調查取得的原始數據,要從完整性和準確性兩方面去審核。完整性審核就是檢查應調查的單位或個體有否遺漏,調查項目填寫是否齊全等。準確性審核,一是看數據是否真實,與實際有無出入;二是看數據的登錄、計算等是否有誤。邏輯檢查和計算檢查是審核數據準確性的兩種方法。邏輯檢查就是從定性角度去看數據是否有悖邏輯,相互矛盾之嫌,故多用于審核名類數據和順序數據。比如,中學文化程度的人所填的職業是大學教師,這就不符合邏輯了。計算檢查是審核調查表中的各項數據在計算結果和計算方法上有無錯誤,故多用于對區間數據和比數據的審核。例如,檢查各分項數字之和是否等于相應的合計數,各組頻數之和是否等于1或100%,出現在不同表格上的同一指標數值是否相同等。
對于通過其他渠道取得的第二手數據,除了審核其完整性和準確性之外,還應審核其適用性和時效性。第二手數據可以來自多種渠道,有些數據可能是為特定目的,通過專門調查而取得的,或者是已經按特定目的的需要做了加工整理。對于這種數據,使用者首先應弄清數據的來源、口徑以及有關背景材料,不能盲目生搬硬套。而且,有些時效性較強的問題,若取得的數據過于滯后,就失去了研究的意義,一般來說,應盡可能使用最新的統計數據。
對審核中發現的錯誤應盡可能予以糾正。如果對發現的錯誤無法糾正,或者有些數據不符合調查的要求而又無法彌補時,就要對數據進行篩選。數據篩選有兩方面內容:一是將某些不符合要求的數據或有明顯錯誤的數據予以剔除;二是將符合某種特定條件的數據篩選出來,不符合特定條件的數據予以剔除。
(二)數據的排序
數據排序就是按一定順序將數據排列,其目的是為了便于研究者通過瀏覽數據發現一些明顯的特征或趨勢,找到解決問題的線索。排序還有助于對數據檢查、糾錯,為重新分組或歸類提供依據。在某些場合,排序本身就是分析的目的之一,例如,美國的《財富》雜志每年都要排出世界500強企業,通過這一信息,經營者不僅能知道本企業所處的地位和差距,還可以了解到競爭對手的狀況,從而有效地制定本企業的發展規劃和戰略目標。
名類數據,如果是字母型數據,排序有升序與降序之分,升序更常見些,因為升序跟字母的自然排列相同;如果是漢字型數據,排列方式很多,比如按漢字的首位拼音字母排列,這與字母型數據的排序完全一樣,也可按筆畫順序,其中也有筆畫多少的升序與降序之分。交替運用不同方式排序,在漢字型數據的檢查、糾錯中十分有用。區間數據和比數據的排序只有兩種,即遞增和遞減。設一組數據為 ,遞增排序后可表示為: ;遞減排序后可表示為: 。排序后的數據亦稱為順序統計量(Order statistics)。無論是定性數據還是定量數據,其排序均可借助計算機完成。
二、統計分組
數據經過預處理后,可進一步做分組整理。統計分組是數據整理中的一項重要工作,統計分組的好壞直接影響著統計分析的質量。
(一)統計分組的概念和原則
統計分組就是根據統計研究的目的和客觀信息的特點,按某個標志(或幾個標志)把被研究的總體劃分為若干個既有區別,又有聯系的組成部分。統計分組的對象是總體。統計分組所依據的標志可能是品質標志,也可能是數量標志。品質標志包括名類尺度和順序尺度;數量標志則有區間尺度和比尺度。
統計分組兼有分和合雙重含義。對總體而言是“分”,即把總體分為性質相異的若干部分;而對單位而言又是“合”,即把性質相同的許多單位連接在一起。對于分組標志來說是“分”,即把其各種各樣的標志表現分為若干個組;而對于其他標志來說則是“合”,即在一個組內的各個單位即使其他標志表現不相同也要結合在一起。由此可見,選擇一種分組方法,突出了一種差異,但同時也會掩蓋其他差異。不同的分組方法,可能得出不同的結論。缺乏科學根據的分組,不但不能顯示事物的根本特征,甚至會把不同性質的事物混淆在一起,歪曲事物的內在聯系。因此,統計分組必須先對所研究現象的本質作全面深刻的分析,確定所研究現象類型的屬性及其內部差別,而后才能選擇反映事物本質的正確的分組標志。
統計分組必須遵循兩個原則,即窮盡原則和互斥原則。所謂窮盡原則,就是使總體中的每一個單位都有組可歸,或者說,各分組的空間足以容納總體所有的單位。舉例說,如果將從業人員按文化程度分組,分為小學畢業、中學畢業(含中專)和大學畢業三組,那么,那些文盲或識字不多的以及大學以上的學歷者則無組可歸。但若將分組調整為文盲及識字不多、小學畢業、中學畢業、大學及大學以上畢業等這樣幾組,就可以涵蓋全部從業人員中各種層次的文化程度,這就符合了分組的窮盡原則。
所謂互斥原則,就是在特定的分組標志下,總體中的任何一個單位只能歸屬在某一組,而不能同時歸屬于幾個組。例如,某商場若把服裝分為女裝、男裝和童裝三類,就不符合互斥原則,因為童裝也有男、女之分。如果先把服裝分為成年與兒童兩類,然后每類再分為男、女兩組,這就符合互斥原則了。
(二)統計分組的種類
1、按分組標志的多少,可分為簡單分組和復合分組。簡單分組是對總體按一個標志分組,它只能從某一方面反映總體的分布狀況或內部結構。許多簡單分組從不同側面說明同一總體,就構成一個平行分組體系。例如,為了了解企業職工基本情況,可以分別選擇年齡和文化程度兩個標志各進行簡單分組;而這兩個簡單分組又形成了一個平行分組體系(見表2.2.1)。
表2.2.1 簡單分組和平行分組體系例示
按年齡分組: |
按文化程度分組: |
20歲及20歲以下 |
大專及大專以上 |
21-35歲 |
中專、技工 |
36-50歲 |
高中 |
51-55歲 |
初中 |
56-60歲 |
小學、識字不多或文盲 |
有時,要同時使用兩個或兩個以上標志依序層疊起來對總體進行分組,這種分組就是復合分組;復合分組本身就構成一個復合分組體系。例如,對固定資產投資項目,可先按經濟類型分組,再按投資規模分組,形成如下的復合分組和復合分組體系(見表2.2.2)。
2、按分組標志的性質不同,分為品質分組(亦稱屬性分組)和數量分組(亦稱變量分組)。品質分組就是按品質標志進行分組;對名類數據和順序數據采用品質分組。數量分組就是按數量標志進行分組;對區間數據和比數據采用數量分組。品質分組所形成的統計數列稱為品質數列;數量分組所形成的統計數列稱為變量數列。
3、按分組的作用和任務不同,分為類型分組、結構分組和分析分組。把復雜的現象總體分為若干個不同屬性的部分,就是類型分組。社會經濟統計經常采用這種分組。例如,我國全社會消費品零售額分為國有及國有控股商業零售額、集體商業零售額、私營及個體商業零售額和其他類型商業零售額。
表2.2.2 復合分組和復合分組體系例示
按經濟類型分組 |
按投資規模分組 |
國有經濟投資: |
大型 中型 小型 |
集體經濟投資: |
大型 中型 小型 |
外商經濟投資: |
大型 中型 小型 |
其他經濟投資: |
大型 中型 小型 |
在對總體分組的基礎上,計算出各組數值對總體的比重,藉此研究總體內部的構成,就是結構分組。類型分組與結構分組往往緊密地聯系在一起。
為研究現象之間依存關系而進行的統計分組,就是分析分組。分析分組的分組標志稱為原因標志,與原因標志相對應的標志稱為結果標志。找到原因標志表現與結果標志表現之間的數量聯系,是統計分析經常要做的工作。例如,經常用分組分析法來研究職工技術熟練程度與勞動生產率、商業企業規模與商品流通費用率之間的依存關系。