中級統計師知識點:用數字來概括數據

來源:文萃谷 5.06K

導語:針對一組數據的分佈特徵,我們可以從兩個方面來考查它:一是該組數據的集中趨勢,二是該組數據的離散程度。下面我們一起來看看在中級統計師中的考試內容吧。

中級統計師知識點:用數字來概括數據

針對一組數據的分佈特徵,我們可以從兩個方面來考查它:一是該組數據的集中趨勢,即該組數據的數值向其中心值的靠攏程度。二是該組數據的離散程度,它反映的是該組數據的各個數值遠離其中心的趨勢和程度。

  一.定性數據的數字特徵

由於定性數據主要是計數,比較簡單,對定性數據的集中趨勢常用的方法就是計算比例、百分比、中位數和眾數。

中位數是將總體各單位標誌值按大小順序排列,處於中間位置的那個數(如果樣本量為奇數),或者中間兩個數目的平均(如果樣本量為偶數)。

眾數就是數據中出現次數或出現頻率最多的數值。在定性數據中,由於記錄的是頻數,因此眾數用得多些。

  二.定量數據的數字特徵

反映定量數據特徵的統計量常用的有:

反映數據集中趨勢的水平度量:平均數、中位數、眾數和分位數等

反映數據離散程度的差異度量:極差、四分位差、標準差和方差

  (一)水平的度量

1.平均數

平均數也稱為均值,是把某一組數據進行算術平均,用以表述某一事物的平均水平,它在統計中叫做均值。

簡單平均數:把一個變量的所有觀測值相加再除以觀測值的數目

加權平均數:如果原始數據為分組數據,則採用加權平均數公式計算,其中的權數f為各組的頻數。

2.中位數

數字按順序排列後,處於中間位置的`數即是。如總位數為奇數,中間數即是;若為偶數,則是中間兩位數的平均值。

3.眾數

數組中出現次數最多的數。

4.用哪個值代表一組數據

平均數、中位數和眾數是描述數據水平的三個主要統計量,要合理使用則需要了解它們的不同特點和應用場合。平均數易為多數人理解和接受,實際中用的也較多,但主要缺點是更容易受少數極端數值的影響,對於嚴重偏態分佈的數據,平均數的代表性較差。中位數和眾數提供的信息不像平均數那樣多,但它們也有優點,比如不受極端值的影響,具有統計上的穩健性,當數據為偏態分佈,特別是偏斜程度較大時,可以考慮選擇中位數和眾數,這時它們的代表性要比平均數好。

  (二)差異的度量

對社會經濟現象不僅需要對現象的集中趨勢進行分析(平均數、中位數、眾數),而且還需要進行差異程度分析即離散程度分析。研究事物現象的差異性,從差異性的事物現象中,尋求解決差異性的一些方法。

1.極差( Range)

極差又稱全距,是最簡單的離散指標,它是一組數據中的最大值和最小值之差。

計算極差非常簡單,含義也很直觀。但是,它僅僅受最大值和最小值的影響,不能反映一組數據分佈的情況,而且它非常容易受數據中極端值的影響。因此,它不能準確地描述數據的分散程度。

2.方差和標準差

為了反映數據中的每一個觀察值與平均水平的差異程度就必須引入方程和標準差的概念。

方差:將各個變量值和其均值離差平方的平均數,作為樣本數據,它反映了樣本中各個觀測值到其均值的平均離散程度。其計算公式為:

標準差是方差的平方根,它與方差相比更具量綱性,而且與變量值的計量單位相同,使用的範圍比方差更廣泛。其計算公式為:

式中是總體標準差,s為樣本標準差。總體自由度為n,樣本自由度為n-1,兩種有差異,是因為,自由度是指一組數據中可以自由取值的個數,當樣本數據的個數為 n時,其樣本均值是確定的,只有n-1個數據可以自由取值,其中必有一個數據不能自由取值。所以,樣本的標準差只能除以n-1 ,而不能除以n .

在一個統計樣本中,其標準差越大,説明它的各個觀測值分佈的越分散,它的趨中程度就越差。反之,其標準差越小,説明它的各個觀測值分佈的越集中,它的趨中程度就越好。

3.離散係數

離散係數也稱變異係數、標準差係數,它是將一組數據的標準差除以其均值,用來測度數據離散程度的相對數。其計算公式為:

4.標準分數

標準分數也稱標準化值或Z分數,它是變量值與其平均數的離差除以標準差後的值,用以測定某一個數據在該組數據中的相對位置。其計算公式為:

標準分數最大的用途是可以把兩組數據中的兩個不同均值,不同標準差的數據進行對比,以判定它們在各組中的位置。見課本P271例題.標準分數對比的兩個數據在各自數組中的相對位置。

熱門標籤