統計筆記(27)抽樣分佈:詳述均值的抽樣分佈及中心極限定理
均值的抽樣分佈類型
抽樣分佈的定義、作用和主要種類已經介紹過(回顧點擊:通俗解釋大數據及推斷性統計學:抽樣分佈),本篇介紹均值的抽樣分佈。均值抽樣分佈根據樣本量的情況分為均值的理論抽樣分佈和均值的經驗抽樣分佈。
均值的理論抽樣分佈
通俗的解釋:有總體N,每次從中抽取固定容量為n的樣本並計算出該樣本的均值,如果將所有可能抽取的樣本列出,並計算均值,這些均值的頻率分佈就稱為理論抽樣分佈。
均值的經驗抽樣分佈
與均值的理論抽樣分佈不同,均值的經驗抽樣分佈並沒有抽取所有可能樣本,並計算均值,將這樣的部分樣本均值的頻率分佈稱為均值的經驗抽樣分佈。隨著樣本個數逐漸趨近“所有可能樣本”,均值的經驗抽樣分佈越來越接近均值的理論抽樣分佈。
兩個例子
例1:有數字總體:0,1,2,3,4;用有放回抽樣得到容量為2的樣本,所有可能的樣本有5*5=25個(見表1,[(樣本)均值]),這25個樣本的均值出現概率(相對頻數)就組成了均值的理論抽樣分佈(見表2);如果樣本個數不足25個(所有可能樣本),則稱這樣的樣本均值出現頻率為均值的經驗抽樣分佈。
例2:有數字總體:0,1,2,3,4;用無放回抽樣得到容量為2的樣本,所有可能的樣本有5*4=20個,其中一半(10個)與另一半僅僅是取值順序不同(例如(0,1)和(1,0)),對均值的頻數沒有影響,所以所有可能樣本為10個(見表3,[(樣本)均值]),這10個樣本的均值出現概率(相對頻數)就組成了均值的理論抽樣分佈(見表4);如果樣本個數不足10個(不考慮取值順序),稱這樣的樣本均值出現頻率為均值的經驗抽樣分佈。
均值的理論抽樣分佈參數特性(均值、方差和標準差)
1、均值理論抽樣分佈(所有抽樣類型:無限總體抽樣、有限總體有放回抽樣和有限總體無放回抽樣)的均值與總體均值相等,是無偏性的。計算過程簡單,以例1和例2進行推導驗證,結果都等於2;無偏性運算式:
2、均值的理論抽樣分佈的方差與總體方差有如下關係:
以例1和例2進行推導,過程如下:
3、從2中的方差公式可以得出:樣本容量n越大,均值的抽樣分佈的方差(標準差)越小,樣本均值作為總體均值的誤差就越小,也就越精密。
中心極限定理
在假定抽樣總體服從正態分佈的條件下,可以證明,如果容量為n的所有的可能樣本(理論抽樣)取自正態分佈總體,並且從每個樣本計算出均值,則得到的均值的連續型理論抽樣分佈服從正態分佈。(如果是離散型總體,則得到的均值的離散型理論抽樣分佈可以用正態分佈擬合)
如果總體分佈情況未知,或者總體具有偏態或多峰,不是正態總體呢
對於應用中遇到的所有這類總體分佈,如果樣本容量“足夠大”,由此匯出的均值的理論抽樣分佈可以認為近似服從正態分佈,這是推斷性統計學的一個重要定理——中心極限定理的基礎。
證明過程可以參見上面的例1(有放回有限總體)和例2(無放回有限總體),總體(0,1,2,3,4)是離散型平均分佈總體,不是正態總體,得到的均值的理論抽樣分佈可以用正態分佈近似(見例1和例2柱型圖);而且隨著n增大,這種近似越來越好,見下圖:
中心極限定理的表述
之前我們介紹過,可以將總體抽樣類型分為:無限大總體抽樣;有限總體有放回抽樣;有限總體無放回抽樣。總體抽樣類型不同,中心極限定理的表述也不同。
1、有限總體有放回抽樣
在數學上可以證明如果所有容量為n的隨機樣本,均有放回地取自容量為N,具有有限參數(μ,σ,σ2)的有限總體,並對每一樣本計算出均值,則如果n足夠大,均值的理論抽樣分佈近似服從有以下參數的正態分佈
2、無限大總體(有放回或無放回)
在數學上可以證明如果所有容量為n的隨機樣本,均取自(有放回或無放回)一個有有限參數(μ,σ,σ2)的無限總體,並對每一樣本計算出均值,則如果n足夠大,均值的理論抽樣分佈近似服從有以下參數的正態分佈
可以看出,有限總體有放回抽樣和無限總體的理論抽樣分佈的參數關係式是一樣的。
3、有限總體無放回抽樣
中心極限定理同樣適用於有限總體無放回抽樣,不過和上面兩種抽樣情況有不同。表述為:在數學上可以證明如果所有容量為n的隨機樣本,均無放回地取自容量為N,具有有限參數(μ,σ,σ2)的有限總體,並對每一樣本計算出均值,而且N至少為n的2倍(N≥2n),則如果n足夠大,均值的理論抽樣分佈近似服從有以下參數的正態分佈
如果n≤0.05N,則不必適用有限總體的修正因數。
多大是“足夠大”
在中心極限定理的三種形式中,均要求n“足夠大”,均值的理論抽樣分佈近似服從正態分佈。對“足夠大”不存在絕對的統一規則。有兩種情形:
1、如果已知總體是正態總體(或接近正態),所需的樣本容量n則比較小,n=25或n=20的樣本即足夠大,可以使用中心極限定理。
2、對任何類型的總體分佈,通常可接受的規則是:如果n≥30,即認為樣本容量足夠大,可使用中心極限定理。
所以,30常作為大樣本統計和小樣本統計的分界線。如果n≥30,則可以使用中心極限定理要求的大樣本方法,如果n<30,則使用小樣本方法。
本文採用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有。