統計筆記(26)連續型隨機變數概率分佈——抽樣均值分佈
抽樣分佈十分重要,它是進行統計推斷的基礎,正是依賴抽樣分佈的理論,我們才能對總體的有關特徵作出具有一定概率保證的估計和檢驗。因此,深入理解抽樣分佈的概念並掌握某些重要的抽樣分佈,對於進一步學習統計推斷的其它方法將大有裨益。
統計量與抽樣分佈的概念
統計推斷的目的,就是通過樣本的特徵值去推斷總體的特徵。在推斷統計中將描述總體特徵的指標都稱為總體參數,而將反映樣本特徵的指標稱為樣本統計量。例如,總體的µ(總體均值)和σ(總體標準差)都是總體參數,而樣本的 x̅ (樣本均值)和S(樣本標準差)就是樣本統計量。因此,所謂推斷,就是用樣本統計量去推斷總體參數。
樣本統計量的數值是根據被抽取的樣本資料計算的,在沒有抽出具體樣本之前,樣本統計量的數值就不能確定,他是個隨機變數。以 x̅ (樣本均值)為例,當總體中有N個個體,從中抽出n個個體作為樣本。如果採取非重複抽樣的方式,將有CNn個抽法,也就是說可能有CNn個樣本產生,每一個樣本都可以計算出一個 x̅ (樣本均值)的數值,CNn個樣本就可以有CNn個X數值。由此可見,對於 x̅ 來說,在沒有確定抽出一個樣本之前它是個不確定量,或者說是個隨機變數。
概括的說,在已經抽取樣本後,樣本統計量是一個確切的數值;在未抽取樣本之前,樣本統計量就是一個隨機變數。樣本統計量雖然是個隨機變數,但其變數值卻具有某種概率分佈,利用這些概率分佈可以對總體參數進行有效的估計和檢驗。在統計學中,將這種樣本統計量形成的概率分佈稱為抽樣分佈。常用的抽樣分佈有:
- 樣本均值 x̅ 的抽樣分佈
- 卡方分配
- t分佈
- F分佈
樣本均值抽樣分佈
不論總體服從什麼分佈,只要總體均值µ和總體方差σ2存在,當樣本容量n足夠大時,樣本均值x̅ 的抽樣分佈就近似與正態分佈。下圖描述了來自不同總體分佈的樣本均值的抽樣分佈,可以看到,當n從2到30時,樣本均值已經近似於正態分佈了。如下圖所示:
解析:
從一個x~N(µ,σ2)的正態總體中抽樣時,樣本均值x̅的抽樣分佈總是服從與正態分佈,記為x̅~N(1,σ1平方),1是樣本均值X所有可能取值的平均數。可以證明1=(樣本均值和總體均值相等)。σ1是樣本均值X所能取值的標準差,也稱為平均數的抽樣誤差。σ1雖然在理論上可以求出,但在實際抽樣中則很難求得。人們經常利用總體標準差σ來表示σ1,有兩種情況:
(1)從無限總體抽樣或從有限總體重複抽樣時
(2)從有限總體非重複抽樣時
其中
被稱為有限總體修正係數,在實際抽樣中,當抽樣比n/N<=0.05時,修正係數近似等於1,則上述兩種計算式近似相等。
例題:
例如,有1,2,3,4,5組成的一個總體,現從中抽取2個數值為樣本。如果重複抽樣,將有5*5=25種抽法;如果非重複抽樣,將有C52=10種抽法。我們將所有可能抽樣結果列在表1和表2種:
從表1中的資料,可以計算得出:µ1=3,σ1=1。從表2中可以得出:µ2=3,σ2=0.866。
上述關於樣本均值X抽樣分佈的特徵值和σ都可以根據總體特徵值得到。因為總體為1,2,3,4,5,所以可以計算得到=3,這與上述兩種抽樣方法計算的結果都相等,從而驗證了=1=2=3.又已知總體的標準差
在重複抽樣時
在非重複抽樣時
由此可見,由公式計算得到了結果和實際計算得到的結果完全一致。
通過本例,我們主要說明以下三個問題:
1、樣本均值的抽樣分佈的特徵值與總體參數存在著確切關係。
2、樣本均x̅值是個隨機變數,且服從概率分佈。不論總體為何種分佈,當n≥30時,總有X服從正態分佈。所以,n≥30的樣本被稱為大樣本;n<30的樣本稱為小樣本。
3、重複抽樣的抽樣誤差大於非重複重複抽樣的抽樣誤差(1>0.866)。因此,實踐中大多數抽樣均使用非重複抽樣。(不可重複)
本文採用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有。