close

統計筆記(26)連續型隨機變數概率分佈——抽樣均值分佈

抽樣分佈十分重要,它是進行統計推斷的基礎,正是依賴抽樣分佈的理論,我們才能對總體的有關特徵作出具有一定概率保證的估計和檢驗。因此,深入理解抽樣分佈的概念並掌握某些重要的抽樣分佈,對於進一步學習統計推斷的其它方法將大有裨益。

統計量與抽樣分佈的概念

統計推斷的目的,就是通過樣本的特徵值去推斷總體的特徵。在推斷統計中將描述總體特徵的指標都稱為總體參數,而將反映樣本特徵的指標稱為樣本統計量。例如,總體的µ(總體均值)σ(總體標準差)都是總體參數,而樣本的 x̅  (樣本均值)S(樣本標準差)就是樣本統計量。因此,所謂推斷,就是用樣本統計量去推斷總體參數。

樣本統計量的數值是根據被抽取的樣本資料計算的,在沒有抽出具體樣本之前,樣本統計量的數值就不能確定,他是個隨機變數。以 x̅  (樣本均值)為例,當總體中有N個個體,從中抽出n個個體作為樣本。如果採取非重複抽樣的方式,將有CNn個抽法,也就是說可能有CNn個樣本產生,每一個樣本都可以計算出一個 x̅  (樣本均值)的數值,CNn個樣本就可以有CNnX數值。由此可見,對於 x̅  來說,在沒有確定抽出一個樣本之前它是個不確定量,或者說是個隨機變數。

概括的說,在已經抽取樣本後,樣本統計量是一個確切的數值;在未抽取樣本之前,樣本統計量就是一個隨機變數。樣本統計量雖然是個隨機變數,但其變數值卻具有某種概率分佈,利用這些概率分佈可以對總體參數進行有效的估計和檢驗。在統計學中,將這種樣本統計量形成的概率分佈稱為抽樣分佈。常用的抽樣分佈有:

  1. 樣本均值 x̅  的抽樣分佈
  2. 卡方分配
  3. t分佈
  4. F分佈

樣本均值抽樣分佈

不論總體服從什麼分佈,只要總體均值µ和總體方差σ2存在,當樣本容量n足夠大時,樣本均值x̅ 的抽樣分佈就近似與正態分佈。下圖描述了來自不同總體分佈的樣本均值的抽樣分佈,可以看到,當n230時,樣本均值已經近似於正態分佈了。如下圖所示:

2016060614084612.png

 

 

解析:

從一個xN(µ,σ2)的正態總體中抽樣時,樣本均值的抽樣分佈總是服從與正態分佈,記為N(1,σ1平方),1是樣本均值X所有可能取值的平均數。可以證明1=(樣本均值和總體均值相等)σ1是樣本均值X所能取值的標準差,也稱為平均數的抽樣誤差。σ1雖然在理論上可以求出,但在實際抽樣中則很難求得。人們經常利用總體標準差σ來表示σ1,有兩種情況:

 

(1)從無限總體抽樣或從有限總體重複抽樣時

2016060614100535.png

 

(2)從有限總體非重複抽樣時

2016060614121937.png

 

其中

 

201606061413324.png

被稱為有限總體修正係數,在實際抽樣中,當抽樣比n/N<=0.05,修正係數近似等於1,則上述兩種計算式近似相等。

例題:

例如,有12345組成的一個總體,現從中抽取2個數值為樣本。如果重複抽樣,將有5*5=25種抽法;如果非重複抽樣,將有C52=10種抽法。我們將所有可能抽樣結果列在表1和表2種:

2016060614243135.png

201606061425503.png

 

 

從表1中的資料,可以計算得出:µ1=3,σ1=1。從表2中可以得出:µ2=3,σ2=0.866

上述關於樣本均值X抽樣分佈的特徵值和σ都可以根據總體特徵值得到。因為總體為12345,所以可以計算得到=3,這與上述兩種抽樣方法計算的結果都相等,從而驗證了=1=2=3.又已知總體的標準差

2016060614273429.png

 

 

在重複抽樣時

201606061428543.png

 

在非重複抽樣時

2016060614295314.png

 

 

可見,由公式計算得到了結果和實際計算得到的結果完全一致。

通過本例,我們主要說明以下三個問題:

1、樣本均值的抽樣分佈的特徵值與總體參數存在著確切關係。

2、樣本均值是個隨機變數,且服從概率分佈。不論總體為何種分佈,當n≥30時,總有X服從正態分佈。所以,n≥30的樣本被稱為大樣本;n<30的樣本稱為小樣本。

3、重複抽樣的抽樣誤差大於非重複重複抽樣的抽樣誤差(1>0.866)。因此,實踐中大多數抽樣均使用非重複抽樣。(不可重複)

本文採用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有

 

arrow
arrow
    創作者介紹
    創作者 HCHUNGW 的頭像
    HCHUNGW

    HCHUNGW的部落格

    HCHUNGW 發表在 痞客邦 留言(0) 人氣()