close

統計筆記(36)樣本容量的確定—總體均值的樣本容量確定

在抽樣之前,確定適當的樣本容量是必須的。因為樣本容量直接影響到抽樣的誤差大小以及抽樣費用的多少。

如果樣本容量較大,就會減少抽樣誤差,提高估計總體參數的精度,但是抽樣的費用就會相應增加;反之,樣本容量較小,抽樣費用可以降低,但抽樣誤差就會增大。所以,在抽樣之前必須確定一個適當的樣本容量。

所謂適當的樣本容量,就是指能夠滿足研究者對抽樣誤差要求的應抽取的最少樣本單位。這裡所說的抽樣誤差是指由於被抽取樣本的代表性所產生的誤差,具體是指樣本統計量的實際數值與總體參數之間的差值。

例如,表示一個實際的樣本均值,µ表示總體均值,則x̅-µ就是抽樣誤差。

一般意義上,我們用Δ`X表示總體均值允許的抽樣誤差,Δ`p表示母體比例允許的抽樣誤差,即有|-µ|Δ`X|`Pp|Δ`p。根據抽樣誤差的定義可知,抽樣誤差的值可正可負,實際是指圍繞總體參數左右波動的範圍。

在確定樣本容量時,需要考慮以下因素的影響:

1)總體中變數值的離散程度大小。在相同條件下,離散程度越大,則需抽出的樣本容量就越多。一般用總體標準差表示離散程度的大小。

2)置信度1α的大小。置信度越高,需抽出的樣本容量就越多。反之,則越少。

3)允許的抽樣誤差大小。研究者如果能夠允許較大的抽樣誤差,則可以減少抽樣的數目,降低精度;如果研究者要求的抽樣誤差較小,則必須增加樣本抽樣數目。

估計總體均值時的樣本容量

如果抽樣的目的是為了估計總體均值的置信區間,則在給定Δ`X和置信度1α的條件下,可用

853ac2fcf23e8587f5c7232085b06cdb.jpg

 

 

在上面公式中,都含有總體標準差σ。如果σ已知,則可帶入公式計算。如果σ未知,則可按以下方法近似確定σ值。

1)用以前類似研究的數值最大的樣本標準差代替,這樣可以使n較大。

2)做一次試點調查,用調查所得的樣本標準差代替σ

3)對σ進行最優估計。如已知變數的極大值和極小值,可以用極值差除以4作為σ估計,即σ(Xmax– Xmin)/4

這樣估計的理論基礎是,如果總體是正態分配,則約有95.45%的概率保證變數值是在的±2σ範圍內,也即範圍。當然,理想的情況是變數值在±3σ範圍內,也即範圍內,此時概率為99.74%。但是,在實踐中,很少有這樣完美的分佈。所以,使用比較合理。

例:假設我們要估計一家化工廠某種產品的平均日產量,已知日產量變動的標準差為±2t。如果要求估計平均日產量的置信度為95%,估計允許的誤差為0.5t。求應抽取多少工作日進行調查?

解:本例是估計時確定n的問題。已知總體是無限的,所以可以用公式計算。σ±2tΔ`X0.5t1α95%,查正太分佈表,得Zα/2=1.96。將這些資料帶入公式

8dbd857886226f5d37367f58d7fe9e9b.jpg

由此可見,誤差減少一半,n將是原來的4倍。這說明在置信度1α不變時,若要提高抽樣的精度,則必須付出增加費用的代價

本文採用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有

 

arrow
arrow
    創作者介紹
    創作者 HCHUNGW 的頭像
    HCHUNGW

    HCHUNGW的部落格

    HCHUNGW 發表在 痞客邦 留言(0) 人氣()