統計筆記（36）樣本容量的確定—總體均值的樣本容量確定－HCHUNGW的部落格

統計筆記（36）樣本容量的確定—總體均值的樣本容量確定

在抽樣之前，確定適當的樣本容量是必須的。因為樣本容量直接影響到抽樣的誤差大小以及抽樣費用的多少。

如果樣本容量較大，就會減少抽樣誤差，提高估計總體參數的精度，但是抽樣的費用就會相應增加；反之，樣本容量較小，抽樣費用可以降低，但抽樣誤差就會增大。所以，在抽樣之前必須確定一個適當的樣本容量。

所謂適當的樣本容量，就是指能夠滿足研究者對抽樣誤差要求的應抽取的最少樣本單位。這裡所說的抽樣誤差是指由於被抽取樣本的代表性所產生的誤差，具體是指樣本統計量的實際數值與總體參數之間的差值。

例如，x̅表示一個實際的樣本均值，µ表示總體均值，則x̅－µ就是抽樣誤差。

一般意義上，我們用Δ_`X表示總體均值允許的抽樣誤差，Δ_`p表示母體比例允許的抽樣誤差，即有|x̅－µ|＝Δ_`X，|`P－p|＝Δ_`p。根據抽樣誤差的定義可知，抽樣誤差的值可正可負，實際是指圍繞總體參數左右波動的範圍。

在確定樣本容量時，需要考慮以下因素的影響：

（1）總體中變數值的離散程度大小。在相同條件下，離散程度越大，則需抽出的樣本容量就越多。一般用總體標準差表示離散程度的大小。

（2）置信度1－α的大小。置信度越高，需抽出的樣本容量就越多。反之，則越少。

（3）允許的抽樣誤差大小。研究者如果能夠允許較大的抽樣誤差，則可以減少抽樣的數目，降低精度；如果研究者要求的抽樣誤差較小，則必須增加樣本抽樣數目。

估計總體均值時的樣本容量

如果抽樣的目的是為了估計總體均值的置信區間，則在給定Δ_`X和置信度1－α的條件下，可用

在上面公式中，都含有總體標準差σ。如果σ已知，則可帶入公式計算。如果σ未知，則可按以下方法近似確定σ值。

（1）用以前類似研究的數值最大的樣本標準差代替，這樣可以使n較大。

（2）做一次試點調查，用調查所得的樣本標準差代替σ。

（3）對σ進行最優估計。如已知變數的極大值和極小值，可以用極值差除以4作為σ估計，即σ＝(X_max– X_min)/4

這樣估計的理論基礎是，如果總體是正態分配，則約有95.45%的概率保證變數值是在的±2σ範圍內，也即4σ範圍。當然，理想的情況是變數值在±3σ範圍內，也即6σ範圍內，此時概率為99.74%。但是，在實踐中，很少有這樣完美的分佈。所以，使用4σ比較合理。

例：假設我們要估計一家化工廠某種產品的平均日產量，已知日產量變動的標準差為±2t。如果要求估計平均日產量的置信度為95%，估計允許的誤差為0.5t。求應抽取多少工作日進行調查？

解：本例是估計時確定n的問題。已知總體是無限的，所以可以用公式計算。σ＝±2t，Δ_`X＝0.5t，1－α＝95%，查正太分佈表，得Z_α/2=1.96。將這些資料帶入公式

由此可見，誤差減少一半，n將是原來的4倍。這說明在置信度1－α不變時，若要提高抽樣的精度，則必須付出增加費用的代價。

本文採用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流，內容版權歸原作者所有。

統計學大數據分析心得人工智慧心得經濟學系

HCHUNGW

HCHUNGW的部落格

HCHUNGW 發表在痞客邦留言(0) 人氣()

HCHUNGW的部落格

破軍突破革新希望多元開放平等進步