統計筆記(63)正態分佈的卡方檢驗
在非參數方法:卡方檢驗的運用中已經介紹卡方檢驗的原理:通過卡方統計量來對比樣本頻率分佈與某已知分佈的頻率分佈,檢驗兩者差異情況,決定是否接受樣本分佈等於已知分佈。卡方分佈能夠用於各種分佈的檢驗。
基礎準備
- 卡方檢驗:非參數方法:卡方檢驗的運用;
- 描述統計:Excel資料分析工具:描述統計;
- 峰度與偏度:資料分佈形狀描述;
在非參數方法:卡方檢驗的運用中已經介紹卡方檢驗的原理:通過卡方統計量來對比樣本頻率分佈與某已知分佈的頻率分佈,檢驗兩者差異情況,決定是否接受樣本分佈等於已知分佈。卡方分佈能夠用於各種分佈的檢驗。
卡方檢驗原理和公式推導過程已經介紹過(回顧:小白學統計(60)非參數方法:卡方檢驗的運用),今篇用兩個範例來介紹正態分佈的卡方檢驗過程(期望頻數大於5)。
範例分析
例1:有人認為某種不規則商品的品質服從正態分佈。下表中列出了他隨機抽取的40個該種商品的質量數據,問這些資料是否支援他的說法。(α=0.05)
解:根據題意,假設可設為:
H0:品質服從正態分佈;
H1:品質不服從正態分佈;
如果原假設為真,則需要知道總體的均值和標準差,利用上表中的樣本資料計算出樣本的均值和標準差作為總體均值和標準差的優良點估計。利用Excel描述統計(回顧:Excel資料分析工具:描述統計),可以得到樣本的統計資訊,結果如下:
從描述統計結果的峰度(-1.1398)和偏度(0.0732)可以看出(回顧:資料分佈形狀描述),與標準正態分佈相比,偏度接近於0,資料的對稱型很好,但是峰度較為平坦。接下來,通過卡方檢驗來驗證總體是否正態分佈。
現在需要將樣本資料進行類別劃分。一種簡便的方法是使每個類別的期望值等於5,以滿足檢驗的前提條件。對於本例40個樣本資料,可以劃分為40/5=8個類別,對於正態分佈來說就是劃分為8個區間,這8個區間的概率值是相等的,每個區間的概率為1/8=0.125。查標準正態分佈表,可得到標準正態分佈下劃分8個區間的8個臨界值點,再通過正態分佈標準化的逆過程,可計算出8個臨界值所對應的X值(區間界限),如下表:
根據計算的區間界限,將樣本資料的每一個資料都分配到對應的區間中,然後統計實際頻數。最後由實際頻數與期望頻數的差值計算卡方統計量,計算過程如下表:
據前述可知該統計量服從自由度為k-r-1的卡方分佈。本例中,劃分了8個區間k=8,估計了2個總體參數和σ,所以r=2,自由度為8-2-1=5。查卡方分佈表(雙側顯著水準0.5/2=0.025,自由度為5)得卡方值為11.07。因為計算卡方統計量為8<11.07,落在接受域,所以接受原假設,拒絕備擇假設,即品質的資料可以認為是正態分佈。
上例中樣本資料是未經加工的原始資料,所以在分類時,是按照等概率區間進行分配。如果所得到的資料是已經分類的資料,則按已分好的類別計算區間概率。
例2:220名研究生入學考試的某學科成績經整理如下表所示,問在α=0.05時,檢驗該學科成績是否服從正態分佈?
解:根據題意,建立假設:
H0:成績服從正態分佈;
H1:成績不服從正態分佈。
首先,根據樣本資料對總體未知參數和σ進行估計。由上表中資料可以得到樣本均值為114.45,標準差為13.77。由這個假設總體,可以計算出已分好的各區間的臨界值。然後,根據臨界值查標準正態分佈表,得到各區間的期望概率,用樣本容量乘各期望概率就可得出各區間的期望頻數。
以70-80區間為例,現計算70和80的臨界值:
查正態分佈表,看到3.23對應的概率是0.4994,2.5對應的是0.4938。所以兩個概率之差即為70-80的概率值為0.4994-0.4938=0.0056。然後,用樣本容量乘以期望概率得到220*0.0056=1.232,即為在70-80區間的期望頻數。
其它區間也類似計算,計算過程如下表:
由於前兩類的期望頻數為小於5,故將其合併到第3類中。這時類別數為K=7。由上表可知,計算卡方值為16.19。查卡方分佈(顯著水準0.05/2=0.025,自由度為7-2-1=4)得卡方臨界值為9.488。因為16.195>9.488,落在拒絕域。所以拒絕原假設,接受備擇假設,即該學科考試成績不服從正態分佈。
本文採用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有。