統計筆記(62)泊松分佈的卡方分佈
χ2檢驗除了可以對假設的頻數進行檢驗外,還可以對各種假設的分佈進行檢驗。
χ2檢驗除了可以對假設的頻數進行檢驗外,還可以對各種假設的分佈進行檢驗。在對各種分佈進行檢驗時,應注意將各變數值作適當分類,使每一類別的期望頻數大於等於5。在選定類別時,如果變數值是有限個,則可以將每一取值作為一個類別;如果變數值可以取無限個,則通過適當合併,將其變為有限個區間,把每一區間視為一類。下面我們假設總體分佈為離散型的泊松分佈,通過例題介紹擬合優度的χ2檢驗的方法。
例1:有人認為某賓館的電話交換臺在週一至週五的日間打入電話的次數服從泊松分佈。為此,管理人員以20min為一個時間段,連續記錄了一個月320個時間段的打入電話次數,如下表所示。問根據這樣的資料核對次數分佈是否服從泊松分佈。
1個月320個時間段打入電話的次數統計表 |
|||
一個時間段打入次數 |
實際頻數 |
一個時間段打入次數 |
實際頻數 |
0 |
15 |
6 |
16 |
1 |
47 |
7 |
9 |
2 |
70 |
8 |
4 |
3 |
81 |
9 |
1 |
4 |
52 |
10次以上 |
0 |
5 |
25 |
合計 |
320 |
解:本例需要檢驗的是在20min的時間段內打入電話次數是否服從泊松分佈,所以可假設:
H0:20min時間段打入電話次數服從泊松分佈;
H1:20min時間段打入電話次數不服從泊松分佈.
泊松分佈的概率密度函數為:
根據該密度函數,就可以計算出在每一個時間段內各個類別出現的概率,這些概率值可通過泊松分佈表查得。例如,在20min時間段內有0個電話打入的概率是f(X=0)=0.0498,有一個電話打入的概率是f(X=1)=0.1494等。然後用查出的概率分別乘以樣本容量n(n=320),就可以得到各類別期望的頻數。例如,在320個時間段內打入0個電話的期望頻數是0.0498×320=15.936。計算過程如下表:
χ2統計量的計算過程 |
||||
打入次數xi |
為真時的概率f(X=xi) |
實際頻數ni |
期望頻數ei=n*f(X=xi) |
(ni-ei)2/ei |
0 |
0.0498 |
15 |
15.936 |
0.0550 |
1 |
0.1494 |
47 |
47.808 |
0.0137 |
2 |
0.2240 |
70 |
71.68 |
0.0394 |
3 |
0.2240 |
81 |
71.68 |
1.2118 |
4 |
0.1680 |
52 |
53.76 |
0.0576 |
5 |
0.1008 |
25 |
32.256 |
1.6322 |
6 |
0.0504 |
16 |
16.128 |
1.0159 |
7 |
0.0216 |
9 |
6.912 |
0.9812 |
8 |
0.0081 |
4 |
2.592 |
|
9 |
0.0027 |
1 |
0.864 |
|
10次及以上 |
0.0012 |
0 |
0.384 |
|
合計 |
1.0000 |
320 |
320 |
5.0068 |
注意上表中,打入電話次數為8,9和10次及以上次數的期望頻數都小於5,所以將這三類與打入7次的合併為一類,所以合併之後的類別數k=8.這時χ2統計量為:
需要注意的是:根據Pearson定理,上式的χ2統計量服從自由度為k-r-1的χ2分佈。其中k是類別的個數,r是估計的總體參數的個數。本例中k=8,r=1(只估計了一個參數λ),所以自由度為k-r-1=8-1-1=6。於是,當α=0.05時,查表得χ0.052(6)=12.592。對於樣本的χ2值,因為χ2<χ0.052(6)落在接受域中,所以,接受H0,拒絕H1,即該電話交換臺,在20min的時間段內打入電話次數是服從泊松分佈的。
本文採用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有。