統計筆記(60)非參數方法:卡方檢驗的運用
非參數方法不是關於總體參數的估計和假設,而是通過樣本資訊來檢驗未知總體是否為某一種分佈(正態分佈,均勻分佈或任意分佈)。
基礎準備
- 單樣本估計和假設檢驗:估計理論:詳述總體均值的單樣本估計原理;不同條件的總體均值單樣本估計方法總述;假設檢驗的“前世今生”;單樣本的假設檢驗;單樣本假設檢驗範例分析及違背假定的情況;
- 兩樣本估計和假設檢驗:兩樣本估計和假設檢驗基礎;兩樣本估計和假設檢驗範例分析
- 多樣本估計和假設檢驗:多樣本的參數估計與假設檢驗基礎;
- 卡方檢驗:正態分佈的卡方檢驗;獨立性的卡方檢驗;多項分佈的χ2檢驗;一致性的卡方檢驗;
非參數方法與參數方法
前面介紹的單樣本、兩樣本和多樣本的參數估計和假設檢驗都是在一些假定條件下(例如:正態總體,總體方差已知,樣本容量大於30等),運用樣本資訊對總體參數(例如:均值和方差)進行估計和假設檢驗。
非參數方法不是關於總體參數的估計和假設,而是通過樣本資訊來檢驗未知總體是否為某一種分佈(正態分佈,均勻分佈或任意分佈)。
非參數方法原理
非參數方法是通過對比樣本的頻數與期望頻數(目標分佈的頻數)的差距來判斷抽取樣本的總體分佈是否為目標分佈。
非參數方法主要有兩種:卡方核對總和秩次檢驗。今篇介紹卡方檢驗的應用。
卡方檢驗
卡方統計量
在參數估計和假設檢驗中,介紹過卡方檢驗可以用來對總體方差進行區間估計和假設檢驗(抽樣分佈:卡方分佈),這是運用了卡方分佈的統計量:
非參數方法卡方檢驗的卡方統計量:
當觀測頻數接近於期望頻數時,該檢驗統計量的抽樣分佈近似於自由度為v的單參數的卡方分佈。同參數方法一樣,當自由度小於10時,卡方分佈向右偏斜,而當自由度增大時,卡方分佈漸進於正態分佈。
卡方檢驗步驟
由總體的隨機樣本得到觀測值,由所假設的總體分佈算得期望值,最後由上面的卡方統計量算出卡方值。觀測頻數與期望頻數的差越大,卡方統計量值也越大,將該值與卡方分佈的值比較來確定一個卡方統計量取該值的概率,當該值大於某顯著水準和自由度下的卡方分佈臨界值時,拒絕原假設。
三個運用
非參數方法卡方檢驗的三個運用:擬合優度,變數的獨立性和比率的齊性。
擬合優度的卡方檢驗:檢驗單個變數的k類頻數的分佈是否與理論分佈相同。
獨立性的卡方檢驗:判斷兩個變數是相互獨立,還是相互關聯的。
k個二項比率齊性的卡方檢驗:檢驗k個總體的二項比率是否相同。
運用範例分析
卡方擬合優度檢驗
一位歷史學教授從週一到週五每天都給某個大班講課,想知道每天的出席率是否相同,他檢查了一周內每天學生出席人數,結果發現:星期一出席283人,星期二出席332人,星期三出席360人,星期四出席307人,星期五出席243人。給定顯著水準為0.05,利用臨界值決策規則,判斷出席人數是否服從平均分佈(即每天的出席人數均相同),做卡方檢驗。
基礎準備:均勻分佈回顧:通俗歸納連續型概率分佈;題中變數為每天的出席人數;自由度為5-1=4(週一到週五)。
獨立性的卡方檢驗
兩個變數的獨立性檢驗需要用列聯表分析(回顧:獨立性和一致性的卡方檢驗—列聯表分析方法):一個變數的類按列排列(r),而另一個變數的類按行排列(c),大小為r*c;列聯表給出兩個變數類的同時也給出了觀測頻數和期望頻數;期望頻數來自邊際頻數(可以簡單理解成按比例分配),求解公式如下:
C” />
例如下面例題中青年人和藍色交叉的格子,期望頻數為180*200/500=72。
範例:某汽車廠家想知道顧客的年齡是否會影響其所購車輛的顏色,隨機抽取500名購車者,記錄下它們的年齡和所購車輛的顏色(藍、紅、白、黑),他將年齡分成三類:青年人(低於30歲),中年人(30到50歲),老年人(50歲以上),結果如下表。給定顯著水準0.05,利用臨界值決策規則,對零假設:所購車的顏色與顧客年齡獨立,做卡方檢驗。
二項比率齊性的卡方檢驗
貝努裡試驗(回顧:小白學統計(13)離散型隨機變數概率分佈——二項分佈)只有兩個可能的結果:成功與失敗。二項比率是一系列貝努裡試驗中成功或失敗出現的比率。二項比率齊性的卡方檢驗就是驗證k個總體的二項比率是否相同(例如:試驗的不同溫度對試驗結果成功與否是否有影響的檢驗)。
範例:一個棒球帽的行銷者想知道他在棒球比賽時的潛在市場是否隨賽季的進展而變化,他隨機抽取100人,在5月,6月、7月、8月、9月他們進入棒球場地時,記錄下它們是否戴棒球帽,結果發現戴棒球帽的人數分別是:59,61,65,68,47。給定顯著水準0.01,利用臨界值決策規則,對零假設:戴棒球帽的人數比例不隨季節中月份的變化而變化,做卡方檢驗。
本文採用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有,如涉作品、版權和其他問題請給「我們」留言處理。