統計筆記(67)非參數方法:秩次檢驗
秩次檢驗對總體分佈無更多假定,由於沒有充分利用樣本資訊,且功效較低,因而只有當參數方法不適用時才採用秩次檢驗。
基礎準備
- 參數方法與非參數方法區別:非參數方法:卡方檢驗的運用
秩次檢驗
前一篇介紹了卡方檢驗的應用(非參數方法:卡方檢驗的運用),今篇介紹的秩次檢驗也是非參數方法的一種。秩次檢驗對總體分佈無更多假定,由於沒有充分利用樣本資訊,且功效較低,因而只有當參數方法不適用時才採用秩次檢驗。
秩次檢驗,顧名思義就是排序的意思,其原理是基於總體中的所有個體以相等的數量(區域)分佈在中位數的兩側。
將樣本與中位數(已知或假設)之差進行排序,進而得到樣本在中位數兩側的數量(區域),根據數量(區域)的多少,即可檢驗假設的中位數是否正確,也可以驗證抽取樣本的總體是否等於某種分佈。
秩次檢驗主要有以下幾種:
- 單樣本檢驗:總體中位數是否等於某個常數;
- 兩樣本檢驗:兩總體中位數是否相等;
- 兩樣本檢驗:兩獨立樣本是否來自一個總體;
- 多樣本檢驗:k個獨立樣本是否來自一個總體;
- 成對樣本檢驗:單調相關性檢驗;
下面以前三種運用來舉例說明其運用方法。
單樣本檢驗:總體中位數假設檢驗
單樣本秩次檢驗是用來確定總體的中位數是否等於某個假設值,又被稱為Wilcoxon符號秩檢驗。這是基於中位數的定義:若總體的中位數等於假定值,則樣本中有一半大於該值,而另一半小於該值。檢驗統計量是建立在差的得分基礎之上的,差的得分可通過將每個觀測值減去假定的中位數而得。
對於小樣本(樣本容量小於30),Wilcoxon符號秩檢驗程式如下:
1、隨機抽取一個樣本,對於每個樣本觀測值,減去零假設給定的中位數,將這些差的得分取絕對值,然後排序,記錄下其所在位置作為其秩(順序),最小的秩為1,最大的秩為n。
若兩個差得分相同,則取其所在位置的平均(如,兩個差的得分排在第四位,則這兩個差的得分的秩均為4.5,即4與5的算術平均);
2、將差的得分的原始符號(+或-)附在其相應秩的前面,正秩的和記為W+,負秩的為記為W-,若零假設為真,則每個秩應等可能的取+或-,從而絕對值的W+和W-應近似相等;
3、算出W+和W-的絕對值以後,需要檢驗統計量:對比W+和W-絕對值中較小值與Wilcoxon臨界值表相應臨界值(相應顯著水準和樣本容量條件下),判斷是拒絕原假設還是接受原假設。
範例:一位電影評論員按照從1(最差)到10(最好)的標準評價電影。工作20年後,其評分中位數為6.3。他退休後,公司雇傭另一人接替他的工作,工作一個月後,這位新評論員共觀看了10部電影,評分是:3.8,5.6,1.8,5.0,2.4,4.2,7.3,8.6,9.1,5.2。公司領導想瞭解這位新評論員與其前任在評分上是否有所不同,給定顯著水準0.05,利用臨界值決策規則,對零假設:兩位評論員的評分中位數相同,做雙側Wilcoxon檢驗。
兩樣本檢驗:兩總體中位數是否相等
該秩次檢驗又稱為相依樣本的Wilcoxon符號秩檢驗,與單樣本的Wilcoxon符號秩檢驗相比,相依樣本的Wilcoxon符號秩檢驗研究觀測值成對抽取時,成對樣本中位數的差。檢驗步驟與單樣本基本一致。
範例:一位牛奶場主想知道某種激素是否會增加奶牛的產奶量,為此,他隨機抽取10頭奶牛做觀測,對於每頭奶牛,記錄其產奶量,經這種激素處理一周後,再記錄其產奶量,測量結果如下:(30,34);(25,35);(22,27);(25,24);(23,25);(34,26);(33,24);(30,24);(24,27);(32,21),每對資料的第一個代表用激素前的產奶量,後一個代表用激素處理一周後的產奶量,給定顯著水準0.05,利用臨界值決策規則,對原假設:激素處理前後奶牛產奶量不變,做單側Wilcoxon檢驗。
兩樣本檢驗:兩獨立樣本是否來自同一總體
該秩次檢驗又稱為Wilcoxon-Mann-Whitney檢驗,研究兩個獨立樣本是否來自同一個總體。零假設是兩抽樣總體的分佈相同;備擇假設是它們不同或者一個比另一個大(一個總體的個體數量大於另一個總體的個體數量)。
檢驗步驟:將來自樣本1的觀測值與來自樣本2的觀測值合併,然後從小到大排序,記下其所在位置作為秩,若有一些觀測值相同,則取算術平均作為秩。如果兩個總體的分佈相同,這兩個樣本的秩應該是隨機混合的,如果兩個總體的分佈不同,則一個樣本的秩將高於另一個樣本的秩。定義樣本1所有秩的和為,R1,樣本2所有秩的和為R2,有下面檢驗統計量:
取U1和U2中較小者作為Mann-Whitney檢驗統計量。
範例:某公司人事經理想知道公司文科畢業生和理科畢業生工作10年後是否有相同薪金。為此,隨機選取10位文科畢業生,調查結果如下:35000,30000,45000,42000,50000,52000,25000,38000,40500,41000;又隨機選取13位理科畢業生,調查結果如下:35500,40000,48000,53000,58000,57000,54000,49000,49500,51000,51500,57500,52500。給定顯著水準0.05,利用臨界值決策規則,對零假設:兩種薪金的分佈相同,做雙側Mann-Whitney檢驗。
本文採用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有。
