要比較三組資料,t檢驗還能用嗎?| 協和八
原創 田菊
小編按:統計分析的陷阱真是讓人防不勝防,學了這麼久 t 檢驗,怎麼還有這麼大一個坑等著我們!快來一起填坑吧!
▷►►►
我們前面系統地梳理了一下 t 檢驗的內容,把 t 檢驗家底摸了個清。
熟練掌握了 t 檢驗的你也許以為已經走遍天下都不怕了,當你有這種想法時,就要小心掉到新的坑裡面。
咱們先請出我們的藍精靈朋友們,看看還有哪些不能掉進去的坑。
藍精靈食堂裡面有三個做包子的師傅,康師傅(不做牛肉麵改做包子了)、王師傅和格格巫,藍精靈們覺得有時候吃到的包子大,有時候吃到的包子小,於是就懷疑這差別是不是由於出自不同的包子師傅之手。
有了上次抓格格巫偷工減料的經驗,藍笨笨自信滿滿地跳出來說,只要用 t 檢驗就可以知道怎麼回事了。
為了幫大家理清思路,藍笨笨分析道:
「我們的原假設應該是三位師傅做出來的包子的平均品質沒有差別,備擇假設是至少有一位師傅包子的品質和其它人不一樣。」
於是藍笨笨提議,隨機抽取從每位師傅製作的包子裡面隨機抽取二十個樣本,方便起見康師傅的包子樣本是 A 組,王師傅的是 B 組,格格巫的是 C 組。
藍笨笨繼續說道,如果原假設是正確的,那麼分別將 A 和 B 組,B 和 C 組,A 和 C 組的包子樣本兩兩進行 t 檢驗,應該都沒有統計顯著性,即 p 值都應該小於 0.05;而如果有其中任何一組有顯著性差異,就可以拒絕原假設。
乍一聽,藍笨笨的建議確實很有道理。
但是它的推理卻掉進一個陷阱,這個陷阱就隱藏在 p 值的含義裡面——我們用 p 值小於 0.05 作為統計顯著性的閾值,是為了控制第一類錯誤,也稱為假陽性錯誤(即在實際沒有顯著性差別的情況下檢測出顯著性差別)的概率在 5% 以內。
也就是說,即使兩組資料並沒有什麼不同,僅僅是因為隨機抽樣導致的誤差,做 100 次實驗,也有 5 次可以檢測出有顯著不同。
試想這樣一種情況,A、B、C 三組其實都是從康師傅的製作的包子裡面抽取的隨機樣本,理論上除了隨機抽樣導致樣本有一些隨機浮動之外,沒有本質差別 。
當我們對 A、B、C 三組進行兩兩比較的時候,理想的結果應該是沒有任何統計顯著性。
如果有的話,就是假陽性。
下面我們來推理一下發生假陽性(即 AB、BC、AC 兩兩比較至少有一次檢驗結果是顯著不同)的概率。
按照慣例我們用 p 值小於 0.05 作為單次 t 檢驗的顯著性閾值,那麼,根據 p 值的定義,每一次檢驗都有 5% 的概率檢測出兩組有顯著性差異,三次比較之後至少有一組有顯著性差異的概率接近於 5% 的三倍,也就是 15%(更準確的數字應該為 1-(1-5%)3=14.3%)。
這種利用對同一組資料進行多次檢驗來判斷是否要拒絕原假設對過程稱為多重比較( multiple comparison )。
從上面的計算可以看出,對 A、B、C 三組進行多重比較來判斷其中是否至少有一組不同的過程中,一型錯誤的概率在累積,導致出現有假陽性的概率從單次檢驗的 5% 上升到了 15%。
很多時候還會有不止 3 組的情形,這是由於兩兩組合可以檢驗的情形更多,出現假陽性的概率也會更高。
►▷►►
再舉個例子幫助大家直觀地理解使用多重檢驗的問題。
藍精靈們在玩拋鋼鏰兒的遊戲,如果將同一個拋鋼鏰兒拋十次,觀察到只有一次正面向上,觀察到這樣的結果,顯然我們不太可能認為鋼鏰兒兩面朝上的概率是一樣的。
對於感興趣的讀者,下麵是 p 值的計算:
按照原價上正面朝上的概率是0.5,p 值是十次只出現一次或沒有正面向上的概率:
因為 p 值小於 0.05,拒絕原假設鋼鏰兒兩面朝上的概率相等。
現在有一百個鋼鏰兒, 要檢驗是否所有的鋼鏰兒都正常——即兩面朝上的概率都相等。
即使所有的鋼鏰兒都是正常的,如果將每個鋼鏰兒都拋十次, 難免會有個別鋼鏰兒出現只有一次正面向上的概率,但這並不能說明這一百個鋼鏰兒裡面確實有不正常的鋼鏰兒。
上面的例子也說明多重檢驗導致假陽性概率升高並不是 t 檢驗特有的問題,實際上,只要涉及到多次對同一組資料使用統計檢驗來否定同一個原假設,不管具體涉及的檢驗方法是什麼,幾乎都會導致假陽性升高。
如果對多重檢驗置之不理,往往會導致發現的「顯著性」其實並不顯著,得到錯誤的結論。
►►▷►
如何修正多重檢驗得到的結果呢?最簡單粗暴的方法是 Bonferroni 修正,即用比平時更嚴格的 p 值來控制實驗的假陽性。
具體的操作為,如果進行 n 次檢驗,就把 p 值的閾值由常規到 0.05 調低到 0.05/n 。
Bonferroni 修正的原理其實非常簡單,就是三次檢驗至少有一次出現假陽性的概率小於每次檢驗出現假陽性的概率之和,這一點看下麵的卞氏圖表就一目了然了。
圖1 每個彩色圓圈的面積代表一次檢驗出現假陽性事件的概率,三個圓圈蓋住的面積代表至少有一次假陽性時間的概率,很明顯是小於右邊的面積的。Bonferroni 修正通過要求右邊每個圈小於 0.05/3 來保證左邊總面積加起來小於 0.05 。
從上面的卞氏圖表也可以看到,當左邊的圈開始重合得越多,即三次檢驗會出現假陽性時,左邊的概率會遠遠小於右邊單次概率之和。因此可以看 Bonferroni 修正是一種比較保守的做法,雖然可以保證整體結論出現假陽性的概率一定小於 0.05(對應上圖右邊三個面積之和),但實際的顯著性閾值可能比 0.05 低不少(對應於左邊面積之和)。
根據前面統計功效的學習,顯著性的閾值越低,統計功效也越低,於是使用 Bonferroni 修正更容易出現資料雖然有顯著性差異但沒有被檢測出來。
►►►▷
因為我們既想避開假陽性的陷阱,也不想錯失發現重要結果的機會,有沒有什麼兩全其美的辦法呢?
實際上,對於檢驗三組或以上的資料是否具有相同的平均值,有專門的統計檢驗武器——方差分析(英文為 ANOVA,代表 Analysis Of Variance)。
回到之前檢驗食堂三個師傅製作的包子是否一致這個問題上,方差分析的原假設是從三個師傅那裡隨機抽出的 A、B、C三組包子的平均值相等。
如果真是這樣,那麼單獨一組樣本包子的平均值與三組包子混合在一起的平均值是也應該是相等的。
換句話說,如果原假設是真的,知道包子是哪位師傅製作的並不能讓我們更準確地估計包子的品質,因為三位師傅做的包子大小都一樣。
另外一方面,如果三位師傅製作的包子差別很大,比如康師傅的包子每個都接近二兩,王師傅和格格巫的包子都在一兩左右,那麼知道包子是哪位師傅做的顯然可以更準確地預測包子的品質。
方差分析正是通過考察包子組別(即是哪位元師傅做的)資訊能否説明更準確地預測包子品質,來判斷不同組別間是否有統計顯著性,其詳細的計算方法請聽下回分解。
為什麼對於三組或以上資料的比較,方差分析會優於 t 檢驗?
因為 t 檢驗需要對兩兩組合進行多重檢驗,進而需要處理假陽性的問題,而方差分析只要通過一次檢驗就能驗證結論。
方差分析在實際應用中使用非常廣泛。比如研究幾條不同生產線生產的同一種零件會不會有顯著差異,同一種藥物對不同年齡組的人群會不會有不同的效果,同一個城市居住在幾個不同城區的人患某種疾病的概率是不是一樣等等問題。
系列全部文章
第 1 章 高屋建築看統計
1.你真的懂p值嗎?
2.做統計,多少資料才算夠?(上)
3.做統計,多少資料才算夠?(下)
4.提升統計功效,讓評審心服口服!
5.你的科研成果都是真的嗎?
6.見識資料分析的「獨孤九劍」
7.貝葉斯vs頻率派:武功到底哪家強?
第 2 章 算術平均數與正態分佈
8.數據到手了,第一件事先幹啥?
9.算術平均數:簡單背後有乾坤
10.正態分佈到底是怎麼來的?
第 3 章 t 檢驗:兩組平均數的比較
11.想玩轉t檢驗?你得從這一篇看起
12.就是要實用!t 檢驗的七十二變
13.不是正態分佈,t 檢驗還能用嗎?
14.只有15個標本,也能指望 t 檢驗嗎?
15.樣本分佈不正態?數據變換來救場!
16.數據變換的萬能鑰匙:Box-Cox變換
17. t 檢驗用不了?別慌,還有神奇的非參數檢驗
18.只講 p 值,不講效應大小,都是耍流氓!
19.找出 t 檢驗的效應大小,對耍流氓 say no!
20.用置信區間,就是這麼(不)自信!
21.如何確定 t 檢驗的置信區間
22.優雅秀出你的 t 檢驗,提升Paper!
23.要做 t 檢驗,這兩口毒奶可喝不得!
第 4 章 方差分析(ANOVA):多組平均數的比較
24.要比較三組資料,t 檢驗還能用嗎?
作者:田菊
編輯:黑草烏葉
留言列表