<< 連載27 >> 4-4 ANOVA 做出了顯著性？事兒還沒完呢！ | 說人話的統計學·協和八－HCHUNGW的部落格

ANOVA 做出了顯著性？事兒還沒完呢！| 協和八

原創田菊

寫在前面 看了前幾篇 ANOVA 的文章，面對新出爐的實驗資料，不管要比較三組，四組還是 n 組資料，大家想必都已經胸有成竹，一個 ANOVA，通通搞定！

且慢，可別急著去玩耍，事兒還沒完呢！

有一天你在研究飲食習慣對小鼠記憶裡的影響，你找來了幾籠小鼠並把它們隨機分成了四組，分別喂巧克力，葡萄乾，花生米和老乾媽，持續一個星期之後進行記憶測試。

分析資料時你毫不猶豫地選擇了 ANOVA 比較不同組的小鼠的記憶力，並發現 p 值小於 0.05，你小心臟噗噗地跳著，激動地告訴老闆說「食物真的會影響小鼠的記憶啊！」

老闆看了看你的結果，露出了滿意的笑容，又問道，你知不知道這四組裡面哪兩組不一樣啊？

你撓了撓頭，不知道該怎麼回答，只好說，看平均值，老乾媽組好像最高，葡萄乾組最低，這兩組應該不一樣吧。

老闆拍拍你的肩膀說，回去看一下今天的說人話的統計學，然後再跟我彙報！

下面讓我們進入主題：在 ANOVA 呈現顯著性之後，我們很自然就想知道究竟哪些組的均值不一樣。

要回答這個問題，我們需要用到「事後檢驗」( post-hoc test )。

事後檢驗的方法有很多，其中 Tukey-Kramer（又叫做 Tukey HSD）檢驗是最常用的辦法。

它不僅給出 p 值，還能同時給出置信區間，方便判斷效應大小，一舉兩得。

具體來講，Tukey-Kramer 檢驗會對所有組進行兩兩比較。

比如說，上面的例子裡面根據餵食的食物小鼠有巧克力，葡萄乾，花生米和老乾媽四組，那麼 Tukey-Kramer 檢驗共包括 6 次檢驗：巧克力對葡萄乾，巧克力對花生米，巧克力對老乾媽，葡萄乾對花生米，葡萄乾對老乾媽，花生米對老乾媽（不會看餓了吧~~）。

如果有五組資料比較，一共要進行幾次檢驗？

中學學過的排列組合派上用場了，答案是 5*4/2=10 次。

有了這個概念，我們至少能預期 Tukey-Kramer 結果包含多少項，防止資料登錄有遺漏。

我們前面講過，ANOVA 的原假設是所有組的平均值相等。

在這個原假設下面，所有組的平均值應該圍繞著一個共同的值上下波動。

在對任意兩組資料進行比較時，如果這兩組資料的平均值差別很大，那麼則不太有可能這兩組資料來自同一平均值。

問題是平均值的差別要多大我們才可以認為兩組資料具有顯著差異呢？

我們可以考慮最極端的情況，也就是比較平均值最大和最小的兩組資料，如果我們找到一個閾值，使得僅僅以資料抽樣的隨機性而導致平均值最大和最小的兩組資料的差距超過這個閾值的概率很小，那麼其它組的平均值差距高於這個閾值的概率只會更小。

當兩組資料的平均值差距大於這個閾值時，我們就可以比較放心的認為這兩組資料有顯著不同。

按照這個思路，我們可以試著把平均值最大和最小的兩組資料的平均值差距 R 當成一個統計檢驗量，假如我們能推導出 R 的分佈，就能按照和 t 檢驗類似的思路找出一個閾值使得只要兩組資料的平均值差別大於這個閾值的概率小於 0.05，當兩組資料的平均值差距大於這個概率時，就判定有顯著性差異。

統計學裡面正好有一個分佈就是描述來自同一正態分佈的多組資料的平均值最大和最小的兩組的差距，叫做學生範圍分佈（ Studentized range distribution ）。Tukey-Kramer 檢驗是正是根據學生範圍分佈提出來的。

學生範圍分佈的具體運算式比較複雜，這裡先不深入介紹，但是我們可以定性地猜測出它由哪些因素決定。先自己動動腦筋想想看，看自己猜對了幾個？想不出也可以回憶一下之前學 t 檢驗的過程找下靈感。

❖最容易想到的因素是資料樣本 N 的大小。如果每個組包含的樣本量大了，組的平均值波動就小了，那麼組間平均值的差別就會變小，這樣組間平均值大於某一特定閾值的概率就會比較小，從而導致獲得統計顯著性的組間平均值差距的閾值就會比較小。

❖另外一個容易想到的影響學生範圍分佈的重要因素就是資料本身的波動性了（方差）。在原假設即所有組平均值想等的前提下，方差可以用 ANOVA 檢驗要用到的組內平方和除以樣本量（也叫做 MSE，均方誤差）來估計。如果均方誤差大了，那麼每個組的平均值波動範圍也會大，兩組平均值差距得超過比較高的閾值才能認為具有統計顯著性。

❖最後一個因素是組的數量 k ，這是咱們以前學 t 檢驗的時候不用考慮的，畢竟都是一組或兩組資料的比較。當每組的資料都來自于同一正態分佈時，組的數量越多，越有可能出現比較極端的值，那麼最大值與最小值的差別會越大，就像我們常說的林子大了什麼鳥都有，這時想要有統計顯著性的閾值會變高。

總結一下上面的內容，Tukey-Kramer檢驗依據的是最大組與最小組平均值差距的分佈，這個分佈由組數，資料樣本的大小，樣本平均方差決定。根據這個分佈，給定事前選定的顯著性水準α（一般為 0.05 ），我們可以計算出一個閾值，只要被比較的兩組資料的平均值差距大於這個閾值，就認為這兩組資料的差異不太可能是由於資料的隨機波動導致的，從而認為由顯著差異。

這一閾值的具體公式是：

WeChat 圖片_20200521145714.jpg

上面公式 WeChat 圖片_20200521150155.jpg 裡的第一項是由學生範圍分佈推導出來，只和事前選定的顯著性水準α（例如0.05）、組數 k 還有總樣本大小 N 有關，後面一項 MSE 是描述資料本身波動性大小，ni 和 nj 是被比較的兩組資料的樣本量。

這裡涉及的閾值是根據最大值組與最小值組的差距的分佈推導出的，如果我們是比較第二和第三大的組的平均值該怎麼辦？Tukey-Kramer 檢驗還是使用相同的閾值計算方法。我們知道中間的組的平均值差距肯定小於最大與最小組平均值的差距，從這裡可以看出Tukey-Kramer檢驗對於判定兩組資料是否顯著不同是比較保守的，這樣就大大減少了出現假陽性的概率，避免了多重檢驗裡面假陽性的問題（可回顧《24.要比較三組資料，t 檢驗還能用嗎？》）。正如我們以前說過的，這樣做的缺點是損失了一些統計功效。

❓既然 Tukey-Kramer 檢驗已經考慮到了多重檢驗的問題，我們沒有理由非得在 ANOVA 呈顯著性之後才能用 Tukey-Kramer 檢驗啊？能不能不做 ANOVA 直接使用 Tukey-Kramer 檢驗呢？其實是可以的。

❓那就直接用 Tukey-Kramer 檢驗，這樣可以直接知道哪兩組資料不一樣，還要學 ANOVA 幹嘛？

其實有了大炮還是要槍的，因為應用的場景不完全一樣。比如我們研究學歷對收入有沒有影響的時候，我們首要關心高中，本科，碩士，博士有沒有區別，然後才關心具體到底是本科與高中畢業有顯著差異還是研究生與本科畢業有顯著差異，在這種情況先做 ANOVA 回答主要問題，再用 Tukey-Kramer 檢驗回答一下次要問題就順理成章。

❓那會不會出現先用 ANOVA 發現有顯著性，但是用 Tukey-Kramer 檢驗卻發現所有組之間都沒有統計顯著性？

答案是會的，因為 ANOVA 的統計功效比 Tukey-Kramer 要強。前面分析 Tukey-Kramer 檢驗的時候提到它為了控制假陽性其實是損失了一些統計功效的。這也是往往大家分析資料會先做一個 ANOVA 的原因。

❓設想下面一種情況，你的實驗設計包括了餵食巧克力，葡萄乾，花生米和老乾媽四組小鼠，做了 Tukey-Kramer 檢驗發現老乾媽和葡萄乾組有顯著差異。由於檢驗只輸出來三個組對比的結果而不是六個，你意識到輸入資料的時候忘了輸入花生米組的資料，等你把花生米的資料登錄之後，突然發現老乾媽和葡萄乾組不再有顯著差異了。這現象從統計學的角度有可能發生嗎？

其實是有可能的，因為組的數量變多了，最大組和最小組差距的分佈會變，導致獲得顯著性所需要的兩組資料平均值差距的閾值提高，因為閾值公式 WeChat 圖片_20200521145858.jpg 裡的一項變大了，從而同樣兩組資料比較可能就不再有顯著性了。

這就是說，考慮到統計上面多重比較發現假陽性的風險，我們做實驗的時候也不是嘗試的條件越多越好，當我們包括了很多沒有意義的條件的時候，我們不僅付出時間和實驗材料的成本，更容易使得真正的發現淹沒在雜訊之中，難以呈現統計顯著性，吃力不討好。

事後檢驗不僅僅只有 Tukey-Kramer 檢驗這一個選擇。

在生物醫學研究中，實驗常常會包括一個對照組，比如試驗藥物有沒有療效的時候常常用安慰劑作為對照組。我們往往首先關心的是哪些測試藥物與對照組比有顯著不同，不同藥物之間的不同可能是下一步才要研究的問題。

在這種情況下，用 Dunnett 檢驗往往比 Tukey-Kramer 檢驗更有統計功效。當我們有四組資料時，Dunnett 檢驗只要做三次比較（三組資料分別與對照組比較），而 Tukey-Kramer 檢驗要比較六次，所以 Dunnett 檢驗為修正假陽性「犧牲」的統計功效更少。

本系列文章

第 1 章高屋建築看統計

1.你真的懂p值嗎？

2.做統計，多少資料才算夠？（上）

3.做統計，多少資料才算夠？（下）

4.提升統計功效，讓評審心服口服！

5.你的科研成果都是真的嗎？

6.見識資料分析的「獨孤九劍」

7.貝葉斯vs頻率派：武功到底哪家強？

第 2 章算術平均數與正態分佈

8.數據到手了，第一件事先幹啥？

9.算術平均數：簡單背後有乾坤

10.正態分佈到底是怎麼來的？

第 3 章 t 檢驗：兩組平均數的比較

11.想玩轉t檢驗？你得從這一篇看起

12.就是要實用！t 檢驗的七十二變

13.不是正態分佈，t 檢驗還能用嗎？

14.只有15個標本，也能指望 t 檢驗嗎？

15.樣本分佈不正態？數據變換來救場！

16.數據變換的萬能鑰匙：Box-Cox變換

17. t 檢驗用不了？別慌，還有神奇的非參數檢驗

18.只講 p 值，不講效應大小，都是耍流氓！

19.找出 t 檢驗的效應大小，對耍流氓 say no！

20.用置信區間，就是這麼（不）自信！

21.如何確定 t 檢驗的置信區間

22.優雅秀出你的 t 檢驗，提升Paper！

23.要做 t 檢驗，這兩口毒奶可喝不得！

第 4 章方差分析（ANOVA）：多組平均數的比較

24.要比較三組資料，t 檢驗還能用嗎？

25.ANOVA在手，多組比較不犯愁

26.ANOVA的基本招式你掌握了嗎？

27.ANOVA做出了顯著性？事兒還沒完呢！

作者：田菊

編輯：黑草烏葉

統計學大數據分析心得人工智慧心得經濟學系

HCHUNGW

HCHUNGW的部落格

HCHUNGW 發表在痞客邦留言(0) 人氣()

HCHUNGW的部落格

破軍突破革新希望多元開放平等進步

<< 連載27 >> 4-4 ANOVA 做出了顯著性？事兒還沒完呢！ | 說人話的統計學·協和八

歷史上的今天

留言列表

站方公告

活動快報

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

HCHUNGW的部落格

破軍 突破 革新 希望 多元 開放 平等 進步

<< 連載27 >> 4-4 ANOVA 做出了顯著性？事兒還沒完呢！ | 說人話的統計學·協和八

歷史上的今天

留言列表

站方公告

活動快報

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

破軍突破革新希望多元開放平等進步