ANOVA的基本招式你掌握了嗎?| 協和八

原創 田菊

寫在前面 我們從上一集開始了學習對比大於兩組資料的統計方法—— ANOVA 

讀了上一篇文章的童鞋想必已經領會了 ANOVA 的核心思想,對它有了感性的認識。

今天我們來講一下 ANOVA 實用招式,比如 p 值如何計算,有什麼前提條件,結果如何解釋等問題。

這裡面很多東西和 t 檢驗是相通的,所以有了之前 t 檢驗的基礎,學習 ANOVA 會事半功倍。

由於距離上次更新已經三個星期了,可能很多讀者已經不記得 ANOVA 裡面總平方和組間平方和組內平方和是什麼了,這裡先簡單回顧下。

 

總平方和大致描繪的就是每個個體的實際資料圍繞它們共同性質所決定的理論平均值的波動程度。

總平方和可以分解成兩個部分:組間平方和組內平方和

組間平方和對應的是各組的平均值之間的差別,而組內平方和則是各資料點與自己所在組的平均值之間的差別。

組內平方和越小,組間平方和越大,組間差異越顯著。

 

先把 ANOVA 的內功心法記牢了,下麵學習招式就會水到渠成。

►▷▷▷

既然 ANOVA 是一種統計檢驗的方法,在咱們開始講如何計算 p 值之前,首先要理清楚,它的原假設備擇假設是什麼。只有先把檢驗的假設弄清楚了,才能準確地解釋檢驗的結果。

為了方便描述,還是要用請出食堂的三位包子師傅:康師傅、王師傅和格格巫三位。藍精靈們關心的是三位師傅做的包子大小是不是有顯著差異。前邊提到,如果分別用 t 檢驗對比康師傅和王師傅,王師傅和格格巫,以及康師傅和格格巫做的包子,會容易出現假陽性,即實際沒有差異但卻檢驗出差異的情況。所以這裡需要用 ANOVA

ANOVA 的原假設(即我們通過檢驗嘗試拒絕的假設)是:這三位師傅做的包子平均值相等。

要比較三位師傅做的包子,每位師傅做的包子就是一個總體,因而這裡說到的平均值並不是針對每位師傅做的包子的樣本平均值,而是每位元師傅做的包子的總體的平均值,不要搞混了哦。

下面是一個選擇題,大家認為備擇假設是什麼呢?

1) 三位師傅做的包子的平均值不全相等 

2) 三位師傅做的包子的平均值全不相等

這可不是繞口令,不全相等和全不相等的含義可是完全不同的。

正確答案應該是1),也就是說當 ANOVA 結果顯示有統計顯著性(比如 p <0.05)時,我們可以推斷三位師傅做的包子的平均值不全相等。但我們不知道是不是三組都不相等,還是有一位師傅做的包子與其他兩位不一致。

►▷►►

理解了 ANOVA 的目的,下面我們可以進一步判斷統計顯著性,計算 p 值了。和 t 檢驗一樣,要計算 p 值,我們得先引入統計檢驗量 F

假設藍精靈們稱了 n 個包子的重量,這些包子來自 s 位師傅,統計檢驗量:

 

WeChat 圖片_20200521143949.jpg

 


看到這裡你肯定會疑惑,為什麼 F 的運算式是這樣,別著急,看完下面的解釋就明白了。

根據我們上一集修煉的心法,大家應該能透過現象看本質,發現統計檢驗量 F 不就是個組間平方和與組內平方和的比值再乘以一個係數,係數由樣本量,組數決定。

組間平方和越大,組內平方和越小,則 F 值越大,說明統計檢驗量 F 越大,組間差異越顯著。

愛鑽牛角尖的你可能會好奇,為什麼分子是組間平方和除以組數減一。

試想下兩種情況,我們從同一個總體分佈裡面抽取 20 個包子,一種情況是將其隨機分成 2 組,每組 10 個,另外一個情況是隨機分成 10 組,每組 2 個。

如果我們分別對上面這兩種情況運用 ANOVA 檢驗,我們應該得到的 p 值應該差不太多,且 p 值都比較大,畢竟我們的設定是所有組的資料來自同一分佈,並沒有顯著差異。如果我們計算組間平方和,會發現第二種情況比第一種情況的平方和大, 因為後一種情況下,組內的樣本數少,每一組的平均值更容易受樣本的隨機性波動。如果重複這兩組實驗很多次,後一種情況算出來的組間平方和平均而言是前一種情況的 10-1 = 9 倍,咱這裡可以先忽略數學上的推導。

為了能夠抵消僅僅因為組數多就導致組間平方和大的傾向,於是要將分子除以(組數 s-1 )。基於類似的道理,分母組內平方和需要除以 n-s 。 在統計學中又將 s-1 稱為組間自由度n-s 稱為組內自由度。當然這只是比較定性的說法,其背後涉及到一些特定的分佈,限於篇幅,就先不深入講了。

►►▷►

從統計檢驗量 F 如何得到 p 值呢?如果原假設成立,即所有組的資料來自的總體的平均值相等,在這個假設底下,統計檢驗量 F 會服從 F 分佈

我們之前沒有接觸過 F 分佈,它和 t 分佈還有正態分佈長得都不太一樣,F 分佈只在 x>0 有值,且有一個長長的尾巴,如下圖。

WeChat 圖片_20200521144054.jpg

 

圖片來源:http://atomic.phys.uni-sofia.bg/local/nist-e-handbook/e-handbook/eda/section3/eda3673.htm

因為 F 越大越傾向于拒絕原假設,ANOVA p 值就是 F 分佈比觀測到的 F 值更大的值的概率,不難看出,由樣本資料計算出的 F 值越大,p 值越小。

F 分佈的形狀只與組間自由度 s-1 和組內自由度 n-s 有關,所以我們在寫論文描述 ANOVA 結果的時候不僅報導 p ,也要報導自由度,比如這個例子:F(3, 50) = 4.30, p < .01。根據對結果的描述,我們知道一共比較了四組資料,因為組間自由度是 3 ,一共有 54 個資料點,組內自由度是 54-4=50

►►►▷

我們之前講 t 檢驗的時候,說道 t 檢驗並不是萬能的,只有滿足特定的條件才能使用。ANOVA 也有與 t 檢驗非常相似的前提條件

1)觀察值獨立,在包子的例子裡面每一個包子的必須獨立隨機抽樣; 

2)每一組內數據服從正態分佈

3組內方差相等,比如三位師傅做的包子雖然平均值未知但是方差得相等。 

要是前提條件不滿足怎麼辦?之前我們 t 檢驗時學到的技巧都可以用上了,比如資料不服從正態分佈,我們可以資料變換來救場(15.樣本分佈不正態?數據變換來救場!),如果齊方差不滿足怎麼辦?

t 檢驗類似可以用 Welch 修正。

為什麼雖然我們在學 ANOVA ,卻不斷地提到 t 檢驗呢?

因為這兩種方法其實是相通的,在特定情況下甚至是等價的。

比如要比較兩個獨立樣本的均值是否有顯著不同,在雙邊檢驗的情況下 t 檢驗算出來的 p 值與 ANOVA 算出來的 p 值相等,ANOVA 的統計檢驗量 F 正好是 t 檢驗得到的 t 值的平方。

沒想到兜兜轉轉又回到了咱們熟悉的 t 檢驗。

ANOVA 之所以在實際應用中非常有效,不僅僅因為之前提到的可以有效避免比較多組資料假陽性過高的情況,還因為它的統計功效也比較高。

也就是說,如真的有一組或多組資料與其它組不同,ANOVA 結果會有很大概率是顯著的。

統計功效與假陽性是一個硬幣的兩面,往往一個特定的檢驗功效高了,假陽性也會比較高,而 ANOVA 卻比較好的平衡了兩者。

正如我們之前說過的,統計學中沒有免費的午餐。

ANOVA 的缺點是檢驗的結果並不明確,當你的 ANOVA 結果具有統計顯著性時,你並不能知道具體哪一組資料與其它組不同。

為了找出具體哪一組資料不同,往往還要做事後( post-hoc )檢驗

預知後事如何,請聽下回分解。

系列文章

1 章  高屋建築看統計

1.你真的懂p值嗎?

2.做統計,多少資料才算夠?(上)

3.做統計,多少資料才算夠?(下)

4.提升統計功效,讓評審心服口服!

5.你的科研成果都是真的嗎?

6.見識資料分析的「獨孤九劍」

7.貝葉斯vs頻率派:武功到底哪家強?

 

2 章  算術平均數與正態分佈

8.數據到手了,第一件事先幹啥?

9.算術平均數:簡單背後有乾坤

10.正態分佈到底是怎麼來的?

 

3   t 檢驗:兩組平均數的比較

11.想玩轉t檢驗?你得從這一篇看起

12.就是要實用!t 檢驗的七十二變

13.不是正態分佈,t 檢驗還能用嗎?

14.只有15個標本,也能指望 t 檢驗嗎?

15.樣本分佈不正態?數據變換來救場!

16.數據變換的萬能鑰匙:Box-Cox變換

17. t 檢驗用不了?別慌,還有神奇的非參數檢驗

18.只講 p 值,不講效應大小,都是耍流氓!

19.找出 t 檢驗的效應大小,對耍流氓 say no

20.置信區間,就是這麼(不)自信!

21.如何確定 t 檢驗的置信區間

22.優雅秀出你的 t 檢驗,提升Paper

23.要做 t 檢驗,這兩口毒奶可喝不得!

 

4 章  方差分析(ANOVA):多組平均數的比較

24.要比較三組資料,t 檢驗還能用嗎?

25.ANOVA在手,多組比較不犯愁

26.ANOVA的基本招式你掌握了嗎?

 

作者:田菊

編輯:黑草烏葉

 

 

arrow
arrow
    創作者介紹
    創作者 HCHUNGW 的頭像
    HCHUNGW

    HCHUNGW的部落格

    HCHUNGW 發表在 痞客邦 留言(0) 人氣()