沒聽說過多因素ANOVA?那你可就OUT了!| 協和八
原創 田菊
說人話的統計學
我們上一集講了29.重複測量ANOVA:你要知道的事兒都在這裡啦
它利用了同一個個體貢獻了多個數據點,從總平方和扣除由於個體差異引起的誤差,得到更真實的結果。
進一步思考個體差異,它其實有很大一部分是來自於我們在實驗中沒有控制的因素。
正如上一集的例子裡面,我們只考慮到了睡眠時間對算數測試成績的影響,但沒有考慮到平時成績的影響。也許平時成績優異的測試成績受睡眠時間影響不大,而平時常常掛科的受睡眠影響比較大,想要驗證這一假說,就得用到多因素 ANOVA(multi-factor ANOVA)了。
多因素 ANOVA 顧名思義就是會同時檢驗多個因素對測量值的影響,多因素 ANOVA 應用非常廣泛,比如研究新型藥物對疾病的治癒能力往往還要考慮到患者的年齡性別等因素,研究學歷對薪水的影響也要考慮到家庭背景等其它社會因素才能讓結果更有說服力。
多因素 ANOVA 不僅考慮每個因素單獨對要檢驗的量的影響,還會考慮到因素之間的交互效應。
比如經過多因素 ANOVA 分析,可以得知某種新型藥物雖然對治療心臟病是有效的,但是對於女性患者的效果要遠遠小於男性患者,這種一個因素的對要檢驗的量的影響依賴於另一個因素的情況叫做交互作用。
與之前講過的單因素 ANOVA 類似, 多因素 ANOVA 也將總平方和分解成組內平方和和組間平方和。
由於有多個因素,組間平方和又可以分解為每個因素單獨的對平方和的貢獻和它們相互作用貢獻的平方和 。
請出藍精靈們來看看雙因素 ANOVA 是如何計算的
藍精靈們想調查不同食堂師傅會不會影響包子的品質, 但是他們也意識到,除了製作包子的師傅,包子餡兒也會影響包子品質。
為了研究食堂師傅(格格巫,康師傅和王師傅)和包子餡兒(有菜和肉兩種情況)對包子大小的共同影響,藍精靈們隨機對每一個師傅製作的每一種包子都進行了樣本量為 4 的抽樣,一共有六組資料,24 個資料點,如下表所示。
格格巫 (B1) |
康師傅 (B2) |
王師傅 (B3) |
|
肉餡 (A1) |
23.7,24.8,26.0,27.7 |
46.8,47.5,45.6,49.3 |
45.2,44.3,44.8,43.6 |
菜餡 (A2) |
47.3,50.4,49.7,51.8 |
70.9,68.7,64.5,64.8 |
62.1,61.5,60.0,61.2 |
表格 1:包子重量的原始資料
在我們開始計算用雙因素 ANOVA 來計算各種平方和之前,我們先從另外一個角度理解一下 ANOVA 的原理——
樣本裡面每個包子的重量之所以不同,一方面是由於餡兒和製作師傅不同,另外一方面是同一個師傅製作同一個餡兒的包子的重量也會有隨機波動。
如果一個因素對預測包子重量很有幫助,就說明這個因素對包子重量影響很大。
如果先把隨機誤差放在一邊,每組包子重量的平均值就可以由餡兒,包子師傅,以及兩者交互效應共同決定。
雙因素 ANOVA 假設了特定組包子的平均重量是所有包子的平均重量加上這三個因素的共同作用。
我們用 A1、、A2 代表不同包子餡兒,B1、B2、B3 代表三位師傅,雙因素 ANOVA 的數學模型為:
這裡 μij 是特定組包子的平均值,這是我們數學模型最終需要預測的量。
μ 是所有樣品包子品質的平均值,它是在不知道包子餡兒和包子師傅的情況下,對包子品質最簡單粗暴的估計。
但是如果我們知道了包子餡,就可以用同一個餡兒的包子重量的平均值(原始資料的每一行的平均值)作為接近 μij 真實值的估計,如下表中的黃色區域。
格格巫 (B1) |
康師傅 (B2) |
王師傅 (B3) |
||
肉餡 (A1) |
25.5 |
47.3 |
44.4 |
39.1 (μ+A1) |
菜餡 (A2) |
49.8 |
67.2 |
61.2 |
59.4 (μ+A2) |
37.7 (μ+B1) |
57.3 (μ+B2) |
52.8 (μ+B3) |
49.2 (μ) |
表格 2:由原始資料計算出的組內平均值(藍色區域),只考慮包子餡的平均值(黃色區域),只考慮製作包子師傅的平均值(紅色區域),所有樣本的總平均值 μ 。
同一個餡兒的包子重量的平均值與總平均值的差距就是數學模型中的 Ai ,可以理解為在只知道包子餡兒的情況下對包子品質估計的調整,或者理解為在不考慮包子是誰做的情況下,包子餡兒這一因素對包子品質的貢獻。
這裡肉包子A1 = -10.1,菜包子 A2 = 10.1,說明肉包子比菜包子平均要小 20.2 g 。既然是對粗暴的平均值估計的一個調整,就會有的組高於所有樣本的平均,有的組低於平均, 而調整量之和應該等於零,即 A1 + A2 = 0。
同樣的,Bj 是在只知道包子製作師傅的情況下對包子品質估計的調整,是每一個師傅做的包子重量的平均值與總平均值的差距。
格格巫常常偷工減料 B1 = -11.5,康師傅最大方 B2 = 8.1,王師傅最中庸 B3 = 3.6,同樣我們看到 B1 + B2 + B3 = 0(這裡不完全為 0 因為四捨五入)。
上面 μ + Ai 是在不知道師傅是誰而只知道包子是肉的還是菜的情況下對包子品質的估計,而 μ + Bi 是在不知道包子餡兒的情況下的估計,那要是知道包子是格格巫做的而且是肉餡的,是不是品質就是 μ + A1 + B1 = μ - 10.1 - 11.5 = 27.6 g? 但是實際上測量到的平均值是 25.5 g,說明格格巫對肉包子格外地偷工減料了。這樣一來,雖然格格巫的包子比總體平均少了 11.5 g,算到肉包子頭上是減少了 13.6 g。
為了考慮到這種情形,公式的最後多出了一項 ABij ,它在同時確定了包子餡兒和師傅之後進一步對包子的品質做了的進一步的調整,計算公式是 ABij = μij - ( μ + Ai + Bj ),表示的是水準 Ai 與水準 Bj 的交互效應。注意這裡的 ABij 並不代表 Ai 乘以 Bj,只是為了表示兩者之間的交互效應。
從交互效應的運算式可以看出,只要兩個因素的共同效應不能直接等於單獨作用的簡單相加就存在交互效應。也可以理解為當一個因素的效應與另外一個因素相關時,就存在交互效應。
用資料視覺化可以更直觀地理解兩個因素的交互作用(圖 1),可以看到菜餡兒的包子總是比肉餡兒的重,但是菜包子比肉包子重多少跟包子出自哪位師傅之手有關,格格巫組差距似乎比其它組更大,說明有可能有交互作用。
圖 1
我們之前提到,多因素 ANOVA 也通過把總平方和分解成組內平方和和組間平方和。在雙因素 ANOVA 的例子裡,要分別考慮三種組間平方和:包子餡,包子師傅,還有它們的交互作用。
包子餡的組間平方和是 Ai 的平方和:
這裡 4 × 3 是因為每組有四個資料點且一個包子餡對應三組資料。
類似的,包子師傅的組間平方和是 Bj 的平方和:
兩者相互作用的平方和:
即使是同一個實驗條件下的包子重量也會有一些波動,這是與實驗條件無關的誤差項,等於每一組內包子減去平均品質,其平方和就是組內平方和。
格格巫肉餡組的組內平方和:
以此類推可以計算出所有六組的組內平方和為 59.4 。
我們辛辛苦苦計算出這麼多平方和可不是吃飽了撐著的,有了這些平方和,我們就可以用 F 檢驗來檢驗下面這三個假設:
✔ 原假設:包子餡對包子品質沒有影響,即 A1 = A2 = 0;備擇假設:A1,A2 不全為 0
✔ 原假設:做包子的師傅對包子品質沒有影響,即 B1 = B2 = B3 = 0;備擇假設:B1,B2,B3 不全為 0
✔ 原假設:包子餡和做包子的師傅對包子品質沒有交互效應,即 AB11 = AB12 =⋯= AB23 = 0;備擇假設:AB11 ,AB12 ,⋯, AB23 不全為 0
檢驗這三個假設,需要分別用前面提到的三種組間平方和與組內平方和的比值,在檢驗不同假設的時候分母總是相同的,只有分子會變化。
為了檢驗包子餡對包子品質沒有影響, 這裡 nA 是因素 A 的取值個數,在這裡因為有兩種餡兒,所以 nA = 2,nA-1 是因素 A 的自由度。 nB 是因素 B 的取值個數,因而等於 3 。n=4 是指一組裡面有幾個數據點,nA * nB * (n-1) = 2 * 3 * ( 4 - 1 ) = 18 是組內平方和的自由度。經計算 F ( 1,18 ) = 749.7,對應的 p 值遠小於 0.05,說明包子餡對包子重量有顯著影響。
我們可以用類似的方法算出包子師傅對包子品質也有顯著影響,最後就是檢驗兩者的相互作用了,相互作用的組間平方和我們已經計算過了,唯一不知道的就是自由度。
包子餡兒和包子師傅的自由度分別是(nA - 1)和(nB - 1),兩者相互作用的自由度是(nA - 1)*(nB - 1)= 1 * 2 = 2 就不奇怪了。
可以算出 F ( 2,18 ) = 8.7,對應的 p 值小於 0.05,說明包子餡和包子師傅的有顯著的相互作用,與我們圖 1 顯示的結果相吻合。
愛動腦子的讀者也可以想想在不同的假設成立是圖 1 應該是什麼樣子的。
最後與單因素 ANOVA 一樣,多因素 ANOVA 需要每個條件下的資料都服從正態分佈,且不同組的資料方差相等,也就是說在我們在計算組內平方和時用到的誤差項要服從正態分佈。
另外和之前講過的所有檢驗方法一樣,每一個資料樣本也要相互獨立。
在這一集的例子裡面,藍精靈們對每個實驗分組都採集了相同數量的樣本,這又叫做等重複實驗的方差分析( balanced design ANOVA)。
如果有的包子樣本在測重量前就被偷吃了,導致每組的樣本並不相等,那麼就不滿足等重複實驗的條件,需要用到更加通用的線性回歸的思路來進行假設檢驗。
本系列文章
第 1 章 高屋建築看統計
1.你真的懂p值嗎?
2.做統計,多少資料才算夠?(上)
3.做統計,多少資料才算夠?(下)
4.提升統計功效,讓評審心服口服!
5.你的科研成果都是真的嗎?
6.見識資料分析的「獨孤九劍」
7.貝葉斯vs頻率派:武功到底哪家強?
第 2 章 算術平均數與正態分佈
8.數據到手了,第一件事先幹啥?
9.算術平均數:簡單背後有乾坤
10.正態分佈到底是怎麼來的?
第 3 章 t 檢驗:兩組平均數的比較
11.想玩轉t檢驗?你得從這一篇看起
12.就是要實用!t 檢驗的七十二變
13.不是正態分佈,t 檢驗還能用嗎?
14.只有15個標本,也能指望 t 檢驗嗎?
15.樣本分佈不正態?數據變換來救場!
16.數據變換的萬能鑰匙:Box-Cox變換
17. t 檢驗用不了?別慌,還有神奇的非參數檢驗
18.只講 p 值,不講效應大小,都是耍流氓!
19.找出 t 檢驗的效應大小,對耍流氓 say no!
21.如何確定 t 檢驗的置信區間
22.優雅秀出你的 t 檢驗,提升Paper!
23.要做 t 檢驗,這兩口毒奶可喝不得!
第 4 章 方差分析(ANOVA):多組平均數的比較
24.要比較三組資料,t 檢驗還能用嗎?
25.ANOVA在手,多組比較不犯愁
26.ANOVA的基本招式你掌握了嗎?
27.ANOVA做出了顯著性?事兒還沒完呢!
28.聽說,成對t檢驗還有ANOVA進階版?
29.重複測量ANOVA:你要知道的事兒都在這裡啦
30.沒聽說過多因素 ANOVA ?那你就可就 OUT 了!
作者:田菊
編輯:黑草烏葉🍁
留言列表