要做ANOVA,樣本量多大才夠用? | 協和八
原創 田菊
說人話的統計學
前面連續幾集講了各種各樣的ANOVA(方差分析)檢驗方法,而這些內容都是在拿到資料之後該如何分析資料,今天就來說道說道在實驗設計階段,如何決定到底需要採集多少資料。
也許有些讀者還記得,在本欄目的開端我們曾經講過, 我們首先要預測可能發生的實驗結果,然後依此估算出實驗所需要的樣本量。這樣一個過程,稱為功效分析(歡迎重溫《2.做統計,多少資料才算夠?(上)》及該文中的黃暴小故事)。
所謂統計功效,指的是在原假設(認為效應不存在)不成立的時候,正確地拒絕原假設的概率。換句話說,在實驗條件對測量值確實有影響的情況下,能成功檢驗出這一影響,即資料分析的結果呈統計顯著性的概率。
我們也可以把統計功效看成是整個實驗設計在檢驗實驗假說這件事情上的靈敏度,而功效分析就是為了找出獲得期望中的靈敏度所需要的最小樣本量。
01
我們為什麼要在做實驗之前就把樣本量定下來呢?走一步看一步不行嗎?
首先,功效分析可以告訴我們需要檢驗當前假說需要的最小樣本量,這樣我們就不會做沒有必要的資料獲取工作,節約實驗的資源和時間,最重要的是可以早點發文早點畢業/升職/做人贏啦。
比如,導師某天興致來了,扔給你一個看上去很牛的想法,還信誓旦旦地說該想法一旦實現就會搞個大新聞。
這時你做了功效分析,發現要採集一千個資料樣本才能驗證這一假說。
然後掐指一算,即使每天做實驗,光搜集資料就需要十年的時間——這說明在現有人力物力的條件下,這樣一個實驗的可行性太低。
及時地避免這種情況,也可以避免資源的浪費。
而且,如果採集的樣本量不足,導致功效過低,這時候,即使本來可以有顯著性的結果,也變得沒有顯著性了。
比如說,上面這個例子裡,導師的想法也許是對的,但是由於條件的限制,你的樣本沒收集夠,結果得到了陰性的結果。
這樣子不僅前面做的實驗算是白費功夫,還得出了錯誤的結論。
在這種情況下,雖然花了時間和精力做實驗,對人類知識的貢獻還是負的。
如果我們不做功效分析,往往就會憑著自己的主觀判斷來決定什麼時候停止採集樣本,這樣會導致結論有偏見。
最常見的情況是在做實驗的時候採集了幾個數據點就開始做統計分析,發現沒有顯著性,心裡覺得不能就這樣前功盡棄,於是就再加幾個數據點,再做統計分析,直到出現顯著性差異才停止實驗。
這樣做其實犯了多重檢驗的錯誤(回顧《24.要比較三組資料,t 檢驗還能用嗎?》),會導致出現假陽性的概率增加,在沒有顯著性差異的時候誤以為有顯著性差異。避免這一錯誤的關鍵,就在於要提前決定實驗樣本的大小,而不是根據實驗結果調整。而在科研的實踐中,這樣的錯誤其實非常廣泛,希望閱讀了我們「說人話的統計學」系列的讀者能避免這個錯誤。
最後,基於上面這幾個原因,現在的基金申請裡面也開始更多地要求做功效分析,以達到評估實驗成本和可行性,減少主觀因素干預實驗結果的目的。所以,在科研道路上遲早是要和功效分析狹路相逢的,何不現在就弄明白呢?
02
講了這麼多,想必大家都認可了做功效分析的重要性,下面就讓我們看看在ANOVA檢驗裡面功效分析該如何做。
我們之前在《2.做統計,多少資料才算夠?(上)》裡面講到了樣本量主要由三個因素決定:統計功效,效應大小還有顯著性水準。這不僅在t檢驗裡面成立,在ANOVA裡面也一樣成立。
同樣與t檢驗類似的是,如果給定統計功效(一般情況下設為0.8), 如果所研究因素的效應越大,需要的最小樣本量就越小。為了能夠客觀地描述效應大小,我們希望效應即能夠反應組與組之間的差距大小,又能夠考慮到資料本身“雜訊”的大小,於是在《19.找出 t 檢驗的效應大小,對耍流氓 say no!》裡面引入來Cohen氏 d值來作為效應大小的度量,其定義為:
Cohen氏 d值是用測量的平均值與總體平均值的差值,與總體的標準差的比值。
這樣做的好處是如果把測量單位從cm變成m,或者從斤變成公斤,並不會改變效應的大小。
ANOVA要解決的是對比多組資料與其總體的平均值是否相等的問題,如果直接套用Cohen氏 d值,那我們便不知道取哪一組資料的平均值與總體平均值作比較,這時該怎麼辦呢?
幸好,Cohen氏d值還有一個失散多年的兄弟,叫做Cohen氏 f 值,專門用來測量ANOVA的效應大小。
回到效應的最初定義,也就是測量組與組之間的差距相對數據本身“雜訊”的大小,我們會發現組與組之間的差距似乎與ANOVA裡面計算的組間平方和成正比,而所謂的雜訊似乎與組內平方和成正比。
ANOVA的效應大小可不可以就用組間平方和與組內平方和的比值表示呢?
事實上,這一比值再開方便稱為Cohen氏 f 值:
不難發現Cohen氏 f 值與他的兄弟d值一樣,也不依賴於測量單位,或者說將所有的資料都放大或縮小一定的倍數並不會改變它的大小。
Cohen氏 f值越大,效應也就越大,Cohen本人在提出f值的時候也將其大約分成了小中大三個區間,在單因素ANOVA檢驗中,小效應對應f值在0.1左右,中效應對應的f值在0.25左右,大效應在0.4左右。
另外一個常被用來代表ANOVA效應大小的統計量是。它等於組間平方和與總平方和的比值:
越大,效應也越大。細心的讀者不難發現,
與Cohen氏 f值其實是可以相互轉化的,它們的關係如下:
可以看到用表示的效應在數值上會小於Cohen氏 f值,不同的統計學軟體在輸出ANOVA結果的時候會用不同的統計量來表示ANOVA效應大小,大家使用的時候要注意區分。
03
這一集主要是教會大家怎樣估計ANOVA 檢驗需要的樣本量,為什麼要費這麼多力氣講如何衡量ANOVA的效應大小呢?主要是因為樣本量,統計功效,效應大小還有顯著性水準這四個量知道其中三個就可以推導出第四個。
在計算實驗需要的樣本量的時候,我們必須要輸入其它三個參數的值。現實是實驗還沒有做,效應大小如何知道呢?前面講t檢驗的時候,我們就遇到了一樣的問題,解決的方法一般是通過小規模的試點實驗來估計效應大小,或是參考類似研究的效應大小。而統計功效和顯著性水準按照慣例一般設為0.8和0.05,我們在《2.做統計,多少資料才算夠?(上)》解釋過這兩個看似隨意取的數值背後也有一定的合理性。
有了統計功效,效應大小,顯著性水準三個參數的值,我們便可以用之前推薦過的免費功效分析軟體G*Power(或者其他具有功效分析功能或模組的統計學軟體)來確定樣本量。
在G*Power中,ANOVA與t 檢驗的區別主要是test family要選擇f tests,在最常見的單因素ANOVA情況下statistical tests要選擇ANOVA:fixed effects, omnibus, one-way。
04
我們在計算ANOVA的效應的時候,還要考慮到實驗設計的形式。
之前在講重複測量ANOVA時提到,如果在同樣一組個體進行多次測量(不同時間或者不同實驗條件),在計算誤差項的時候會扣掉個體間的差異導致的資料波動,參考《28.聽說,成對t檢驗還有ANOVA進階版?》《29.重複測量ANOVA:你要知道的事兒都在這裡啦》。
計算重複測量ANOVA的效應大小,我們同樣也要考慮到個體間的差異。
在計算資料本身的雜訊的時候,要從組內平方和裡面扣掉個體間平方和,這時,衡量效應大小的Cohen氏 f值運算式如下:
對比重複測量ANOVA和不考慮重複測量結構ANOVA,我們可以看到前者得到的效應會大一些,也就是說獲得同樣的統計功效,前者所需要的樣本數量更小。
當我們設計實驗的時候,為了有更高的統計功效,減少實驗所需的樣本量,要盡可能地利用重複測量的設計。
比如我們在研究小鼠的體重是否隨年齡變化,我們需要在三個月,四個月,五個月三個時間點測量小鼠的體重。
實驗方案一,從同樣的10只小鼠身上在這三個時間點分別獲得體重資料,共需要10只鼠;實驗方案二,每個時間點採集10只小鼠的資料,但是不同時間點採集的並不是同一批小鼠的體重,共需要30只鼠。方案一不僅用到的鼠的數量更少,而且得到的統計功效反而更高,所以會更優。
當然,並不是所有的實驗都適合重複測量的設計,選擇實驗方案最終還是要看能不能準確地驗證假說。
在確定了實驗設計之後,提前做好功效分析確定樣本量,就是為實驗結果的可信度做好了保障,在得到資料之後不管結果是顯著的還是不顯著的,都是統計學上可信的結果,能夠成為人類知識大廈的一塊堅實磚瓦啦!
本系列文章
第 1 章 高屋建築看統計
1.你真的懂p值嗎?
2.做統計,多少資料才算夠?(上)
3.做統計,多少資料才算夠?(下)
4.提升統計功效,讓評審心服口服!
5.你的科研成果都是真的嗎?
6.見識資料分析的「獨孤九劍」
7.貝葉斯vs頻率派:武功到底哪家強?
第 2 章 算術平均數與正態分佈
8.數據到手了,第一件事先幹啥?
9.算術平均數:簡單背後有乾坤
10.正態分佈到底是怎麼來的?
第 3 章 t 檢驗:兩組平均數的比較
11.想玩轉t檢驗?你得從這一篇看起
12.就是要實用!t 檢驗的七十二變
13.不是正態分佈,t 檢驗還能用嗎?
14.只有15個標本,也能指望 t 檢驗嗎?
15.樣本分佈不正態?數據變換來救場!
16.數據變換的萬能鑰匙:Box-Cox變換
17. t 檢驗用不了?別慌,還有神奇的非參數檢驗
18.只講 p 值,不講效應大小,都是耍流氓!
19.找出 t 檢驗的效應大小,對耍流氓 say no!
20.用置信區間,就是這麼(不)自信!
21.如何確定 t 檢驗的置信區間
22.優雅秀出你的 t 檢驗,提升Paper!
23.要做 t 檢驗,這兩口毒奶可喝不得!
第 4 章 方差分析(ANOVA):多組平均數的比較
24.要比較三組資料,t 檢驗還能用嗎?
25.ANOVA在手,多組比較不犯愁
26.ANOVA的基本招式你掌握了嗎?
27.ANOVA做出了顯著性?事兒還沒完呢!
28.聽說,成對t檢驗還有ANOVA進階版?
29.重複測量ANOVA:你要知道的事兒都在這裡啦
30.沒聽說過多因素 ANOVA ?那你就可就 OUT 了!
31.多因素ANOVA=好幾個單因素ANOVA?可沒這麼簡單!
32.兩個因素相互影響,ANOVA結果該如何判讀?
33.ANOVA還能搞三四五因素?等等,我頭有點兒暈
34.要做ANOVA,樣本量多大才夠用