做統計,多少資料才算夠?(下)| 說人話的統計學·協和八
原創 張之昊 協和八
上次我們講到,要在做研究之前對需要多少資料或樣本作個估計,需要用到
統計功效(statistical power)
這個概念。
並且,我們通過用罩杯大小鑒別男女和格格巫找東西這兩個故事進一步闡述了一條基本原理:統計功效(1-β)由
(標準化的)效應大小(或稱效果量, ES)
數據量(N)
顯著性水準(⍺)
這三個因素共同決定。
換言之,要計算所需的資料量,我們需要確定——
顯著性水準、
希望達到的統計功效大小、
和效應大小。
(如果你看不懂上面這段文字,請回顧上一集《做統計,多少資料才算夠(上)》)
決定資料量的幾個因素
有了這一條,我們要做的事情可就簡單多了。
我們先來看看:
顯著性水準⍺
⍺可是我們的老熟人了,它是一道門檻兒,為我們把關什麼結果才算具有統計學意義上的顯著性。
如果p值小於我們事先規定的⍺,則稱結果顯著,拒絕原假設;
如果p值大於⍺,則結果不顯著,不能拒絕原假設。
從另外一個角度看,⍺也是在大量重複實驗時我們能承受的第一類錯誤的概率的上限(還記得“罩杯鑒男女”故事裡⍺對應著什麼嗎?)。
大家都知道,最常用的⍺的數值是0.05。為什麼現在人們都愛用0.05,我們在本專欄第一集《你真的懂p值嗎?》中有過簡單的討論。(回顧第一集)
當然,在實際的研究工作中,⍺的選擇也不完全是一成不變的。
在某些領域或話題的研究中,由於犯第一類錯誤的成本很高(比如說某些新藥的研發或影響面很廣的政策的制定),因此人們希望更加保守一些,除非有非常強的證據,不要輕易作出某種效應或差異存在的結論。這時,我們可以選擇更低的⍺(比如0.01、0.001等),從而要得到具有顯著性的結果也就更不容易了(想想在其他因素不變的情況下這意味著統計功效是降低了還是提高了?)。
相反,在某些研究中,研究者感興趣的效應很小,或者技術條件受到限制,有時則可以把顯著性水準⍺稍稍放寬一些(一般為0.1,大於0.1的情況非常少見)。
我們偶爾能在科學文獻中看到作者彙報p值大於0.05但小於0.1的結果,一般稱這樣的結果“趨向統計學意義上的顯著性”,實際上就是放寬了⍺。
尤其在一些比較新穎的、開創性的研究中,出於鼓勵和激發後續研究的目的,這樣的做法具有一定的合理性。
那麼,⍺選擇不同數值對於資料量N有什麼影響?
不難想像,固定另外兩個因素效應大小和功效,⍺越小,所需的N也就越大,反之亦然——對顯著性水準要求越嚴格(⍺越小),我們就需要更多的資料,才可能更多地消除隨機因素的影響,得到顯著的結果。
說完了⍺,我們轉向決定資料量的第二個因素:
統計功效(1-β)
回顧統計功效的定義,它指的是,如果我們感興趣的效應或差異真實存在,在特定的顯著性水準的規定下,我們正確地拒絕原假設(即從資料中得到具有統計顯著性的結果)的概率。
簡單粗暴地說,這可就是在我們實驗假設正確的情況下研究獲得成功的概率,那麼我們當然想讓它越高越好了。
那咱們貪心點兒,讓功效為1好不好?
很遺憾,這是不可能的。
統計功效1-β裡頭的這個β正是我們上次說過的第二類錯誤率。
在罩杯故事裡我們說過,兩類錯誤是此消彼長的,要是β為0,那第一類錯誤率就慘不忍睹了。
通常學術界在功效分析中,都把統計功效設定在0.8到0.9之間。
為什麼呢?
與⍺的0.05一樣,這是幾十年來大家約定俗成的經驗準則,並不是算出來的一個確切的數。
當然了,它也不是毫無道理的——
0.8到0.9的功效對應了0.1到0.2的第二類錯誤率β,與第一類錯誤率⍺=0.05是2到4倍的關係。
也就是說,在這樣的規則下,我們對第二類錯誤要比第一類錯誤要寬容一些。
這是符合學術界保守謹慎的傳統的:相比起“放過”(第二類錯誤),人們更不希望“殺錯”(第一類錯誤)。
統計功效和資料量的關係也很簡單明瞭——顯著性水準和效應大小不變時,需要達到的統計功效越高,所需的資料量則越大。
估計效應大小的方法
解決了顯著性水準和功效,現在我們來啃一啃效應大小(效果量)這塊硬骨頭。
效應大小是一個抽象的概念,它在數學上到底是什麼形式取決於具體的統計測試。
比如說,
相關分析、t檢驗、卡方檢驗的效應大小分別是:
相關係數、均值差、OR值(比值比)。
(這些我們都會在以後的文章中深入討論)
效應越大,就越容易在研究中表現出來,亦即所需要的資料量越小,反之亦然。
真實的效應大小在某種意義上說我們是永遠無法知曉的,即使經過了大量研究,我們也只能不斷接近真相。而在功效分析估計資料量時,我們連研究都還沒開始做呢,那怎麼辦呢?
一個字:
猜!
當然啦,我們都是受過嚴格訓練的科研工作者,瞎猜這種逼格這麼低的事兒我們是不會幹的。
最常用的估計效應大小的方法有兩種:
1
先使用少量受試者或樣本進行試點研究,用獲得的結果作為功效分析中的效應大小的值。
這是最直接的估計效應大小的方法。
容易想到,試點研究的樣本量越大,研究設計與將來要進行的實驗越接近,對效應大小的估計就會越準確。
2
如果由於條件限制,無法進行試點研究,我們可以採取“旁敲側擊”的方式——對與計畫進行的研究話題、方向、物件相近的已發表的研究進行全面細緻的回顧,合理推算將要進行的研究可能獲得的效應大小。
毫無疑問,這種方式有一個軟肋:已有的研究不可能與我們將要進行的研究完全相同,因此難免會有無法精確控制的偏差;而且,到底哪些研究算“相近”,存在著相當多的模糊性。
但是尺有所短寸有所長,利用相近研究估計效應大小往往能夠綜合來自大量樣本的結果,比起試點研究又有著獨特的優勢。
近年來,利用規範、系統化的檢索標準和嚴格定量的統計學方法對大量已發表研究的結果進行整合的“薈萃分析”(meta-analysis,又譯為“元分析”、“整合分析”等,這也將是未來我們將詳細講解的話題之一)得到了越來越廣泛的應用,它能夠為功效分析提供更準確、更可靠的效應大小估計。
使用G*Power進行統計功效分析
許多流行的統計學軟體(如SAS、SPSS、R等)都有利用功效分析來估計資料量的模組,也有其他一些單獨的功效分析軟體(如G*Power和PASS)或網站。
在這裡,我們為大家介紹G*Power的基本用法。
為什麼選擇G*Power呢?
一來它使用簡易且功能強大,覆蓋了幾乎所有常用的統計學檢驗;
二來不論你是使用Windows的普通青年還是使用Mac的文藝青年,都可以使用它。最重要的是,它是免費的!
要下載G*Power安裝包,可以登錄官方網址點擊相應連結。
安裝完成後,打開軟體,你將看到如下介面:
這個介面就是按照功效分析的一般步驟設計的。
首先,我們需要根據我們想要研究的問題和資料類型確定將要使用的統計測試。
在G*Power介面中部,左邊有Test family下拉式功能表,可根據測試的統計量選擇測試的大類(如t檢驗、F檢驗、卡方檢驗等)。
而右邊的Statistical test則是在已選的大類下選擇具體的測試(如t檢驗中包含單樣本檢驗、成對樣本檢驗、獨立樣本檢驗、非參數檢驗等)。
在這兩個功能表下面,我們需要進一步選擇我們想進行哪一類功效分析:今天我們討論的是在研究開始前估計樣本量,因此應當選擇“事前”(A priori)。
在這之後,剩下的就是在“輸入參數”(Input parameters)欄裡選擇單側或雙側核對總和輸入我們之前討論過的三因素:效應大小ES、顯著性水準⍺和效能1-β了。
我們說過,不同的統計學檢驗對應著不同的效應大小的具體定義,如果我不知道或者忘記了當前的檢驗應該用哪個量做效應大小怎麼辦?
貼心的G*Power提供了根據樣本的描述性統計量自動計算效應大小的功能。
就以一個簡單的統計學檢驗——單樣本t檢驗(這個檢驗用來考察樣本的平均值是否與一個特定常數有差異)——為例。在選定了t檢驗下的“平均值:與常數的差異(單樣本情形)”(Mean: Difference from constant (one sample case))之後,點擊Effect size左邊的Determine按鈕,我們將會在主介面旁邊看到一個新的小介面:
在這個介面中,我們將填寫手頭上樣本的一些資訊(具體需要哪些資訊隨檢驗不同而不同),供G*Power計算效應大小。
在這個例子中,我們需要填入的有:原假設H0下的平均值(也就是要被比較的那個常數)、備選假設H1下的平均值(即估計將獲得的樣本平均值)和預計樣本的標準差。
假設我們的原假設常數是0,並且通過試點實驗確定了樣本平均值和標準差分別為2和4,那麼在填寫完畢後,點擊Calculate按鈕,我們便可得知效應大小是0.5(在這裡,效應大小實際上就是樣本均值和標準差的比值)。更方便的做法是,直接點擊Calculate and transfer to main window,計算出的效應大小將被直接填寫到主介面上。如果我們分別將顯著性水準⍺和效能1-β設定為0.05和0.9,並選擇雙側(two-tailed)檢驗,點擊主介面右下角的Calculate按鈕,就會在右邊“輸出參數”(Output parameters)欄中得到樣本量計算結果:
由此我們得知,在以上條件下,要獲得0.9的統計功效,我們需要的最小樣本量是44。
在計算完畢後,如果點選上方的“功效分析流程”(Protocol of power analysis)標籤頁,我們可以看到軟體自動記錄的所有參數及計算結果,並可以方便地輸出保存或列印。
另外,G*Power還有一個十分強大的功能,就是對一系列(而不是像之前的例子一樣的單個)參數值的組合繪製圖表,這一功能可以從右下方的X-Y Plot for A Range of Values按鈕開啟。比如說,在剛才的例子中,如果我們想瞭解當效應大小從0.3變化到0.7、統計功效從0.6變化到0.95時所需要的最小樣本量的變化,我們可以用G*Power作出下面這張圖:
在上圖中,縱坐標軸是樣本量,橫坐標軸是統計功效(1-β)。每一條曲線是在特定的效應大小之下所需樣本量隨統計功效從0.6增長到0.95時的變化,而不同的效應大小(0.3, 0.4, 0.5, 0.6, 0.7)則由不同顏色的曲線表示(見右側的圖例)。
我們可以看到,在統計功效不變時,效應大小越大,所需樣本量越小;而在效應大小不變時,統計功效越高,所需樣本量越大。
這完全印證了我們之前的結論。
至此,我們已經完成了對功效分析和樣本量估計的基本原理的討論。在後續的文章中,當我們講到具體的各個統計學測試時,我們還將為大家指出對特定的測試進行功效分析的細節問題,以及在G*Power軟體上的實際操作。
本系列全部文章。
第 1 章 高屋建築看統計
你真的懂p值嗎?
做統計,多少資料才算夠?(上)
做統計,多少資料才算夠?(下)
參考文獻
- Bausell, R. B., & Li, Y. F. (2002). Power analysis for experimental research: a practical guide for the biological, medical and social sciences. Cambridge University Press.
- Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39, 175-191.