提升統計功效,讓評審心服口服!| 說人話的統計學·協和八
原創 張之昊 協和八
在前兩集《做統計,多少資料才算夠?》裡(回顧:3、4),我們用不短的篇幅介紹了統計功效這個概念,並且還講述了運用功效分析估算所需資料量的一般方法。
今天我們回過頭來看看統計功效本身:
它指的是,如果假定的效應的確存在,我們有多大可能能得到具有統計學意義上的顯著性的結果。
我們為什麼要關心這個?
對於需要發文章來畢業、評職稱、拿基金的你來說,當然希望得到顯著的結果啦!
而怎樣做才能增大這種可能呢?
首先,一切的一切,都基於“如果假定的效應的確存在”這個前提。
也就是說,我們對於自己所要研究的問題得有清楚的認識,對能夠觀察到怎樣的效應有大致正確的預測。這件事兒統計學幫不上太大的忙,歸根結底靠的還是我們對自己做科研這一畝三分地的掌握程度。如果一上來認定的假說就錯了,統計學可沒法撥亂反正。
然後,在正確的假說的指引之下,我們設計實驗,收集資料,進行統計分析。
可千萬不要以為假想對了就萬事大吉了:一個好的實驗方案(包括變數的選擇、流程的設計、受試數量的確定、統計測試的使用等諸多方面)能夠大大增加獲得顯著結果的可能性;而一個糟糕的實驗方案則會導致統計功效不足,可能讓你錯過了本來屬於你的大發現,豈不可惜?
有些時候,問題的嚴重程度還不只是沒能整出個大新聞那麼簡單。
比方說,我們研究的是一個新藥是否有副作用。事實上這個藥物有腎毒性,卻因為實驗的統計功效太低,導致我們做出錯誤地結論,說此藥物與空白對照(或其他藥物)之間沒有顯著區別,那可就攤上大事兒了。
這可不是我拍腦袋編出來的故事,2009年發表在Journal of Clinical Epidemiology(《臨床流行病學學報》)上的一篇文章對發表在頂尖臨床醫學雜誌如《柳葉刀》、《新英格蘭醫學雜誌》、《英國醫學雜誌》上的389篇研究藥物副作用的論文進行了分析,發現這些論文中報告了陰性結果(即沒有顯著區別)的研究的統計功效只有0.07到0.37。
簡單地說,即使副作用真的存在,這些研究也只有7%到37%的可能性能夠真的得到相應的具有顯著性的結果。
那麼,
我們應該怎樣設計實驗
才能有效地提高統計功效呢?
在上兩集裡,我們反復提到,統計功效由三要素決定:
數據量、
顯著性水準、
效應大小(效果量)。
要提高統計功效,我們還是先得在這三要素上下功夫:
辦法1:
增加資料量
我們說過,如果其他因素都不變,資料量越大,統計功效就越高。
這恐怕是提高統計功效最直接(也是成本最高)的方法了。
在金錢和時間允許的情況下,增加資料量,總能提高統計功效。
我知道你一定要說:“在金錢和時間允許的情況下”,這不廢話麼?
我姑且不跟你哭窮,等到我把那麼多資料都收集完了,對門實驗室的小明都把同樣的文章發出去了,還有我什麼事兒麼?
別急,單純增加資料量的確不易,但在具體操作上,這條原則還是有空間可挖的:
辦法1.1:
增加比較容易獲得的組別的樣本量
許多研究都涉及兩個或更多不同組別的樣本之間的比較,比如說男性與女性、干預組和空白對照組、不同種族或不同基因型等等。
如果增加總體樣本量有客觀困難,不妨考慮是否有某些組別更容易獲得,或者是否在某些組別上進行實驗成本較低。
最典型的例子是某些侵入性較強的臨床實驗,干預組的受試者數量通常十分有限,得到一個受試者的成本(尋找等待的時間、需支付的費用等)也比較高。
這時,我們可以增加對照組的樣本量,這同樣可以達到提高統計功效的目的。
這一方法也可以運用在引數為連續變數(比如年齡、收入、身高等)的情形。
如果引數的某些範圍內的樣本量比較少,我們也可以增加容易得到的其他範圍的樣本量,由此提高統計功效。
當然,這個辦法的效果並不是無限的。
對於只有兩個組的情形,一條經驗法則是,如果其中一組的樣本量已經達到另外一組的兩倍,再繼續增加第一組的樣本也起不了太多作用了。
辦法1.2:
盡可能減少資料的損失
如果資料量由於客觀原因無法增加,或者實驗已經在進行中,我們的任務就變成了不要因為損失資料而降低統計功效。
這一條聽起來似乎很瑣碎,但在長期跟蹤回訪或重複實驗的縱向研究中尤其重要。
在跟蹤回訪型的流行病學研究中,總是難以避免與部分受試者失去聯繫。
而在一些干預實驗中,如果干預本身會對受試者帶來一定的痛苦或不便,那麼就可能導致部分干預組的受試者退出研究;相反,如果干預會對受試者帶來益處,而對照組沒有任何作用,則可能在對照組中損失更多受試者。
無論哪種情況,我們都應該運用我們的經驗,做好相應的防範措施,減少資料的損失,並在研究開始前將不可避免的損失考慮在樣本量的計算中。
辦法2:
放寬顯著性水準的要求
我們知道,一般人們都把顯著性的界限定在0.05。
如果我們把這個界限放寬一些,比如說提高到0.1,那麼得到顯著性結果也就更容易了,統計功效也就隨之提高。
當然,顯著性水準的標準可不是任人打扮的小姑娘,你可以自己放寬標準,至於審稿人答不答應可就是另外一回事了。
所以,要提高統計功效,在顯著性水準上做文章恐怕是最難走通的一條路。
然而,也有極個別的例外:
辦法2.1:
報告p值在0.05和0.1之間的結果
在上一集中我們提到過,在一些新異的、具有潛在突破性的研究中,出於鼓勵後續研究的目的,有時人們會網開一面,允許把顯著性界限放寬到0.1。
當然,到底什麼時候能這麼幹,誰也說不準。
更實際一點說,如果一篇文章裡大多都是很過硬的資料,塞進去一個只能滿足p<0.1的結果可能審稿人也不會有太大意見。
但如果想讓一個處於灰色地帶的結果挑大樑撐門面,這恐怕就難以讓人信服了。
辦法2.2:
使用單側檢驗
很多統計學檢驗有單側、雙側之分。這是什麼意思呢?
簡單地說,雙側檢驗並不對效應的方向做假設,或者說認為大小相同、方向相反的效應是等同的;
而單側檢驗則事先認定效應存在特定的方向。
還記得第一集《你真的懂p值嗎?》中藍精靈和格格巫擲鋼鏰兒的故事嗎?(回顧:1,你真的懂p值嗎)
藍精靈擲5次鋼鏰兒得到了5個正面,當時我們在計算p值的時候,替藍精靈做了一個假設:如果鋼鏰兒不均勻,它只可能偏向正面(因為鋼鏰兒是格格巫的,而反面對格格巫不利)。
在這個假設下,我們做的就是單側檢驗。
因此,在計算p值時,“與實際資料相同或更極端的結果”只有5個正面這一種,從而在鋼鏰兒均勻的原假設下,p值是1/2的5次方,即0.03125。
但是,如果我們不做那個假設,認為鋼鏰兒既可能偏向正面,也可能偏向反面,這時“與實際資料相同或更極端的結果”就包括5個正面和5個反面兩種情況了——因為在雙側檢驗中,我們不考慮效應的具體方向。
此時,p值就變成了1/2的5次方再乘以2,即0.0625。
從這個例子裡可以看到,選用單側檢驗的效果實際上是使p值減半,從而一部分在雙側檢驗下不顯著的結果在單側檢驗時就變得顯著了。
但是,必須強調的是:
要使用單側檢驗,必須有很強的理論基礎,能夠支援我們對效應方向的假設,而且這一決策必須在分析資料前做出。
如果用雙側檢驗分析完之後發現p值不夠小,再來改用單側檢驗,這就是作弊了。
辦法3:
增強效應大小(效果量)
在其他因素恒定的情況下,效果量越大,統計功效就越高。
因此要想提高統計功效,我們的實驗設計應當盡可能擴大可測得的效應大小。
這可以通過幾種不同的途徑實現:
辦法3.1:
加大干預的強度
如果我們的研究是關於某種干預(如藥物、物理治療、行為訓練等)的效果,一種簡單但很有效的方法是使用更強的干預(比如更大劑量的藥物、更長時間的訓練等)。
當然,在使用這一方法時,必須把監管、成本等因素考慮進去。比如說,一些藥物在人體實驗中有最高劑量的限制。
更廣義地說,除了單純增強干預以外,我們還可以引入新的干預內容,例如同時使用多種藥物等。不難想像,這樣做同樣存在代價,那就是引進了新的因素,使實驗和隨後的分析變得更複雜了。
辦法3.2:
對極端群體作比較
在一些研究中,我們無法直接控制感興趣的引數。這種情況往往發生在觀察性或回顧性研究中,由於實驗者不能主動操縱引數,因而上一條方法就不適用了。
如果引數是一個在某個範圍內可以連續取值的變數(如年齡、血糖濃度等),為了增強效應大小我們可以採取對引數“取兩頭、棄中間”的辦法,從而放大不同個體間的差異。
在此,請允許我厚顏無恥地引用一個本人在去年發表的研究[5]。在這個課題中,我們想探索肥胖人群與正常體重人群的學習能力是否存在差異。
大家知道,一個人肥胖與否可以通過體重指數(body mass index, 縮寫為BMI)來表示。如果BMI在18到25之間為正常;25到30之間為超重;30以上為肥胖。
為了盡可能擴大效應大小,我們只選擇了BMI在18-25之間與30以上的受試者,並對兩者進行比較,而沒有使用整個BMI範圍的受試者。
辦法3.3:
引進控制變數
(control variables/covariates)
很多時候,儘管我們研究真正感興趣的只有一兩個引數,我們依然會收集它們以外的許多其他變數的資訊,並把這些變數包括在我們的統計分析中。這些變數就是我們所說的控制變數。
雖然我們的出發點並不是研究這些變數,但是它們可能可以消除資料中與我們真正感興趣的引數無關的噪音,從而增強我們能觀察到的效應大小。
例如,我們想研究一種新型的受體拮抗劑對抑鬱症狀的療效。由於這種藥物與某些激素存在相互作用,導致該藥物對女性的作用大大高於男性。如果我們不將性別的因素考慮進來,當我們比較干預組和對照組時,由於兩組受試者中男性的存在,平均的療效差異就會被拉低,統計功效也隨之降低了。如果我們將性別作為控制變數,藥物對女性的療效就更容易表現為具有統計學顯著性的結果了。
辦法3.4:
採用重複測量
(repeated measures)
或組內(within-subjects)設計
在可行的情況下,採用重複測量(在同一組受試者上分別實施干預和對照)設計能夠有效降低組間設計(在不同的受試者上進行不同的干預)中由於個體不同所帶來的隨機噪音,從而也能增強效應大小,進而提高統計功效。
以上這些,是我們根據統計功效的三個決定因素而提出的提高統計功效的一些基本原理。
在以後我們講到具體的統計學測試時,還會根據特定測試的特點進一步介紹專門的提高統計功效的方法。
值得強調的是,所有這些方法,都應該在實驗設計的階段考慮——再聰明的資料分析方法都比不上一個合理有效的設計來得重要,而設計好一個實驗,不僅是一項技術,更是一門需要經驗的藝術。
查看本系列全部文章。
第 1 章 高屋建築看統計
你真的懂p值嗎?
做統計,多少資料才算夠?(上)
做統計,多少資料才算夠?(下)
提升統計功效,讓評審心服口服!
參考文獻
1. Tsang, R., Colley, L., & Lynd, L. D. (2009). Inadequate statistical power to detect clinically significant differences in adverse event rates in randomized controlled trials. Journal of clinical epidemiology, 62(6), 609-616.
2. Reinhart, Alex. "Statistics done wrong." (2014).
3. Bausell, R. B., & Li, Y. F. (2002). Power analysis for experimental research: a practical guide for the biological, medical and social sciences. Cambridge University Press.
4. Hansen, W. B., & Collins, L. M. (1994). Seven ways to increase power without increasing N. NIDA research monograph, 142, 184-184.
5. Zhang, Z., Manson, K. F., Schiller, D., & Levy, I. (2014). Impaired associative learning with food rewards in obese women. Current Biology, 24(15), 1731-1736.
留言列表