close

你的科研成果都是真的嗎? | 說人話的統計學·協和八

原創 張之昊 協和八 

說某天下午,藍精靈剛剛收到自己的第一篇論文被正式接收的通知,心裡那叫一個春風得意,滿心覺得學術事業正要從此起飛,不禁YY起三十年後成為學界泰斗著作等身、功成名就的情景……

WeChat 圖片_20200519113144.jpg

 

於是藍精靈買了兩瓶啤酒、半斤烤翅,一路哼著小曲兒就回到了宿舍。推開門,只見格格巫在電腦上奮戰DOTA的背影。

還沒等藍精靈打招呼,格格巫就先開腔了:

“恭喜啊藍教授!!”

藍精靈正有點兒摸不著頭腦,格格巫不是向來專注黑他三十年的嗎?

正不知道該如何回答,格格巫頭也沒回扔過來一篇論文:“要不先看看這個?”

藍精靈低頭一看,看到了這麼一個標題:


(為什麼大多數被發表的研究發現

都是假的

神馬?這不會是格格巫逗我玩的吧?

藍精靈趕緊一查,一看嚇一跳:

這篇文章2005年發表在PLOS Medicine(影響因數15點幾的堂堂SCI一區期刊哪)上,作者是斯坦福大學醫學院教授Ioannidis,論文至今已經被引用了快三千次

作為科研大軍中的一員,藍精靈頓時覺得臉被打得有點兒疼……

那麼,到底是怎麼一回事呢?

我們讀的那麼多論文,我們做的那麼多結果,

難道都是假的嗎?

讓我們從前幾集聊過的東西說起,看看到底這臉打得有沒有道理。

們說過,現在大家廣泛使用的以假設檢驗為核心的統計推斷方法裡有個最基本的工具——

統計顯著性

也許你之前在讀到它的時候,就已經隱隱覺得它的定義裡有一些彆扭的地方:

顯著性(p值)就是在假定我們希望檢驗的效應並不存在(即“原假設成立”)的前提下,收集到了與我們所得到的結果相同或更極端的資料的概率。

我們本身最關心的事情,是我們對於某個科學問題的假說到底是不是真的。如果用正規的統計學語言來說,我們希望知道原假設(以及備選假設)是不是真的。或者退一步說,根據目前所得的資料,它有多大可能性是真的。

然而,p值並不能給我們答案,它只能告訴我們,目前手上的資料和原假設有多不相符。

我們在本系列第一集《1.你真的懂p值嗎?》中“p值不是什麼”說過,它既不是原假設為真的概率,也不是備選假設為假的概率。但是,你也許會想,既然我們在p值很低的時候拒絕原假設,那估計也差不離吧

下面我們就用一個例子,來琢磨一下這件事兒和科學界被集體打臉之間的關係。

(可戳這裡回顧:1.你真的懂p值嗎?

們來假想這麼一個情形。

現在有100種藥物,我們的任務是找出其中是否有一些能夠治療某種腫瘤。實際上,在這100種藥物中,5種真正對這種腫瘤有效(下圖中的紅色方塊),而剩下的95種(下圖中的白色方塊)都沒有作用。

WeChat 圖片_20200519113247.jpg


當然,我們自己是不知道真實情況的。我們能做的,就是收集實驗資料,並用正確的統計學測試來做好分析

我們可以用之前討論過的統計顯著性統計功效兩大工具來預測一下,我們對這100種藥物做完實驗後,將會得到怎樣的結果:

對於那5種真正有效的藥物,我們會在多少種裡得到具有顯著性的結果?這恰好就是統計功效(1-β)的定義(在假定的效應真實存在的情況下,得到顯著結果的概率)

讀過了本系列前兩集《做統計,多少資料才算夠?》和《提升統計功效,讓評審心服口服!》的你,一定知道需要多少樣本量如何優化實驗設計,保證我們的研究具有足夠高的統計功效。

在這裡,假設我們擁有0.8的統計功效。因此,在5種真正有效的藥物中,從概率上講,平均將有 5 × 0.8 = 4 種呈現具有統計顯著性的結果(下圖中的深藍色方塊)。而剩下的1由於實驗的隨機性,我們將無法發現其有效性,也就是犯了第二類錯誤“取偽”(下圖中的粉紅色方塊)。

WeChat 圖片_20200519113328.jpg
那麼,剩下的95種無效藥物又如何呢?

記住,我們並不知道它們實際是無效的,我們只能利用它們的實驗資料,分別算出在假定該種藥物無效的原假設下的p值,然後根據p值做出是否拒絕原假設的決定。

同樣由於隨機性,儘管它們都沒有效果,但仍然可能會有那麼幾種藥物給出顯著的結果

所以,現在的問題就是,如果某種藥物實際上是無效的,我們會有多大可能誤認為它是有效的?

你也許已經發現,這恰恰就是我們選取的顯著性界限

假設我們用的就是最普遍通用的0.05,因此,在95種無效藥物中,平均來說我們將會在 95 × 0.05 4.75 種上得到具有統計顯著性的結果。

換言之,大約會有5種無效藥物被誤認為有效(所謂的“假陽性”發現),也就是犯了第一類錯誤“棄真”(下圖中的淺藍色方塊),而剩下的90種我們做出了正確的判斷。

WeChat 圖片_20200519113356.jpg

讀到這裡,我猜你已經能意識到問題所在了。

如果你是臨床醫生或者亟待治療的病人,你才不會關心什麼p值什麼顯著性,你在乎的是,這些已經被研究“證明”有效的藥是不是真能起作用?

按照目前學術界通行的統計分析方法,在這100種藥物中,一共會有9種藥物被認為有效(上圖中深藍和淺藍色的方塊)。

然而,在這9種藥物中,只有4種(約44.4%)才是真正有療效的!

面這個例子裡我們說的是藥,其實它可以被推廣到許多其他情形。

如果我們想研究哪些基因與精神分裂症相關,那麼第一幅圖裡的紅色和白色方塊就變成了真正與精神分裂症有關的基因和其他無關基因。

如果我們想要預報地震,那麼它們又可以代表真正的地震和那些疑似地震但並非地震的事件。

更抽象地說,在任何一門學科裡,都會同時存在著各種各樣由不同研究者提出的、未被證實的理論假說,這些假說也許有一小部分是真的,剩下的大多數都是假的。

經過一輪研究之後,有些假說會得到資料支援,而另一些假說則不會。

在那些看起來得到了資料支援的假說裡,有多少真正是真實的呢?

我們可以用完全一模一樣的方法進行分析推理。

個問題的核心是什麼呢?

回到我們的例子,關鍵就在於最開始的時候,有效的藥物(第一幅圖中的5個紅格子)比起無效的藥物(95個白格子)要少得多

儘管通過控制顯著性水準,我們犯第一類錯誤的概率並不大,但是因為白格子實在很多,總數乘以得到的數值(假陽性發現的數量)依然不小

而對於那5個白格子,即使我們有比較高的統計功效1-β,能夠正確識別出它們中的大多數,但是這幾個貨真價實的”李逵“還是淹沒在一大堆”李鬼“裡頭了

所以,我們應該從這裡學到的第一條是一句老生常談——

顯著性和統計功效這兩大支柱缺一不可!

稍稍改變上面的計算,如果統計功效1-β低一些,或者顯著性水準寬鬆一些,在具有顯著性結果的藥物中真正有效的比率將會比現在的44.4%糟糕的多!

面的例子給我們上的第二課是,p值並不是原假設為真的概率很低的p值並不能保證我們的結論就是真的

要對我們的研究假說的真實性做更可靠的估計,我們要考慮的是,基於當前的研究階段和知識水準,領域內還有多少性質和機理類似的其他假說,這一假說成立的可能性有多大。

就好比在一大堆化合物中尋找能夠抑制腫瘤的一種,在源源不斷的地殼運動中辨別地震,在茫茫基因組中找出與某個稀有疾病相關的基因,所有這些事情本身發生的概率都太小了

因此,即便有統計上顯著的結果,也很可能是假陽性

忽略了事件自身的小概率特性而錯誤地將顯著的結果認為是事件發生的證據,這在統計學上稱為

基數謬誤

baserate fallacy)。

由此我們還可以得到一條推論:

一項得到顯著結果支持的發現的確為真的概率,取決於對這個問題的研究發展到了什麼階段。

如果對這個問題的研究剛剛開始,人們的認識幾乎還是一片空白、各種假說滿天飛的時候,顯著的結果也很可能是假的;

如果對該問題的研究已經非常深入,許多不同角度的研究都已重複了相似的結果,甚至該發現來自於對許多大樣本隨機研究的綜合分析(比如現在越來越流行的“薈萃分析”meta-analysis方法)時,它為真的概率就大多了。

上這兩條,可以說都是與統計學本身有關的技術原因,Ioannidis也並非第一個提出這些問題的人。

在他的文章裡,更有趣、或許也更重要的是“人”的因素——

學術論文是科學發現最重要的載體,寫論文的是人,評論文的是人,讀論文的也是人。

對於寫論文的人來說,總希望有顯著的結果,這樣才有更大的被發表的機會。

我們暫且忽略編造資料那樣極端的學術不端行為(雖然這些也很嚴重),不少研究者面臨發文壓力,在利益驅動下都多多少少有過一些擦邊球的做法,比如去掉不利於自己的資料點、故意不在論文中報告與假想相悖的分析結果等。

而對於評論文的人來說,他們的意見決定著哪些文章能被發表。審稿人大多是小有成就的學者,甚至是學界大腕兒,不免對自己的領域有著既定的偏見。

如果碰到不符合自己學術見解或早先研究結論的文章,可能就不自覺地從嚴處理,甚至雞蛋裡挑骨頭,想方設法要把文章攔下來;而遇到結果和觀點支持自己的論文,就也許高抬貴手了吧?

那麼讀論文的人呢?

我們看到的,只是那些報告了顯著結果的論文,而往往不會知道有多少沒得到顯著結果的研究藏在了世界的各個角落。

這在熱門的領域會帶來一個新問題:如果關於某個問題的某種假說本身是不成立的,但做的人多了,總會得到那麼一兩個由於隨機因素而導致的顯著結果。

然後呢?

只有那個得到顯著結果的研究組發表了文章,其他人只是一片寂靜,於是我們都以為故事就像文章裡說的那樣……

上面所有這些因素都會增加假陽性發現(也就是變成淺藍色的白格子)的數量,從而使得陽性發現(所有深藍和淺藍方塊)中,真正真實的發現的比例進一步降低。

會有多低呢?

Ioannidis老爺子斬釘截鐵:幾乎沒有!

但是,他說這話主要還是基於猜想,並沒有具體資料。

來,約翰霍普金斯大學的兩位教授JagerLeek收集了部分一流醫學期刊的資料,做了粗略的估計,認為儘管Ioannidis說的基本都對,但事情也許沒有那麼糟

他們的文章起了個很老實的題目,叫An estimate of the science-wise false discoveryrate and application to the top medial literature《對全科學界錯誤發現率的估計及其在頂尖醫學文獻上的應用》),發表在Biostatistics雜誌上。

有趣的是,這本雜誌的編輯邀請了幾位著名統計學家對這篇文章撰寫評論,其中就包括Ioannidis。這位老爺子可一點也沒客氣,一巴掌就扇過去了,連標題都還跟當年的文章一個風格:


 

《為什麼

<對全科學界錯誤發現率的估計及其在頂尖醫學文獻上的應用>

是假的》

至於這場辯(ma)(zhan)雙方各自具體說了些什麼,涉及到許多技術細節,我們就不展開了。

說到底,這依然是一個尚未有定論的問題。那麼我們能做什麼呢?

首先當然還是學好統計學,雖然它有著不夠完善的地方,但它仍然是探求真相的旅途中不可替代的工具

其次,在審視自己和他人的研究發現時,更要擦亮一雙慧眼,提高批判性思考的能力

推而廣之,作為科研工作者,我們在從我做起的同時,也應攜手改進學術界研究、編審和出版的機制,降低人為因素的影響,造就更高效、更透明的科學共同體。

本系列全部文章。

1 章  高屋建築看統計

你真的懂p值嗎?

做統計,多少資料才算夠?(上)

做統計,多少資料才算夠?(下)

提升統計功效,讓評審心服口服!

你的科研成果都是真的嗎?

 

 

參考文獻 
 

1.Reinhart, Alex. "Statistics done wrong."(2014).

2.Ioannidis, J. PA, 2005:Why Most Published ResearchFindings Are False. PLoS Medicine, 2(8), e124.

3.Jager, L. R., & Leek, J. T. (2014). An estimate ofthe science-wise false discovery rate and application to the top medicalliterature. Biostatistics, 15(1), 1-12.

4.Ioannidis, J. P. (2014). Discussion: why An estimateof the science-wise false discovery rate and application to the top medicalliterature is false. Biostatistics, 15(1), 28-36.

作者:張之昊

編輯:一枝黃花、燈盞細辛

 

 

arrow
arrow
    創作者介紹
    創作者 HCHUNGW 的頭像
    HCHUNGW

    HCHUNGW的部落格

    HCHUNGW 發表在 痞客邦 留言(0) 人氣()