close

你真的懂p值嗎? | 說人話的統計學·協和八

原創 張之昊 協和八 

小編按:有些東西,完美詮釋了「少壯不努力,老大方恨少」(咦好像不是這麼背的…),比如統計學知識。更無奈的是,當你意識到統計學的重要想再去自學的時候,已經看不懂書上在說什麼了。

統計學有那麼難?

不要慌,「說人話的統計學」系列正式開播,帶你無障礙瞭解高深的統計學,快來看吧~

 

你真的懂P值嗎?

 

面對文獻裡五花八門的統計學名詞、層出不窮的測試和模型,你是否後悔當年的統計課上不該睡大覺?

辛辛苦苦做了實驗收了資料,正想大步邁向SCI高分文章,你是否不知資料分析該如何下手?

投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?

別擔心,你不是一個人在戰鬥!

在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。

我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。

還會在統計學表面的蕪雜之中為你闡明最本質的思維方法。

我們的目標是,讓你擁有一雙善用統計學的巧手,和一雙能辨清濫用統計學的慧眼。

你會發現,成為統計達人也可以很輕鬆!

 

1, p值到底是個啥?

 

有人說:「統計學就是個p!」此p可不像彼「屁」,可以一放了之。作為假設檢驗的核心工具,它經常決定著一個發現的價值、一篇論文的成敗。你一定忘不了做課題時為p歡喜為p憂的經歷:得到p小於0.05時欣喜若狂,得到p大於0.05時灰心喪氣。可以,你真的懂p值嗎?它到底是什麼?

隨便翻開一本統計學課本,我們會看到這樣的定義:

p值是在假定原假設為真時,得到與樣本相同或者更極端的結果的概率。

你的反應多半會是:「說人話!」

好好好,那咱們來舉個例子:假設明天就要宿舍衛生檢查了,可同住一屋的藍精靈和格格巫都不想搞衛生,在一番謙(si)讓(bi)之後,格格巫掏出一塊看起來很無辜的鋼蹦兒,提議這事兒交給老天爺決定:正面藍精靈做,反面他做。被格格巫坑過或試圖坑過不止一次的藍精靈心想,這鋼蹦兒會不會不太對勁,拋出來正反面的可能性不一樣大?於是藍精靈拿到鋼蹦兒,跑到牆角自己先拋了五遍,結果傻眼了——五遍都是正面!格格巫的陰謀就這樣再一次被挫敗了……

這事兒跟p值有半毛錢關係嗎?有!

回到剛才你讀過的定義上,咱們來細想一下,藍精靈同學如果學過統計學的話會是怎麼考慮的。

首先,本著疑罪從無的原則,善良的藍精靈假定格格巫的鋼蹦兒是均勻的,也就是拋出來正面和反面的概率都是0.5。這就是定義裡的「原假設」。

而藍精靈的「樣本」是,拋5次鋼蹦兒,得到了5個正面。由於只拋了5次,不可能得到比5次更多的正面了,因此在這個例子裡不存在比樣本「更極端的結果」。

那麼,什麼是「與樣本相同」的結果?

這取決於藍精靈是否對這枚鋼蹦兒偏向某一邊有特定的假設。

藍精靈想起,格格巫提出的辦法是如果反面就由他搞衛生,那就應該沒有鋼蹦兒偏向反面的可能性。

所以他認為,要是這塊鋼蹦兒不均勻,就只可能偏向正面。

在這種情況下,「與樣本相同的結果」就只有5次正面這一種。

所以,如果鋼蹦兒是均勻的,連拋5次得到都是正面的概率就是0.55次方,也就是0.03125,這就是我們所說的p值。

換句話說,這種結果得玩兒32次才會出現1次。即使不做這樣的計算,藍精靈從日常生活的經驗中,也能感覺到,對於一塊均勻的鋼蹦來說,得到這樣的結果實在不太可能了。

與其相信這樣的小概率事件真的發生了,我們覺得更合理的解釋是這塊鋼蹦兒根本就不是均勻的。

多小的p值算是小?

在統計學中,最常用的界線是0.05,因為這個樣本對應的p值小於0.05,所以藍精靈拒絕了原假設,也就是人們常說的「具有統計學意義上的顯著性」,認為格格巫拿出了一塊偏向正面的鋼蹦兒。

好了,現在我們再念一遍p值的定義:

p值是在假定原假設為真時,得到與樣本相同或者更極端的結果的概率。

是不是更像一點兒人話了?

之所以費半天勁來解釋這一句話,是因為p值的定義中蘊含了顯著性檢驗的基本思維方法,這種思維方法幾乎被運用在所有主流的統計學分析之中。

對它的準確理解,不僅是通向掌握各種具體的統計學測試的大門,更影響著我們對統計分析結果的解讀。

如果你還是覺得有點繞不過來,不妨回憶一下高中數學證明題的大殺器——反證法。

在反證法中,為了證明某個命題是錯誤的,我們首先假設它成立。

在這個前提下,我們根據已知條件推導出與此前提或者其他公理、定理相矛盾的結論。

由此我們認為,我們的假設一上來就錯了。

根據p值進行統計推斷的思想跟反證法是一脈相承的。

但是,兩者有一個關鍵的區別。

由於隨機性的存在,在統計推斷中,我們無法像在反證法中一樣斬釘截鐵地認定原假設是錯誤的,我們只能根據「小概率事件在一次隨機實驗中不會發生」的原理做出能否推翻原假設的決策。

回到藍精靈和格格巫擲鋼蹦兒的例子,即便是一塊真正均勻的鋼蹦兒,也有0.03125的概率連續出現5個正面。

藍精靈之所以能夠拒絕認為鋼蹦兒均勻,並非因為他確切地知道鋼蹦兒有問題,而是他所擁有的資料非常不支援鋼蹦兒均勻的假設。

換言之,藍精靈是有可能錯怪了格格巫的,只是錯怪的可能性足夠小而已。

所以p值到底是個啥?

它是基於特定假設和實際樣本進行統計推斷的一個工具。

某種意義上說,p值體現了如果原假設成立,一個人看到樣本時的奇怪程度。

p值越小,我們獲得的樣本在原假設成立的前提下越不可能出現。

而當p值小到一定程度時,我們不得不認定,我們的前提是錯誤的,因為可能性這麼小的事件實在是太難發生了。

 

2,p值不是什麼?

 

如果你看完了上面這個部分,覺得已經看懂了p值的定義,可以把文章關掉了的話,我要高呼一聲:且慢!

p值是目前科學界廣泛使用的主流統計學方法中最重要的一個概念,同時也可能是被誤讀最多的一個概念。

翻開各學科的文獻,很容易就發現對p值的錯誤理解和表述,即便是發表在NatureNEJM之類最頂級期刊的文章偶爾也不能免俗。

所以,弄清楚p值是什麼和p值不是什麼同樣重要。

下面,我們就來一起認清楚這些個大坑:

p值不是原假設為真的概率,也不是備選假設為假的概率

神馬?

剛才不是說p值很低的時候,拒絕原假設,認為備選假設是真的嗎?

那難道不是說p值代表原假設有多真嗎?不是。

這個問題最簡單的解釋是,對於任何一個假設,它為真的概率都是固定的。

然而,我們已經知道p值是根據具體的樣本資料計算得出的,同樣的實驗重複做幾次,每次得到不同的樣本,p值也自然會有區別。

因此,p值不可能是原假設為真或備選假設為假的概率。

如果我們想得再深一點兒,回憶之前我們描述的顯著性檢驗的思維框架,p值越低,樣本提供的證據越不支援原假設,低到一定程度的時候我們認為原假設是假的,而備選假設是真的。

p值只描述樣本與原假設的相悖程度,原假設的真與假是我們以此為根據做出的一個判斷。

p值並不能描述原假設和備選假設本身為真的概率。

那麼說,我們做實驗收資料做分析忙活兒了半天,卻依然不能知道我們的假設具體有多大可能是真的?

很遺憾,對這個問題的回答是肯定的。

我們今天所廣泛使用的一整套統計推斷和假設檢驗方法及其思想體系(被稱為「頻率學派」),是由活躍於上世紀的英國統計學家費希爾開創的。

p值能做的,就是在特定的零假設條件下對資料特徵進行分析。

但是,我們如果要對這些假設本身作出判斷,光憑資料本身還不夠,我們還需要瞭解現實世界中除了我們感興趣的假設以外其他假設存在的概率。

實際上,假設成立與否的概率是統計學科中另一個近年來日漸受到重視的流派——貝葉斯學派——試圖解決的問題,也有不少統計學家呼籲科學界應當用貝葉斯方法補充甚至替代如今以p值為中心的方法。

這些已經遠遠超出今天的主題,我們暫時就不展開討論了。

p值並不能代表你所發現的效應(或差異)的大小

正如我們說過的,p值只關心資料與原假設之間有多不一致。

但是,如果某種效應或差異存在,p值並不能準確地告訴我們效應的大小,更不能告訴我們這效應是否具有實際意義。

比如說,我們開發了一種降血壓藥物。

在臨床試驗中,我們比較受試者在服藥前後血壓的降低,得到了p值小於0.05的顯著結果。

這意味著什麼呢?

我們可以有信心地認為,這種藥物能夠降低受試者的血壓。

但是,光從p值中,我們無法知道藥物到底能使血壓降低多少。

事實上,也許藥物僅僅能夠使受試者的血壓降低微乎其微的程度(如2mm/Hg),如果我們有足夠多的受試者,我們同樣能夠得到很小的p值,但是這樣的效應並沒有顯著的臨床意義,也沒有實際的商業價值。

因此,在科學文獻中,當我們報告統計測試的結果時,不能僅僅給出p值,還需要給出相應的效應大小(取決於具體的測試,比如均值的差、回歸係數、OR值等)及其置信區間,這樣才能使讀者更全面、準確地評估研究發現的意義。

為什麼是0.05

我們前面提到,在顯著性檢驗中,當p值小到一定程度時,我們就認為原假設不成立。

可是為什麼這條線就劃在了0.05這裡?

這個問題有一個很無趣的答案:這是費希爾老爺子隨口一說的。

為了避免像錯怪格格巫一樣的錯誤,我們希望盡可能保守一些,因此顯著性的界限也應該比較小。

但是另一方面,這個界限也不能太小,不然社會投入到科研的資源無法滿足能得到顯著性結果的樣本量。


費希爾的隨口一說之中似乎也包含了某種神奇的直覺。

有學者提出,對於過去近百年中生物醫學和社會科學(運用統計學方法最普遍的學科)研究中常見的效應大小和樣本量而言,0.05這個界限恰好在任何實驗都做不出顯著性結果和假陽性發現滿天飛之間找到了一點微妙的平衡。

當然,科學研究在不斷地發展,當代的許多新領域(如基因組學)中的海量資料和測試已經對0.05這條金標準作出了挑戰,統計學家也發展出了新的對策。

這裡我們先按下不表,在後續文章中將會一一道來。

另外,0.05的存在也是「前電腦時代」的一個歷史遺留產品。

九十年代以前,電腦和統計軟體還沒有被廣泛使用,人們進行統計學分析時,往往需要借助統計學表格,把根據樣本算出的統計量與表格中的臨界值進行比較。

由於篇幅所限,表格自然不能列出所有的p值,因此當時的人們都傾向於報告p<0.05的結果。

隨著統計軟體的流行,如今獲得精確的p值已不是難事,人們也不再採用這樣模糊的表述了。

但是0.05這個門檻兒卻成為了一種文化,被科學界保留了下來。


 

參考資料:

1. Reinhart, Alex. "Statistics done wrong." (2014).

2. Nuzzo, R. (2014). Statistical errors. Nature, 506(7487), 150-152.

3. Anonymous. Why P=0.05? http://www.jerrydallal.com/lhsp/p05.htm

 

 

作者簡介

 

張之昊,2005年進入清華-協和臨床醫學八年制專業,後轉入清華生物系獲理學學士學位。2010年起在耶魯大學跨院系神經科學項目攻讀哲學博士學位,利用功能核磁共振技術與計算建模研究人類經濟決策的腦科學基礎。同時,還作為耶魯大學StatLab統計諮詢師為耶魯師生提供資料分析、實驗設計及統計學軟體的諮詢服務。

 

arrow
arrow
    創作者介紹
    創作者 HCHUNGW 的頭像
    HCHUNGW

    HCHUNGW的部落格

    HCHUNGW 發表在 痞客邦 留言(0) 人氣()