做統計,多少資料才算夠?(上)| 說人話的統計學·協和八
原創 張之昊 協和八
上一集裡,我們討論了統計顯著性(也就是p值)這一統計推斷中最廣泛使用的工具。
什麼?你已經忘了我說了啥?
用一句話來概括:
p值就是在假定我們希望檢驗的效應並不存在(即「原假設成立」)的前提下,收集到了與我們所得到的結果相同或更極端的資料的概率。
如果這個概率足夠小(最常見的是小於0.05),我們就不得不問,人品怎麼可能這麼好(或者說這麼不好)?
答案是否定的(如果你對這點有所懷疑,想想你上次裸考蒙對10道選擇題是什麼時候)。
因此,我們的結論是,原假設並不成立,我們得到了具有「統計學意義上的顯著性」的結果。
統計顯著性,是支撐各種統計推斷方法的一條粗壯的大腿(咦這為什麼聽起來有點奇怪)——儘管這條大腿也有各種各樣的毛病(重溫上一集:你真的懂p值嗎?)。
現在問題來了——
如果p值並沒有那麼小呢?
比方說0.25?
這意味著什麼呢?
到底是原假設真的正確呢,還是我們手上的資料不夠?
如果藍精靈只扔了兩次鋼蹦兒,得到兩個正面(此時的p值正是0.25),藍精靈該認為鋼蹦兒公平的假設成立嗎?你一定會說,不對不對,得多拋幾次才行啊!
在實際科研中,做這個判斷可就沒那麼容易了。
其實,在所有的研究開始之前,我們都面臨這麼一個決策——
多少數據才算夠?
顯然,我們做研究的資源(人力、物力、財力和時間等)都是有限的,如果我們想要研究的問題需要的資料量遠遠超出我們的能力範圍,那麼我們就面對著一個殘酷的現實:
這個研究還沒有開始
就已經註定失敗了
即便你是土豪你任性,也得掂量掂量哪個課題能低投入、高回報,對不對?
為了能對研究所需的資料量作盡可能準確的估計,我們就需要用到統計推斷的第二條大腿——
統計功效
statistical power
(也稱統計效力、統計效能)
利用統計功效進行資料量的估計,稱為功效分析 (power analysis)。
第一類錯誤
第二類錯誤
與
統計功效
統計功效與統計顯著性有著極為密切的聯繫,而它們又建立在兩個統計學概念——第一類錯誤和第二類錯誤——之上。
在某個文藝小清新網站上,有一則作者不可考的略黃略暴力的故事很好地闡述了這幾個概念:
話說N年過去了,某位性別不明的地球統治者決定要消滅地球上的男人們。但是怎樣找到地球上所有的男人並把他們都消滅呢?這位統治者開發出了一種自動判別武器——
如果胸小於A罩杯,則殺無赦;如果等於或大於A罩杯,則放過。
如果用統計學的語言來說,由於武器旨在找出男人放過女人,每當它碰到一個沒見過的人時,它就先假設這是個女人(「原假設」),如果這人罩杯太小,那就認為這肯定不是個女人(「推翻原假設」)。
不是女人那還能是啥?
男人唄(「接受備選假設」)。
腥風血雨過後,結果不難想像:
絕大部分的男人都不帶走一片雲彩地離開了這個世界,而絕大部分女人都還在愉快地生活著,然而有些可憐的mm因為胸太小被誤殺,有些胸肌發達的gg卻因為胸很大而活了下來。
在這裡,武器的判別程式犯了兩種錯誤:
- 把一小部分小胸女人當成了男人,也就是在原假設其實為真時錯誤地拒絕了它,這在統計學中被稱為「第一類錯誤」;
- 把一小撮大胸男人當成了女人,也就是在原假設其實為假時錯誤地接受了它,這在統計學中被稱為「第二類錯誤」。
我們通常用一對希臘字母⍺和β來代表犯第一類和第二類錯誤的概率。在這個故事裡,⍺就是被錯殺的女人在所有女人中的比例,而β則是被放過的男人在所有男人中的比例。
到頭來,我們如何知道這個武器有多成功呢?
既然原來的目標是消滅男人,我們就看看到底多大比例的男人被幹掉了,這個比例就是1-β。
我們很快就會看到,這正是統計功效。
你在讀到第一類錯誤的時候,是否覺得有點兒似曾相識?
是的!
我們之前討論的統計顯著性說的就是這事兒,我們之所以要在p值足夠低的時候才拒絕原假設,就是為了讓我們犯第一類錯誤的可能性盡可能低。
那麼,第二類錯誤由誰來控制呢?
正是統計功效!
統計功效指的就是:如果我們感興趣的效應或差異的確存在,在給定的顯著性水準的規定下,我們能夠正確地拒絕原假設的概率。
這其實就是不犯第二類錯誤的概率,因此,統計功效的值可以用1減去β得到,用數學式子表示為
其中,P表示概率,(拒絕 H0 | H1 為真)表示在備選假設 H1為真的條件下拒絕了原假設H0的事件。
當瞭解了這一切之後,統治者很生氣,就不能兩種錯誤都少犯些嗎!ta得到的反應一定是:「臣妾做不到啊!!」
在任何統計學問題上,兩類錯誤都是此消彼長的。
如果統治者想少犯第二類錯誤,把大胸男們也一塊趕盡殺絕,那麼必然會有更多小胸女人中槍;相反,如果統治者想少犯第一類錯誤,降低罩杯標準,那麼男人們逃脫厄運就更容易了。
因此,我們的統計學巨人儘管努力地想用顯著性和功效這兩條大腿把第一類和第二類錯誤都踩在腳下,然而他卻是騎在一輛自行車上——放下一條腿,就只能抬起另一條腿。
決定統計功效的因素
好了,我們知道了統計功效是什麼,那麼它由什麼決定呢?我們又如何通過功效來找出需要的資料量?
我們再來講第二個故事:
讓我們再次回到山的那邊海的那邊,自從上次的擲鋼蹦兒事件以後,藍精靈和格格巫一直相安無事。有一天上課,藍精靈突然找不著一樣東西了,心想是不是早上起晚了匆匆忙忙落在了宿舍。正巧格格巫有事要回去,於是藍精靈就讓他幫忙找一找。過了一會兒,格格巫回來了,兩手一攤:“沒有啊!”(這裡我們認為格格巫的確去找了,不考慮格格巫使壞的可能性)此時藍精靈該怎麼想呢?那東西到底在不在宿舍?這個問題我們無法給出確鑿的回答。
既然沒有確定的答案,我們就退而求其次,看能否能算出某個概率。藍精靈真正關心的是什麼問題呢?是那樣東西在宿舍的可能性(概率)。
很遺憾,正如我們在上一集中討論過的一樣,目前常用的頻率學派的統計推斷方法無法得出這個概率,只有用貝葉斯推斷才能大致推測。關於貝葉斯的那些事兒我們留著以後再聊,現在我們稍微換個思路:如果東西真的在宿舍,格格巫能找到它的概率是多少?
細想一番,我們能夠發現,有以下幾個因素影響著這個概率。
首先,自然是那個東西的大小。
如果藍精靈讓格格巫找的是個紐扣,那即便紐扣真的在宿舍,格格巫也很可能會錯過;如果東西是個手機,找到的可能性就大些;要是找的東西是個冰箱,找到的可能性就幾乎是1了。
當然,格格巫他有沒有認真去找也很重要。
為了簡單起見,在這裡我們只討論格格巫找東西的時間:要是格格巫找了大半小時,東西就不大可能會漏網;要是格格巫敷衍了事半分鐘就回來了,即便東西再大,都很可能被他錯過。
還有別的要考慮的因素嗎?別忘了,宿舍本身混亂程度如何也能左右格格巫找到東西的可能性。要是宿舍裡窗明几淨井井有條,格格巫就不難發現東西;而如果宿舍一片狼藉(有鑒於鋼蹦兒事件,貌似這更接近於真實情況),找東西的難度可就大多了。
在上面這個故事裡,藍精靈要找的東西就是我們所感興趣的效應或差異,格格巫尋找的過程就是我們所做的實驗。我們可以通過類比來直觀理解影響統計功效的因素有哪些:
一、效應的大小(即故事中被尋找的東西的大小)。效應越大,統計功效越大。還記得在上一集裡我們討論“p值不是什麼”的時候,提到過p值不能代表效應的大小嗎?彼處所說的效應和這裡其實就是一個概念。我們辛辛苦苦做實驗、做統計分析,為的就是盡可能準確地找到效應有多大。目標越大,自然越容易被找到。
二、資料或樣本量的多少(即故事中格格巫找東西的時間)。容易想像,資料越多,統計功效越大。
三、資料中包含的「噪音」水準(即故事中宿舍有多亂)。如果噪音的水準(例如樣本的標準差)相對於效應而言很大,即便效應真實存在,也很容易被噪音掩蓋,從而無法得到有顯著性的結果。在實際應用中,由於效應大小和噪音水準必須互相比較才有意義,因此通常將兩者相除,計算出標準化的效應大小,從而將兩個量合併成為一個量。
另外,別忘了我們剛剛討論過,兩類錯誤是相互對抗的關係,因此,用於控制第一類錯誤率的顯著性水準也會影響用於控制第二類錯誤率的統計功效。
從上面的討論中,我們瞭解到,統計功效(1-β)由這些因素決定:
標準化的效應大小(ES)
樣本量(N)
顯著性水準(⍺)
統計學家們已經證明,這四個量只要知道其中任意三個,就能求出剩下的一個。因此,如果需要在開展研究之前估計所需的樣本量N,只需知道⍺、1-β和ES,剩下的事情交給電腦軟體就可以完成了。
事情聽起來很完美。
真的如此嗎?
仔細想一想,⍺和1-β都是人為的標準,確定起來並不難,可是效應大小ES呢?這不恰恰是我想通過研究來瞭解的嗎?如果我還沒開始研究就知道了效應大小,那我還哪裡用得著算數據量、做實驗呢?聽起來像是先有雞還是先有蛋的問題了,這便是功效分析最大的難點所在。
我們該怎麼辦?
在這裡我們將暫時賣個關子。
在下一集中,我們將討論估計效應大小的方法和提高統計功效的策略,並且還會為大家介紹一款進行功效分析的免費軟體。
參考文獻:
- http://www.douban.com/group/topic/12156052/
- http://www.graphpad.com/guides/prism/6/statistics/index.htm?stat_an_analogy_to_understand_stati.htm
- Bausell, R. B., & Li, Y. F. (2002). Power analysis for experimental research: a practical guide for the biological, medical and social sciences. Cambridge University Press
作者簡介
張之昊,2005年進入清華-協和臨床醫學八年制專業,後轉入清華生物系獲理學學士學位。2010年起在耶魯大學跨院系神經科學項目攻讀哲學博士學位,利用功能核磁共振技術與計算建模研究人類經濟決策的腦科學基礎。同時,還作為耶魯大學StatLab統計諮詢師為耶魯師生提供資料分析、實驗設計及統計學軟體的諮詢服務。