close

想玩轉t檢驗?你得從這一篇看起 | 協和八

原創 田菊 協和八 

小編按:t檢驗是醫學統計學中的一項重要方法了,但要問起有多瞭解,可能你要小小地搖頭啦。

今天我們「說人話的統計學」系列,開始給大家講講這個問題。

小編要自豪宣佈的是,今天的內容,是由我們的老熟人張之昊師兄,力邀哈佛大學醫學院的田菊師姐寫的。

小編覺得咱們的陣容要豪華地突破天際啦!

相信大家都還記得,我們在前兩集裡費了老勁,把中心極限定理梳理了個大概。你也許一面雲裡霧裡一面心裡嘀咕:講這麼些個有的沒的,有什麼卵用?

今天我們就來從最初級、但又是用得最多的統計學檢驗—— t 檢驗來講起,看看咱們之前花的功夫到底有沒有白費。

動筆一想,咱們好像好久沒講過故事啦!

今天就讓我們再次請出久違的藍精靈和格格巫——

某天藍精靈們正在食堂吃早飯,吃著吃著,笨笨突然說:

「大家最近有沒有覺得食堂的包子比以前小了?」

其它藍精靈紛紛表示有同感,回想起來,最近天天早上沒到十一點肚子就開始咕咕了。

於是群情激昂的大家一起來到包子窗口質問格格巫:

「最近包子是不是做得比從前小了?」

格格巫一口否認,悠悠說道:「你們啊!too simple, sometimes naïve!! 手工做的包子,當然有大有小,但是包子的平均大小我可是一直按照食堂標準來的啊。

我告訴你們,我是身經百戰的,見得多啦,你們的哪一個師兄師姐沒吃過我的包子。

你們的院長,比你們不知高到哪裡去了,我跟他天天坐在這兒,一人手上倆包子談笑風生。

你們也要努力提高自己知識水準,不要總想搞個大新聞,識得唔識得啊!?」

藍精靈們一時語塞,格格巫說的似乎也有那麼點道理。

那麼,藍精靈們該怎麼搞清楚,平均來講包子的分量到底有沒有小於食堂標準呢?

如果要深究,現在藍精靈要研究的物件是格格巫最近一段時間做出過的所有包子(上一集我們說過,這在統計學中稱為總體)。

顯然,這些包子絕大多數都已經被吃到肚子裡去了,再也稱不著了。

即使這些包子都在,由於時間和成本等原因,藍精靈們也不想把每一個包子都拿過來稱一下,而是希望通過測量一小部分包子(稱為樣本)來判斷包子的平均品質有沒有顯著地小於食堂規定的標準值(比如說50克)。

這種通過樣本來對總體的某個統計特徵(比如平均值,方差,分佈)做判斷的方法為假設檢驗

在很久以前,我們就曾講過,假設檢驗的思路和反證法有些異曲同工回顧本系列第一集1.你真的懂p值嗎?

首先,我們假定原假設是正確的,計算觀察到樣本中某個統計量的概率,如果這個概率很小,則拒絕原假設,接受與原假設相對立的備擇假設;如果概率比較大,則無法拒絕原假設。

換句話說,假設檢驗主要依靠觀察到的資料與原假設的不一致性來決定拒絕原假設與否

這種邏輯聽起來還是挺繞的,咱們用包子問題來說明一下。

藍精靈們採集包子樣本質量數據,發現樣本包子品質都遠小於標準值。

如果格格巫的包子總體的確是符合食堂標準的(原假設),那麼藍精靈只是因為運氣而獲得這樣樣本的概率會有多大呢?

會很低!

於是,藍精靈推斷原假設是錯誤的,即格格巫的包子不符合食堂標準。

值得注意的是,如果無法通過樣本的資料拒絕原假設,我們也不能認為原假設是成立的,因為有可能只是統計功效不夠,詳情可重溫我們討論統計功效的文章《做統計,多少資料才算夠?》)。

藍精靈們決定用假設檢驗的方法驗證一下,格格巫的包子是不是比食堂標準小。

他們提出了兩個對立的假設——

原假設:格格巫的包子是大於等於食堂標準的;

備擇假設:格格巫的包子小於食堂標準。

於是每天吃早飯的時候,藍精靈們有了一項新任務:稱一下自己吃到的包子的品質。

為了符合假設檢驗的前提,包子要隨機抽取,於是這事堅決不讓格格巫插手,而由窗口賣包子的由藍爸爸負責。

獲得了包子品質樣本之後,藍精靈們怎樣用包子樣本來判斷包子總體的平均值呢?

作為忠實讀者的你,想必記得樣本平均值是對總體平均值的一個合理的估計快速重溫9.算術平均數:簡單背後有乾坤,所以如果包子樣本平均值要是比食堂標準小得足夠多,包子總體就很有可能是小於食堂標準的。

可是小多少是足夠小呢?

藍精靈們被難住了。

正如格格巫所說,包子的大小有一定的隨機性,假如隨機抽取100個包子作為一次測量,算出這100個包子的平均品質。

然後再隨機抽取另外100個包子,又算出一個新的平均品質。

這樣的步驟重複多次,每一次的平均值也會不一樣。

假如格格巫的包子是符合標準的,那麼隨機抽取100個包子的平均品質應該圍繞標準包子品質上下波動

這裡我們假設藍精靈們只能抽取一組樣本。

不難想像,這個樣本裡頭的包子的品質平均值很可能或多或少與食堂的標準品質有點差異。

關鍵的問題在於,這個差異和樣本平均品質應有的波動大小相比,到底是大還是小

直觀來講,如果這個差異和樣本均值的波動範圍相比微不足道,那麼藍精靈對格格巫的指控就有點站不住腳了。因此,一種可能的思路是,根據樣本均值與標準值的差距、樣本均值的波動範圍算出兩者的比值,然後用這個比值的大小來做判斷。

那如何獲得樣本的平均品質的波動範圍呢?

統計學中一般用標準差(standard deviation)來反映一個隨機變數(比如包子品質)的波動:標準差大,說明這個隨機變數容易取值遠離平均值;標準差小,則取值往往在平均值附近。

樣本平均值的波動是由單個隨機變數的波動和樣本大小所決定的。不難想像,抽樣的樣本越大,樣本平均值就越接近真實的平均值,樣本平均值的波動也會更小。

數學上可以證明,如果樣本大小為N,樣本平均值的波動(標準差)等於總體波動(標準差)除以WeChat 圖片_20200519150525.jpg。這就是說如果總體中包子品質的標準差是10克,那隨機取100個包子的平均品質的標準差就是

 

WeChat 圖片_20200519150556.jpg

 

為什麼樣本均值的波動會比總體的波動小呢?試想一下,由於樣本是把N個包子的品質取均值,而這N個包子裡總是更可能有大有小,因而平均起來就會相互抵消,造成的結果就是波動範圍變小。而且,N越大,這種相互之間的「拉平」作用就會愈加明顯,從而波動(標準差)就減小得更多。

既然我們剛才說,要用樣本均值與標準值的差距和樣本均值的波動範圍兩者的比值來做個決斷,那麼我們將樣本均值記為總體均值(也就是我們真正關心的統計量——格格巫做出的包子的真正平均品質)記為μ0,總體的標準差為σ,樣本大小為N這個比值就是

 

WeChat 圖片_20200519150633.jpg

 

可以看作是標準化了的樣本與總體均值的差距,稱為檢驗統計量 (test statistic)

現在我們有了這麼一個比值z,因為分子是樣本包子平均品質減去包子標準品質,所以如果z是負的,樣本的包子就比標準要輕。

可是我們還是不知道,到底z要有多負我們才能有把握地說格格巫有貓膩?

這時藍精靈們就需要抱中心極限定理的大腿了!

中心極限定理指出,如果從一個總體中多次抽取樣本,每次獲得的樣本平均值會以正態分佈的形式分佈在總體平均值附近。

更具體地說,在原假設成立的情況下,樣本平均值由於抽樣的隨機性導致的服從均值為μ0,標準差為WeChat 圖片_20200519150908.jpg的正態分佈。

在這裡,我們需要稍稍討論一些關於正態分佈的技術細節。大家記得正態分佈是個鐘形曲線,可是鐘形曲線在數軸上可左可右,形狀可胖可瘦,這由什麼決定?

任意一個正態分佈可以由兩個參數確定,一個是它的均值(也叫位置參數)µ,決定它在數軸上的什麼方位;一個是其標準差(也叫形狀參數)σ,決定它的胖瘦。

因此,我們把正態分佈記為N( µ, σ)。需要注意,這裡說的均值和標準差,是正態分佈自身作為一個概率分佈的性質,不要與我們之前討論的具體問題如包子品質的均值混淆了。

下圖所示即是兩個不同的正態分佈N(1,0.5)N(0,1)

 

WeChat 圖片_20200519150805.jpg

 

我們已經知道,樣本平均值WeChat 圖片_20200519151009.jpg服從正態分佈 N( μ0, WeChat 圖片_20200519150908.jpg )。那麼咱們之前說的那個比值z呢?正態分佈還有一個有趣的性質,那就是一個任意的正態分佈可以通過數軸上的平移和拉伸變成一個特殊的正態分佈N(0,1),也就是平均值為0,標準差為1的正態分佈(稱為「標準正態分佈」)。而我們之前從WeChat 圖片_20200519151009.jpgz的變換,恰恰達到了這個效果(有興趣的讀者可以回顧上集正態分佈的概率密度函數,想想看為什麼)。

這下可好了,根據中心極限定理,如果令統計量WeChat 圖片_20200519151121.jpg,則z服從標準正態分佈N(0,1)。現在,藍精靈只需要根據標準正態分佈N(0,1)的性質,找出在什麼情況下,觀察到z的可能性小到了一定程度,以至於難以相信格格巫的包子是合格的。

藍精靈雖然不喜歡格格巫,但是也不想冤枉他,所以希望制定一個標準,使得在包子其實符合食堂標準的情況下,誤判包子比標準小的概率小於一個臨界值α,用統計的語言說就是原假設為真時拒絕原假設的概率小於α(還記得我們在2.做統計,多少資料才算夠?(上)裡說過的根據罩杯分男女的故事不?)。

這一概率就是我們常常說的P,而顯著性的門檻α通常會取0.05

在備擇假設為「包子小於標準值」的情況下,P值對應的概率等於標準正態分佈中小於給定z值部分的概率之和,即下圖的陰影面積。

假如我們取α= 0.05,對應的z值等於1.645(圖中的zα),也就是說只要用樣本計算出來的WeChat 圖片_20200519151244.jpg<-1.645的時候,即z值落在途中陰影部分的時候,就能比較可靠地拒絕原假設,陰影部分對應的區域稱為拒絕域

如果所得的z值大於-1.645,則無法判斷格格巫的包子是否符合標準。

 

WeChat 圖片_20200519151411.jpg

 

圖片來源:http://2012books.lardbucket.org/books/beginning-statistics/s12-testing-hypotheses.html

現在藍精靈們只要用公式WeChat 圖片_20200519151454.jpg計算出z並且比較是不是小於-1.645就可以知道格格巫做的包子是不是偏小了!

等等,好像有什麼不對——這個公式裡面的σ取值並不知道啊,那怎麼辦?

正如樣本的平均值可以作為總體平均值的估計一樣,樣本的標準差也可以作為總體標準差的估計。我們將樣本標準差記為S,用S代替σ可以得到一個新的檢驗統計量WeChat 圖片_20200519151547.jpg

當樣本量N足夠大時,S會非常接近σt也會很接近標準正態分佈

但是當N比較小時,樣本方差往往會小於總體方差,比如在只有一個樣本的極端情況下,樣本方差必然是0,這顯然比總體方差要小了。

由於這個原因,N比較小時,t的分佈就會偏離正態分佈。

統計學家發現,在總體服從正態分佈的前提下t會服從另外一種分佈,稱為學生t分佈

根據t分佈的性質,我們同樣可以算出t取不同數值時對應的p值是多少,從而對原假設做出推斷。

根據檢驗統計量t得出的假設檢驗法稱為t檢驗法

t檢驗法特別適用於樣本量比較小的情況下的統計假設檢驗。

樣本量t檢驗能否有顯著性的一個重要因素,樣本量主要通過兩種方式影響t檢驗的結果。

一是樣本量影響統計檢驗量t值的大小,從公式WeChat 圖片_20200519151641.jpg可以看出,tWeChat 圖片_20200519151710.jpg成正比的,t值越大,圍住的t分佈的陰影面積越小,對應于我們平時關心的P值就越小。另一個是樣本量影響t分佈的形狀。

如下圖所示,樣本量很大時,t分佈接近正態分佈;但當樣本量變小時,t分佈的尾巴會變肥,而且樣本量越小尾巴越肥,也就是說同樣的t值對應的P值會越大。

由於這兩個原因,在用t檢驗時,增加樣本的數量是提高統計顯著性的有效手段

WeChat 圖片_20200519151744.jpg

 

圖片來源,Significance, P values and t-tests. Martin Krzywinski & Naomi Altman. NatureMethods 10, 1041–1042 (2013)

 

講到最後,我們來插一段學術八卦:很多讀者可能會和我一樣,好奇為什麼t分佈也叫學生t分佈

記得我曾經還傻傻地誤以為是學生課堂實驗做出的資料會服從學生t分佈。

實際上,「學生」是發現這個分佈的數學家戈塞特(Gosset)的筆名,他於1908年在一個叫Biometrika的雜誌上,發表了關於t分佈的文章,當時就是用的這個筆名。

為什麼發文章要用筆名呢?

因為當時GossetGuiness啤酒廠(是的你沒有看錯,就是那個現在還存在的健力士牌黑啤酒)工作,為了檢測啤酒品質而發明了t分佈。

可是,公司不允許員工公開發表研究成果,於是戈塞特才被迫用筆名發表了文章。

有沒有一種高手在民間的感覺?

其實,戈塞特可不是什麼「諾貝爾哥」之類的民科,他在發表這篇關於t檢驗的文章之前,曾在現代統計學的開山鼻祖之一皮爾遜(KarlPearson)的實驗室訪問過一兩年。

因此他很好地把基礎研究和實際應用結合了起來,在統計學的歷史上留下了自己光輝的一頁。

今天,我們講述了t檢驗最簡單的一種情形——單樣本t檢驗的理論基礎。

在接下來的幾集裡面,我們將會把t檢驗一家子翻個底朝天,為大家進一步介紹科研實踐中更常見的成對和獨立樣本t檢驗的實際使用、正態性的檢驗以及正態性不能滿足時的應對策略

想要玩轉t檢驗?別忘了繼續關注「說人話的統計學」哦!

作者簡介

田菊,2006年進入清華大學工程物理系,2010年畢業獲得工學學士學位。此後,在哈佛大學醫學院神經科學專案攻讀哲學博士學位至今,運用電生理技術和光遺傳學在小鼠上研究基於獎賞的學習行為的神經回路及其計算模型。因為熱愛資料分析,今年夏天博士畢業後,將加入Facebook從事「21世紀最性感的職業」——資料科學家

 

編輯:燈盞細辛

系列文章

1 章  高屋建築看統計

你真的懂p值嗎?

做統計,多少資料才算夠?(上)

做統計,多少資料才算夠?(下)

提升統計功效,讓評審心服口服!

你的科研成果都是真的嗎?

見識資料分析的「獨孤九劍」

貝葉斯vs頻率派:武功到底哪家強?

 

2 章  算術平均數與正態分佈

數據到手了,第一件事先幹啥?

算術平均數:簡單背後有乾坤

正態分佈到底是怎麼來的?

 

3   t 檢驗:兩組平均數的比較

想玩轉t檢驗?你得從這一篇看起

 

 

arrow
arrow
    創作者介紹
    創作者 HCHUNGW 的頭像
    HCHUNGW

    HCHUNGW的部落格

    HCHUNGW 發表在 痞客邦 留言(0) 人氣()