就是要實用!t 檢驗的七十二變 | 協和八
原創 張之昊 協和八
小編按:上一期為大家講了 t 檢驗的來龍去脈,今天的內容,我們繼續沿著這個話題說,為大家介紹 t 檢驗這一大家子的成員!
在上一集《想要玩轉 t 檢驗?你得從這一篇看起》裡,我們通過藍精靈吃包子的例子講述了 t 檢驗的基本原理,以及它和中心極限定理、正態分佈的關係。我們還順帶回顧了一下 p 值是怎麼來的,而且討論了在t 檢驗中計算 p 值的原理。
這一集,我們來從實用的角度,來說一說 t 檢驗能幹些什麼事兒,不能幹些什麼事兒。
單樣本 t 檢驗
讓我們先來回想一下,上一集我們是怎麼講到 t 檢驗的。
我們的主角藍精靈疑心食堂賣包子的格格巫偷工減料,包子的重量達不到食堂規定的標準(50克)。可是呢,正如格格巫所說,畢竟是手工做的包子,總歸有大有小,單拿出一個包子發現份量輕了,也許只是碰巧拿了個小的。更合理的做法便是,隨機抽取一定數量的包子作為樣本,計算出這若干包子重量的平均值,然後檢驗這個平均值與食堂標準之間差異的顯著性。
為了這個目的,我們可以根據樣本算出統計量:
,
其中是樣本平均值,
是標準值,S 是樣本標準差,N 是樣本量。
在總體服從正態分佈的前提下,統計量 t 服從一個類似於正態分佈的概率分佈——t 分佈。對於任意的 t 值,我們可以根據 t 分佈的性質(我們在上一集的末尾提到,它其實還與樣本量 N 有關)算出對應的「與樣本相同或更極端」的概率,這就是我們所說的 p值了。
這個例子所使用的 t 檢驗,是將樣本的平均值與某個特定的標準值相比較,稱為「單樣本 t 檢驗」(one sample t test), 是 t 檢驗家族裡我們介紹的第一個成員。
在實際應用中,這個「特定的標準值」往往有兩個來源。
第一個來源便是我們上面例子的情形,即某個人為規定的、需要達到的標準。這常常出現在工商業中的品質控制環節,恰恰也是 t 檢驗的發明者戈塞特的初衷。
第二個來源則是由大樣本所決定的某些參考值或「正常值」。比如說, 人體的許多生理生化指標和人口學特徵都有已知的參考值,這些都是通過常年積累的大量資料確定下來的。如果我們想知道一個特定特殊人群(比如某個地區的居民、某個職業的從業者、某種疾病的患者)在某個特定指標上是否與參考值不同,也可以用單樣本 t 檢驗。
對於後面這種用法,嚴格來說稍微有一點問題,因為對於總體來說,該指標並不是必定取到參考值,而是會圍繞參考值有一定的波動範圍。因此,直接對總體均值進行單樣本t 檢驗會有些過分苛刻,從而使得差別的顯著性略有誇大。
一段題外話:單側檢驗與雙側檢驗
這裡我們順便再重溫一下單側核對總和雙側檢驗的區別。
在藍精靈吃包子的例子裡,由於藍精靈根本不認為格格巫會做出平均品質大於食堂標準的包子(試求格格巫過往在藍精靈心目中留下的陰影面積),因此他們只關心格格巫的包子是否小於食堂標準。在這種情況下,他們的原假設和備擇假設是這樣的——
原假設:格格巫的包子重量大於等於食堂標準。
備擇假設:格格巫的包子重量小於食堂標準。
因為備擇假設中的差別是單方向的(只有「小於」),我們把這種情況稱為「單側檢驗」。
我們以前曾經說過,之所以把要檢驗的問題放在備擇假設裡,而把它的對立面作為原假設,是出於「疑罪從無」的原則,僅當資料強烈反對原假設(也就是 p 值很小)時,才推翻原假設。
這時候 p 值怎麼算呢?
p 值的定義是在原假設成立的前提下觀察到與資料相同或更極端的結果的概率,由於備擇假設是單側的,所以比資料更極端的結果也就是比實際資料更小的樣本均值。在統計量裡,當
更小時,t 也更小,所以 p 值就是 t 分佈下由資料所得的 t 值左邊的曲線下的面積了。
那麼什麼是雙側檢驗呢?
在同樣的例子裡,如果藍精靈對格格巫並沒有什麼壞印象,只是想知道他賣的包子份量和食堂規定的標準有沒有差別,而不在乎這個差別是小了還是大了。此時,他們的原假設和備擇假設就變成了——
原假設:格格巫的包子重量等於食堂標準。
備擇假設:格格巫的包子重量不等於食堂標準。
這就是「雙側檢驗」,它與單側檢驗的區別就在於「比資料更極端的結果」包含的範圍更廣。在雙側檢驗的情況下,更極端的結果不僅僅是更小的樣本均值,而是與標準值之間更大的差別(無論這個差別是比標準值小還是大)。
由於 t 分佈是對稱的,因此對於同樣的樣本而言,雙側檢驗對應的 p 值將會是單側檢驗的兩倍。
我們在第四集《提高統計功效,讓評審心服口服!》中講過,使用單側還是雙側檢驗,這個決定必須在看到資料之前做出,絕不能分析完資料以後回過頭來改用單側。如果在閱讀文獻時遇到使用單側檢驗的情形,一定別忘了問問自己,作者是否有充分的理由不考慮另一個方向的效應,抑或只是人為地提高顯著性。
讀過「說人話的統計學」的你,可不該被這樣的小把戲騙到啦!
成對樣本的 t 檢驗
為了說明 t 檢驗的另外一種使用方式,讓我們來開一開腦洞。
假設格格巫賣的包子是藍精靈們唯一的食物來源,而且每天藍精靈食用的包子個數是恒定不變的(喂喂喂,藍精靈怎麼聽起來這麼可憐)。為了控訴格格巫這段時間以來偷工減料給他們帶來的身心摧殘,藍精靈決定拿出新的證據:最近兩個月以來他們的平均體重減輕了。
他們需要怎樣的資料呢?
很簡單,隨機抽取若干個藍精靈,獲得他們兩個月以前和現在的體重測量資料,然後比較兩個平均值的差別就行了。
很顯然,之前介紹的單樣本 t 檢驗就不再適用了,因為我們是要比較兩個平均值的差別,而不是一個平均值和已知標準值的差別。這時,我們要使用的統計檢驗被稱作「成對樣本的t檢驗」(paired samples t test)。
但是注意,這裡兩個樣本中的每個數據點都是一一對應的:對於我們抽取的那幾個藍精靈,都為兩個月前體重的樣本和當前體重的樣本各貢獻了一個數據點。
既然如此,我們可以把每個藍精靈當前的體重減去兩個月前的體重,於是兩個樣本就變成了一個體重變化量的樣本。
既然變成了一個樣本,我們是不是可以用單樣本t檢驗呢?
回到藍精靈試圖驗證的問題:他們的平均體重是否減輕了。因此,此時的標準值應該對應沒有體重變化的情況,也就是 0。
也就是說,成對樣本的 t 檢驗實際上就是對前後變化量作標準值為 0 的單樣本t檢驗。
在許多統計學軟體中,單樣本 t 核對總和成對樣本 t 檢驗會被分為兩個獨立的選項。
感興趣的讀者不妨自己找兩列資料驗證一下,先對兩個成對樣本進行 t 檢驗,再計算出變化量進行單樣本t檢驗,得到的結果將是完全一樣的。
成對樣本的 t 檢驗最常見於同一組實驗物件兩個時間點(比如說干預前後)之間的比較。
除此以外,還有一種情形,就是兩組實驗物件雖然是不同的個體,但是存在其它的一些關聯,使得兩組中的個體能夠一一對應起來。
例如,我們想瞭解人群中某稀有致病突變攜帶者的一項血液學指標和健康人有何差別。
我們可以在測量了我們所能找到的該突變攜帶者的該項指標以後,在健康人群中尋找在種族、年齡、性別、病史等等其它因素與每個攜帶者都儘量相似的受試者。
這樣,我們仍然有了兩個「成對」的樣本,因此也可以使用成對樣本的t檢驗。
獨立樣本的 t 檢驗
為了對格格巫進一步宣戰,藍精靈們再一次碰頭,想出了一個新點子。
他們決定走訪兩條街以外黃精靈的食堂,買來一堆包子稱稱重量,看看是不是比格格巫的包子更大一些。
這時候他們又該用什麼檢驗呢?
很顯然,此時兩個樣本很難有什麼直接的一一對應關係了(甚至樣本量都可能不一樣),成對樣本的 t 檢驗在這裡並不適用。
這時,我們需要認識t檢驗家族的第三名成員——「獨立樣本的 t 檢驗」(independentsamples t test)。
顧名思義,它用於比較來自兩個獨立的樣本的均值。
回想一下,在單樣本 t 檢驗中我們指出,這個檢驗之所以被為 t 檢驗,是因為我們通過樣本的資料構建出了一個服從 t 分佈的統計量。
而對於獨立樣本的 t 檢驗來說,我們仍然是在構造統計量 t,但由於我們比較的是兩個均值,它的分子就變成了(下標 1 和 2 分別表示兩個樣本)。
那麼分母呢?
在單樣本t檢驗裡,我們以樣本均值的標準差作為總體均值標準差的一個估計,來衡量均值與參考值的差別到底有多大。
在獨立樣本的 t 檢驗裡,我們同樣在做類似的事情,但因為涉及到兩個樣本,具體說起來會有些囉嗦,我們就不深入展開了。
但是,有一個技術性問題需要注意。
由於我們是在比較兩個樣本,而這兩個樣本可能來源於兩個不同的分佈,因此在確定 t統計量的分母時,我們需要考慮兩個樣本所來自的分佈是否有相同的發散程度(即方差)。
因此,在我們使用獨立樣本的 t 檢驗之前,需要先進行另外一個檢驗,查看兩個樣本各自來自的分佈方差是否相等,進而對 t 統計量以及有效的樣本量(稱為「自由度」)進行不同的處理或修正。
所以,t 檢驗家族的這位成員實際上是對雙胞胎,一是方差相等的獨立樣本的 t 檢驗,二是方差不相等的獨立樣本的 t 檢驗。
對於兩個樣本的方差是否相等,一個常用的檢驗是Levene 氏檢驗 (Levene’s test)。
這個檢驗的原假設是兩個分佈方差相等。
與所有其它檢驗一樣,它會給我們一個 p 值。當 p 值大於 0.05 時,我們就不能拒絕原假設,即認為兩分佈方差相等;反之則認為兩分佈方差不相等。
在不少統計學軟體中,Levene 氏檢驗已經預設稱為獨立樣本 t 檢驗的一個步驟。
例如在 SPSS 裡,當我們使用獨立樣本 t 檢驗時,它會自動給出 Levene 氏檢驗的結果,並同時輸出方差相等和不相等的結果,我們只需根據 Levene 氏檢驗讀取合適的部分即可。
t 檢驗不能做什麼?
認識了 t 檢驗的一家子,我們知道,它們的作用是對樣本的均值進行統計推斷。
但是,與瞭解它們能做什麼同樣重要的是,瞭解它們不能做什麼。
第一,t 檢驗不能用於非連續變數的比較。
我們在《數據到手了,第一件事先幹啥?》裡說過,資料可以分為離散型變數和連續型變數兩類。對於離散型變數(如性別、種族、籍貫)等,本身就並非數值,自然沒有均值可言。
然而,很多時候,我們在資料檔案中會用數位給它們編碼(比如 1 和 2 分別表示女性和男性),這時如果我們在統計學軟體中執行 t 檢驗,仍然可以算出結果(因為有了具體數值就可以套進 t 統計量的公式,進而得到 p 值),但這樣的結果是沒有意義的。
對於離散型變數的組間比較,我們以後將會具體介紹。
第二,t 檢驗不能用於超過兩組變數之間均值的比較。
我們知道,t 檢驗可以用在單個或兩個樣本的均值上,那如果不止兩個樣本呢?
答案是否定的。
為什麼不能兩兩比較然後得出某種統一的結論呢?我們這裡先賣個關子,幾集以後我們講到方差分析(analysisof variance,ANOVA)時再來詳細討論。
第三,即便是連續型變數,如果不服從正態分佈,也不能用 t 檢驗。
這是許多統計學使用者容易犯的一個錯誤。
之所以對資料的正態性有要求,是因為我們此前的所有結論都是由「資料服從正態分佈」這個假設匯出的。
如果資料不服從正態分佈,那麼 t 統計量也就不再服從 t 分佈,我們(或統計學軟體)根據 t 分佈給出的 p 值也就不再準確,我們以此做出的推斷也就不可靠了。
既然如此,我們應該如何判斷資料是否服從正態分佈呢?欲知後事如何,請聽下回分解。
系列合輯
第 1 章 高屋建築看統計
你真的懂p值嗎?
做統計,多少資料才算夠?(上)
做統計,多少資料才算夠?(下)
提升統計功效,讓評審心服口服!
你的科研成果都是真的嗎?
見識資料分析的「獨孤九劍」
貝葉斯vs頻率派:武功到底哪家強?
第 2 章 算術平均數與正態分佈
數據到手了,第一件事先幹啥?
算術平均數:簡單背後有乾坤
正態分佈到底是怎麼來的?
第 3 章 t 檢驗:兩組平均數的比較
想玩轉t檢驗?你得從這一篇看起
就是要實用!t 檢驗的七十二變
作者:張之昊
編輯:異葉青蘭