不是正態分佈,t 檢驗還能用嗎?| 協和八
原創 田菊 協和八
讀完本文,你將明白:
- 根據中心極限定理,只要資料量足夠大,即使原資料有點偏離正態分佈,使用 t 檢驗也不會有大問題
- 「頻率分佈圖」和「 q-q 圖」是判斷資料分佈情況的好方法
在上一集《就是要實用!t 檢驗的七十二變》裡,我們追隨藍精靈智鬥格格巫的足跡,學習了 t 檢驗的不同類型。
今天我們來原文再續,書接上一回:
藍精靈們運用了 t 檢驗的知識,發現格格巫做的包子顯著地小於食堂的標準。
一起要把格格巫抓起來繩之以法,沒想到格格巫卻很淡定,氣定神閑地說了句:「你們用 t 檢驗,合適嗎?我統計學學得少,你們可不要騙我,我怎麼聽說,要用 t 檢驗,資料要符合正態分佈呢?」
藍精靈們還得繼續加把勁兒,先得證明資料確實是滿足 t 檢驗對正態性的要求。
首先我們可以從 t 檢驗的原理回顧一下,正態性的要求具體是指什麼。
藍精靈們為了查出格格巫做的包子是不是小於食堂標準,隨機抽取了 100 個包子作為樣本,通過這一樣本來推測包子總體的平均值有沒有顯著的不同於一個已知的標準值。
由於包子大小的隨機性,如果重複抽樣多次,每次抽樣的樣本平均值會不一樣,並在總體平均值周圍浮動,t 檢驗其實是利用了抽樣的樣本平均值的分佈來計算 p 值的(回顧《想玩轉t檢驗?你得從這篇看起》)。
在我們推導 t 檢驗背後原理的時候,其實涉及到了三個概率分佈:
1. 總體的分佈: 格格巫完成的所有包子的品質的分佈
2. 樣本的分佈: 被隨機抽取的 100 個包子的品質的分佈
3. 抽樣分佈:假設樣本量為 100 個包子,如果藍精靈重複多次抽取樣本(抽取許多批包子,每批 100 個),不同的樣本會產生稍微不一樣的平均品質。
在假想的情境中,藍精靈重複抽取無限多的樣本,此時它們得到的所有樣本的平均品質就會形成一個新的分佈。這種樣本平均值(或者樣本的其他統計量,如標準差等)因為抽樣隨機性產生的分佈,稱為抽樣分佈。
這三個分佈裡面,只有樣本(也就是測量到的 100 個包子品質)的分佈是看得見摸得著的。總體的分佈我們自然不知道(要是知道了哪裡還用得著做統計?),它是我們最終想要瞭解的物件。
簡單來說,如果樣本的抽取是完全隨機的,總體的分佈和樣本分佈會很接近。
而最抽象的就是抽樣分佈了,因為我們實際操作中,並不可能真的重複抽取無限多的樣本(哼,這種要把本寶寶累死的事情我才不幹!)。
可是,要進行假設檢驗,我們恰恰需要瞭解抽樣分佈。
我知道你耳朵都要聽出繭子了,不過我們還是得再回顧一遍 p 值的定義——在原假設為真(格格巫的包子平均品質不小於食堂規定標準)的前提下,觀察到與我們的資料(藍精靈抽取的包子樣本平均品質)相同或更極端的資料的概率。
你看,既然這個概率是關於樣本平均品質的,那不就應該從抽樣分佈裡算嗎?
幸運的是,借助統計學的原理,給定總體的分佈,我們就能推算出樣本平均值服從的分佈,也就是抽樣分佈。
而且更重要的是,t 檢驗是否適用,抽樣分佈是關鍵——不管樣本或者總體符合什麼分佈,只要抽樣分佈是正態的,t 檢驗就是可靠有效的。
可是,我們剛才說了,要算出抽樣分佈,我們得先知道總體分佈。
但我們並不知道總體分佈是什麼呀?
嘿嘿,別忘了我們的終極武器——
中心極限定理!
中心極限定理從理論上面保證了只要樣本量足夠大,不論資料總體是不是呈正態分佈,樣本均值的分佈(抽樣分佈)都會近似為正態分佈(可回顧《算術平均數:簡單背後有乾坤》和《正態分佈到底是怎麼來的?》)。
在下圖中,我們可以看到中心極限定理的威力。
在這個例子裡,我們先從一個明顯不服從正態分佈的總體分佈出發,然後從這個分佈裡隨機抽樣,計算樣本平均值。
為了體現樣本量對抽樣分佈的影響,我們考慮樣本量分別為 3 和 15 的情形。
在這兩種情形下,我們分別讓電腦抽取 20000 個樣本,然後作出這些樣本均值的頻率長條圖(也就是近似的抽樣分佈)。
可以看到,當樣本量為 3 時,抽樣分佈的形狀還有明顯的不對稱;但當樣本量為 15 時,抽樣分佈看起來已經很接近於一個正態分佈了。
也就是說,當樣本量足夠大時,抽樣分佈的正態性就會比較好,t 檢驗計算出的 p 值從而比較準確。
那麼,多大的樣本是足夠大呢?
這個問題很難給出一個一刀切的答案。
在上圖這個例子裡,總體分佈雖然不對稱,但大體趨勢相差不遠,因而樣本量 n 達到 15 左右就已經能使抽樣分佈具有相當好的正態性了。
但是,如果總體分佈非常不正態(比如說不連續或者兩頭大中間小),要使抽樣分佈接近正態的 n 就要大得多了。
裝備上了中心極限定理的藍精靈們又跑過去找格格巫理論,格格巫顯然有點坐不住了,但是他還是要垂死掙扎一下:「別跟俺扯神馬中心極限定理,那說的都是樣本量很大時候的事兒,你真能證明抽樣分佈確實是正態的麼?」
如果總體本身就是符合正態分佈的話,那從這個總體裡面隨機抽取的樣本的平均值就一定是服從正態分佈的,而不僅僅是在 n 值較大時近似正態分佈。
所以藍精靈們得想出一些辦法來考察總體分佈的形狀,如果總體是服從正態分佈的,格格巫就再也無話可說了。
我們說過,總體分佈我們無法直接測量。當樣本是隨機抽取的情況下,總體的分佈和樣本分佈會隨著樣本量的增加趨於接近(這在統計學上稱為大數定律)。於是我們可以用樣本(即採集到的資料)分佈來近似總體分佈。
說到檢查資料是否符合正態分佈,最簡單的武器是《數據到手了,第一件事先幹啥?》裡面提到的殺手鐧:頻率長條圖。頻率長條圖的目的是顯示資料落在每個取值區間的概率。
為了將資料的分佈和正態分佈做比較,我們需要一個參考正態分佈,具有與待測樣本相同的均值和方差,然後通過對比這兩個分佈的形狀來判斷手上的資料是不是接近正態分佈,如下圖所示。
(圖片來源:http://www.ats.ucla.edu/stat/spss/library/ggraph_examples.htm)
除了頻率長條圖,另外一個檢查分佈的有力武器是 q-q 圖(有沒有覺得這名字好萌?它可不是騰訊公司的植入廣告哦),q 代表的是 quantile(分位數)。你忘了分位數是什麼?
n 分位元數是指把資料數先從小到大排列,然後平均分成 n 等分,其分割點對應的 n-1 個數值。
舉個例子,咱們都學過中位數,它對應的是 2 分位數。
在《數據到手了,第一件事先幹啥?》我們提到過箱線圖,它用到了 4 分位數裡除了中位數以外的兩個,對應的是把從小到大排列過的資料平均分成四等分,第一個分割點和第三個分割點的數值。
q-q 圖是通過比較資料和正態分佈的分位元數是否相等來判斷資料是不是符合正態分佈。
下面我們請出一幫企鵝小夥伴們來演示一下 q-q 圖原理。
有兩個班級的企鵝在排隊做早操,每個班各有二十只鵝寶寶。
企鵝一班的身高是標準的正態分佈而企鵝二班的身高分佈未知。
企鵝二班的班主任很好奇自己班的企鵝寶寶們身高是不是也是正態分佈,於是就讓每個班的鵝寶寶都按照身高從低到高排隊,然後讓兩隊小朋友並排站。
這時站在第一排的分別是一班最矮的和二班最矮的同學,依此類推,最後一排的是一班最高的和二班最高的(如下圖)。這個畫面很熟悉啊有沒有?
隊形已經擺好,只要把一班的身高作為參考,就能判斷二班小朋友的身高是不是也服從正態分佈了。
如果同一排的來自不同班級的兩隻鵝寶寶身高都是一樣的話,兩個班級的身高必然服從同一分佈。如果同一排的二班的鵝寶寶總是比一班的鵝寶寶高出 5 cm,因為加上一個常數並不會改變分佈的類型,可以判斷二班的鵝寶寶身高還是服從正態分佈。類似的,如果二班的鵝寶寶都是旁邊一班鵝寶寶身高的 1.5 倍(估計其中一個班是轉基因企鵝吧……),二班的身高還是正態分佈。由此可以推理出,只要二班的鵝寶寶的身高與站在同一排的一班同學的身高成線性關係,就可以推斷兩者屬於同一分佈類型。
聰明的你應該已經想到企鵝排隊和分位數的關係了吧?
站在同一排的鵝寶寶即屬於同一分位數。實際應用中,當我們有 n 個資料點時,我們可以電腦類比出正態分佈對應的 n 分位數(此為第一 q,對應 x 軸座標);同時,我們將資料從小到大排列,就可以得到資料的 n 分位元數(此為第二 q,對應 y 軸座標)。這樣我們就能得到一個 q-q 圖啦(如下圖)。有了這個圖,我們只要看看圖上的點是不是在一條直線上面,就知道我們的資料點是不是符合正態分佈了。
於是,藍精靈們畫出了樣本包子品質分佈和正態分佈的 q-q 圖,格格巫看完了,再也沒法反駁了,只能乖乖認錯。
統計學萬歲!(此處應有熱烈掌聲一分鐘)
順便說一句,q-q 圖不僅可以用來判斷資料是否符合正態分佈,也可以用來判斷資料是否符合其它分佈,只要用待檢測的分佈計算出對應的分位數作為 x 軸座標即可。
另外,q-q 圖還可以判斷兩組資料是否來自同一個分佈(而不關心這同一個分佈究竟是哪一個分佈)。
此時,我們只要將其中一組資料的分位元數作為 x 軸,另外一組資料的分位元數作為 y 軸就可以了。
最後,可能有些讀者會疑惑,上面給出了兩個武器「頻率分佈圖」和「 q-q 圖」都只能定性地判斷一個分佈是不是正態的,有沒有什麼定量的方法可以判斷呢?
在統計學中,確實有一些檢驗是用來判斷資料的分佈是不是顯著地不同於正態分佈,常用的有夏皮羅-威爾克檢驗(Shapiro-Wilk test)和科爾莫戈羅夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov test)。
和其他檢驗一樣,這兩個檢驗會給出一個 p 值,供我們作推斷。
這些檢驗的原假設是資料符合正態分佈,當 p 值足夠小時拒絕原假設,認為資料不符合正態分佈。
使用這些檢驗的時候要注意,當樣本足夠大時,只要資料稍有一點偏離正態分佈,p 值就總能小於 0.05,因而檢驗的結果總是傾向於顯示資料為非正態分佈。
也就是說,如果我們的樣本足夠大,即使夏皮羅-威爾克檢驗或科爾莫戈羅夫-斯米爾諾夫檢驗給出小於 0.05 的 p 值,資料來自的總體仍可能是服從正態分佈的。
當然如果資料量太小,上面的這些方法可能都無法給出可信的關於資料正態性的判斷,這時候還需要根據產生測量資料的物理過程,考慮資料是否可能是正態分佈。
比如說,正態分佈必須具有對稱性,即大於平均值和小於平均值的概率應該相等。
因此,動物的壽命一般不會符合正態分佈(想想為什麼?)。
最後我們來總結一下,
讀完這篇文章你該學到什麼?
1)由於中心極限定理,只要資料量比較大(究竟多大算大,取決於原來總體分佈的情況),即使原資料有點偏離正態分佈,使用 t 檢驗也不會有大問題;
2)「頻率分佈圖」和「 q-q 圖」是判斷資料分佈情況的好方法;
3)真實世界的資料不可能完完全全地符合正態分佈,資料量比較大時,使用統計檢驗的方法判斷正態性傾向於判為非正態;
4)統計既是科學,也是藝術,當大家多理解了其背後科學原理,就可以根據實際情況,藝術地處理資料啦!
注:文中圖片未作特別說明者均為作者自繪
本系列全部文章
第 1 章 高屋建築看統計
你真的懂p值嗎?
做統計,多少資料才算夠?(上)
做統計,多少資料才算夠?(下)
提升統計功效,讓評審心服口服!
你的科研成果都是真的嗎?
見識資料分析的「獨孤九劍」
貝葉斯vs頻率派:武功到底哪家強?
第 2 章 算術平均數與正態分佈
數據到手了,第一件事先幹啥?
算術平均數:簡單背後有乾坤
正態分佈到底是怎麼來的?
第 3 章 t 檢驗:兩組平均數的比較
想玩轉t檢驗?你得從這一篇看起
就是要實用!t 檢驗的七十二變
不是正態分佈,t 檢驗還能用嗎?
作者:田菊
編輯:燈盞細辛
留言列表