天啦嚕!沒考慮到混雜因素,後果會這麼嚴重?| 協和八
原創 張之昊
說人話的 統計學
在前兩集文章裡,我們為大家介紹了當引數不止一個時,如何建立多重線性回歸(即包含多個引數的線性回歸)模型(《39.引數不止一個,線性回歸該怎麼做?》),以及隨之而來的新問題——交互效應的意義(《40.找出「交互效應」,讓線性模型更萬能》)。
多重線性回歸的一大作用,是幫助我們同時分析多個因素與因變數之間的相關關係,並且考察這些因素(引數)之間的交互效應。
今天,我們將一起討論多重線性回歸的另一個重要價值——在統計推斷中排除混雜(confound)因素的影響。
什麼是混雜因素?為什麼多重線性回歸能幫上忙?我們將通過一個例子來展開今天的討論。
讓我們回到孩子身高的問題中,想像一個新的情景:
我們重新收集了若干對藍精靈兄弟或姐妹(每對兄弟或姐妹的年齡差距相同)的身高,想研究同一個家庭中,年齡較小的藍精靈孩子(以下簡稱為「小孩子」)的身高與年齡較大的孩子(以下簡稱為「大孩子」)身高之間的關係(在兩者性別相同的情況下)。
根據我們之前已經學過的知識,我們可以建立一個簡單的線性回歸模型:
使用統計學軟體在資料上擬合這個模型,我們會得到
估計值 |
t 值 |
p 值 |
95% 置信區間 |
|
截距 |
80.82 |
5.16 |
4.59e-06 |
[49.36, 112.29] |
大孩子身高的回歸係數 β1 |
0.31 |
2.67 |
0.010 |
[0.077, 0.549] |
換言之,根據這個模型,同一個家庭中兩個孩子的身高的關係是
小孩子身高 ~ 80.82 + 0.31 x 大孩子身高
而且,我們觀察「大孩子身高」這個引數的回歸係數 β1 的估計值、p 值及其置信區間,可以判斷出兩個孩子的身高有顯著的正相關關係。
根據資料畫出如下圖形,也能印證這一點。
然而,故事到這裡還沒有結束。
在前兩集文章裡,我們已經知道,孩子的身高與父母平均身高是有顯著關係的。現在雖然是不一樣的資料集,還有大、小孩子之分,但按道理來說,這一條應該仍然適用才對。的確,如果我們拿大、小孩子身高做因變數,父母平均身高做引數,分別做個線性回歸,就能確認這一點:
而且,父母平均身高在這兩個模型的回歸係數 0.41 和 0.47 對應的 p 值都遠小於 0.001,因此這一關係也具有統計學顯著性。
這時,如果我們把這一結果和前面得到的小孩子與大孩子身高之間的正相關關係放在一起考慮,就會產生一個疑問:大、小孩子身高之間的關係會不會只是體現了它們各自與父母平均身高的關係?換句話說,在模型
小孩子身高 ~ 80.82 + 0.31 x 大孩子身高
裡,大孩子身高會不會只是充當了父母平均身高的「代理人」的角色?
要解開這個疑問,我們就得看看大孩子身高是否在父母平均身高之上還有額外的、與小孩子身高的相關性。也就是說:
假定我們已經知道了父母平均身高,進一步瞭解大孩子身高是否會讓我們對小孩子身高的估計更準確?
因此,我們就要把大孩子身高和父母平均身高同時放到一個回歸模型中,進行多重線性回歸分析:
估計值 |
t 值 |
p 值 |
95% 置信區間 |
|
截距 β0 |
54.25 |
3.52 |
0.0010 |
[23.22, 85.27] |
大孩子身高的回歸係數 β1 |
0.03 |
0.26 |
0.798 |
[-0.22, 0.28] |
父母平均身高的回歸係數 β2 |
0.40 |
3.85 |
0.0004 |
[0.19, 0.61] |
檢查上面的結果,我們立刻可以看到,在這個模型裡,父母平均身高依然有顯著大於 0 的回歸係數,而大孩子身高的回歸係數和 0 並沒有顯著區別。
還記得我們之前反復強調過的、有多個引數時回歸係數的意義嗎?這個結果的意思是說,在給定父母平均身高時,大孩子身高與小孩子身高之間並沒有顯著的相關關係。換句話說,要預測某個有兩個孩子的家庭中小孩子的身高,如果我們已經知道了父母平均身高,再知道大孩子身高並不會對我們有什麼幫助。
很顯然,比較
這兩個模型,對於小孩子身高與大孩子身高之間的關係,我們會得到很不一樣的結論。究其原因,就在於在模型(1)中,大、小孩子身高之間的正相關關係只是一種表像,它的背後推手其實是小孩子身高與父母平均身高之間的相關性。
由於在模型(1)裡, 父母平均身高藏在了幕後,於是大孩子身高才成了「替罪羊」,把原本屬於父母平均身高的相關性拿到了自己頭上。在統計學上,這種現象時常被稱為「虛假關聯」(spurious association)。
而在模型(2)中,父母平均身高被推向了前臺,它和小孩子身高的關聯性才算是大白於天下。而此時我們才能發現,小孩子身高的大或小,其實並沒有大孩子身高什麼事兒。
回到我們最初的目的——探究同一家庭的兄弟或姐妹兩人身高之間的聯繫,我們應該學到什麼?
在這個例子裡,父母平均身高本身並不是我們想要研究的問題,然而由於它對大孩子、小孩子身高這兩個變數的共同影響,使得在只分析後兩者時,產生了有偏差的解讀。這種情況下,虛假關聯的製造者——父母平均身高——被稱為混雜變數(confound variable,或 confounding variable)。
要去除混雜變數的影響,我們就要通過多重線性回歸的方法,把來自父母平均身高的相關性排除掉,這樣才能找到我們感興趣的變數之間更真實的關聯。所以呢,即便有些時候我們只對一個引數感興趣,還是得把多重線性回歸這個工具用好,才能把資料背後的故事看得更清楚呢!
許多時候,虛假關聯能夠很好地解釋一些讓人莫名其妙的統計學結果。
一個著名的案例就是,許多溫帶或亞熱帶國家冰激淋的銷量和公共泳池中溺死的人數之間有十分顯著的正相關關係。但是這兩者之間真有什麼直接聯繫嗎?我們很容易想到,其實是季節變換在背後作祟——夏天天氣變熱,冰激淋銷量大大增加,與此同時泳池的使用者也在增多,進而也會有更多的事故。就像我們的例子那樣,忽略了氣溫或季節這個混雜變數,我們就容易得到荒誕的結論。
當然了,這樣說來難免有些輕巧,事實上,要判斷清楚什麼變數可能會是混雜變數,是一件很需要洞察力的事情。在許多科研問題中,我們感興趣的引數可能有若干個,每個引數與因變數之間的關係又可能對應若干個潛在的混雜變數。
所以,一種普遍的做法,就是像我們前面的例子一樣,把可能的混雜變數包含在統計模型中,這樣我們才能更有信心地認為,觀察到的有潛在科學意義的發現不會是虛假關聯。
但是,有限的科研資源和樣本量往往不容許我們測量或控制一切變數,或是把什麼變數都一股腦往模型裡扔。因此,我們還要對具體科研問題有深入的認識,並以此為指導做好實驗設計、資料收集工作,盡可能有的放矢。我們今後還會繼續和大家一起探討這些技巧和方法。
最後,我們還要強調一個容易讓人產生誤解的問題:
在前面的例子裡,沒有包含「混雜變數」的模型(比如說小孩子身高與大孩子身高相關、冰激淋銷量與溺死人數相關等)本身並不是「錯誤」的。
這些顯著的相關關係在數值上是真實存在的。純粹從預測的角度看,如果我們不知道父母平均身高,用大孩子身高來預測小孩子身高的確是最合理的辦法。
它的問題在於,如果我們認為兩者之間存在機制性的、甚至是具有因果關係的聯繫,那麼就可能要犯錯誤了——如果你想減少泳池的安全事故,不去改進泳池的設計、多安排幾個救生員、多對人們進行警示教育,卻要禁止冰激淋的銷售,那恐怕是得不到你想要的效果的。
正如我們反復討論過的,線性回歸本身不能提供因果性的結論,它只能對變數之間的相關性進行核對總和推斷。
事實上,包含了父母平均身高的模型在沒有其他知識或實驗研究的支持下,也不見得就是「正確」的——會不會還有別的「混雜變數」,導致孩子身高與父母平均身高的相關性也是一種虛假關聯?這在理論上並非不可能。我們只能說,它提供了大、小孩子身高之間相關性的一種更合乎資料和常理的解釋而已。
系列文章
第 1 章 高屋建築看統計
1.你真的懂p值嗎?
2.做統計,多少資料才算夠?(上)
3.做統計,多少資料才算夠?(下)
4.提升統計功效,讓評審心服口服!
5.你的科研成果都是真的嗎?
6.見識資料分析的「獨孤九劍」
7.貝葉斯vs頻率派:武功到底哪家強?
第 2 章 算術平均數與正態分佈
8.數據到手了,第一件事先幹啥?
9.算術平均數:簡單背後有乾坤
10.正態分佈到底是怎麼來的?
第 3 章 t 檢驗:兩組平均數的比較
11.想玩轉t檢驗?你得從這一篇看起
12.就是要實用!t 檢驗的七十二變
13.不是正態分佈,t 檢驗還能用嗎?
14.只有15個標本,也能指望 t 檢驗嗎?
15.樣本分佈不正態?數據變換來救場!
16.數據變換的萬能鑰匙:Box-Cox變換
17. t 檢驗用不了?別慌,還有神奇的非參數檢驗
18.只講 p 值,不講效應大小,都是耍流氓!
19.找出 t 檢驗的效應大小,對耍流氓 say no!
20.用置信區間,就是這麼(不)自信!
21.如何確定 t 檢驗的置信區間
22.優雅秀出你的 t 檢驗,提升Paper!
23.要做 t 檢驗,這兩口毒奶可喝不得!
第 4 章 方差分析(ANOVA):多組平均數的比較
24.要比較三組資料,t 檢驗還能用嗎?
25.ANOVA在手,多組比較不犯愁
26.ANOVA的基本招式你掌握了嗎?
27.ANOVA做出了顯著性?事兒還沒完呢!
28.聽說,成對t檢驗還有ANOVA進階版?
29.重複測量ANOVA:你要知道的事兒都在這裡啦
30.沒聽說過多因素 ANOVA ?那你就可就 OUT 了!
31.多因素ANOVA=好幾個單因素ANOVA?可沒這麼簡單!
32.兩個因素相互影響,ANOVA結果該如何判讀?
33.ANOVA還能搞三四五因素?等等,我頭有點兒暈
34.要做ANOVA,樣本量多大才夠用
第 5 章 線性回歸:統計建模初步
35.統計學模型你會玩嗎?
36.如果只能學習一種統計方法,我選擇線性回歸
37.回歸線三千,我只取這一條
38.三千回歸線裡選中了你,你靠譜嗎?
39.引數不止一個,線性回歸該怎麼做?
40.找出「交互效應」,讓線性模型更萬能
41.沒考慮到混雜因素,後果會這麼嚴重?
作者:張之昊
編輯:黑草烏葉
留言列表