三千回歸線裡選中了你,你有多靠譜?| 協和八
原創 田菊
說人話的統計學
上一集我們講了如何通過最大似然法計算出最符合資料的回歸線,從而建立引數與因變數之間的線性模型。說到底,線性模型是對實際資料中引數與因變數關係的一種近似。這個近似到底合不合理,有沒有實際意義,我們該如何判斷呢?
由於引數的選擇有很多,即使我們把八杆子打不著的兩個因素放在一塊,我們也能建立兩者之間的線性模型。比如,我們用學校到家裡的距離,或者家裡寵物狗的體重來建立小朋友的身高的線性模型,這樣的模型往往並不會具有統計學上的顯著性。
需要警惕的是,如果我們嘗試在大量毫無關係的變數之間做線性模型的相關分析,總會因為巧合導致其中一些看似有統計學意義上面的顯著性。比如說,有人竟然發現每年美國人均吃芝士的量與被床單纏死的人的數量有相關性。這顯然在道理上是說不通的。這其實就是我們在前面 t 核對總和 ANOVA 檢驗裡面提到過的假陽性問題,也就是實際上明明沒關係,而統計上有鼻子有眼地找出了顯著的關係。
基於上面的原因,我們在建立線性模型(其實也包括其它任何統計模型)的時候,首先會根據特定領域的專業知識選擇與因變數有可能有相關性的引數來建模。比如在前面講的子女身高的例子裡面,我們的模型是子女的身高與用母的身高有線性關係,因為從生物學的角度,身高可能會具有一定的遺傳性,這是模型具有合理性的前提。這樣建立的起來的模型才具有實際應用的價值。
我們根據一個看上去合情合理的猜想建立了父母身高和子女身高之間的線性模型,在這個模型裡面,父母身高是引數 x,子女身高是因變數 Y。它們的關係用線性模型表示為:
當然,這個看似很有道理的假設也許只是我們的一廂情願——或許父母和子女的身高沒有關係。換句話說,不同身高的父母對應的子女身高並沒有什麼不同。用數學語言來描述就是 xi 取不同的值,yi 並不隨之改變,為了滿足這種情形,β1 只能等於零。在這種情況下,子女身高與父母身高的模型更應該是:
這就是說,要驗證線性模型中引數與因變數是不是有顯著的線性相關性,其實就是檢驗 β1(即回歸線的斜率)是否不等於零。
在上一集《37.回歸線三千,我只取這一條》裡面我們引入了極大似然估計來找出對斜率 β1 的最佳估計:
這裡只是對真實斜率值 β1 的一個估計,而且由於隨機誤差的 εi 存在,我們對斜率 β1 估計值的總是存在誤差。假如真實的斜率是 0.5,一個樣本由 50 個家庭的身高資料組成,從一個小鎮的人口裡面隨機抽取這樣的樣本 100 次,根據每個樣本對斜率得到的最佳估計都會略有不同,比如有時是 0.4,有時是 0.6,總體應該在斜率的真實值 0.5 上下波動。
如果這 100 個樣本裡面幾乎都大於 0,直觀上真實的斜率 β1 也很有可能大於 0;如果這 100 個樣本裡面一半小於 0 、另一半大於 0,很有可能真實的斜率 β1 跟 0 很接近。
上面只是直觀的判斷,我們還需要用更定量的方法描述斜率的估計值的分佈。
在 εi 滿足方差為 σ 的正態分佈時,重複抽取很多樣本,對每個樣本都用極大似然估計找出一個,在數學上可以推導出,滿足正態分佈,其方差運算式為:
的方差越小,說明我們對斜率 β1 的估計就越準確。
觀察方差運算式,我可以看出:咱們模型裡面的誤差項越大,那麼我們對斜率 β1 的估計就越不準確;引數 x 的方差總和(分母項)越大,對斜率估計就越準確。
上面的方差運算式的分子是誤差項的方差,它其實是個未知數。但我們正好可以用上一集講到 σ2 的估計值來代替,這樣我們就知道相對真實斜率 β1 的分佈了。
知道了的分佈,我們就可以計算大家熟悉的 p 值。
與之前 t 檢驗時學到的 p 值的定義類似,線性假設顯著性檢驗的 p 值指的是:當原假設成立,即真實的 β1 等於 0 時,根據實際資料計算出的斜率大於或小於-的概率(這是雙側檢驗的情形,單側檢驗可以類比 t 檢驗裡講過的情形)。如果 p 值非常小,說明原假設成立時,觀察到的值的概率會很低,從而認為原假設不太可能成立。
知道了的分佈,我們還可以計算斜率 β1 的置信區間。
由於估計值總是以真實的斜率 β1 為中心呈高斯分佈, 有 95% 概率真實斜率 β1 會被以下的區間涵蓋:
這並不是說真實的斜率會服從這樣一個概率分佈,在頻率派的框架底下,真實的斜率是一個確切的值,只是由於資料本身的隨機性,我們測量到的斜率會上下浮動,導致有一定的概率估計值會遠離真實值 β1。 關於置信區間的更詳細解讀可以參考《20.用置信區間,就是這麼(不)自信!》。
用線性模型分析資料時,找出斜率的置信區間往往比知道 p 值更有用。95% 置信區間不包含 0 等價於 p 值小於 0.05 。因為線性模型的一大功能就是做預測,有了斜率的置信區間,我們就能知道父母的身高增加 1 釐米,子女的身高增加的多少以及其誤差範圍。
當然,實際應用中,統計軟體會幫我們算出斜率的 p 值和置信區間,所以和之前我們講過的其他原理一樣,上面這些式子都用不著去背。但是,知道它們的含義和怎麼來的,可以讓我用起來心中更有數。
如果我們能減少 β1 估計值的方差,我們對 β1 的估計就會更準確,具體說來就是置信區間會變窄,從而統計功效更強,越容易檢驗出引數與應變數之間的相關性,好處多多。
那有沒有什麼方法能夠減小的方差呢?
前面講到的方差與線性模型中誤差項的方差呈正比,與引數的方差呈反比。前者反映的是模型本身局限性,並不為我們的意志改變(除非我們想出更好的模型),但是後者則是可以在採集資料時做好規劃來改變的。我們在採集樣本的時候,要儘量涵蓋引數的全部範圍,增加樣本中引數值的方差。
在建立父母身高和子女身高的線性模型的例子裡面,在最極端的情況下,如果樣本中所有父母的身高都一樣,我們便無法知道父母身高變化時子女身高是否會隨著變化。具體到單個資料點上,假如父母的平均身高是170cm,某一個樣本對應的父母身高也是170cm,那麼這個樣本對的貢獻為0,並不能增加估計 β1 的準確性。
事實上,x 離均值越遠的樣本對減少方差的貢獻越大,包括身高很矮或很高的樣本是提高線性模型統計功效的有效方法。
最後,我們再來看看如何解讀假設檢驗的結果。
即使 β1 等於 0,也不能完全說明引數和因變數之間沒有關係,只能說明線性模型不能很好的描述兩者之間的關係,有可能它們具有非線性的關係,如下圖例子。以後我們會更詳細地講如何用線性模型來處理非線性關係。
圖中 y 與 x 的關係是抛物線而不是直線,數學運算式是 y=(x-10)2 。如果直接用線性模型擬合,得到的結果是斜率為零,但是並不能說明 y 與 x 之間沒有關係。
如果我們在計算出來斜率的 p 值和置信區間後,發現斜率並不顯著,在檢查其它可能性之前,首先,我們應該考慮是否有足夠的統計功效,如果是統計功效不足,想辦法多收集一些資料,尤其是離平均值比較遠的資料說不定可以解決問題。
而導致斜率不顯著的另外一個可能的原因,是影響 Y 取值的除了 x 還有其它因素,這種情況下,引數與因變數之間確實具有線性關係,但是由於沒有考慮到其它因素的影響,使得模型認為的誤差項比實際的誤差項大很多,所以導致結果不顯著。
未完待續,
本系列文章
第 1 章 高屋建築看統計
1.你真的懂p值嗎?
2.做統計,多少資料才算夠?(上)
3.做統計,多少資料才算夠?(下)
4.提升統計功效,讓評審心服口服!
5.你的科研成果都是真的嗎?
6.見識資料分析的「獨孤九劍」
7.貝葉斯vs頻率派:武功到底哪家強?
第 2 章 算術平均數與正態分佈
8.數據到手了,第一件事先幹啥?
9.算術平均數:簡單背後有乾坤
10.正態分佈到底是怎麼來的?
第 3 章 t 檢驗:兩組平均數的比較
11.想玩轉t檢驗?你得從這一篇看起
12.就是要實用!t 檢驗的七十二變
13.不是正態分佈,t 檢驗還能用嗎?
14.只有15個標本,也能指望 t 檢驗嗎?
15.樣本分佈不正態?數據變換來救場!
16.數據變換的萬能鑰匙:Box-Cox變換
17. t 檢驗用不了?別慌,還有神奇的非參數檢驗
18.只講 p 值,不講效應大小,都是耍流氓!
19.找出 t 檢驗的效應大小,對耍流氓 say no!
20.用置信區間,就是這麼(不)自信!
21.如何確定 t 檢驗的置信區間
22.優雅秀出你的 t 檢驗,提升Paper!
23.要做 t 檢驗,這兩口毒奶可喝不得!
第 4 章 方差分析(ANOVA):多組平均數的比較
24.要比較三組資料,t 檢驗還能用嗎?
25.ANOVA在手,多組比較不犯愁
26.ANOVA的基本招式你掌握了嗎?
27.ANOVA做出了顯著性?事兒還沒完呢!
28.聽說,成對t檢驗還有ANOVA進階版?
29.重複測量ANOVA:你要知道的事兒都在這裡啦
30.沒聽說過多因素 ANOVA ?那你就可就 OUT 了!
31.多因素ANOVA=好幾個單因素ANOVA?可沒這麼簡單!
32.兩個因素相互影響,ANOVA結果該如何判讀?
33.ANOVA還能搞三四五因素?等等,我頭有點兒暈
34.要做ANOVA,樣本量多大才夠用
第 5 章 線性回歸:統計建模初步
35.統計學模型你會玩嗎?
36.如果只能學習一種統計方法,我選擇線性回歸
37.回歸線三千,我只取這一條
38.三千回歸線裡選中了你,你靠譜嗎?
作者:田菊
編輯:黑草烏葉
留言列表