close

如果只能學習一種統計方法,我選擇線性回歸 | 協和八

原創 田菊 

 說人話的統計學 

在上一集裡面我們把 t 核對總和 ANOVA 都放到了統計學模型來看,這些檢驗方法不再是一個個孤立的方法,而是線性模型的框架底下的一些特殊情況。

在線性模型的框架底下,分組資訊是線性模型的輸入, 測量值是線性模型的輸出,需要比較的組的平均值就是線性模型的參數,假設檢驗兩組的平均值是否相等變成是檢驗線性模型的特定參數是否不等於 0

引入線性模型不僅能把前面學的各種檢驗方法放到一個統一的框架底下,還能解決 t 核對總和 ANOVA 不能解決的一大類問題:輸入包含連續變數的情形。如果到這裡沒有看懂,不用擔心,下面我們就請出我們的藍精靈老朋友,從一個例子看起:

藍精靈們開學的第一天,學校要體檢,藍精靈厭厭最討厭的環節就是量身高了,因為他總是班裡面最矮的。厭厭想弄明白自己矮是不是因為跟父母身高矮有關係,他就做了一個調查問卷,採集了班上每一隻藍精靈的身高以及它們父母的身高。

 

現在有了資料,厭厭怎樣做資料分析才能知道父母身高是否影響子女身高呢?

 

直覺告訴我們爸爸媽媽的身高會共同影響子女的身高,為了同時考慮到父母雙方的身高的影響,可以取其兩者的平均值作為因素進行研究。

如果生搬硬套 t 檢驗來研究父母身高平均值是如何影響子女身高的,我們可以把班上藍精靈按照父母的平均身高分為高和矮兩組,如果父母身高真的能影響子女身高,父母高的組藍精靈身高應該顯著地高於父母矮的那組藍精靈(如圖1)。

WeChat 圖片_20200524150219.jpg

 

1 通過將父母平均身高這一連續變數切分成高和矮兩組來判斷父母身高是否影響子女身高

這樣分析有一個明顯的問題,那就是是將父母身高分為高矮兩組的分界線設置有無數種可能,設想有可能我們以一米五為分界線,發現有顯著性,而以一米二為分界線,又沒有顯著性,那該最終結論到底以哪個為准呢?

 

線性回歸模型就是用來解決這個問題的。

在這個例子裡面,父母的身高是線性回歸模型中的預測變數predictor),也稱為引數independent variable) ,藍精靈的身高是預測值predictive value),也稱為因變數dependent variable)。我們在下面講回歸模型的時候都用預測變數來代表線性模型的輸入,預測值來代表線性模型的輸出。

線性回歸模型假設預測變數和預測值之間存在著線性關係。為了直觀地理解線性關係,我們把預測變數(即例子中的爸爸媽媽的平均身高)作為 x 軸,預測值(子女的身高)作為 y 軸,將每一對預測變數和預測值資料都用一個點標出來,這叫做散點圖。如果這些點大概在一條直線上面,說明兩者之間近似滿足線性關係 (如圖 2),這條反映預測值與預測變數之間關係的直線被稱為回歸線

 

WeChat 圖片_20200524144853.jpg

 

 

 

2 用散點圖展現數據,藍線代表回歸線,資料與圖 1 中一樣

由於測量出的資料總存在誤差, 預測值和預測變數不可能完全落在回歸線上,預測值會在回歸線的上下波動,在線性回歸模型中用誤差項來表示。

上一集我們用線性模型來表示的 t 檢驗也遇到了誤差項,它和線性回歸模型中的誤差項一樣,反映的是模型無法解釋的個體差異

總結上面的討論,我們可以看到,線性回歸模型就是用回歸線加上誤差項來描述預測值和預測變數之間的關係:

 

WeChat 圖片_20200524144945.png

 

其中 β0 β1 是決定回歸線的參數,β0 是截距,β1 是斜率,斜率越大,回歸線就越陡。回歸線是用來表示了預測值和預測變數之間的關係,如果這個關係被已有的資料證明非常可信,那麼在遇到新的 x0 值,我們即使不知道其對應的真實值 y0,我們也可以用線性回歸模型估計出一個合理的WeChat 圖片_20200524145105.png值,這個預測值就是 x0 在回歸線上對應的 y β0 + β1 * x0

 

往往我們實際得到的資料中,即使兩個資料點的預測變數 x 完全一樣,測量到的預測值 y 也不一定一樣。比如兩個孩子父母的身高完全一樣時,兩個孩子之間身高不一定相同,也就是說同樣的 x 可能對於多個 y 值。

如果我們知道父母平均身高為 169cm,通過回歸模型計算出的子女身高的預測值 y0 = β0 + β1 = 165cm,它其實說的是所有「父母平均身高為 169cm 的人」的平均身高 165cm,也可以理解為父母平均身高為 169cm 的人最有可能 165cm,具體到個人的時候會在 165cm 上下波動。

線性回歸模型中的係數 β1 也被稱為回歸係數,它直接反映了預測變數 x 與預測值 y 的關聯程度,往往是我們關心的重點 。

如果 β1 的值等於 0y = β0 + 0 * x,從 y 的運算式可以看出,它與 x 沒有半毛錢關係,回歸係數是一條水準的直線(圖 3 )。

 

WeChat 圖片_20200524145250.jpg

 

3 當回歸線接近水準直線的時候,說明預測值幾乎不受預測變數的影響

如果 β1 不等於 0,當 x 的值改變了 1 個單位,在線性模型的假設下,y 的值的改變為 β1,這可以從下面的推導得出:

 

WeChat 圖片_20200524145354.png

 

也就是說,在其它條件都不變的情況下,x 值每增加1個單位,y 值平均而言會增加 β1,這是對回歸係數最直觀的解釋。

這樣解釋的含義,往往會暗示一種因果關係:因為將 x 值增加了 1 個單位,導致了 y 值平均而言會增加了。

這樣的解釋在很多情況下是不成立的。

我們可以把 x 代表的變數和 y 代表的變數在線性回歸中進行對調,將父母身高當成 y,子女身高當成 x,雖然兩者之間依然有相關性,我們當然得不出「因為子女高導致父母高」的荒謬結論。

可見線性回歸分析只能揭示要研究的兩個變數之間是否有相關性,即一個變數的變化是否伴隨著另一個變數值的變化,而並不能解釋兩個變數之間的變化是否有因果關聯

在線性回歸模型裡面,係數 β0β1 決定了回歸線的走向,也就是 y x 之間的定量關係,代表誤差項大小的 σ 代表了模型有多準確。

通常情況下,線性回歸模型假設誤差項 ε 服從平均值為 0,方差為 σ的正態分佈,而且方差的大小不隨著預測變數 x 值改變,也叫做同方差性Homoscedasticity)。

換句話說,同方差性就是指誤差項的方差是一個常數,與實驗條件無關。

在通過父母平均身高預測子女身高的例子裡面,同方差性意味著無論父母平均身高是兩米還是一米六,線性模型預測的子女身高和真實身高之間的絕對差距是近似的

如果隨著父母身高增加,子女的預測身高與真實身高的差距也有變大的趨勢,同方差性就不再滿足了,以後我們會講到如何在同方差性不能滿足的情況下做回歸模型。

說完了線性回歸模型裡面每一個參數的含義,下一集我們會給大家介紹在同方差性的假設底下,如何用最大似然估計來獲得關於 β0 β1 值的最佳估計

 

本系列文章

1 章  高屋建築看統計

1.你真的懂p值嗎?

2.做統計,多少資料才算夠?(上)

3.做統計,多少資料才算夠?(下)

4.提升統計功效,讓評審心服口服!

5.你的科研成果都是真的嗎?

6.見識資料分析的「獨孤九劍」

7.貝葉斯vs頻率派:武功到底哪家強?

 

2 章  算術平均數與正態分佈

8.數據到手了,第一件事先幹啥?

9.算術平均數:簡單背後有乾坤

10.正態分佈到底是怎麼來的?

 

3   t 檢驗:兩組平均數的比較

11.想玩轉t檢驗?你得從這一篇看起

12.就是要實用!t 檢驗的七十二變

13.不是正態分佈,t 檢驗還能用嗎?

14.只有15個標本,也能指望 t 檢驗嗎?

15.樣本分佈不正態?數據變換來救場!

16.數據變換的萬能鑰匙:Box-Cox變換

17. t 檢驗用不了?別慌,還有神奇的非參數檢驗

18.只講 p 值,不講效應大小,都是耍流氓!

19.找出 t 檢驗的效應大小,對耍流氓 say no

20.置信區間,就是這麼(不)自信!

21.如何確定 t 檢驗的置信區間

22.優雅秀出你的 t 檢驗,提升Paper

23.要做 t 檢驗,這兩口毒奶可喝不得!

 

4 章  方差分析(ANOVA):多組平均數的比較

24.要比較三組資料,t 檢驗還能用嗎?

25.ANOVA在手,多組比較不犯愁

26.ANOVA的基本招式你掌握了嗎?

27.ANOVA做出了顯著性?事兒還沒完呢!

28.聽說,成對t檢驗還有ANOVA進階版?

29.重複測量ANOVA:你要知道的事兒都在這裡啦

30.沒聽說過多因素 ANOVA ?那你就可就 OUT 了!

31.多因素ANOVA=好幾個單因素ANOVA?可沒這麼簡單!

32.兩個因素相互影響,ANOVA結果該如何判讀?

33.ANOVA還能搞三四五因素?等等,我頭有點兒暈

34.要做ANOVA,樣本量多大才夠用

 

5 章  線性回歸:統計建模初步

35.車模航模你玩過,統計學模型你會玩嗎?

36.如果只能學習一種統計方法,我選擇線性回歸

 

arrow
arrow
    創作者介紹
    創作者 HCHUNGW 的頭像
    HCHUNGW

    HCHUNGW的部落格

    HCHUNGW 發表在 痞客邦 留言(0) 人氣()