邏輯回歸的統計檢驗,原來招數辣麼多?

田菊

說人話的統計學「說人話的統計學」專欄的各位讀者大家好!今天,在進入新話題之前,我們先來回顧一下,上一集講了什麼。前面在《48.邏輯回歸的嫋娜曲線,你是否會過目難忘?》中,我們舉了一個例子,藍精靈聰聰和樂樂競選,受教育高的群眾似乎更傾向於選聰聰。通過使用邏輯回歸模型進行極大似然估計,我們可以更定量地描述受教育程度(引數)與支持聰聰的概率(因變數)之間的關係:

 

WeChat 圖片_20200601143447.jpg

 

其中p(支持聰聰)代表支持聰聰的概率,引數「教育程度」的回歸係數為0.74,運用「除4法則」可以方便的估算出教育程度每增加一個單位,p(支援聰聰)最多會增加0.185

值得注意的是,與之前介紹過的線性模型不同,在邏輯回歸等非線性模型中,引數改變1個單位時,因變數y=1的概率改變的速度並非均勻,會受到其預測值取值的影響。在邏輯回歸模型裡面,當 y=1的概率為0.5時,引數對y=1的概率影響最大,當y=1的概率為01時,引數對y=1的概率為影響最小。


 

Wald檢驗判斷邏輯回歸係數是否顯著不等於0


 

僅僅是回歸係數大於0,還不足以說明教育程度與支持聰聰的概率有正相關關係,我們還要檢查這一關係是否有統計顯著性。換言之,教育程度的回歸係數與0是否存在顯著區別?

也就是說,我們要進行這樣一個假設檢驗:

原假設H0β1=0

備選假設 H1β1≠0

其中,β1是教育程度的回歸係數。

大家也許記得,在我們討論線性回歸的統計推斷時,也遇到過類似的問題。由於抽取樣本過程中自然存在的隨機性,我們對回歸係數的估計也有一定的不確定性,這一不確定性通常就用標準差來表示。 比如,在藍精靈投票的例子裡面,統計軟體會給出如下結果:

 

WeChat 圖片_20200601143558.png

對於這個標準差,不少人容易有一種誤解,認為它描述的是回歸係數本身的分佈。我們反復強調過,在頻率派的世界觀裡 ,回歸係數沒有隨機性,就是一個確定的數值——它的「真實值」β。但是這個真實值看不見摸不著,只能通過模型擬合的手段用測量到的資料估算出一個數值(上面表格的第一欄,估計值WeChat 圖片_20200601143641.png)。而由於樣本的隨機性,估計出的結果肯定和真實值β之間有誤差。也就是說,即便原假設β1=0為真,我們的資料也有可能讓我們對回歸係數估計出一個與0相去甚遠的數。 而且這一誤差的分佈會服從一定的規律,回歸係數的標準差(上面表格的第二欄)就是用來描述這個誤差的波動的。

回憶一下p值的定義,我們就是要找出,如果原假設是真的,我們得到當前的回歸係數的可能性有多大。在樣本量較大的情況下,我們用極大似然法估計出來的在其真實值β附近接近於正態分佈,分佈的標準差就是統計軟體給出的WeChat 圖片_20200601143754.jpg。在原假設為真的前提下,如果估計值WeChat 圖片_20200601143641.png0的距離比標準差大得多,得到這樣的估計值的可能性就很小,也就是說回歸係數β=0p值會很小。具體來說,用z統計量來計算p值, z檢驗量的定義是

 

WeChat 圖片_20200601143933.png

 

如果z值大於1.96或者小於-1.96,就說明β不等於0就有統計顯著性(如果我們用p值等於0.05作為門檻的話),在上面的例子裡,教育程度對應的回歸係數z值等於4.042,遠大於1.96,所以其對應的p值也遠小於0.05。從而,教育程度的回歸係數顯著不等於0,或者說,教育程度與選舉聰聰有顯著的相關性。

 

Wald檢驗有缺陷


 

Wald檢驗的思路雖然聽著很有道理,但是在一些特殊的情況下也會出bug,給出不靠譜的結論。一種典型的情形,就是當資料中y=01這兩種取值可以被引數完美區分的時候 。這是什麼意思呢?在上一集的例子裡面,教育程度雖然對支持聰聰的概率有影響,但是並不是絕對的。即使是教育程度相似的人,有一部分會選聰聰,也有一部分會選樂樂,只是隨著教育程度的升高,選聰聰的人的比例會提高(不妨回顧上集的插圖)。但是,有時候,我們會遇到比較極端的資料,以至於我們可以在引數的取值範圍內的某處劃條界限,在這個界限兩邊的資料點的因變數y取值是涇渭分明的,就像下面的這個例子:

 

WeChat 圖片_20200601144004.jpg

 

從上圖可以看出,教育程度顯然對支持聰聰的概率影響很大,因為凡是教育程度低的藍精靈全部選擇了不支援聰聰,而教育程度大的藍精靈都選擇支持聰聰,不存在相似教育程度的藍精靈一部分選擇聰聰而另外一部分沒選擇聰聰。我們用統計軟體找出邏輯回歸模型的回歸係數,並且得到支持聰聰概率的預測值(上圖中的藍色曲線)。上圖中,所有數據點都與模型的預測值一致,說明模型完全解釋了因變數的變化(至少在給定的資料集上),這不就是咱們夢寐以求的模型麼?

讓我們看看回歸係數的估計值:

 

WeChat 圖片_20200601144033.jpg

 

等等,這怎麼跟說好的不一樣呢?模型的擬合結果竟然顯示p值為1,說明教育程度對支持聰聰的概率沒有影響。這不是睜眼說瞎話麼!

咱們進一步再看看資料會發現回歸係數的標準差數值非常大,這導致了Z值很小,回歸係數不顯著。如果深究其根源,在上圖的資料中,如果我們擬合的藍色曲線沿著x軸向左或向右挪一點點,它還是能夠完美地擬合數據,而且通過這樣平移得到的曲線依然是邏輯回歸曲線。 這就說明符合數據的邏輯回歸模型其實有無數個,由於模型的無窮多可能性,對模型係數的估計就會充滿不確定性,導致標準誤差的數值會很大,Wald檢驗就失效了!

 遇到這樣的情況,咱們總不能得出「結果不顯著,因為效果太強了」這樣的奇怪結論吧。這時就可以祭出備用武器「似然比檢驗」了。


 

「似然比檢驗」來救場


 

 「似然比檢驗」的思路與Wald檢驗不同,它基於這樣一個思想:如果一個引數的回歸係數從0變成一個非0的數,對模型的擬合準確度有顯著的提高,那麼就這個引數對整個模型的貢獻就更能站得住腳了,也就是說,這個引數的確與因變數之間有關係。

怎麼知道「模型的擬合準確度」有沒有顯著地提高呢?首先,我們得有把尺子,來測量「模型的擬合準確度」,而之前反復出現的「似然」這個概念就是我們需要的尺子。我們用極大似然估計法找出讓模型擬合效果最好的參數,這時所得到的似然值就是「模型的擬合準確度」的合理度量。

尺子有了,我們還得有辦法知道特定引數x對「模型的擬合準確度」的貢獻。

首先,我們強制讓引數x的回歸係數取值為0,這也就等價於在模型中不包含這個引數。在此前提下,我們仍然允許截距以及其它引數回歸係數自由變化,這時我們可以找出在這個限制下的極大似然值L0

然後,我們把x的回歸係數必須為0這個限制給去掉,允許引數x取任意的值,再一次在同樣的資料上擬合模型,找出此時的極大似然值L1。這樣一來,L1L0的差距可以看作是加入x後模型擬合能力的提高。

需要注意的是,不管我們加入什麼八竿子打不著的新變數,L1L0都總是成立。 我們在《43.評價線性模型,R平方是個好裁判嗎?》裡面講到,在線性回歸模型裡面加入一個引數,哪怕這個引數其實與因變數y沒有什麼關係,也能提高模型的擬合程度,這一點在邏輯回歸模型裡面也同樣成立。所以,只有當L1L0大到一定程度的時候,我們才能認為引數x顯著地提高了邏輯回歸模型的擬合度。


 

 「擬合優度」是「似然比檢驗」的靈魂


 

那麼當L1得比L0大多數才行呢?統計學家們為了回答這個問題,發明了一個新的統計檢驗量G2(擬合優度,goodness-of-fit),G2定量地描述加入引數x對模型擬合能力的提高。G2實際上就是L1L0的比值取對數後乘以2

 

WeChat 圖片_20200601144155.jpg

 

由於對數本身的運算性質,擬合優度G2也可以看做是有和沒有特定引數時,最大似然值取對數後的差距再乘以2

 

WeChat 圖片_20200601144225.png

 

這裡我們用G2而不是G來表示擬合優度呢? 一方面是為了強調等式右邊必然是正數,另一方面是 G2在很多方面與 R2類似,為了保持一致性,便也加了平方在運算式裡面。

 可能有讀者會納悶,我們為什麼不直接使用最大似然值之差L1-L0來度量加入引數x對模型擬合能力的提高呢?這是因為,當樣本資料量比較大時,在原假設(該引數的回歸係數為0)成立的前提下,擬合優度G2符合特定的分佈,這樣我們要計算出p值就比較方便了。


 

「似然比檢驗」實戰篇


 

通常統計軟體並不會直接給出L1或者L0的值,而是會給出另外一個變數——「偏常」(deviance,通常用D表示)——的數值 。這又是什麼呢?要解釋「偏常」的含義,我們得先介紹另外一個概念,這就是「飽和模型」(saturated model)

大家已經知道,邏輯回歸模型的本質,就是研究因變數y取值為1(或0)的概率與引數之間的關係。模型擬合完以後,給定引數的取值,模型就會給出此時因變數y取值為1 的概率。正如上一集的例子中,我們可以說,根據擬合得到的模型,當教育程度為14年時,支持聰聰的概率是0.857,諸如此類。

 如果一個模型能比較好地反映資料集體現的規律的話,這個預測應該是大體正確的。比如說,教育程度為14年左右的藍精靈選民,應該是選聰聰的多,選樂樂的少。但既然說是「大體正確」,具體到每個個體,我們的預測總不可能完全正確。對於教育程度大約為14年但是選了樂樂的選民,模型的預測就可以說是錯了。這聽起來似乎讓人不太滿意,但對於0/1取值這樣的二分類變數,能有大體正確的預測就已經非常不錯了。

雖然現實有些骨感,但它並不能妨礙我們對豐滿理想的追求是不?這個豐滿的理想是啥呢?很簡單,就是一個這樣的模型,它對於每個點的預測都是完全正確的。也就是說,對於y值取0的點,它給出的預測就是y1的概率為0;對於y值取1的點,它的預測就是y1的概率是1。而一個模型如果能做到這份上,那我們就把它稱為模型中的戰鬥機飽和模型了!

飽和模型只跟具體的資料集有關,跟我們當前在考慮什麼樣的模型、模型中包含什麼引數沒有關係。對於同樣的一組資料,飽和模型對應的似然Lfull是個固定值。正因如此,飽和模型是一個很好的基準點,它是給定資料集上,模型擬合優度能達到的上限。

說完了飽和模型,我們再來回到「偏常」(嗯,我知道你已經把這事兒給忘了)。偏常其實就是「飽和模型」相對於當前模型的擬合優度。

 

WeChat 圖片_20200601144339.jpg

 

其中便是飽和模型中能觀察到當前資料的概率 。因此,「偏常」便是以飽和模型的擬合程度作為參照點,得到的當前模型的擬合優度,反映的是現實和理想的差距,所以是越小越好 。

 由於飽和模型對應的值是個常數,用同一組資料,包含或者去掉一個特定引數x的偏常之差就是x的擬合優度。當我們包含x時,偏常記為D1,不包含x時,偏常記為D0

 

WeChat 圖片_20200601144413.jpg

 

繞了一大圈,原來不包含x的偏常減去包含x的偏常就是擬合優度,用來進行似然比檢驗的關鍵一步是這麼計算的呢!

在前面讓Wald檢驗一敗塗地的例子裡面,我們來試一試,似然比檢驗能不能得到正確的結果。根據統計軟體輸出的結果,D0=9.56 D1很小,近似於0D1接近0很合理,因為在資料完全被模型擬合時,包含「教育程度」為引數的模型近似於飽和模型,自然偏常就很小了。G2= D0- D1=9.56G2此時滿足自由度為1的卡方分佈,利用統計軟體(當然,如果你比較古典的話,也可以查表)得知p值非常接近於0——我們終於通過似然比檢驗得到了合理的結果。

 

作者田菊

編輯鵝不食草

質控:異葉青蘭

 

系列文章

1 章  高屋建築看統計

1.你真的懂p值嗎?

2.做統計,多少資料才算夠?(上)

3.做統計,多少資料才算夠?(下)

4.提升統計功效,讓評審心服口服!

5.你的科研成果都是真的嗎?

6.見識資料分析的「獨孤九劍」

7.貝葉斯vs頻率派:武功到底哪家強?

 

2 章  算術平均數與正態分佈

8.數據到手了,第一件事先幹啥?

9.算術平均數:簡單背後有乾坤

10.正態分佈到底是怎麼來的?

 

3   t 檢驗:兩組平均數的比較

11.想玩轉t檢驗?你得從這一篇看起

12.就是要實用!t 檢驗的七十二變

13.不是正態分佈,t 檢驗還能用嗎?

14.只有15個標本,也能指望 t 檢驗嗎?

15.樣本分佈不正態?數據變換來救場!

16.數據變換的萬能鑰匙:Box-Cox變換

17. t 檢驗用不了?別慌,還有神奇的非參數檢驗

18.只講 p 值,不講效應大小,都是耍流氓!

19.找出 t 檢驗的效應大小,對耍流氓 say no

20.置信區間,就是這麼(不)自信!

21.如何確定 t 檢驗的置信區間

22.優雅秀出你的 t 檢驗,提升Paper

23.要做 t 檢驗,這兩口毒奶可喝不得!

 

4 章  方差分析(ANOVA):多組平均數的比較

24.要比較三組資料,t 檢驗還能用嗎?

25.ANOVA在手,多組比較不犯愁

26.ANOVA的基本招式你掌握了嗎?

27.ANOVA做出了顯著性?事兒還沒完呢!

28.聽說,成對t檢驗還有ANOVA進階版?

29.重複測量ANOVA:你要知道的事兒都在這裡啦

30.沒聽說過多因素 ANOVA ?那你就可就 OUT 了!

31.多因素ANOVA=好幾個單因素ANOVA?可沒這麼簡單!

32.兩個因素相互影響,ANOVA結果該如何判讀?

33.ANOVA還能搞三四五因素?等等,我頭有點兒暈

34.要做ANOVA,樣本量多大才夠用

 

5 章  線性回歸:統計建模初步

35.統計學模型你會玩嗎?

36.如果只能學習一種統計方法,我選擇線性回歸

37.回歸線三千,我只取這一條

38.三千回歸線裡選中了你,你靠譜嗎?

39.引數不止一個,線性回歸該怎麼做?

40.找出「交互效應」,讓線性模型更萬能

41.沒考慮到混雜因素,後果會這麼嚴重?

42.回歸係數不顯著?也許是打開方式不對!

43.評價線性模型,R平方是個好裁判嗎?

44.如果R平方是砒霜,本文教你三種解藥!

45.線性模型生病了,你懂得怎樣診斷嗎?

46.「脫離群眾」的資料點,是「春風化雨」還是「秋風掃落葉」

6  廣義線性模型:統計建模進階

47.你在 或者不在 需要邏輯回歸來算

48.邏輯回歸的嫋娜曲線,你是否會過目難忘?

49.邏輯回歸的統計檢驗,原來招數辣麼多?

 

作者簡介

 

張之昊

2010 年本科畢業於清華大學生命科學學院,獲理學學士學位。2016 5 月在耶魯大學跨院系神經科學項目獲得哲學博士學位。在耶魯期間,他利用功能核磁共振成像( fMRI )技術與計算建模研究人類經濟決策的腦科學基礎及其與肥胖症的聯繫。2014 年,他以第一作者身份在 Current Biology 雜誌發表論文,闡述了肥胖女性在涉及食物時的學習能力缺陷,受到 BBC 新聞、CBC、洛杉磯時報、新華社、果殼網等世界知名媒體的廣泛報導。他還曾任耶魯大學 Statlab 資料諮詢師( Data Consultant ),為耶魯師生提供實驗設計、資料分析及統計學軟體的諮詢服務。2016 8 月至今在伯克利加州大學( UC Berkeley )哈斯商學院市場行銷系擔任博士後研究學者( Postdoctoral Scholar )。

 

田菊

2010 年本科畢業於清華大學工程物理系,獲工學學士學位。2016 5 月在哈佛大學醫學院神經科學項目獲得哲學博士學位。她在攻讀博士期間研究基於獎賞的學習行為的神經回路及其計算模型,曾以第一作者或共同作者身份在 NatureNeuronNature NeuroscienceTrends in Cognitive Science 等頂尖學術雜誌上發表多篇論著。2016 6 月至今在 Facebook 擔任資料科學家( Data Scientist )。

 

 

arrow
arrow
    創作者介紹
    創作者 HCHUNGW 的頭像
    HCHUNGW

    HCHUNGW的部落格

    HCHUNGW 發表在 痞客邦 留言(0) 人氣()