邏輯回歸能擺平二分類因變數,那……不止二分類呢?| 協和八

原創 張之昊 

 

通過前面的五期說人話的統計學專欄,我們已經把邏輯回歸的基本理論知識和應用技巧討論了一遍。相信大家已經瞭解,邏輯回歸能説明我們解決的,是因變數有且只有兩種類別的問題,比如我們之前例子裡,一場選舉中選民投票給兩位候選人中的哪一位。通過邏輯回歸,我們可以研究各種引數與我們關心的二分類因變數之間的相關關係,而這些引數既可以是二分類的(如性別),也可以是多分類的(如職業),還可以是連續的(如收入、教育程度)。

毫無疑問,這個世界上有不少問題的答案就是非此即彼的,因而邏輯回歸的用途很廣泛。尤其在醫學領域,諸如是否患有某種疾病,某個療法是否有效,這些幾乎就是醫學研究和實踐的核心問題。運用邏輯回歸,我們可以把病人的各種指標作為引數,從而對疾病的風險因素、藥物或手術的適應症等問題進行嚴謹的研究。

但是,同樣也有很多其他我們關心的事情,其結果不一定只有兩種情況。比方說,你輾轉反側地琢磨你暗戀多時的女神究竟對你有沒有意思,可別傻乎乎地掰起花瓣兒她愛我、她不愛我、她愛我……了!誰知道除了這兩種情況以外,是不是還有想和你曖昧」「想拿你當備胎」「想培養你當男閨蜜之類的其他可能性呢?

換回一張正經臉,實際工作和科研中同樣存在類似的多分類(多於兩種類別)問題。我們曾經在《8.數據到手了,第一件事先幹啥?》裡講過,多分類變數可以進一步分成兩種:名義變數(nominal variable)和定序變數(ordinal variable)。名義變數的不同分類是沒有順序可言的,比如說基因型、疾病的分型等;而有定序變數的不同分類則有邏輯上的順序,比如客戶滿意度調查中的選項非常不滿意」「不滿意」「一般」「滿意」「非常滿意。現在我們的問題是,如果因變數是多分類變數,那麼要用怎樣的統計學模型研究與其相關的因素?多分類因變數的類別有或無順序時,方法是否有所不同?

對於第二個問題的答案,也許你已經猜到,對付這兩種情形,的確要用到不太一樣(但是頗有共通之處)的方法。我們今天就先來討論一下,當因變數的類別沒有順序(即為名義變數)時,要建立怎樣的統計學模型。

既然多分類是二分類的拓展和延伸,那麼我們就從已經熟悉的邏輯回歸模型出發,來找找靈感:

 

WeChat 圖片_20200601172326.jpg

 

這條式子大家已經看過許多遍了,右邊與線性回歸相似,是一堆引數xi(i=1,2,,k)的線性疊加(注意xi不僅可以是單個引數,也可以是若干其他引數的交互作用,例如x3·x5),對應的回歸係數βi(i=1,2,,k)代表各自對因變數的效應大小,當然還有一個我們通常不太關注的截距β0。而左邊呢,p代表了在兩個可能的類別中,因變數為某一個事先選定的類別(比如男/女中的女)的概率。

注意式子左邊對數裡頭的分母1-p,它代表了什麼?當因變數只有兩個可能的類別時,既然p是取其中一個類別(稱為類別1)的概率,那麼1-p自然就是另一個類別(稱為類別2)的概率了。也就是說,我們可以把前面的模型寫成

 

WeChat 圖片_20200601172403.jpg

 

這樣一來,我們就更能清楚地看到,這個模型描繪的是因變數取兩個類別的概率的比值。因此,對於邏輯回歸來說,回歸係數βi描述了當其他引數都保持不變,而引數增加時,因變數在類別12之間的傾向性的變化。更具體地說,如果βi是正數,則xi越大,因變數更可能取類別1;如果βi是負數,則xi越大,因變數更可能取類別2

現在,我們將踏出關鍵的一步——類別只有不止兩個的時候呢?比如說,5個類別?

在這種情況下,我們5個類別之間兩兩比較有多少不同的組合?這個可就多了(回憶一下高中時學過的組合數,52一共有10種組合),但我們並不需要窮盡所有的組合。一種方便的做法是,選定一個類別固定做分母(比如說類別5,稱其為參考類別),然後讓剩下的類別輪流做分子,因此有

WeChat 圖片_20200601172458.jpg

WeChat 圖片_20200601172503.jpg

WeChat 圖片_20200601172506.jpg

WeChat 圖片_20200601172509.jpg

四個比例。

為什麼這樣就夠了呢?首先,有了這四個比例,所有涉及類別5的組合就都照顧到了。其次,如果我們要關心不涉及類別5的組合,比如說P2/P5,那又怎麼辦呢?好辦,我們只需拿P2/P5除以P4/P5,把分母上共同的類別5消掉,就能得到了P2/P4。因此,我們只需要對

WeChat 圖片_20200601172458.jpg

WeChat 圖片_20200601172503.jpg

WeChat 圖片_20200601172506.jpg

WeChat 圖片_20200601172509.jpg

這四個比例建立統計模型,就能夠全方位地覆蓋這5個類別之間的概率比例關係了。究竟選哪個類別做參考類別,其實不影響模型得到的結論,但回歸係數的解讀會有所不同,這一點我們以後還會有進一步的闡釋。其實,這裡的思想和《 50.線性回歸能玩多變數,邏輯回歸當然也能   》裡面的啞變數方法是一脈相承的,只不過啞變數是對名義變數作為引數時的處理方式,而我們今天講的是名義變數做因變數時的建模方法。推廣到一般情形,如果因變數有k種分類,那麼我們需要對k-1個比例關係進行建模。

既然如此,我們就依葫蘆畫瓢,按照一般的二分類邏輯回歸模型的樣子,寫出關於上面的四個比例的模型(注意,為了簡明起見,下面我們省去了關於第幾個數據點的下標,但是我們仍要記住,對於每一個數據點,引數x1x2x3 xk取值不同,各等式左邊的p類別1p類別2,…p類別5也會不同):

WeChat 圖片_20200601172735.jpg

其中,等式最右邊用了求和符號,只是為了把中間一長串的β0,類別1+β1,類別1x1+β2,類別1x2++βk,類別1xk之類寫得簡單一些,而且對後續的表述會有幫助。

很容易看到,這幾條式子與二分類的邏輯回歸模型很相似,這樣的一組模型,稱為多項邏輯回歸(multinomial logistic regression)。需要著重點出的是,在多項邏輯回歸裡,因變數除了參考類別以外的每一個類別,都擁有自己的一套回歸係數,因此,大家會注意到,回歸係數不像以前那樣只有一個對應引數xi的下標i。在本文中,各個β下標的第一部分依然表明該回歸係數對應於哪一個引數,而第二部分則表示該回歸係數對應的是因變數的哪一個類別(在上面的式子中用紅色標出) 。比如說,β2,類別3對應於引數x2和類別3,它的意義是,當引數x2增長一個單位、而其他引數保持不變時,因變數取類別3的概率與取類別5的概率之比例的對數值(或稱兩者的分對數WeChat 圖片_20200601172813.jpg)會相應發生多少變化。推廣到一般情況,如果我們有k個引數,因變數總共有m個類別(包含選做參考類別的那一個)的話,多項邏輯回歸模型裡就一共包含(m-1)(k+1)個回歸係數(含截距)。

根據上面的模型,我們還可以進一步推出,對於任何一個數據點,如果我們知道了它所有引數x1x2x3 xk的取值,那麼它的因變數取各個不同類別的可能性(概率p類別j)是多少。根據對數的定義,前面的四條式子可以變成:

 

WeChat 圖片_20200601172848.jpg

 

 

別看右邊e的冪那麼一大堆很複雜的樣子,現在我們關心的是p類別1p類別2p類別3p類別4p類別5所以其他的都可以看成是常數。此時,簡單做個移項,把左邊的分母都挪到右邊去,我們就能發現,這四條式子只不過是類似於y=0.3xz=1.2y 那樣簡單的一次方程組而已:

WeChat 圖片_20200601172916.jpg

既然是一次方程組,我們知道,要能解得出來,有幾個未知數就要有幾個方程。現在我們有5個未知數p類別1p類別2p類別3p類別4p類別5,可是上面只有四個方程。缺了一個怎麼辦呢?仔細想想,其實對於這5個未知數,還有一個條件我們沒用上:因為已經知道因變數y只可能取這5個類別中的一個,沒有別的可能,那麼這5個概率加起來一定是1

p類別1+p類別2+p類別3+p類別4+p類別5=1

這下好了,5個未知數,5個一次方程,我們可以解出:

WeChat 圖片_20200601172948.jpg

 

看著滿眼的符號很嚇人吧?其實都是紙老虎,仔細看看其實你會發現,翻來覆去都是那幾項,而且電腦和統計學軟體會幫我們打點一切。關鍵在於,對於任何一個數據點,把引數x1x2x3 xk的具體數值代入到上面的式子裡,我們就能用各個回歸係數βi,類別j(i=1,,k; j=1,,m)表示出p類別1p類別2p類別3p類別4p類別5。這個數據點的因變數y是哪個類別,那麼相應的那一個𝑝類別j就是這個數據點的似然函數。對所有數據點都這麼做,然後把各資料點的似然函數乘起來,我們就能得到整個樣本基於上述模型的似然函數。

有了似然函數,我們就可以像在線性回歸和二分類邏輯回歸裡那樣,用極大似然估計方法來找出回歸係數(關於極大似然估計,可回顧《37.回歸線三千,我只取這一條》和《48.邏輯回歸的嫋娜曲線,你是否會過目難忘?》)。換言之,給定一個樣本的各個數據點,似然函數便是關於所有回歸係數的一個函數,極大似然估計就是在各個回歸係數的組合中,尋找使得似然函數取值最大(即最可能)的那一組,並以其作為這些回歸係數的估計值。這一過程與線性回歸和二分類邏輯回歸在概念上是相同的,具體的實現也都交給統計軟體,在此就不再重複了。在下一集文章裡,我們將用一個實例來進一步鞏固對多項邏輯回歸的理解,並著重討論回歸係數的解讀及有關統計檢驗。

作者:張之昊

編輯:鵝不食草

質控:六月雪葉

系列文章

1 章  高屋建築看統計

1.你真的懂p值嗎?

2.做統計,多少資料才算夠?(上)

3.做統計,多少資料才算夠?(下)

4.提升統計功效,讓評審心服口服!

5.你的科研成果都是真的嗎?

6.見識資料分析的「獨孤九劍」

7.貝葉斯vs頻率派:武功到底哪家強?

 

2 章  算術平均數與正態分佈

8.數據到手了,第一件事先幹啥?

9.算術平均數:簡單背後有乾坤

10.正態分佈到底是怎麼來的?

 

3   t 檢驗:兩組平均數的比較

11.想玩轉t檢驗?你得從這一篇看起

12.就是要實用!t 檢驗的七十二變

13.不是正態分佈,t 檢驗還能用嗎?

14.只有15個標本,也能指望 t 檢驗嗎?

15.樣本分佈不正態?數據變換來救場!

16.數據變換的萬能鑰匙:Box-Cox變換

17. t 檢驗用不了?別慌,還有神奇的非參數檢驗

18.只講 p 值,不講效應大小,都是耍流氓!

19.找出 t 檢驗的效應大小,對耍流氓 say no

20.置信區間,就是這麼(不)自信!

21.如何確定 t 檢驗的置信區間

22.優雅秀出你的 t 檢驗,提升Paper

23.要做 t 檢驗,這兩口毒奶可喝不得!

 

4 章  方差分析(ANOVA):多組平均數的比較

24.要比較三組資料,t 檢驗還能用嗎?

25.ANOVA在手,多組比較不犯愁

26.ANOVA的基本招式你掌握了嗎?

27.ANOVA做出了顯著性?事兒還沒完呢!

28.聽說,成對t檢驗還有ANOVA進階版?

29.重複測量ANOVA:你要知道的事兒都在這裡啦

30.沒聽說過多因素 ANOVA ?那你就可就 OUT 了!

31.多因素ANOVA=好幾個單因素ANOVA?可沒這麼簡單!

32.兩個因素相互影響,ANOVA結果該如何判讀?

33.ANOVA還能搞三四五因素?等等,我頭有點兒暈

34.要做ANOVA,樣本量多大才夠用

 

5 章  線性回歸:統計建模初步

35.統計學模型你會玩嗎?

36.如果只能學習一種統計方法,我選擇線性回歸

37.回歸線三千,我只取這一條

38.三千回歸線裡選中了你,你靠譜嗎?

39.引數不止一個,線性回歸該怎麼做?

40.找出「交互效應」,讓線性模型更萬能

41.沒考慮到混雜因素,後果會這麼嚴重?

42.回歸係數不顯著?也許是打開方式不對!

43.評價線性模型,R平方是個好裁判嗎?

44.如果R平方是砒霜,本文教你三種解藥!

45.線性模型生病了,你懂得怎樣診斷嗎?

46.「脫離群眾」的資料點,是「春風化雨」還是「秋風掃落葉」

6 章  廣義線性模型:統計建模進階

47.你在 或者不在 需要邏輯回歸來算

48.邏輯回歸的嫋娜曲線,你是否會過目難忘?

49.邏輯回歸的統計檢驗,原來招數辣麼多?

50.線性回歸能玩多變數,邏輯回歸當然也能! 

51.喂,你的邏輯回歸模型該做個體檢啦
52.邏輯回歸能擺平二分類因變數,那……不止二分類呢?

 

arrow
arrow
    創作者介紹
    創作者 HCHUNGW 的頭像
    HCHUNGW

    HCHUNGW的部落格

    HCHUNGW 發表在 痞客邦 留言(0) 人氣()