<< 連載52 >> 6-6 邏輯回歸能擺平二分類因變數，那……不止二分類呢 | 說人話的統計學·協和八－HCHUNGW的部落格

邏輯回歸能擺平二分類因變數，那……不止二分類呢？| 協和八

原創張之昊

通過前面的五期「說人話的統計學」專欄，我們已經把邏輯回歸的基本理論知識和應用技巧討論了一遍。相信大家已經瞭解，邏輯回歸能説明我們解決的，是因變數有且只有兩種類別的問題，比如我們之前例子裡，一場選舉中選民投票給兩位候選人中的哪一位。通過邏輯回歸，我們可以研究各種引數與我們關心的二分類因變數之間的相關關係，而這些引數既可以是二分類的（如性別），也可以是多分類的（如職業），還可以是連續的（如收入、教育程度）。

毫無疑問，這個世界上有不少問題的答案就是非此即彼的，因而邏輯回歸的用途很廣泛。尤其在醫學領域，諸如是否患有某種疾病，某個療法是否有效，這些幾乎就是醫學研究和實踐的核心問題。運用邏輯回歸，我們可以把病人的各種指標作為引數，從而對疾病的風險因素、藥物或手術的適應症等問題進行嚴謹的研究。

但是，同樣也有很多其他我們關心的事情，其結果不一定只有兩種情況。比方說，你輾轉反側地琢磨你暗戀多時的女神究竟對你有沒有意思，可別傻乎乎地掰起花瓣兒「她愛我、她不愛我、她愛我……」了！誰知道除了這兩種情況以外，是不是還有「想和你曖昧」「想拿你當備胎」「想培養你當男閨蜜」之類的其他可能性呢？

換回一張正經臉，實際工作和科研中同樣存在類似的多分類（多於兩種類別）問題。我們曾經在《8.數據到手了，第一件事先幹啥？》裡講過，多分類變數可以進一步分成兩種：名義變數（nominal variable）和定序變數（ordinal variable）。名義變數的不同分類是沒有順序可言的，比如說基因型、疾病的分型等；而有定序變數的不同分類則有邏輯上的順序，比如客戶滿意度調查中的選項「非常不滿意」「不滿意」「一般」「滿意」「非常滿意」。現在我們的問題是，如果因變數是多分類變數，那麼要用怎樣的統計學模型研究與其相關的因素？多分類因變數的類別有或無順序時，方法是否有所不同？

對於第二個問題的答案，也許你已經猜到，對付這兩種情形，的確要用到不太一樣（但是頗有共通之處）的方法。我們今天就先來討論一下，當因變數的類別沒有順序（即為名義變數）時，要建立怎樣的統計學模型。

既然多分類是二分類的拓展和延伸，那麼我們就從已經熟悉的邏輯回歸模型出發，來找找靈感：

WeChat 圖片_20200601172326.jpg

這條式子大家已經看過許多遍了，右邊與線性回歸相似，是一堆引數x_i(i=1,2,…,k)的線性疊加（注意x_i不僅可以是單個引數，也可以是若干其他引數的交互作用，例如x₃·x₅），對應的回歸係數β_i(i=1,2,…,k)代表各自對因變數的效應大小，當然還有一個我們通常不太關注的截距β₀。而左邊呢，p代表了在兩個可能的類別中，因變數為某一個事先選定的類別（比如男／女中的女）的概率。

注意式子左邊對數裡頭的分母1-p，它代表了什麼？當因變數只有兩個可能的類別時，既然p是取其中一個類別（稱為類別1）的概率，那麼1-p自然就是另一個類別（稱為類別2）的概率了。也就是說，我們可以把前面的模型寫成

WeChat 圖片_20200601172403.jpg

這樣一來，我們就更能清楚地看到，這個模型描繪的是因變數取兩個類別的概率的比值。因此，對於邏輯回歸來說，回歸係數β_i描述了當其他引數都保持不變，而引數增加時，因變數在類別1和2之間的「傾向性」的變化。更具體地說，如果β_i是正數，則x_i越大，因變數更可能取類別1；如果β_i是負數，則x_i越大，因變數更可能取類別2。

現在，我們將踏出關鍵的一步——類別只有不止兩個的時候呢？比如說，5個類別？

在這種情況下，我們5個類別之間兩兩比較有多少不同的組合？這個可就多了（回憶一下高中時學過的組合數，5選2一共有10種組合），但我們並不需要窮盡所有的組合。一種方便的做法是，選定一個類別固定做分母（比如說類別5，稱其為「參考類別」），然後讓剩下的類別輪流做分子，因此有

WeChat 圖片_20200601172458.jpg

WeChat 圖片_20200601172503.jpg

WeChat 圖片_20200601172506.jpg

WeChat 圖片_20200601172509.jpg

四個比例。

為什麼這樣就夠了呢？首先，有了這四個比例，所有涉及類別5的組合就都照顧到了。其次，如果我們要關心不涉及類別5的組合，比如說P2/P5，那又怎麼辦呢？好辦，我們只需拿P2/P5除以P4/P5，把分母上共同的類別5消掉，就能得到了P2/P4。因此，我們只需要對

WeChat 圖片_20200601172458.jpg

WeChat 圖片_20200601172503.jpg

WeChat 圖片_20200601172506.jpg

WeChat 圖片_20200601172509.jpg

這四個比例建立統計模型，就能夠全方位地覆蓋這5個類別之間的概率比例關係了。究竟選哪個類別做參考類別，其實不影響模型得到的結論，但回歸係數的解讀會有所不同，這一點我們以後還會有進一步的闡釋。其實，這裡的思想和《 50.線性回歸能玩多變數，邏輯回歸當然也能! 》裡面的「啞變數」方法是一脈相承的，只不過啞變數是對名義變數作為引數時的處理方式，而我們今天講的是名義變數做因變數時的建模方法。推廣到一般情形，如果因變數有k種分類，那麼我們需要對k-1個比例關係進行建模。

既然如此，我們就依葫蘆畫瓢，按照一般的二分類邏輯回歸模型的樣子，寫出關於上面的四個比例的模型（注意，為了簡明起見，下面我們省去了關於第幾個數據點的下標，但是我們仍要記住，對於每一個數據點，引數x₁_，x₂_，x₃_，… x_k取值不同，各等式左邊的p_類別₁，p_類別₂，…p_類別₅也會不同）：

WeChat 圖片_20200601172735.jpg

其中，等式最右邊用了求和符號，只是為了把中間一長串的β_0,_類別₁+β_1,_類別₁x₁+β_2,_類別₁x₂+…+β_k,_類別₁x_k之類寫得簡單一些，而且對後續的表述會有幫助。

很容易看到，這幾條式子與二分類的邏輯回歸模型很相似，這樣的一組模型，稱為「多項邏輯回歸」(multinomial logistic regression)。需要著重點出的是，在多項邏輯回歸裡，因變數除了參考類別以外的每一個類別，都擁有自己的一套回歸係數，因此，大家會注意到，回歸係數不像以前那樣只有一個對應引數x_i的下標i。在本文中，各個β下標的第一部分依然表明該回歸係數對應於哪一個引數，而第二部分則表示該回歸係數對應的是因變數的哪一個類別（在上面的式子中用紅色標出）。比如說，β_2,_類別₃對應於引數x₂和類別3，它的意義是，當引數x₂增長一個單位、而其他引數保持不變時，因變數取類別3的概率與取類別5的概率之比例的對數值（或稱兩者的分對數 WeChat 圖片_20200601172813.jpg ）會相應發生多少變化。推廣到一般情況，如果我們有k個引數，因變數總共有m個類別（包含選做參考類別的那一個）的話，多項邏輯回歸模型裡就一共包含(m-1)(k+1)個回歸係數（含截距）。

根據上面的模型，我們還可以進一步推出，對於任何一個數據點，如果我們知道了它所有引數x₁_，x₂_，x₃_，… x_k的取值，那麼它的因變數取各個不同類別的可能性（概率p_類別_j）是多少。根據對數的定義，前面的四條式子可以變成：

WeChat 圖片_20200601172848.jpg

別看右邊e的冪那麼一大堆很複雜的樣子，現在我們關心的是p_類別₁，p_類別₂，p_類別₃，p_類別₄_，p_類別₅_，所以其他的都可以看成是常數。此時，簡單做個移項，把左邊的分母都挪到右邊去，我們就能發現，這四條式子只不過是類似於y=0.3x，z=1.2y 那樣簡單的一次方程組而已：

WeChat 圖片_20200601172916.jpg

既然是一次方程組，我們知道，要能解得出來，有幾個未知數就要有幾個方程。現在我們有5個未知數p_類別₁，p_類別₂，p_類別₃，p_類別₄，p_類別₅，可是上面只有四個方程。缺了一個怎麼辦呢？仔細想想，其實對於這5個未知數，還有一個條件我們沒用上：因為已經知道因變數y只可能取這5個類別中的一個，沒有別的可能，那麼這5個概率加起來一定是1：

p_類別₁+p_類別₂+p_類別₃+p_類別₄+p_類別₅=1

這下好了，5個未知數，5個一次方程，我們可以解出：

WeChat 圖片_20200601172948.jpg

看著滿眼的符號很嚇人吧？其實都是紙老虎，仔細看看其實你會發現，翻來覆去都是那幾項，而且電腦和統計學軟體會幫我們打點一切。關鍵在於，對於任何一個數據點，把引數x₁_，x₂_，x₃_，… x_k的具體數值代入到上面的式子裡，我們就能用各個回歸係數β_i,_類別_j(i=1,…,k; j=1,…,m)表示出p_類別₁，p_類別₂，p_類別₃，p_類別₄，p_類別₅。這個數據點的因變數y是哪個類別，那麼相應的那一個𝑝類別j就是這個數據點的似然函數。對所有數據點都這麼做，然後把各資料點的似然函數乘起來，我們就能得到整個樣本基於上述模型的似然函數。

有了似然函數，我們就可以像在線性回歸和二分類邏輯回歸裡那樣，用極大似然估計方法來找出回歸係數（關於極大似然估計，可回顧《37.回歸線三千，我只取這一條》和《48.邏輯回歸的嫋娜曲線，你是否會過目難忘？》）。換言之，給定一個樣本的各個數據點，似然函數便是關於所有回歸係數的一個函數，極大似然估計就是在各個回歸係數的組合中，尋找使得似然函數取值最大（即最可能）的那一組，並以其作為這些回歸係數的估計值。這一過程與線性回歸和二分類邏輯回歸在概念上是相同的，具體的實現也都交給統計軟體，在此就不再重複了。在下一集文章裡，我們將用一個實例來進一步鞏固對多項邏輯回歸的理解，並著重討論回歸係數的解讀及有關統計檢驗。

作者：張之昊

編輯：鵝不食草

質控：六月雪葉

系列文章

第 1 章高屋建築看統計

1.你真的懂p值嗎？

2.做統計，多少資料才算夠？（上）

3.做統計，多少資料才算夠？（下）

4.提升統計功效，讓評審心服口服！

5.你的科研成果都是真的嗎？

6.見識資料分析的「獨孤九劍」

7.貝葉斯vs頻率派：武功到底哪家強？

第 2 章算術平均數與正態分佈

8.數據到手了，第一件事先幹啥？

9.算術平均數：簡單背後有乾坤

10.正態分佈到底是怎麼來的？

第 3 章 t 檢驗：兩組平均數的比較

11.想玩轉t檢驗？你得從這一篇看起

12.就是要實用！t 檢驗的七十二變

13.不是正態分佈，t 檢驗還能用嗎？

14.只有15個標本，也能指望 t 檢驗嗎？

15.樣本分佈不正態？數據變換來救場！

16.數據變換的萬能鑰匙：Box-Cox變換

17. t 檢驗用不了？別慌，還有神奇的非參數檢驗

18.只講 p 值，不講效應大小，都是耍流氓！

19.找出 t 檢驗的效應大小，對耍流氓 say no！

20.用置信區間，就是這麼（不）自信！

21.如何確定 t 檢驗的置信區間

22.優雅秀出你的 t 檢驗，提升Paper！

23.要做 t 檢驗，這兩口毒奶可喝不得！

第 4 章方差分析（ANOVA）：多組平均數的比較

24.要比較三組資料，t 檢驗還能用嗎？

25.ANOVA在手，多組比較不犯愁

26.ANOVA的基本招式你掌握了嗎？

27.ANOVA做出了顯著性？事兒還沒完呢！

28.聽說，成對t檢驗還有ANOVA進階版？

29.重複測量ANOVA：你要知道的事兒都在這裡啦

30.沒聽說過多因素 ANOVA ？那你就可就 OUT 了！

31.多因素ANOVA＝好幾個單因素ANOVA？可沒這麼簡單！

32.兩個因素相互影響，ANOVA結果該如何判讀？

33.ANOVA還能搞三四五因素？等等，我頭有點兒暈

34.要做ANOVA，樣本量多大才夠用

第 5 章線性回歸：統計建模初步

35.統計學模型你會玩嗎？

36.如果只能學習一種統計方法，我選擇線性回歸

37.回歸線三千，我只取這一條

38.三千回歸線裡選中了你，你靠譜嗎？

39.引數不止一個，線性回歸該怎麼做？

40.找出「交互效應」，讓線性模型更萬能

41.沒考慮到混雜因素，後果會這麼嚴重？

42.回歸係數不顯著？也許是打開方式不對！

43.評價線性模型，R平方是個好裁判嗎？

44.如果R平方是砒霜，本文教你三種解藥！

45.線性模型生病了，你懂得怎樣診斷嗎？

46.「脫離群眾」的資料點，是「春風化雨」還是「秋風掃落葉」

第 6 章廣義線性模型：統計建模進階

47.你在或者不在需要邏輯回歸來算

48.邏輯回歸的嫋娜曲線，你是否會過目難忘？

49.邏輯回歸的統計檢驗，原來招數辣麼多？

50.線性回歸能玩多變數，邏輯回歸當然也能!

51.喂，你的邏輯回歸模型該做個體檢啦！
52.邏輯回歸能擺平二分類因變數，那……不止二分類呢？

統計學大數據分析心得人工智慧心得經濟學系

HCHUNGW

HCHUNGW的部落格

HCHUNGW 發表在痞客邦留言(0) 人氣()

HCHUNGW的部落格

希望多元開放平等進步

<< 連載52 >> 6-6 邏輯回歸能擺平二分類因變數，那……不止二分類呢 | 說人話的統計學·協和八

歷史上的今天

留言列表

站方公告

活動快報

【痞客...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

HCHUNGW的部落格

希望 多元 開放 平等 進步

<< 連載52 >> 6-6 邏輯回歸能擺平二分類因變數，那……不止二分類呢 | 說人話的統計學·協和八

歷史上的今天

留言列表

站方公告

活動快報

【痞客...

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

希望多元開放平等進步