<< 連載28 >> 4-5 聽說，成對t檢驗還有ANOVA進階版？ | 說人話的統計學·協和八－HCHUNGW的部落格

聽說，成對t檢驗還有ANOVA進階版？ | 協和八

原創張之昊

讀過「說人話的統計學」專欄最近的幾集，相信各位好學的寶寶們已經掌握了ANOVA（方差分析）的原理（回顧 25.ANOVA在手，多組比較不犯愁）

也對它的基本假設、理論基礎（ F 分佈）有所瞭解（回顧26.ANOVA的基本招式你掌握了嗎？），並且還學到了常與 ANOVA 搭配使用的一個有力武器——事後檢驗（回顧 27.ANOVA做出了顯著性？事兒還沒完呢！）。

儘管這裡頭有一些在使用時需要小心注意的細節，但是別忘了從出發點上來講，ANOVA 是 t 檢驗的一個拓展，它們的功能都是為了檢驗若干組資料的平均值是否存在差別。

既然說 ANOVA 是 t 檢驗的拓展，那麼我們不妨回想一下 t 檢驗的幾種類型（詳情回顧 12.就是要實用！t 檢驗的七十二變）。

我們說過，當我們有兩組資料需要做比較時，我們需要考慮這兩組資料是否存在一一對應的關係，或者來自兩組互相獨立的個體，從而相應選取成對樣本 t 檢驗（前者）或獨立樣本 t 檢驗（後者）。

前幾集裡我們講到的 ANOVA，是假設各組資料之間沒有關係的，因此可以認為是對應了獨立樣本 t 檢驗。那麼，如果我們的多組資料之間有一一對應關係（例如幾組資料來自對同一群個體的重複測量），有沒有專門針對這樣情況的 ANOVA 呢？

勤勞勇敢的統計學家們當然不會對這個問題視而不見，今天我們就來講一講 ANOVA 的一個特別版——重複測量 ANOVA（repeated-measures ANOVA）。它適用的恰恰就是剛才說到的情形；換言之，我們可以認為重複測量 ANOVA 是成對樣本 t 檢驗的延伸版。

◆◆ 1 ◆◆

既然如此，重複測量 ANOVA 在具體科研實踐中的用武之地與成對樣本 t 檢驗也是相似的。簡單來說，最常見的情形有兩種：

❶ 在不同時間點對同一批個體測量同一個指標，而我們希望知道這個指標在不同時間內是否發生了變化。

比如說，我們需要考察某種藥物治療肥胖症的效果及其持續性，因而我們分別在服藥前、服藥後一周、服藥後一個月、服藥後六個月這 4 個時間點測量同一群病人的體重。這時，我們感興趣的問題就是，在這 4 個時間點上，這群病人的平均體重有沒有變化。

這裡順帶說一句題外話，如果我們發現服藥後比服藥前平均體重有顯著減輕，這固然是對該藥物療效的有利證據，但還需要排除安慰劑效應、病人自發的行為和進食變化等其他幹擾因素，才能更充分地認定藥物的有效性。一般來說，我們還需要另外包括一個對照組，在同樣的4個時間點收集體重資料，並比較藥物組、對照組病人的體重變化是否有差異。這時我們要用到比單純的重複測量 ANOVA 稍微更複雜一些的統計學工具，以後我們會再作詳細介紹。

❷ 對同一批個體施加不同的實驗條件或處理，研究這些實驗條件對某個指標有什麼影響。

上一集我們給大家舉過一個開腦洞的吃貨做科研的例子，就是對不同的小鼠分別餵食巧克力、葡萄乾、花生米和老乾媽，研究飲食對小鼠記憶力的影響。當時我們講的是，找來一批小鼠，隨機分配到不同的食物組裡，每只小鼠只會吃到一種食物。另外一種辦法是，我們使用同一批小鼠，而這些小鼠會依次體驗所有這些食物，並在食用每種食物之後都被測量一次記憶力，這時我們要用到的就是重複檢驗 ANOVA 了。

當然，我們要這麼做的話，需要保證（或者至少根據已有的知識相信）餵食的食物之間是獨立的，不能產生相互作用，例如沒有遺留影響（比如巧克力對記憶力的影響在後來吃別的食物時依然存在）或者順序效應（比如先吃葡萄乾再吃花生米和先吃花生米再吃葡萄乾對記憶力的影響不同）。要減少或消除這些問題的幹擾，一要靠具體問題的背景知識，比方說根據對消化系統的認識和以往的研究，來決定不同食物之間間隔的時間要多長才夠，二要利用特定的實驗設計方法，比方說在不同個體上使用不一樣的順序來餵食。

◆◆ 2 ◆◆

弄清了重複測量 ANOVA 能派什麼用場，你也許想說，重複測量 ANOVA 相比起之前咱們討論的普通版 ANOVA 究竟有啥優勢呢？像上面說的這些重複測量的資料，如果我就用常規 ANOVA，把它當成幾組沒有關聯的資料，有啥不行的嗎？

直觀地說，既然我們知道幾組資料之間存在一一對應的關係，那麼我們就應該在做分析的時候把這個資訊也考慮進去。忽略它而選用普通的 ANOVA 模型，不僅僅是浪費了資料和實驗設計中本身存在的優勢，而且還做了錯誤的假設（認為幾組資料點之間相互獨立）。這樣一來，就很容易造成統計功效的損失——就是也許明明可以有顯著性的結果失去了顯著性，或者顯著性變小。

當然啦，俗語有雲，「聽過很多道理，但還是過不好這一生」。光說不練可不是咱「說人話的統計學」專欄的風格，下麵就讓我們來舉個栗子。

話說期中考試臨近，活潑又聰明的藍精靈們也變得愁眉苦臉起來，每天起得比雞早，睡得比狗晚。他們最苦惱的，就是睡覺和學習之間不可調和的矛盾。尤其是熬夜過後腦子一團漿糊的感覺，不禁讓藍精靈懷疑起犧牲的睡眠究竟值不值得。大傢夥兒上 PubMed 一查，發現儘管對於睡眠與認知能力之間的關係在人啊各類動物啊都有許多研究，但在藍精靈這個物種上竟是一片空白。因此，他們決定自己動手，來填補這項空缺。

他們的實驗倒也簡單——6 位藍精靈自告奮勇（為了區分他們，就姑且把他們叫做蔚藍精靈、深藍精靈、綠精靈、粉精靈、紅精靈和黃精靈吧），分別體驗一宿睡 3 小時、6 小時、9 小時，然後在每次睡醒後，在 3 分鐘內做 50 道算術題，算出得分。

當然了，為了避免我們前面提到的一些問題，6 位志願者體驗這三個實驗條件的順序不同，而且這三個實驗條件之間相隔的時間都足夠長，在間隔時間裡 6 位藍精靈的生活作息也保持一致。

實驗做完了，資料是騾子是馬還得拉出來遛遛。下麵，我們就先把三個實驗條件下 6 位志願者的算術題得分畫出散點圖（ y 軸為算術測試得分，x 軸為三個實驗條件）：

WeChat 圖片_20200521150848.jpg

圖1 三種實驗條件下的算術測試得分

圖片來源：作者自繪

看到這個圖，我們都會覺得，雖然睡眠時間長一點時，算術測試得分稍有提高，但是貌似影響並不大。關鍵的問題是，如果把三種實驗條件下的資料點看作三個組，那麼組與組之間的差別雖然有一些，但比起每個組內部的分散程度，顯得並不太大。如果我們普通的 ANOVA 方法套在這些資料上，按照我們此前在《25.ANOVA在手，多組比較不犯愁》裡介紹過的思路，相信大家不需要動筆算，就能猜到組間平方和比較小，組內平方和比較大。

事實上的確如此，如果我們給圖裡的資料做個 ANOVA，將會得到大於 0.05 的 p 值。也就是說，我們會認為不同睡眠時間對算術測試表現好壞的影響並不具有顯著性。

但是真的如此嗎？別忘了這三個條件裡的資料其實是互相有關聯的。我們應該怎樣把這一資訊包含到 ANOVA 分析裡？

我們首先還是借助圖形找找直觀靈感。上面的圖 1 表現了 3 個實驗條件下所有的資料點，但是我們並不能看出哪些點其實來自同一個藍精靈。解決的辦法其實就在一段時間以前我們專欄的文章《》裡。當時，我們討論了怎樣表現成對樣本 t 檢驗的資料和結果，就提到可以在散點圖中把匹配的資料點用線連起來。現在我們就試試看，如果把來自同一個藍精靈的三個資料點連在一起，並且用不同顏色標注不同的藍精靈：

WeChat 圖片_20200521150931.jpg

圖 2 三種實驗條件下的算術測試得分(用顏色標注不同個體)

圖片來源：作者自繪

對比一下圖 2 和圖 1，雖然資料完全一樣，然而給人的直觀感覺卻很不同。

從圖 2 中我們很容易能看到，在不同的藍精靈身上，睡眠時間越多，算術測試得分一般都會越高，這個趨勢在不同個體中十分一致。我們還會發現，之前在圖 1 中看起來各條件以內很大的誤差其實是由個體間本身穩定的差別所引起的。比如說，綠精靈和粉精靈無論多睡少睡，都總是考前兩名（正所謂「你大爺還是你大爺」！）。也就是說，6 位元藍精靈之間分數的差別其實有相當一部分來源於各自本身的某些特點和性質（比如智商、對數學的興趣、努力程度），而不是隨機誤差。

這有什麼用呢？回想一下普通獨立樣本的 ANOVA 的邏輯，我們把資料總的變異性（總平方和）分拆為組間平方和與組內平方和，分別代表了效應和誤差。效應比誤差大得越多，那麼效應就更顯著。

然而，在重複測量的情況下，「組內」（或者更準確地說是「條件內」）平方和其實有一部分並不是誤差，而是個體與個體之間本身存在的穩定差別。因此，重複測量 ANOVA 利用我們已知的資料點在不同實驗條件或時間點之間的匹配關係，從組內平方和中剔除個體差異，因而最後被認為是隨機誤差引起的那部分平方和就更小了。效應依然不變，而誤差小了，效應的顯著性自然在很多情況下也會提高了（見下圖）。

WeChat 圖片_20200521151059.jpg

圖 3 ANOVA 與重複測量 ANOVA 原理比較

圖片來源：作者自繪

對於藍精靈這個例子來說，這樣做的確收到了很好的效果——如果我們使用重複測量 ANOVA 進行分析，就會得到 0.001 的 p 值！

那麼，這個 p 值是怎樣算出來的呢？我們前面所說的把組內（或條件內平方和）進一步分割又到底應該怎樣做？還是那句老話——請聽下回分解：）

可查看統計學」系列合輯，

系列任意文章

第 1 章高屋建築看統計

1.你真的懂p值嗎？

2.做統計，多少資料才算夠？（上）

3.做統計，多少資料才算夠？（下）

4.提升統計功效，讓評審心服口服！

5.你的科研成果都是真的嗎？

6.見識資料分析的「獨孤九劍」

7.貝葉斯vs頻率派：武功到底哪家強？

第 2 章算術平均數與正態分佈

8.數據到手了，第一件事先幹啥？

9.算術平均數：簡單背後有乾坤

10.正態分佈到底是怎麼來的？

第 3 章 t 檢驗：兩組平均數的比較

11.想玩轉t檢驗？你得從這一篇看起

12.就是要實用！t 檢驗的七十二變

13.不是正態分佈，t 檢驗還能用嗎？

14.只有15個標本，也能指望 t 檢驗嗎？

15.樣本分佈不正態？數據變換來救場！

16.數據變換的萬能鑰匙：Box-Cox變換

17. t 檢驗用不了？別慌，還有神奇的非參數檢驗

18.只講 p 值，不講效應大小，都是耍流氓！

19.找出 t 檢驗的效應大小，對耍流氓 say no！

20.用置信區間，就是這麼（不）自信！

21.如何確定 t 檢驗的置信區間

22.優雅秀出你的 t 檢驗，提升Paper！

23.要做 t 檢驗，這兩口毒奶可喝不得！

第 4 章方差分析（ANOVA）：多組平均數的比較

24.要比較三組資料，t 檢驗還能用嗎？

25.ANOVA在手，多組比較不犯愁

26.ANOVA的基本招式你掌握了嗎？

27.ANOVA做出了顯著性？事兒還沒完呢！

28.聽說，成對t檢驗還有ANOVA進階版？

作者：張之昊

編輯：黑草烏葉

統計學大數據分析心得人工智慧心得經濟學系

HCHUNGW

HCHUNGW的部落格

HCHUNGW 發表在痞客邦留言(0) 人氣()

HCHUNGW的部落格

破軍突破革新希望多元開放平等進步

<< 連載28 >> 4-5 聽說，成對t檢驗還有ANOVA進階版？ | 說人話的統計學·協和八

歷史上的今天

留言列表

站方公告

活動快報

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

HCHUNGW的部落格

破軍 突破 革新 希望 多元 開放 平等 進步

<< 連載28 >> 4-5 聽說，成對t檢驗還有ANOVA進階版？ | 說人話的統計學·協和八

歷史上的今天

留言列表

站方公告

活動快報

我的好友

熱門文章

文章分類

最新文章

最新留言

動態訂閱

文章精選

文章搜尋

新聞交換(RSS)

誰來我家

參觀人氣

QR Code

POWERED BY

破軍突破革新希望多元開放平等進步