找出t檢驗的效應大小,對耍流氓 say no!| 協和八
原創 張之昊
讀過本系列上一集《18.只講 p 值,不講效應大小,都是耍流氓!》的你,相信已經記住了我們的逆耳忠言。
小小聲告訴你,這樣的流氓,其實我們曾經都耍過呢!今天,我們就接著上一集,來講講做完 t 檢驗之後,怎樣正確地報告效應大小,從而做個不耍流氓的好少年。
(什麼?我已經太老不能做少年了?那就好兒童吧!)
單樣本 t 檢驗的效應大小
對於效應大小這個概念,我們之前已經接觸過許多次。
之所以它值得我們的注意,是因為它能向我們提供比 p 值更多的資訊。
相比起根據 p 值是否小於 0.05 或者別的閾值來做個非此即彼的裁決,效應大小會追問一句,我們所感興趣的現象本身究竟程度如何?
在 t 檢驗的情形裡,既然這個檢驗的目標是平均值之間的差異,效應大小關心的就是這個差異究竟有多大。
從上一集的幾個例子中我們也已知道,儘管一個很小的 p 值看起來意味著有很強的證據反對原假設,但是它並不等同於很大的效應——很小的 p 值同樣可以來源於實際上並不顯著的效應,只要樣本量夠大就行。
因此,當我們彙報統計分析的結果時,在 p 值以外再加上效應大小等相關資訊,能給讀者正確、全面地解讀結果帶來很大的幫助。
這一點建議對頻率主義統計學的幾乎所有檢驗都是適用的。
那麼,當我們使用 t 檢驗時,我們應該如何找出效應大小?
回顧一下,我們在《12.就是要實用!t 檢驗的七十二變》裡講過,t 檢驗有三種(單樣本 t 檢驗、獨立樣本 t 檢驗、成對樣本 t 檢驗),目的是共通的——對一個或兩個樣本的平均值做統計推斷。
既然如此,效應大小能不能直接用平均值與標準值之差(單樣本 t 檢驗)或是兩個平均值之差(另外兩種 t 檢驗)來表示?
想到了這一點,我們就已經在正確的方向上前進了一小步。
你應該也記得,在上一集裡,我們演示 p 值和效應大小的關係時,正是用樣本包子重量的平均值與食堂規定的標準值之間的差別來粗略衡量效應大小的。
但是,這種方法有兩個缺陷:
第一,它依賴於具體問題中資料本身所帶的單位及其取值範圍。
比如說,我們隨機抽檢的包子樣本平均重量與標準值的差是 3 克。
如果我們把單位換成千克,那麼這個差值就變成了 0.003 千克——說的還是一個事,數值上給人的感覺卻大大不同。我們希望定義一種效應大小的表示方法,能夠不受這些表面現象所影響。
第二,如果只關注平均值的偏差本身,我們就忽略了這一偏差本身所帶有的不確定性。我們再來看一個例子(圖 1)。和上一集一樣,讓我們來比較兩個包子重量的樣本(樣本 5 和 6 )。記住,食堂的包子重量標準值仍然是 50 克。
圖 1 包子樣本 5 號和樣本 6 號
藍色橫線代表包子重量的規定標準值 50 克。兩個樣本中的各個數據點用+號表示,樣本平均值用菱形表示。樣本各自的均值(mean)和標準差(standard deviation, s.d.)標注在相應位置。
如果從平均值來看,這兩個樣本與標準值 50 克的差別幾乎沒有區別,大約都是 4 克多一點。
而且,兩個樣本的資料點個數也都是 30。
但是我們對這兩個結果的信心是否一樣呢?
恐怕不然。從圖 1 可以看到,樣本 6 的資料比樣本 5 要分散許多。
比起資料相對集中的樣本 5,樣本 6 會讓我們心裡更沒底——與標準值的這點差別誰知道是不是碰巧得到的呢?
正是因為這樣的考慮,我們希望在衡量效應大小時,能把結果的不確定性也包含進去——不確定性大時,我們就把效應大小調整得小一些。
有什麼辦法可以表示不確定性的大小?
上面的圖 1 已經給了我們提示:標準差!
我們以前說過,標準差是表示一個樣本中所有數據點離它們的平均值的偏離程度的量。
因此,我們可以把平均值與標準值之差除以樣本的標準差。
這樣一來,效應大小就是一個綜合了平均值的差異及其不確定性的數量了,稱為 Cohen 氏 d 值:
其中 μ 為總體的真實均值,μ0 為標準值,而 σ 為總體的標準差。當然,總體的參數我們無法得知,因此要用樣本的均值和標準差代替。
現在我們已經把差值的不確定性放到了 d 值裡面,那麼之前說過的由資料的單位所引起的問題呢?告訴你一個好消息,它在 d 值裡也不存在了。因為標準差的單位和資料平均值的單位相同(想想看為什麼?),在計算 d 值時上下一除就消去了。因此 d 是一個不帶單位的量。
而更重要的是,Cohen 氏 d 值使我們能夠把來自完全不同的資料的若干 t 檢驗的效應大小放在同一個尺度上比較。
比如說,如果我們想對認知行為療法對慢性疼痛的療效的已有研究做個總結,那麼在找到所有這些文獻以後,我們會發現,雖然這些研究的目的相似,但是具體資料的來源和形式卻是千差萬別,例如疼痛程度的評分會使用不同的體系和尺度,受試者人數及人群中資料的波動情況也會不一樣。這時,直接把治療前後平均值的差別放在一起比較是沒有意義的。而利用 Cohen 氏 d 值來代表效應大小,則能使不同研究的結果變得可以等量齊觀。
因此,效應大小也是用定量方法綜合大量研究結果(即薈萃分析)的一個重要基礎。
怎樣的效應算是大呢?Cohen 氏 d 值的發明人 Jacob Cohen 曾經提出過一條經驗準則,把 d 值為 0.2,0.5 和 0.8 的效應分別稱為小、中、大效應。當然了,這只是相當粗略的劃分,也沒有考慮到不同學科之間的差異,因此只能作為一種參考。
成對樣本和獨立樣本 t 檢驗的效應大小
既然 t 檢驗有三個版本,Cohen 氏 d 值自然也一樣。前面我們講了單樣本 t 檢驗的情況下 Cohen 氏 d 值的定義。對於單樣本 t 檢驗,Cohen 氏 d 值就是平均值(與標準值)的差異與標準差的比例。對於另外兩種 t 檢驗,d 值的定義也是大同小異——分子上自然是兩個樣本的平均值之差,而分母依然是某種「標準差」。由於成對樣本和獨立樣本 t 檢驗都涉及兩個樣本,因此這個標準差是結合了兩個樣本的「合併標準差」(pooled standard deviation)。具體的理論這裡我們不詳細敘述,僅僅列出算式。
成對樣本 t 檢驗的效應大小為
其中 μx、μy 為兩個成對總體的均值,σx、σy 分別為各自的標準差,而 ρxy 為兩個總體之間的相關係數(correlation coefficient)。
所謂相關係數,簡單來說就是測量兩個變數變化方向是否一致。
如果 x 增大時 y 也增大,則相關係數為正;如果 x 增大時 y 會減小,則相關係數為負。
相關係數的取值範圍在 1(兩變數完全成比例地同增同減)到 -1 之間(兩變數完全成比例地向相反方向變化),相關係數為 0 時兩變數完全沒有關聯,見下圖。
圖2 相關係數取1到-1之間不同數值時的x~y散點圖示例
(圖片來源:https://en.wikipedia.org/wiki/Correlation_and_dependence#/media/File:Correlation_examples2.svg)
此外,我們之前也提過,如果把成對樣本中對應的資料點兩兩相減,那麼把得出的差值做單樣本 t 檢驗 (以 0 為標準值)實際上等價于成對樣本的 t 檢驗(回顧12.就是要實用!t 檢驗的七十二變)。因此,我們也可以對成對樣本的差值使用前面單樣本 t 檢驗的 Cohen 氏 d 值的公式。
獨立樣本 t 檢驗的效應大小(當兩個樣本的樣本量n1、n2比較接近時)為
其中各符號的含義與前面相同。
利用效應大小進行 t 檢驗的功效分析
效應大小不僅是評估統計檢驗結果的重要工具,更是功效分析中的關鍵一環。
功效分析是根據預測可能發生的實驗結果估算出實驗所需要的樣本量的過程,因而也是如今各種科研基金申請書的常客。
我們很久以前為大家介紹過功效分析的基本原理——效應大小、顯著性水準(α,通常為 0.05)、統計功效(1-β,通常為 0.8)和樣本量(n)只要知道其中三個,就能求出第四個。(看著這句話有點蒙圈?回顧《2,3 做統計,多少資料才算夠?》)
因此,在功效分析中,當我們選定了計畫進行的統計檢驗時,要知道所需的樣本量,我們只需確定效應大小、顯著性水準和統計功效。
後兩者一般都是約定俗成的,難點在於效應大小的確定。
我們以前也討論過,在還沒有獲得正式資料之時,效應大小一般通過小規模的試點實驗(pilot study)或者參考以往的類似研究進行估算。
假設我們正在計畫一個課題,其中一部分的資料分析將會用到 t 檢驗。
按照前面介紹的公式估算出了效應大小以後,我們怎樣知道需要多大的樣本量?
這時,我們需要用到之前推介過的一款優秀且免費的功效分析軟體 G*Power
打開 G*Power,我們將看到如下基本介面(圖 3)。首先,既然我們計畫使用的是 t 檢驗,我們需要在「檢驗類型」(test family)中選擇 t 檢驗(t tests)。然後,還需在「功效分析類型」(Type of power analysis)選項卡中選擇“事前”(A priori)選項,因為我們是希望在實驗正式開始前確定樣本量。
圖 3 在 G*Power 軟體中選擇統計核對總和功效分析類型
接下來,我們需要在 t 檢驗這一個大家族的下拉式功能表(在「統計測試」Statistical Tests選項卡中)裡選出具體的一種(圖 4)。
可以看到,G*Power 把一些其他的相關檢驗(包括非參數檢驗)也放進了 t 檢驗的大類裡。
今天我們著重討論的 t 檢驗的三個版本在功能表的中間(見圖 4 紅框標出部分)。
圖 4 在 G*Power 軟體中選擇具體計畫執行的統計學檢驗
我們就以成對樣本的 t 檢驗(Means: Difference between two dependent means)為例(另外兩種 t 檢驗類似),展示利用該軟體對 t 檢驗進行功效分析的方法。選定了相應的 t 檢驗以後,我們可以在介面的左下方看到需要輸入的參數(Input Parameters,圖 5),包括單側/雙側(Tail)、效應大小 dz(即前面介紹的 Cohen 氏 d 值)、顯著性水準(α error prob)和功效(power)。假設我們在試點實驗或薈萃分析以後,根據上文的公式算出預計效應大小為 0.3,另外三個參數分別選擇雙側、0.05 和 0.8(圖 5),填好以後即可點擊右下方的「計算」(Calculate)按鈕。
圖 5 在 G*Power 軟體中填寫輸入參數
完成上述步驟以後,我們就能在右下方的「輸出參數」(Output Parameters)一欄中立刻得到,在這樣的條件下,我們需要多大的樣本量(兩個組合起來)才能達到所需的統計功效:90(圖 6)。也就是說,每一組分別需要 45 個資料點。
圖 6 在 G*Power 軟體中讀取輸出結果
如果你忘了效應大小 d 值的計算公式(或者就是懶得去算)呢?沒關係!G*Power 早就看穿你了。這時,我們可以先不填寫左下方輸入參數中的效應大小,而是點擊效應大小左邊的「決定」(Determine)按鈕。然後我們就會看到右邊多出了一個視窗(圖 7)。在成對樣本的 t 檢驗裡,這個新的視窗會提供兩個選項。上方的「根據差值」(From Differences)也就是我們之前討論過的把成對樣本轉換成單樣本的方法;而下方的「根據分組參數」(From Group Parameters)則為直接計算效應大小,它會向我們詢問關於兩個樣本的一些資訊,包括均值、標準差等等。填好這些數值後,點擊新窗口下方的「計算並轉移至主視窗」(Calculate and Transfer to Main Window),我們就能得到 d 值 0.3,並且自動填在主視窗的效應大小一欄裡了(有沒有很想為 G*Power的設計者點個贊?)。有了效應大小,接下來的步驟就和之前的描述完全相同了。
圖 7 在 G*Power 軟體中自動計算效應大小
以上演示的是成對樣本 t 檢驗的功效分析操作,另外兩種 t 檢驗(單樣本、獨立樣本)的操作也基本相同,只是個別要填寫的資訊稍有區別。
注:文中圖片為作者自繪。
本系列全部文章
第 1 章 高屋建築看統計
1.你真的懂p值嗎?
2.做統計,多少資料才算夠?(上)
3.做統計,多少資料才算夠?(下)
4.提升統計功效,讓評審心服口服!
5.你的科研成果都是真的嗎?
6.見識資料分析的「獨孤九劍」
7.貝葉斯vs頻率派:武功到底哪家強?
第 2 章 算術平均數與正態分佈
8.數據到手了,第一件事先幹啥?
9.算術平均數:簡單背後有乾坤
10.正態分佈到底是怎麼來的?
第 3 章 t 檢驗:兩組平均數的比較
11.想玩轉t檢驗?你得從這一篇看起
12.就是要實用!t 檢驗的七十二變
13.不是正態分佈,t 檢驗還能用嗎?
14.只有15個標本,也能指望 t 檢驗嗎?
15.樣本分佈不正態?數據變換來救場!
16.數據變換的萬能鑰匙:Box-Cox變換
17. t 檢驗用不了?別慌,還有神奇的非參數檢驗
18.只講 p 值,不講效應大小,都是耍流氓!
19.找出 t 檢驗的效應大小,對耍流氓 say no!
作者:張之昊
編輯:燈盞細辛