close

統計學的十個誤區,你答對了嗎? 說人話的統計學·協和八

原創 張之昊 協和八

假設你經過多年潛心研究,發明了一種聰明藥

你招募了兩組受試者進行雙盲試驗:你給其中一組服用你的聰明藥,另外一組服用安慰劑維生素C片,然後讓兩組受試者進行智力測驗。

經過兩組的平均智力測驗分數的比較後,你獲得了0.01p——

也就是說,兩組的智力測驗得分具有統計學意義上顯著的差異

根據以上資訊,選出以下你認為錯誤的陳述(可能不止一個)

  • 1. 原假設(“兩組的平均得分之間沒有差別”)絕對是錯誤的;
  • 2. 原假設(“兩組的平均得分之間沒有差別”)有1%的可能性是真的;
  • 3. 備選假設(“兩組的平均得分之間存在差別”)絕對是正確的;
  • 4. 根據上述資訊可以算出備選假設為真的概率;
  • 5. 我們錯誤地拒絕原假設的概率是1%
  • 6. 如果同樣的實驗重複很多遍,其中將有99%的實驗獲得統計學意義上顯著的結果;
  • 7. 如果同樣的實驗重複很多遍,其中將有1%的實驗獲得統計學意義上顯著的結果;
  • 8. 我們完全由於隨機因素而得到這一結果的概率是1%
  • 9. 這一實驗的統計功效是1-0.01=0.99

 

 

 

 

答案是:

全錯!

 

1. 原假設(“兩組的平均得分之間沒有差別”)絕對是錯誤的。

——錯誤。

統計學永遠無法給我們絕對的答案。

3亦同。

2. 原假設(“兩組的平均得分之間沒有差別”)有1%的可能性是真的。

——錯誤。

p不是原假設為真的概率,

它只是在如果原假設為真時得到與資料相同或更極端的資料的概率。

在頻率主義統計學(比如所有以p值為基準的假設檢驗方法)中,原假設為真的概率是一個無法知道的量。

關於p值的概念及對其常見的誤解可見本系列第1集《1.你真的懂p值嗎?》。

5集《5.你的科研成果都是真的嗎?》中給出了一個例子,展示了p值和原假設成立概率之間可能存在的關係。(回顧第1集和第5集)

3. 備選假設(“兩組的平均得分之間存在差別”)絕對是正確的。

——錯誤。

見第1問答案說明。

4. 根據上述資訊可以算出備選假設為真的概率。

——錯誤。

根據題目所給的資訊,我們無法知道備選假設為真的概率。頻率主義統計學只考慮資料與假設的相符程度,並不對假設本身成立與否的概率作出推斷。

5. 我們錯誤地拒絕原假設的概率是1%

——錯誤。

注意到在這裡,根據0.01p值我們已經把原假設拒絕掉了。

“錯誤地拒絕原假設”,也就是說原假設其實是真的,而我們的決定是錯誤的。

因此,這一問和第2問其實是一樣的

但是,如前所述,根據題目給出的資訊,我們並不知道原假設是不是真的,也不知道它為真的概率是多少。

如果我們加上“如果原假設為真”,這句話對不對呢?

即使如此還是有問題的。

在原假設為真的前提下,錯誤地拒絕了原假設,這就是我們之前說過的“第一類錯誤”(見本系列第2集《2.做統計,多少資料才算夠?(上)》)。

犯第一類錯誤的概率(稱為“錯誤發現率”false discovery rate)由(許多時候取0.05)來表示,這就是我們用來判斷一個統計檢驗結果是否具有統計學意義上的顯著性的依據。

如果我們堅持0.05這個標準,那麼從長遠來看,在我們做的許多統計學測試中,將會有5%的第一類錯誤。

然而就單個實驗來說,我們不能說犯第一類錯誤的概率是多少。

與此同時,p值是一個對實際獲得的資料偏離原假設程度的測量,同樣不是犯第一類錯誤的概率。

舉一個假想的例子,針對同樣一個原假設,兩個人分別獨立做了完全相同的實驗,一個人的資料的p值是0.01,而另一個人的p值是0.02

根據p<0.05的標準,兩人都拒絕了原假設。

如果p值等於原假設成立下錯誤拒絕原假設的概率,那麼他們錯誤拒絕原假設的概率將是不同的。

然而,對同一個原假設,他們做了同樣的決定,這一概率不同在邏輯上是不能成立的。

6. 如果同樣的實驗重複很多遍,其中將有99%的實驗獲得統計學意義上顯著的結果。

——錯誤。

p值與統計結果的可重複性沒有關係。統計結果的可重複性依然取決於原假設為真的概率,但我們不能p值中推出這個概率。

7. 如果同樣的實驗重複很多遍,其中將有1%的實驗獲得統計學意義上顯著的結果。

——錯誤。

同上。

8. 我們完全由於隨機因素而得到這一結果的概率是1%

——錯誤。

如果在前面加上“在原假設成立的前提下”,那麼這句話就對了。

9. 這一實驗的統計功效是1-0.01=0.99

——錯誤。

統計功效的定義是1-第二類錯誤率β(見第2做統計,多少資料才算夠?(上)》。

p值與β無關,題目中也沒有關於β的資訊,因此我們不知道統計功效是多少。

 

題目沒做對不開心?不要緊!

悄悄告訴你,兩位德國學者HallerKrauss拿著相似的幾道題目去考30位大學統計學教師(詳情可見第2篇參考文獻),他們也做得不咋地呢——其中80%的人至少答錯了一道題……

*本題改編自Reinhart, Alex. "Statistics done wrong." (2014)H. Haller and S. Krauss. Misinterpretations of significance: A problem students share with their teachers? Methods of Psychological Research 7, no. 1 (2002)

本系列全部文章。

1 章  高屋建築看統計

你真的懂p值嗎?

做統計,多少資料才算夠?(上)

做統計,多少資料才算夠?(下)

提升統計功效,讓評審心服口服!

你的科研成果都是真的嗎?

見識資料分析的「獨孤九劍」

貝葉斯vs頻率派:武功到底哪家強? 

編輯:燈盞細辛

 

 

arrow
arrow
    創作者介紹
    創作者 HCHUNGW 的頭像
    HCHUNGW

    HCHUNGW的部落格

    HCHUNGW 發表在 痞客邦 留言(0) 人氣()