正態分佈到底是怎麼來的?| 協和八
原創 張之昊 協和八
在上一集《算術平均數:簡單背後有乾坤》(如果你錯過了這一集,或者已經忘記了我們講了啥,強烈建議你)中,我們問了這麼一個問題:
多少年來人們最熟悉、最常用、最符合直覺的算術平均數,它到底好在哪裡?
為了回答這個問題,我們引入了隨機誤差的概念,並且介紹了頻率主義統計學中一種重要的方法——極大似然估計。
那麼,算術平均數是不是對真值的極大似然估計呢?
要證明這一點,我們需要瞭解隨機誤差在概率上的分佈是怎樣的(也就是說,它的概率密度函數是什麼)
——這恰恰是兩三百年前引無數英雄競折腰的問題。
而高斯在這裡頭做了一件事,他證明瞭如下結論:
如果算術平均數是對真值的極大似然估計,那麼隨機誤差的分佈就只可能是我們現在熟知的正態分佈(也稱高斯分佈):
正如我們在上一集的末尾指出的那樣,高斯的這個證明有點兒蛋生雞雞生蛋的意思,到底有沒有意義,取決於“算術平均數是對真值的最大似然估計”這個假設到底對不對,高斯本人當時並不知道,我們說過,他是靠猜的。
而接下來的劇情估計你也想得到
——他猜對了。
今天,我們就來捋一捋正態分佈究竟是怎麼來的。
>>> 拉普拉斯與高斯的殊途同歸
讓我們回到1809年。
這一年,高斯發表了我們上面提到的這個證明。
不久以後,同時代的法國大數學家拉普拉斯讀到了高斯的論文。
他當時也摻和到了尋找隨機誤差的分佈性質的熱潮之中,可是一直以來都沒有得到像樣的進展。
此時,他驚訝地發現,高斯推出的概率密度函數
很面熟!
這個概率密度函數在拉普拉斯自己的研究中曾經出現過,然而奇怪的是,拉普拉斯是在一個聽起來似乎與隨機誤差風馬牛不相及的問題中搞出這個概率密度函數的。
拉普拉斯之前是在研究什麼問題呢?
我們來設想以下情形:如果有一枚鋼鏰兒,它拋出正面的概率是 p(p可以是0到1之間的任何數),如果我們把這枚鋼鏰兒連續拋n次,那麼我們得到0, 1, 2, …, n個正面的概率分別是多少?
這個問題本質上是個二項分佈(binomial distribution)的問題,大家也許還記得,在高中那會兒學習排列組合的時候就遇到過,有現成的公式可以算拋出m個正面的概率:
m = 1, 2, ... , n
這個公式不難理解,其中
是m選n的組合數,也就是拋m次鋼鏰兒中具體哪n次出現了正面(剩下的m-n次自然就是反面)有多少種不同的可能,而
則是m次正面和n-m次反面的概率的乘積。下圖就是當正面概率p分別為0.1, 0.25, 0.5, 0.75時,拋18次鋼鏰兒得到0到18次正面的概率。
(圖片來源:http://www.statsref.com/HTML/index.html?binomial.html)
然而,當n變得越來越大時,組合數裡面的一堆階乘很不好算。拉普拉斯在前人棣莫弗的工作的基礎上,找到了另外一個易於計算的分佈,可以在n比較大的時候相當好地近似上面的二項分佈。我們就用上圖的其中一種情況(n=18, p=0.5),來瞅瞅這個近似的效果怎麼樣:
(圖片來源:http://www.statsref.com/HTML/index.html?binomial.html)
圖中藍色的直條圖依然是按二項分佈的公式算出的從0到18次正面的精確概率,而紅色的曲線則是拉普拉斯用於近似計算的分佈。可以看到,哪怕像n=18這樣n並沒有很大的情形,這個近似都已經非常好了。上面只畫出了p=0.5的情況,而p取其它數值的時候情況也是類似的。
實際上,在理論上可以證明,當n趨向無窮大時,紅色的這個分佈就完完全全是二項分佈的概率(另一位數學家棣莫弗對此發現也有重要貢獻,因而這個結論稱為棣莫弗-拉普拉斯中心極限定理,De Moivre-Laplace Central LimitTheorem)。
拉普拉斯找出的這個分佈是什麼呢?出於一些理論上的考慮,我們需要先對拋出正面的次數X作個簡單的變換:
這個變換沒什麼複雜的道道,因為n和p都是確定的數,把X減去np(一個常數)後再除以(另一個常數)無非就是把X平移和壓縮一下而已。
經過這個變化之後,Z的概率密度函數長這個樣子:
如果我們把這個函數和之前高斯的那個概率密度函數
對照一下,不難發現,它們其實是同一類分佈——只需要把σ2換成1,我們就會得到拉普拉斯用來近似二項分佈的那個概率密度函數了。
可是可是,這裡的拋鋼鏰兒和高斯那邊在研究的隨機誤差聽起來好像八竿子打不著啊?兩邊都弄出來同一個概率分佈,天底下有這麼巧的事情嗎?
>>> 隨機誤差與中心極限定理
拉普拉斯敏銳地意識到,這很可能不是一種巧合。
為了理解拉普拉斯是如何把兩者聯繫起來的,讓我們來回頭再看一看棣莫弗-拉普拉斯中心極限定理。
如果我們把第i次擲鋼鏰兒的結果記為Xi,如果得到正面則Xi =1,反面則Xi =0。因此,Xi 這個隨機變數的分佈很簡單,它取1的概率是p,取0的概率是1-p(如下圖)。
(圖片來源:https://universe-review.ca/R15-30-stat.htm)
此時,拋n次鋼鏰兒後得到正面的次數就是每次結果之和:
於是棣莫弗-拉普拉斯中心極限定理說了些啥呢?
如果我們有n個獨立的、分佈相同的以概率p取1、以概率1-p取0的隨機變數,如果n足夠大,它們加起來的和稍作變換之後就會服從正態分佈。
一個很不嚴謹但是更簡單的說法就是,一堆足夠多的0/1取值的變數加起來會變成一個正態分佈。
這和隨機誤差有什麼關係?
拉普拉斯想到,雖然我們並不一定知道隨機誤差究竟是什麼引起的,但是如果誤差也可以看成許多微小量(拉普拉斯稱之為“元誤差”)疊加起來的總和,那麼根據中心極限定理,隨機誤差也就該服從正態分佈了。
當然,棣莫弗-拉普拉斯中心極限定理針對的只是一種相當特殊的情況,光靠它還不足以充分支持拉普拉斯的論斷。但是,拉普拉斯以他的洞察力看到了隨機誤差服從正態分佈的最根本的原因,進而啟發和引導了他自己和後來許多數學家、統計學家在中心極限定理上的探索,最終樹立了概率論與統計學最雄奇的一座高峰。
如果我們把上面棣莫弗-拉普拉斯的結論看成是中心極限定理的1.0版的話,那麼在拉普拉斯的啟示下,幾代數學家在19、20世紀的百餘年間共同努力,迅速將中心極限定理不斷升級。這裡頭涉及到許多數學家的貢獻以及相當高深的概率論知識,我們這裡無法一一敘述,就只簡單說說兩項最重要的突破。
中心極限定理2.0版(Lindelberg-Levy中心極限定理):如果我們有n個獨立、同分佈的隨機變數,而且它們的均值和方差都是有限的,那麼當n趨於無窮大時,這n個隨機變數之和的一個簡單變換(類似于之前棣莫弗-拉普拉斯中心極限定理中的變換)服從正態分佈。
相比其1.0版,這2.0版邁出了巨大的一步:被疊加的隨機變數不再需要是0或1取值離散分佈的了。現在, 在一個很寬鬆的前提(均值和方差有限)下,無論它們本身是怎樣形狀的分佈,當它們被疊加起來時,和都會服從正態分佈。
仔細想想這是一個多奇妙的定理!不管你一開始是從一個什麼樣的概率分佈中來的,只要個數足夠多,加起來都會被收攏到正態分佈那鐘形曲線之下!
中心極限定理3.x版:很多時候,即使隨機變數並不獨立,或者並非來自同樣的概率分佈,它們的和(或者均值——由於n是個確定的數,因此求和與求均值是等價的)在n足夠大時仍然服從正態分佈。
這一下可就更厲害了。之前,我們還要求被疊加的隨機變數是獨立、同分佈的,現在連這個條件都可以不要了。也就是說,哪怕是一堆紛繁複雜、形狀各異的隨機變數,加起來還是逃不過正態分佈的網羅!
(圖片來源:http://www.value-at-risk.net/central-limit-theorem/)
到了這裡,兩三百年來數學家們不斷探尋的隨機誤差的分佈終於可以塵埃落定了。由於中心極限定理,自然界中說不清、道不明、看不見、摸不著的種種蕪雜都會最終統一到正態分佈之中。因而,隨機誤差服從正態分佈也就有了必然性。
如果這麼說還有些抽象的話,我們不妨最後來看一個例子。
比如,從人類學的角度出發,我們對人類身高的共同特性感興趣。
由於我們的研究物件是全人類,這就包括了目前存在、以前曾經存在以及將來可能存在的所有人類的集合,這在統計學中稱為“總體”。
在頻率主義統計學的思想中,對於人類這麼一個抽象性的概念,其身高會有一個真值,它代表了人類這個物種身高的總體趨勢。
當然了,我們除了知道這個身高比螞蟻大、比長頸鹿小以外,並不知道它到底是多少。
而我們遇到的每一個人(包括我們自己),都是人類這個總體吐出的一個“樣本”。
自然,每個人的身高都是千差萬別的,每一個樣本與那個未知真值的差,便是這個樣本的隨機誤差。
為什麼會有誤差呢?
我們可以想像千百種緣由:性別、種族、生活在哪個國家、城市還是農村、家庭收入、某些基因的基因型、飲食習慣、體育鍛煉的情況……顯然,最終的誤差是由所有這些不同來源的微小誤差疊加起來的,而這些微小誤差的分佈有些是離散的(比如性別、種族),有些是連續的(比如家庭收入),而且還可能是互相聯繫的(比如所在國家和飲食習慣)。
我們上面提到的中心極限定理3.x版告訴我們,在這樣的條件下,最後總的隨機誤差應該服從正態分佈。
因此,如果我們隨機選取足夠多的人測量其身高,頻率長條圖就會呈現正態分佈的鐘形曲線。
而根據這樣的資料,怎樣能作出對真值的最好(極大似然的意義下)估計呢?
自然是取樣本的算術平均數了。
>>> 正態分佈為什麼重要?
自從「說人話的統計學」系列開播以來,這一集和上一集也許是最抽象、最有不像人話危險的兩集了。
我也許應該交代一下,為什麼花了這麼多筆墨來說正態分佈呢?
首先,中心極限定理是概率論和統計學最重要的定理(沒有之一)
,而且在許多科學家心目中與牛頓定律、相對論等同樣重要、揭示宇宙最基本規律的少數定理之一(希望你讀到這裡會同意這個說法)。但由於它涉及到一些相對艱深的理論,即便許多概率論或統計學課程都有所提及,但可能還是讓人得其形而不解其意。我希望這兩集文章能給大家一點更感性的認識,進而更瞭解為什麼正態分佈那奇妙的鐘形曲線如此無處不在。某種意義上說,也是對這個世界一點點更深的領悟不是嗎?
其次,我們接下來要講到的許多統計學方法——如t檢驗、方差分析、多元線性回歸等——都會對資料的正態性有要求
這也是許多人在使用這些統計學方法時很容易忽略的方面。之所以有這樣的要求,其原因歸根結底也是我們這一集所講的內容,清楚了正態分佈的來龍去脈,對於這些方法的正態性假設也就很容易理解了。與此同時,我們也會更容易明白,在怎樣的情況下資料會違背正態性,以及在正態性假設不能滿足時應該怎樣處理。
要是這兩集沒完全看懂怎麼辦?
沒有關係,不妨在未來讀到我們後續的文章時,再不時回來重溫一下,相信你一定會得到新的領悟,發現新的精彩。
✪
參考文獻:
1. 陳希孺. (2002). 數理統計學簡史. 湖南教育出版社.
2. 靳志輝:《正態分佈的前世今生》http://www.med.mcgill.ca/epidemiology/hanley/bios601/Mean-Quantile/intro-normal-distribution-2.pdf
作者:張之昊
編輯:燈盞細辛
系列文章
第 1 章 高屋建築看統計
你真的懂p值嗎?
做統計,多少資料才算夠?(上)
做統計,多少資料才算夠?(下)
提升統計功效,讓評審心服口服!
你的科研成果都是真的嗎?
見識資料分析的「獨孤九劍」
貝葉斯vs頻率派:武功到底哪家強?
第 2 章 算術平均數與正態分佈
數據到手了,第一件事先幹啥?
算術平均數:簡單背後有乾坤
正態分佈到底是怎麼來的?