統計筆記(19)連續型隨機變數概率分佈——正態分佈
常態機率分配是連續型隨機變數概率分佈中最重要的形式,它在實踐中有著廣泛的應用。在自然界和人類社會,有許多現象的分佈都服從常態分配,如人的身高、體重、智商分數;某種產品的尺寸和品質;降雨量;學習成績,特別是,在統計推斷時,當樣本的數量足夠大時,許多統計資料都服從正態分佈。因此,正態分佈在抽樣理論中佔有重要地位。另外,正態分佈還是其他連續型概率分佈的極限分佈,可用正態分佈近似計算或匯出其他連續型概率分佈。
如果隨機變數X具有概率密度函數
則稱X是服從參數為µ,σ2的正態分佈。式中=µ均值,σ=標準差,π=3.14159,e=2.71828。
如果隨機變數X服從正態分佈,記為X~N(µ,σ2)。µ,σ是決定正態分佈的兩個參數。µ決定水準位置,σ決定離散程度。
正態分佈的概率密度函數具有下列性質;
- 以x=µ為對稱軸的對稱分佈;
- 以x軸為漸近線;
- 若隨機變數X1,X2…,Xn皆服從正態分佈,且相互獨立,則對任意幾個常數a1,a2,…,an(不全為0),Z=a1X1+a2x2+……+anXn也服從正態分佈。
用正態分佈曲線積分求得概率是非常困難的,這樣的積分只能用數值方法求出。同時,提供包括所有不同的 µ 和σ的正態分佈表也是不可能的。所以統計學家通過一種簡單的方法來解決這一問題。對於一個隨機變數X~N(µ,σ2),如果令Z=(x-µ)/σ,則隨機變數Z服從µ=0, σ2=1的正態分佈,記為Z~N(0,1),稱為標準正態分佈。
標準正態分佈的概率密度函數為:
通過上式可以看出標準正態分佈不再依賴於參數µ和σ,它是固定的,是唯一的。因此,標準正態分佈中隨機變數與其概率的對應關係被計算出來,並列為標準正態概率分佈表,以便查詢。於是,對於不同的µ和σ,只要將變數值轉化為Z值,然後查表即可得到其概率值。
例子:已知研究生完成一篇碩士論文的時間服從正態分佈,平均花費2500h,標準差為400h,現隨機找到一個已完成論文的學生,求:
(1)他完成論文的時間超過2700h的概率;
(2)他完成論文的時間低於2000h的概率;
(3)他完成論文的時間在2400h~2600h之間的概率。
解:用X表示完成論文的時間,則X~N(2500,4002)。這是非標準的正態分佈,如果直接計算概率是非常麻煩的,我們首先將其轉化為標準正態分佈,然後通過標準正態分佈表查出變數的概率值。
(1)求P(X>2700)
Z=(x-µ)/σ=(2700-2500)/400=0.5
可以查詢標準正態分佈概率表,表中第一列是z值,第一行是z值的補充值,其餘數值為X值到0之間的積分面積,也即是概率值。現z=0.5求的是從0.5到+∞的區間上的概率。首先找到z=0.5行,該值沒有補充值,查到0.00列與0.5行交叉的數值為0.1915,該值是0.5到0之間的概率值,需用0.5(概率對稱性,一半的概率)減去0.1915(正態分佈的對稱性質,左右概率各占0.5),所得0.3085即為所求。
(2)求P(X<2000)
Z=(x-µ)/σ=(2000-2500)/400=-1.25
在附表中,z沒有負值,但根據正態分佈的對稱性,1.25的概率值與-1.25的概率值完全對稱,所以只查1.25的概率值即可。查表的z=1.2行,0.05列,兩者交叉數值為0.3944,這個數值是0到1.25之間的概率,也相當是-1.25到0之間的概率。題中所求是小於2000h的概率,所以是-1.25的左側概率。仍然要用0.5(概率對稱性,一半的概率)減去0.3944,得0.1056。
(3)求P(2400<X<2600)
Z1=(x-µ)/σ=(2600-2500)/400=0.25
Z2=(x-µ)/σ=(2400-2500)/400=-0.25
查表可得,z=0.2行與0.05列,交叉值為0.0987,即所求概率為0.0987×2=0.1974。
根據標準正態分佈表我們可以得到,有95.44%的z值在z=µ+/-2σ之間變動,有99.74%的z值在z=µ+/-3σ之間變動。由此可以得到一個非常重要的結論;對於任意的正態分佈,其隨機變數值幾乎全部(99.74%)會落在µ-3σ和µ+3σ,這就是在品質控制中經常用到的3σ原則。
本文採用「CC BY-SA 4.0 CN」協議轉載自互聯網、僅供學習交流,內容版權歸原作者所有。