統計筆記(70)最小二乘法
最小二乘法(又稱最小平方法)是一種數學優化技術。簡單的說,就是通過誤差平方和的最小化,尋找資料的最佳函數匹配。
歷史背景
1801年,義大利天文學家朱賽普·皮亞齊發現了第一顆小行星穀神星。經過40天的跟蹤觀測後,由於穀神星運行至太陽背後,使得皮亞齊失去了穀神星的位置。隨後全世界的科學家利用皮亞齊的觀測資料開始尋找穀神星,但是根據大多數人計算的結果來尋找穀神星都沒有結果。時年24歲的高斯也計算了穀神星的軌道。奧地利天文學家海因裡希·奧爾伯斯根據高斯計算出來的軌道重新發現了穀神星。
1806年,法國科學家勒讓德獨立創立最小二乘法,但因不為世人所知而默默無聞。勒讓德曾與高斯為誰最早創立最小二乘法原理發生爭執。
1809年,高斯使用的最小二乘法的方法發表於《天體運動論》中。
1829年,高斯提供了最小二乘法的優化效果強於其他方法的證明,因此最小二乘法也被稱為高斯-瑪律可夫定理。
分析原理
最小二乘法(又稱最小平方法)是一種數學優化技術。簡單的說,就是通過誤差平方和的最小化,尋找資料的最佳函數匹配。
現有回歸函數:
其一元線性回歸方程為:
假定n對樣本資料(x1,y1),(x2,y2)……(xn,yn)為已知,現在需要確定通過這些點的哪一條直線描述X與Y最好。根據最小二乘法建立回歸直線的原則就是:使Yi的估計值與其離差平方和最小。因此設
範例分析
某市欲對貨運總量與工業總產值的數量關係進行研究,以便通過工業總產值預測貨運總量。現將1991-2000年的資料,列入表8-1中,根據這些資料建立回歸方程。
貨運總量 |
2.8 |
2.9 |
3.2 |
3.2 |
3.4 |
3.2 |
3.3 |
3.7 |
3.9 |
4.2 |
工業總值 |
25 |
27 |
29 |
32 |
34 |
36 |
35 |
39 |
42 |
45 |
單位:貨運總量(億噸);工業總產值(10億元);
解:分析步驟如下
1、確定因變數和引數,通過散點圖觀察它們之間的關係。從下圖可以看出,兩者之間有線性關係。
2、進行資料計算
資料計算表 |
|||||
年份 |
貨運總量 |
工業總值 |
XY |
X2 |
Y2 |
1991 |
2.8 |
25 |
70.0 |
625 |
7.84 |
1992 |
2.9 |
27 |
78.3 |
729 |
8.41 |
1993 |
3.2 |
29 |
92.8 |
841 |
10.24 |
1994 |
3.2 |
32 |
102.4 |
1024 |
10.24 |
1995 |
3.4 |
34 |
115.6 |
1156 |
11.56 |
1996 |
3.2 |
36 |
115.2 |
1296 |
10.24 |
1997 |
3.3 |
35 |
115.5 |
1225 |
10.89 |
1998 |
3.7 |
39 |
144.3 |
1521 |
13.69 |
1999 |
3.9 |
42 |
163.8 |
1704 |
15.21 |
2000 |
4.2 |
45 |
189.0 |
2025 |
17.64 |
合計 |
33.8 |
344 |
1186.9 |
12206 |
115.96 |
3、帶入公式計算
留言列表