統計筆記(69)一元(簡單線性)相關分析與回歸分析
回歸分析要求研究者根據因果關係(或假設存在因果關係)將兩個變數,一個定義為引數(X),由試驗者設定,一個定義為因變數(Y),是隨機變數。
基礎準備
相關與回歸分析基礎中闡述了相關分析與回歸分析的區別與聯繫,以及分類等基礎概念,簡要回顧:
回歸分析要求研究者根據因果關係(或假設存在因果關係)將兩個變數,一個定義為引數(X),由試驗者設定,一個定義為因變數(Y),是隨機變數。目的是給出描述兩個變數關係的數學方程,這個方程可以用來預測相應因變數的值。例如,某品牌礦泉水的定價與其銷售量之間的關係。
相關分析的兩個變數都是引數,研究的是兩個引數的相關程度,兩個引數均為隨機變數。例如,礦泉水(不同品牌)價格與銷售量之間的關係。
簡單線性回歸
簡單線性回歸模型
如果引數X與因變數Y是直線型關係,則可以通過建立一元線性模型來描述它們之間的關係。而將所建立的一元線性模型稱為一元回歸模型或簡單線性回歸模型,可以表示為:
回歸模型是從總體的角度描述引數X與因變數Y的關係。因此,β0,β1就是從總體上說明X與Y變數關係的係數,稱為回歸係數,他們的數值在實際中是不可能得到的,只能通過樣本資料得到它們的估計值,所以通過它們得到的Y與實際的Y之間存在隨機誤差εi。回歸模型分成兩部分:一部分是由線性函數β0+β1Xi構成的確定性數值;另一部分就是隨機誤差εi。E(Yi)=β0+β1Xi稱為回歸函數。
回歸係數的估計
回歸分析的任務就是用恰當的方法估計出參數β0和β1。通過n對樣本資料(Xi,Yi)可以得到回歸函數E(Yi)=β0+β1Xi的估計,即:
上式稱為Y關於X的一元線性回歸方程。
β0和β1的估計值b0,b1可以通過最小二乘法計算得到。用Excel,SPSS進行一元線性擬合就是通過最小二乘法計算出b0和b1數值的。
最小二乘法
最小二乘法(又稱最小平方法)是一種數學優化技術。簡單的說,就是通過誤差平方和的最小化,尋找資料的最佳函數匹配。
現有回歸函數:
其一元線性回歸方程為:
假定n對樣本資料(x1,y1),(x2,y2)……(xn,yn)為已知,現在需要確定通過這些點的哪一條直線描述X與Y最好。
根據最小二乘法建立回歸直線的原則就是:使Yi的估計值與其離差平方和最小。因此設:
範例分析
某市欲對貨運總量與工業總產值的數量關係進行研究,以便通過工業總產值預測貨運總量。現將1991-2000年的資料,列入表8-1中,根據這些資料建立回歸方程。
貨運總量 |
2.8 |
2.9 |
3.2 |
3.2 |
3.4 |
3.2 |
3.3 |
3.7 |
3.9 |
4.2 |
工業總值 |
25 |
27 |
29 |
32 |
34 |
36 |
35 |
39 |
42 |
45 |
單位:貨運總量(億噸);工業總產值(10億元);
解:分析步驟如下:
1、確定因變數和引數,通過散點圖觀察它們之間的關係。從下圖可以看出,兩者之間有線性關係。
2、進行資料計算
資料計算表 |
|||||
年份 |
貨運總量(X) |
工業總值(Y) |
XY |
X平方 |
Y平方 |
1991 |
2.8 |
25 |
70.0 |
625 |
7.84 |
1992 |
2.9 |
27 |
78.3 |
729 |
8.41 |
1993 |
3.2 |
29 |
92.8 |
841 |
10.24 |
1994 |
3.2 |
32 |
102.4 |
1024 |
10.24 |
1995 |
3.4 |
34 |
115.6 |
1156 |
11.56 |
1996 |
3.2 |
36 |
115.2 |
1296 |
10.24 |
1997 |
3.3 |
35 |
115.5 |
1225 |
10.89 |
1998 |
3.7 |
39 |
144.3 |
1521 |
13.69 |
1999 |
3.9 |
42 |
163.8 |
1704 |
15.21 |
2000 |
4.2 |
45 |
189.0 |
2025 |
17.64 |
合計 |
33.8 |
344 |
1186.9 |
12206 |
115.96 |
3、帶入公式計算
用Excel添加漸近線及回歸方程,結果與上面計算結果一致:
簡單線性相關
對於簡單線性回歸,變數X是固定的(由試驗者設定),而Y是隨機變數,如上所述。對於簡單線性相關,X與Y均為隨機變數,目的是確定他們之間線性相關的程度。
散點圖
兩個隨機變數之間的關係可由散點圖看出:
協方差
協方差刻畫了兩個隨機變數相對於它們均值的同時偏差,它反映了兩個變數共同變化的程度,如果結果是負數,說明兩個變數可能是負相關;結果為正,它們可能是正相關。例如,對隨機變數X和Y的相關程度感興趣,得到一些樣本點(如下圖),對每個樣本點,求它們與各自均值的偏差,然後相乘,除以自由度即可得到樣本協方差。
協方差計算公式:
但是,協方差不能直接用來度量兩個變數的相關程度,因為它的值與測量單位相關,當兩個變數的測量單位不同時會帶來一些問題。因此,需要將協方差標準化,以消除測量單位的影響,這就引出了相關係數r。
相關係數r
為了消除測量單位對協方差的影響,引出相關係數r,計算公式如下:
相關係數r的取值範圍在-1到1之間。取正值或負值完全取決於分子。
相關係數r有以下性質:
當|r|≥0.8時,可視為高度相關;當0.5≤|r|<0.8時,可視為中度相關;當0.3≤|r|<0.5時,視為低度相關;當|r|<0.3時,說明兩個變數之間的相關程度極弱。
留言列表