統計筆記(69)一元(簡單線性)相關分析與回歸分析

回歸分析要求研究者根據因果關係(或假設存在因果關係)將兩個變數,一個定義為引數(X),由試驗者設定,一個定義為因變數(Y),是隨機變數。

基礎準備

相關與回歸分析基礎中闡述了相關分析與回歸分析的區別與聯繫,以及分類等基礎概念,簡要回顧:

回歸分析要求研究者根據因果關係(或假設存在因果關係)將兩個變數,一個定義為引數(X),由試驗者設定,一個定義為因變數(Y),是隨機變數。目的是給出描述兩個變數關係的數學方程,這個方程可以用來預測相應因變數的值。例如,某品牌礦泉水的定價與其銷售量之間的關係。

相關分析的兩個變數都是引數,研究的是兩個引數的相關程度,兩個引數均為隨機變數。例如,礦泉水(不同品牌)價格與銷售量之間的關係。

簡單線性回歸

簡單線性回歸模型

如果引數X與因變數Y是直線型關係,則可以通過建立一元線性模型來描述它們之間的關係。而將所建立的一元線性模型稱為一元回歸模型或簡單線性回歸模型,可以表示為:

a1b8bd201575478942b36c581d2ac7fe.jpg

 

回歸模型是從總體的角度描述引數X與因變數Y的關係。因此,β0β1就是從總體上說明XY變數關係的係數,稱為回歸係數,他們的數值在實際中是不可能得到的,只能通過樣本資料得到它們的估計值,所以通過它們得到的Y與實際的Y之間存在隨機誤差εi。回歸模型分成兩部分:一部分是由線性函數β01Xi構成的確定性數值;另一部分就是隨機誤差εiE(Yi)=β01Xi稱為回歸函數。

回歸係數的估計

回歸分析的任務就是用恰當的方法估計出參數β0β1。通過n對樣本資料(Xi,Yi)可以得到回歸函數E(Yi)=β01Xi的估計,即:

 

9e9a2b5adf450838ebf763e9ac99dd2d.jpg

上式稱為Y關於X的一元線性回歸方程。

β0β1的估計值b0b1可以通過最小二乘法計算得到。用ExcelSPSS進行一元線性擬合就是通過最小二乘法計算出b0b1數值的。

最小二乘法

最小二乘法(又稱最小平方法)是一種數學優化技術。簡單的說,就是通過誤差平方和的最小化,尋找資料的最佳函數匹配。

現有回歸函數:

acc773e3545e70cae247bb26ba99db33 (1).jpg
其一元線性回歸方程為:

826aa5a595ffb94fbbbc2bd5fc62cfb5 (1).jpg

 

假定n對樣本資料(x1,y1),(x2,y2)……(xn,yn)為已知,現在需要確定通過這些點的哪一條直線描述XY最好。

根據最小二乘法建立回歸直線的原則就是:使Yi的估計值與其離差平方和最小。因此設:


091cdc058feed894c431780496616898 (1).jpg
範例分析

某市欲對貨運總量與工業總產值的數量關係進行研究,以便通過工業總產值預測貨運總量。現將1991-2000年的資料,列入表8-1中,根據這些資料建立回歸方程。

貨運總量

2.8

2.9

3.2

3.2

3.4

3.2

3.3

3.7

3.9

4.2

工業總值

25

27

29

32

34

36

35

39

42

45

單位:貨運總量(億噸);工業總產值(10億元);

解:分析步驟如下:

1、確定因變數和引數,通過散點圖觀察它們之間的關係。從下圖可以看出,兩者之間有線性關係。

小白学统计(69)一元(简单线性)相关分析与回归分析

2、進行資料計算

資料計算表

年份

貨運總量(X)

工業總值(Y)

XY

X平方

Y平方

1991

2.8

25

70.0

625

7.84

1992

2.9

27

78.3

729

8.41

1993

3.2

29

92.8

841

10.24

1994

3.2

32

102.4

1024

10.24

1995

3.4

34

115.6

1156

11.56

1996

3.2

36

115.2

1296

10.24

1997

3.3

35

115.5

1225

10.89

1998

3.7

39

144.3

1521

13.69

1999

3.9

42

163.8

1704

15.21

2000

4.2

45

189.0

2025

17.64

合計

33.8

344

1186.9

12206

115.96

3、帶入公式計算

c54ea64b73f58c6dc8dcd9d1dd8acac0.jpg

 

 

Excel添加漸近線及回歸方程,結果與上面計算結果一致:

75b4b2e2e3d8f4bfc7fc50d08ccbf0d7.jpg

 

簡單線性相關

對於簡單線性回歸,變數X是固定的(由試驗者設定),而Y是隨機變數,如上所述。對於簡單線性相關,XY均為隨機變數,目的是確定他們之間線性相關的程度。

散點圖

兩個隨機變數之間的關係可由散點圖看出:

 

c174836e662c3cd0c154affc45353b3b.jpg

協方差

協方差刻畫了兩個隨機變數相對於它們均值的同時偏差,它反映了兩個變數共同變化的程度,如果結果是負數,說明兩個變數可能是負相關;結果為正,它們可能是正相關。例如,對隨機變數XY的相關程度感興趣,得到一些樣本點(如下圖),對每個樣本點,求它們與各自均值的偏差,然後相乘,除以自由度即可得到樣本協方差。

cce47438fa3e6282af1a92a58d2c00e8.jpg
協方差計算公式:

49bef3bea035f530330c4fa35ff1e923.jpg

 

但是,協方差不能直接用來度量兩個變數的相關程度,因為它的值與測量單位相關,當兩個變數的測量單位不同時會帶來一些問題。因此,需要將協方差標準化,以消除測量單位的影響,這就引出了相關係數r

相關係數r

為了消除測量單位對協方差的影響,引出相關係數r,計算公式如下:

67e01a475a0c152ec67b316aaac5d18f.jpg


相關係數r的取值範圍在-11之間。取正值或負值完全取決於分子。

相關係數r有以下性質:

9cf85738fab75677ee45d422fcc51033.jpg

 

|r|≥0.8時,可視為高度相關;當0.5≤|r|<0.8時,可視為中度相關;當0.3≤|r|<0.5時,視為低度相關;當|r|<0.3時,說明兩個變數之間的相關程度極弱。

 

 

arrow
arrow
    創作者介紹
    創作者 HCHUNGW 的頭像
    HCHUNGW

    HCHUNGW的部落格

    HCHUNGW 發表在 痞客邦 留言(0) 人氣()