統計筆記（69）一元（簡單線性）相關分析與回歸分析－HCHUNGW的部落格

統計筆記（69）一元（簡單線性）相關分析與回歸分析

回歸分析要求研究者根據因果關係（或假設存在因果關係）將兩個變數，一個定義為引數(X)，由試驗者設定，一個定義為因變數(Y)，是隨機變數。

基礎準備

相關與回歸分析基礎中闡述了相關分析與回歸分析的區別與聯繫，以及分類等基礎概念，簡要回顧：

回歸分析要求研究者根據因果關係（或假設存在因果關係）將兩個變數，一個定義為引數(X)，由試驗者設定，一個定義為因變數(Y)，是隨機變數。目的是給出描述兩個變數關係的數學方程，這個方程可以用來預測相應因變數的值。例如，某品牌礦泉水的定價與其銷售量之間的關係。

相關分析的兩個變數都是引數，研究的是兩個引數的相關程度，兩個引數均為隨機變數。例如，礦泉水（不同品牌）價格與銷售量之間的關係。

簡單線性回歸

簡單線性回歸模型

如果引數X與因變數Y是直線型關係，則可以通過建立一元線性模型來描述它們之間的關係。而將所建立的一元線性模型稱為一元回歸模型或簡單線性回歸模型，可以表示為：

回歸模型是從總體的角度描述引數X與因變數Y的關係。因此，β₀，β₁就是從總體上說明X與Y變數關係的係數，稱為回歸係數，他們的數值在實際中是不可能得到的，只能通過樣本資料得到它們的估計值，所以通過它們得到的Y與實際的Y之間存在隨機誤差ε_i。回歸模型分成兩部分：一部分是由線性函數β₀+β₁X_i構成的確定性數值；另一部分就是隨機誤差ε_i_。E(Yi)=β₀+β₁X_i稱為回歸函數。

回歸係數的估計

回歸分析的任務就是用恰當的方法估計出參數β0和β1。通過n對樣本資料(Xi,Yi)可以得到回歸函數E(Yi)=β₀+β₁X_i的估計，即：

上式稱為Y關於X的一元線性回歸方程。

β₀和β₁的估計值b₀，b₁可以通過最小二乘法計算得到。用Excel，SPSS進行一元線性擬合就是通過最小二乘法計算出b0和b1數值的。

最小二乘法

最小二乘法（又稱最小平方法）是一種數學優化技術。簡單的說，就是通過誤差平方和的最小化，尋找資料的最佳函數匹配。

現有回歸函數：

acc773e3545e70cae247bb26ba99db33 (1).jpg
其一元線性回歸方程為：

826aa5a595ffb94fbbbc2bd5fc62cfb5 (1).jpg

假定n對樣本資料(x₁,y₁),(x₂,y₂)……(x_n,y_n)為已知，現在需要確定通過這些點的哪一條直線描述X與Y最好。

根據最小二乘法建立回歸直線的原則就是：使Yi的估計值與其離差平方和最小。因此設：

091cdc058feed894c431780496616898 (1).jpg
範例分析

某市欲對貨運總量與工業總產值的數量關係進行研究，以便通過工業總產值預測貨運總量。現將1991-2000年的資料，列入表8-1中，根據這些資料建立回歸方程。

貨運總量	2.8	2.9	3.2	3.2	3.4	3.2	3.3	3.7	3.9	4.2
工業總值	25	27	29	32	34	36	35	39	42	45

單位：貨運總量（億噸）；工業總產值（10億元）；

解：分析步驟如下：

1、確定因變數和引數，通過散點圖觀察它們之間的關係。從下圖可以看出，兩者之間有線性關係。

小白学统计（69）一元（简单线性）相关分析与回归分析

2、進行資料計算

資料計算表
年份	貨運總量(X)	工業總值(Y)	XY	X平方	Y平方
1991	2.8	25	70.0	625	7.84
1992	2.9	27	78.3	729	8.41
1993	3.2	29	92.8	841	10.24
1994	3.2	32	102.4	1024	10.24
1995	3.4	34	115.6	1156	11.56
1996	3.2	36	115.2	1296	10.24
1997	3.3	35	115.5	1225	10.89
1998	3.7	39	144.3	1521	13.69
1999	3.9	42	163.8	1704	15.21
2000	4.2	45	189.0	2025	17.64
合計	33.8	344	1186.9	12206	115.96