統計筆記(68)相關與回歸分析基礎
所謂相關關係,是指變數的數值之間存在著非嚴格的依存關係。
變數定義
在研究變數關係的過程中,通常對於被研究的變數,稱為因變數,也稱為被解釋變數,一般用Y表示。其它用來說明或解釋因變數變化的變數稱為引數,也稱為解釋變數,用X表示。引數可以有一個,也可以有多個。例如,如果我們想預測銷售收入,則銷售收入就是我們這次研究的因變數,如果我們是通過廣告費的支出來預測銷售收入,則廣告費支出就是引數。如果預測銷售收入時,還要考慮銷售價格或銷售人員的數量的影響,那麼,銷售價格或銷售人員的數量這兩個因素也都稱為引數,即有兩個引數。
變數之間的關係
在統計學中,依據變數與變數之間的聯繫或依存的類型不同,一般將變數之間的關係劃分為函數關係和相關關係兩種。
相關關係
所謂相關關係,是指變數的數值之間存在著非嚴格的依存關係。就是說,當一個變數或幾個變數取定一個數值時,另一個對應變數的數值是不確定的。但是,該變數的數值卻是隨著前述變數的所取數值而發生一定的變化規律。
例如,人的身高與體重之間的關係就屬於相關關係。就全社會而言,對於具有同樣身高的人,體重的數值未必相同。
也就是說,同樣的身高數值對應的體重數值是不確定的。但是體重數值卻是隨著“身高越高,體重越重”這個一般的規律而變化。因此兩者是一種相關關係。當給定一個房屋面積時,房屋的出租價格是不確定的。但是,出租價格卻是依據房屋面積的大小而變化。
如果變數之間存在相關關係,可能包含以下幾種情況:
1、變數之間存在著因果關係。例如,產量與單位成本的相關關係就是一種因果關係,其中產量變動在前是原因,單位成本的變動在後是結果。糧食的產量與施肥量的關係也是一種因果關係,施肥量是原因,產量是結果。
2、變數之間存在著相互依存的關係。例如,一個城市的貨運量與該城市的國內生產總值具有相關關係,但在貨運量與國內生產總值的變動中,很難確定哪一個是原因哪一個是結果,兩個變數之間是相互依存的關係。
3、變數之間只是存在著數值的統計關係,或者說是虛假關係。例如,有人將某段時間的香煙銷售量與人口的期望壽命資料進行計算,發現兩個變數之間具有正的相關關係:香煙銷售量越來越多,人口的期望壽命也越來越高。這種相關關係就是典型的虛假相關。首先要定性分析,只有在科學理論上能夠解釋變數之間確實有聯繫,才能認為變數的數值之間存在著相關關係。否則,不能使用這種虛假的相關關係作任何的推測或預測。
在客觀現實中,許多現象之間都存在著某種相互聯繫或相互依存的關係。例如,降雨量與雲層厚度之間的關係,居民收入增長率與物價指數的關係,人的身高和體重的關係,汽車行使速度與行使里程之間的關係,圓的面積與圓的半徑之間的關係等。現象與現象之間的關係如果使用數量來描述,就形成變數與變數之間的關係。
函數關係
所謂函數關係,是指各變數之間的數值依一定的函數形式所形成的一一對應關係。也就是說,當一個變數或幾個變數取一定的值時,另一個變數有一個確定的值與之相對應。例如,當給出圓的半徑r時,就可以根據S=πr2,計算出圓面積S;反之,給定圓的面積S,同樣根據S=πr2,可以計算出圓的半徑r。因此說,圓面積S與圓半徑r是函數關係。類似地,當某種商品的銷售價格保持不變時,銷售額與銷售量也可以看作是函數關係。給定銷售量就可以知道銷售額,有了銷售額就可以知道銷售量。變數之間的函數關係在自然科學中是普遍存在的。在數學、物理學和化學中有許多嚴格的定理和公式,這些定理和公式揭示了變數之間存在的相互關係,冥王星的發現就是萬有引力定律的最好應用。
在分析多組資料之間的關係時,首先需要通過相關分析確定資料之間的相關關係,然後再通過回歸分析確定資料之間的函數關係。這就引出了相關分析與回歸分析。
相關與回歸分析關係
在研究因變數時,一方面需要研究哪些變數與因變數相關以及關聯程度的強弱,這種研究可以稱為相關分析。另一方面需要研究因變數與引數之間是否具有某種數量關係,確定因變數與引數之間的數學模型,這種研究稱為回歸分析。
相關分析與回歸分析有著密切的聯繫,它們不僅具有共同的研究物件,而且基礎理論也具有一致性。在對變數研究時經常需要它們相互補充。相關分析要為變數之間建立回歸模型提供依據;回歸分析揭示出變數相關的具體形式。只有當變數之間存在著高度相關時,進行回歸分析才可能是正確的。同理,只有通過回歸模型掌握了變數之間關聯的具體形式,相關分析才有意義。
雖然相關分析與回歸分析經常同時使用,但是,它們在研究目的和方法上還是有著明顯區別的。首先,在研究目的上不同。進行相關分析是為了得到變數間的關聯程度;二回歸分析是為了得到因變數與引數的關係模型。其次,在進行相關分析時,一般不需要區別因變數和引數,且兩種變數都屬於隨機變數;而建立回歸模型卻必須去邊因變數和引數,並且因變數是隨機變數,引數被看作是確定性變數。
相關與回歸分析的分類
1、按相關與回歸的形式劃分
可分為線性和非線性。當變數之間的關係可以通過線性方程表達時,它們的關係就是線性相關,對此進行的回歸分析稱為線性回歸。反之,稱為非線性相關,相應的回歸分析稱為非線性回歸。在只有兩個變數時,線性關係體現為直線關係,非線性關係體現為曲線關係。通過散點圖可以直接觀察變數之間是否具有線性關係。如下圖:
2、按變數的多少劃分
可分為單相關、複相關,相應的回歸分析稱為一元回歸和多元回歸。如果只研究兩個變數之間的相關關係則稱為單相關,對這兩個變數所做的回歸分析叫一元回歸,也稱為簡單回歸。其中一個變數是因變數,另一個變數是引數。當所研究的是一個變數與兩個或兩個以上變數的相關關係時,稱為複相關。對這些變數所作的回歸分析就稱為多元回歸,其中一個變數是因變數,其它變數是引數。
留言列表