一般線性迴歸模型 (GLM)

一般線性迴歸模型 (GLM)

資料： (yi , x i1 , ……, x ip ) i=1,….,n

模式：　 Yi = β0+ β1X i1 +…….+ βpX ip+ εi, i=1,….,n

其中 Yi 為依變數 (dependent var.)

β0 為截距 (intercept)

β1, …, βp 為係數 Xij 為預測變數 (independent var.)

εij 為隨機誤差項 (error)註解 :

線性迴歸模型意指其對參數為線性的方程式，有 p 個預測變數 , 可為數量或質性變數。 E(Y) = β0+ β1X 1 +…….+ βp X p

估計式： Y= b0+ b1X 1 +…….+ bp X p

第十八章迴歸分析

特殊模式兩個自變數的一階模式；如 : E(Y) =β0+β1X1+β2 X2

若 X1 對平均反應的效應和 X2 無關，而 X2 對平均反應的效應和 X1

無關，則稱此兩自變數無交互作用 (no interaction) ，即自變數對反應變數的效應是可加的 , 或無交互作用的。

迴歸係數的意義參數 β1 ：經過 X2 調整，平均反應 (Y) 隨 X1 之每一單位增加而改變的量。參數 β2 ：經過 X1 調整，平均反應 (Y) 隨 X2 之每一單位增加而改變的量。

兩個自變數含交互作用項的一階模式；

如： E(Y) =β0+β1X1+β2 X2 + β3X 1 X2

二次完全迴歸式；

如： E(Y)=β0+β1X1+ β2 X12 +β3 X2 + β4 X2

2 + β5X 1 X2

E(Y) 為一曲面，稱為 regression surface 或 response surface

多項式迴歸式；如： E(Y) =β0+β1X1+ β2 X12

轉換變數迴歸式；如： E(log(Y)) =β0+β1X1+β2 X2

E(Y) =β0+ β1 log(X1) + β2 X22

變異來源 SS df MS F p-value

迴歸 SSR p MSR F*=MSR / MSE p

誤差 SSE n-p-1 MSE

合計 SSTO n-1

註 : F* 值用於檢定 Y 與 X 諸變數是否有迴歸關聯

i somefor 0:

0...:

1

110

i

P

H

H

p >α ，則結論為迴歸式不顯著。

p <α ，則結論為迴歸式顯著。

變異數分析表

決定係數 (coef. of determination ， R2)

TO

E

TO

R

SSSS

SSSS

R 12

說明 : 1. R2 表示 Y 之總變異中由 X1,…,Xp 解釋的比例 2. 0 R≦ 2 1≦ 3. R2 值的大小通常代表迴歸式解釋程度的多少。

評論 :

1. 增加 X 變數個數，一定使 R2 值增加。2. 高的 R2 值並不一定表示配套的模式適合。3. 有些學者建議以 X 變數個數調整後的校正判定係數 ( Ra

2) 為比較標準。

1) /(

)/(12

nSSTOpn SSE

Ra

1

由簡單相關係數矩陣可以看出變數間相關性之強度。由檢定 H0 : ρ= 0 vs. Ha : ρ ≠0 決定變數間是否相關；若 p- 值 < α ，結論為顯著相關。兩預測變數的簡單相關係數相當大時，則其迴歸結果有共線性的現象存在，此時迴歸式的不準度性很高，應做修正。(p483)

相關係數與決定係數：• 相關係數量測兩變數間單純的相關性強度。• 決定係數量測一變數與其他多個變數間的相關性強度。• 在一個自變數問題上，決定係數是相關係數的平方值。

預測變數相關性的影響：

見例 18.3b

檢定第 i 自變數 (Xi) 對依變數 (Y) 影響之顯著性： H0 : βi = 0 Ha : βi ≠0

由 t-test 得到 p- 值，若 p- 值 < α ，結論為經由其它變數的調整後， Xi 對 Y 影響顯著。

係數之顯著性與區間估計：

係數之區間估計：βi 估計範圍在 bi ± tα/2;n-p-1 SE{bi}

【例 18.3b 】研究某林區樹木之年齡 (X1) ，株高 (X2) ，以及單位面積上株數 (X3) 對樹木直徑 (Y) 的影響。Data : p481

SAS_ 相關性： Analysis → Descriptive → Correlation Columns ：指定 Correlations variables Correlation ： ˇ Pearson

SAS_ 迴歸： Analysis → Regression → Linear Columns ：指定 Dependent variables Explanatory variables

SPSS_ 相關性：分析 → 相關 → 雙變數選擇 Pearson 相關係數

SPSS_ 迴歸：分析 → 迴歸方法 → 線性指定依變數自變數

變數間相關性

age, high 對 diam 的影響較強； treeno 與 diam 相關性不顯著，age 與 high 相關性很強，可能有共線性影響。

Pearson Correlation Coefficients, N = 15 Prob > |r| under H0: Rho=0

age high treeno diam;

ageage

1.00000

0.90793<.0001

0.124580.6582

0.588140.0211

highhigh

0.90793<.0001

1.00000

0.177770.5262

0.763670.0009

treenotreeno

0.124580.6582

0.177770.5262

1.00000

0.003470.9902

diam;diam;

0.588140.0211

0.763670.0009

0.003470.9902

1.00000

考慮三個自變數的迴歸分析

high 的部分貢獻顯著 age 與 treeno 的部分貢獻不顯著

Parameter Estimates

Variable LabelDF

ParameterEstimate

StandardError

t Value

Pr > |t|

Intercept Intercept 1 4.33469 0.814 5.32 0.0002

age age 1 -0.13272 0.0869 -1.53 0.1549

high high 1 0.09306 0.0284 3.27 0.0074

treeno treeno 1 -0.000837 0.000919 -0.91 0.3820

Parameter Estimates

Variable Label DFParameterEstimate

StandardError t Value Pr > |t|

Intercept Intercept 1 3.82668 0.58865 6.50 <.0001

age age 1 -0.12565 0.08594 -1.46 0.1694

high high 1 0.08903 0.02789 3.19 0.0078

high 的部分貢獻顯著 age 的部分貢獻不顯著

考慮 age ， high 自變數的迴歸分析

最終迴歸式：直徑 = 3.59 + .0535 ( 株高 ) ， R2 = 0.589 (.0124)

每增高一單位，直徑平均增加 0.0535 單位。括號內為標準誤。

high 對 Diam 的迴歸分析 Root MSE 0.42695 R-Square 0.5889 Parameter Estimates

Parameter Standard Variable Label DF Estimate Error t Value Pr > |t|

Intercept Intercept 1 3.59373 0.60940 5.90 <.0001 high 株高 1 0.05350 0.01240 4.32 0.0008

註：可由 Model selection method 中的 Stepwise 法選擇自變數，此例由 stepwise 法將得到相同結果。

以考慮的模式做預測之前，應先檢查模式對資料的適當性，在迴歸上稱為診斷 (Diagnostics) ；診斷方法分為殘差圖分析及殘差檢定。

模式是否適當 ?

殘差 (residual) ,iii YYe

殘差 , ei , 可視為觀測的誤差 , 用於估計真實誤差 , εi = Yi - E{Yi}

若模式適合 , 則殘差應反映出 εi 的特性 .

t 化殘差以 MSE 估計 ei 的標準差，將 ei 標準化得到的值。

MSE

ee ii *

殘差的特性 : 1. 殘差的平均數 = 0 。 2. 殘差的樣本變異數定義為 MSE ，是 σ2 的不偏估計量。 3. ei

* 應介於 -3 與 3 之間。

例 18.3b 之殘差圖

(Forest Study – p481)

迴歸的模式配適性的檢定 ----- Lack-of-Fit F Test

.

判斷 X 與 Y 的關係式是直線或非直線。檢定前提一：對一或多個 X 水準有重複觀測值 (replicates)

• H0 ： Yi =β0 + β1Xi + εi ( 呈直線關係 )

H1 ： Yi ≠β0 + β1Xi + εi ( 未呈直線關係 )

X x1 x2 …. …. xc

Y y11

….

y1k

檢定前提二：對觀測值 Y 的假設： 1 、獨立， 2 、服從常態分佈， 3 、有相同變異數。

ANOVA 表變因平方和自由度均方 F p-value

迴歸 SSR 1 MSR p1誤差 SSE n-2 MSE

欠合 SSLF c-2 MSLF F* p2純誤差 SSPE n-c MSPE

總計 SSTO

註 : SSE = SSLF + SSPE, SSTO = SSR + SSE

使用 SAS 軟體執行欠合性檢定：

在 data 內增加一分組序號的變數 lof = 1 2 3 …..

Type I lof 的檢定即是缺失性的檢定，若檢定結果是直線模式適合，可以迴歸得到估計的直線。

age bp lof

20 102 1

20 110 1

20 108 1

30 120 2

30 115 2

30 118 2

30 112 2

40 126 3

40 119 3

40 120 3

50 135 4

50 130 4

50 136 4

50 128 4

60 150 5

60 146 5

60 148 5

60 138 5

60 140 5

70 160 6

70 155 6

70 159 6

70 150 6

Lack-of-Fit

Data for SAS

【 Exp 18.6.b】研究年齡與血壓之關係 (p428)

Sum of Source DF Squares Mean Square F Value Pr > F Model 5 6305.705797 1261.141159 68.27 <.0001 Error 17 314.033333 18.472549 Source DF Type I SS Mean Square F Value Pr > F age 1 6228.709640 6228.709640 337.19 <.0001 lof 4 76.996157 19.249039 1.04 0.4146

Root MSE 4.31514 R-Square 0.9409

Parameter Estimates

Parameter Standard Variable DF Estimate Error t Value Pr > |t|

Intercept 1 85.50938 2.67183 32.00 <.0001 age 1 0.97989 0.05358 18.29 <.0001

變因平方和自由度均方 F p-值迴歸 6229 1 6228 335 <.0001誤差 391 21 18.6

欠合 77 4 19.25 1.04 0.4146純誤差 314 17 18.47

總計 6620

由 Lack-of-fit test 得到 F = 1.04 ， p-value = .4146 > 0.05 ，結論為在 α=.05 下，直線模式適合。由迴歸得：血壓 = 85.5 + 0.98 ( 年齡 ) ， R2 = 0.94 ， (.0536)

年齡增加一歲，估計血壓增加 0.98 。

ANOVA 表

Model： Yi = E{Yi} + εi

n1,....,i ,}{ )(exp1)(exp

10

10

i

i

XX

ii pYE

此 Model 稱為 logistic regression model

邏輯迴歸模式 (Logistic Regression model)

--- 以影響變因預估某狀況發生之機率 ( p487)

特性：依變數 (Y) 為二分類的反應數，以 1 及 0 代表。

0)prob(y1)prob(y

10 勝算odds X,ββ) odds ( lnz 假設

xp zz

10(-z)exp11

)(exp1)(exp ˆˆ z ,ˆ 發生率

可由最大概似估計法估計 β0 及 β1 ，迴歸式之圖可能如下。

年齡層 25 35 40 45 50 55 60 65 70

無病人數 9 14 9 9 7 4 6 4 2

有病人數 1 2 3 5 6 5 12 11 8

【 Exp 18.6.1】研究年齡與患 CHD 之關係 (p489)

由年齡估計患病率

SAS_邏輯迴歸： Analysis → Regression → Logistic

Columns ：指定 Dependent variables ( 可選擇目標項 )

Quantitative variables

Classification variables

Frequency variabl

Statistics ： ˇ logit

SPSS_邏輯迴歸：分析 → 迴歸→ 二元 Logistic

指定依變數共變數，或選項中的類別變數

Testing Global Null Hypothesis: BETA=0

Test Chi-Square DF Pr > ChiSq Likelihood Ratio 29.7851 1 <.0001 Score 27.0896 1 <.0001 Wald 22.6152 1 <.0001

Analysis of Maximum Likelihood Estimates

Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -4.6486 0.9775 22.6171 <.0001 age 1 0.0881 0.0185 22.6152 <.0001

Odds Ratio Estimates

Point 95% Wald Effect Estimate Confidence Limits age 1.092 1.053 1.132

SAS 報表

(3) 勝算比 (odds ratio ， OR ) 或相對危險率之估計：

OR = exp(0.0881) = 1.092 .

年齡增加一歲患 CHD 之勝算 (風險 )是原來的 1.09 倍

0.6132p 58)0.0881-exp(4.651 1

(1) 適合性測驗： Wald test 得 p- 值 < 0.05 ，年齡的影響顯著。(2) 由最大概似估計得到由迴歸分析得到 z = - 4.65 + 0.0881 ( 年齡 )

58歲患病率估計

42歲患病率估計為 0.279

Testing Global Null Hypothesis: BETA=0

Test Chi-Square DF Pr > ChiSq Likelihood Ratio 24.3214 2 <.0001 Score 17.5848 2 0.0002 Wald 9.0173 2 0.0110

Analysis of Maximum Likelihood Estimates

Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -9.5083 3.2208 8.7150 0.0032 air 1 3.8737 1.4229 7.4112 0.0065 trans 1 2.6402 0.9113 8.3942 0.0038

Odds Ratio Estimates

Point 95% Wald Effect Estimate Confidence Limits air 48.120 2.959 782.573 trans 14.016 2.349 83.621

【 Exp 18.6.3】研究不同空氣體積及傳遞速率是否引起血管收縮 (p498)

(1) 適合度測驗： Wald test 得 p- 值 < 0.05 ， X1 ， X2 的影響顯著。(2) 由最大概似估計得到 z = - 9.51 + 3.87 X1 + 2.64 X2

發生率

z)exp(11p

(3) 勝算比：

X1 ： OR = 48.1 ，經傳遞速率調整，空氣體積每增加一，

血管收縮之風險是原來的 48.1 倍 X2 ： OR = 14.0 ，經空氣體積調整，傳遞速率每增加一，血管收縮之風險是原來的 14 倍

Documents

一般線性迴歸模型 (GLM)