27
般般般般般般般 (GLM) x i1 , ……, x ip ) i=1,….,n β 0 + β 1 X i1 +…….+ β p X ip + ε i , i=1,….,n 般般 Y i 般般般般 (dependent β 0 般般般 (intercept β 1 , …, β p 般般般 X ij 般般般般般 (inde ε ij 般般般般般般 (error 註註 : 般般般般般般般般般般般般般般般般般般般 p 般般般般般 , 般般般般般般般般般 E(Y) = β 0 + β 1 X 1 +…….+ β p X p 般般般Y= b 0 + b 1 X 1 +…….+ b p X p 般般般般 般般般般

一般線性迴歸模型 (GLM)

  • Upload
    reidar

  • View
    391

  • Download
    4

Embed Size (px)

DESCRIPTION

第十八章 迴歸分析. 一般線性迴歸模型 (GLM). 資料: ( y i , x i1 , ……, x ip ) i=1,….,n 模式:  Y i = β 0 + β 1 X i1 +…….+ β p X ip + ε i , i=1,….,n 其中 Y i 為依變數 (dependent var.) β 0 為截距 (intercept) - PowerPoint PPT Presentation

Citation preview

Page 1: 一般線性迴歸模型 (GLM)

一般線性迴歸模型 (GLM)

資料: (yi , x i1 , ……, x ip ) i=1,….,n

模式:  Yi = β0+ β1X i1 +…….+ βpX ip+ εi, i=1,….,n

其中 Yi 為依變數 (dependent var.)

β0 為截距 (intercept)

β1, …, βp 為係數 Xij 為預測變數 (independent var.)

εij 為隨機誤差項 (error)註解 :

線性迴歸模型意指其對參數為線性的方程式,有 p 個預測變數 , 可為數量或質性變數 。 E(Y) = β0+ β1X 1 +…….+ βp X p

估計式: Y= b0+ b1X 1 +…….+ bp X p

第十八章 迴歸分析

Page 2: 一般線性迴歸模型 (GLM)

特殊模式 兩個自變數的一階模式; 如 : E(Y) =β0+β1X1+β2 X2

若 X1 對平均反應的效應和 X2 無關, 而 X2 對平均反應的效應和 X1

無關, 則稱此兩自變數無交互作用 (no interaction) , 即自變數對反應變數的效應是可加的 , 或無交互作用的。

迴歸係數的意義 參數 β1 :經過 X2 調整,平均反應 (Y) 隨 X1 之每一單位增加而改變的量。 參數 β2 :經過 X1 調整,平均反應 (Y) 隨 X2 之每一單位增加而改變的量。

兩個自變數含交互作用項的一階模式;

如: E(Y) =β0+β1X1+β2 X2 + β3X 1 X2

Page 3: 一般線性迴歸模型 (GLM)

二次完全迴歸式;

如: E(Y)=β0+β1X1+ β2 X12 +β3 X2 + β4 X2

2 + β5X 1 X2

E(Y) 為一曲面, 稱為 regression surface 或 response surface

多項式迴歸式; 如: E(Y) =β0+β1X1+ β2 X12

轉換變數迴歸式; 如: E(log(Y)) =β0+β1X1+β2 X2

E(Y) =β0+ β1 log(X1) + β2 X22

Page 4: 一般線性迴歸模型 (GLM)

變異來源 SS df MS F p-value

迴 歸 SSR p MSR F*=MSR / MSE p

誤 差 SSE n-p-1 MSE

合 計 SSTO n-1

註 : F* 值用於檢定 Y 與 X 諸變數是否有迴歸關聯

i somefor 0:

0...:

1

110

i

P

H

H

p >α , 則結論為迴歸式不顯著。

p <α , 則結論為迴歸式顯著。

變異數分析表

Page 5: 一般線性迴歸模型 (GLM)

決定係數 (coef. of determination , R2)

TO

E

TO

R

SSSS

SSSS

R 12

說明 : 1. R2 表示 Y 之總變異中由 X1,…,Xp 解釋的比例 2. 0 R≦ 2 1≦ 3. R2 值的大小通常代表迴歸式解釋程度的多少。

評論 :

1. 增加 X 變數個數 , 一定使 R2 值增加 。2. 高的 R2 值並不一定表示配套的模式適合 。3. 有些學者建議以 X 變數個數調整後的校正判定係數 ( Ra

2) 為比較標準 。

1) /(

)/(12

nSSTOpn SSE

Ra

1

Page 6: 一般線性迴歸模型 (GLM)

由簡單相關係數矩陣可以看出變數間相關性之強度。 由檢定 H0 : ρ= 0 vs. Ha : ρ ≠0 決定變數間是否相關; 若 p- 值 < α ,結論為顯著相關。 兩預測變數的簡單相關係數相當大時,則其迴歸結果有共線性的現象存在,此時迴歸式的不準度性很高,應做修正。(p483)

相關係數與決定係數:• 相關係數量測兩變數間單純的相關性強度。• 決定係數量測一變數與其他多個變數間的相關性強度。• 在一個自變數問題上,決定係數是相關係數的平方值。

預測變數相關性的影響:

見例 18.3b

Page 7: 一般線性迴歸模型 (GLM)

檢定第 i 自變數 (Xi) 對依變數 (Y) 影響之顯著性: H0 : βi = 0 Ha : βi ≠0

由 t-test 得到 p- 值,若 p- 值 < α ,結論為經由其它變數的調整後, Xi 對 Y 影響顯著。

係數之顯著性與區間估計:

係數之區間估計:βi 估計範圍在 bi ± tα/2;n-p-1 SE{bi}

Page 8: 一般線性迴歸模型 (GLM)

【例 18.3b 】 研究某林區樹木之年齡 (X1) ,株高 (X2) ,以及單位面積上株數 (X3) 對樹木直徑 (Y) 的影響。Data : p481

SAS_ 相關性: Analysis → Descriptive → Correlation Columns :指定 Correlations variables Correlation : ˇ Pearson

SAS_ 迴歸: Analysis → Regression → Linear Columns :指定 Dependent variables Explanatory variables

SPSS_ 相關性:分析 → 相關 → 雙變數 選擇 Pearson 相關係數

SPSS_ 迴歸:分析 → 迴歸方法 → 線性 指定 依變數 自變數

Page 9: 一般線性迴歸模型 (GLM)

變數間相關性

age, high 對 diam 的影響較強; treeno 與 diam 相關性不顯著,age 與 high 相關性很強,可能有共線性影響 。

Pearson Correlation Coefficients, N = 15 Prob > |r| under H0: Rho=0

  age high treeno diam;

ageage

1.00000 

0.90793<.0001

0.124580.6582

0.588140.0211

highhigh

0.90793<.0001

1.00000 

0.177770.5262

0.763670.0009

treenotreeno

0.124580.6582

0.177770.5262

1.00000 

0.003470.9902

diam;diam;

0.588140.0211

0.763670.0009

0.003470.9902

1.00000 

Page 10: 一般線性迴歸模型 (GLM)

考慮三個自變數的迴歸分析

high 的部分貢獻顯著 age 與 treeno 的部分貢獻不顯著

Parameter Estimates

Variable LabelDF

ParameterEstimate

StandardError

t Value

Pr > |t|

Intercept Intercept 1 4.33469 0.814 5.32 0.0002

age age 1 -0.13272 0.0869 -1.53 0.1549

high high 1 0.09306 0.0284 3.27 0.0074

treeno treeno 1 -0.000837 0.000919 -0.91 0.3820

Page 11: 一般線性迴歸模型 (GLM)

Parameter Estimates

Variable Label DFParameterEstimate

StandardError t Value Pr > |t|

Intercept Intercept 1 3.82668 0.58865 6.50 <.0001

age age 1 -0.12565 0.08594 -1.46 0.1694

high high 1 0.08903 0.02789 3.19 0.0078

high 的部分貢獻顯著 age 的部分貢獻不顯著

考慮 age , high 自變數的迴歸分析

Page 12: 一般線性迴歸模型 (GLM)

最終迴歸式: 直徑 = 3.59 + .0535 ( 株高 ) , R2 = 0.589 (.0124)

每增高一單位,直徑平均增加 0.0535 單位。括號內為標準誤。

high 對 Diam 的迴歸分析 Root MSE 0.42695 R-Square 0.5889 Parameter Estimates

Parameter Standard Variable Label DF Estimate Error t Value Pr > |t|

Intercept Intercept 1 3.59373 0.60940 5.90 <.0001 high 株高 1 0.05350 0.01240 4.32 0.0008

註:可由 Model selection method 中的 Stepwise 法選擇自變數,此例由 stepwise 法將得到相同結果。

Page 13: 一般線性迴歸模型 (GLM)

以考慮的模式做預測之前 , 應先檢查模式對資料的適當性,在迴歸上稱為診斷 (Diagnostics) ;診斷方法分為殘差圖分析及殘差檢定。

模式是否適當 ?

殘差 (residual) ,iii YYe

殘差 , ei , 可視為觀測的誤差 , 用於估計真實誤差 , εi = Yi - E{Yi}

若模式適合 , 則殘差應反映出 εi 的特性 .

t 化殘差 以 MSE 估計 ei 的標準差,將 ei 標準化得到的值。

MSE

ee ii *

殘差的特性 : 1. 殘差的平均數 = 0 。 2. 殘差的樣本變異數定義為 MSE ,是 σ2 的不偏估計量。 3. ei

* 應介於 -3 與 3 之間。

Page 14: 一般線性迴歸模型 (GLM)

例 18.3b 之殘差圖

(Forest Study – p481)

Page 15: 一般線性迴歸模型 (GLM)

迴歸的模式配適性的檢定 ----- Lack-of-Fit F Test

.

判斷 X 與 Y 的關係式是直線或非直線。 檢定前提一:對一或多個 X 水準有重複觀測值 (replicates)

• H0 : Yi =β0 + β1Xi + εi ( 呈直線關係 )

H1 : Yi ≠β0 + β1Xi + εi ( 未呈直線關係 )

X x1 x2 …. …. xc

Y y11

….

y1k

檢定前提二: 對觀測值 Y 的假設: 1 、獨立, 2 、服從常態分佈, 3 、有相同變異數。

Page 16: 一般線性迴歸模型 (GLM)

ANOVA 表變因 平方和 自由度 均方 F p-value

迴歸 SSR 1 MSR p1誤差 SSE n-2 MSE

欠合 SSLF c-2 MSLF F* p2純誤差 SSPE n-c MSPE

總 計 SSTO

註 : SSE = SSLF + SSPE, SSTO = SSR + SSE

使用 SAS 軟體執行欠合性檢定:

在 data 內增加一分組序號的變數 lof = 1 2 3 …..

Type I lof 的檢定即是缺失性的檢定,若檢定結果是直線模式適合,可以迴歸得到估計的直線。

Page 17: 一般線性迴歸模型 (GLM)

age bp lof

20 102 1

20 110 1

20 108 1

30 120 2

30 115 2

30 118 2

30 112 2

40 126 3

40 119 3

40 120 3

50 135 4

50 130 4

50 136 4

50 128 4

60 150 5

60 146 5

60 148 5

60 138 5

60 140 5

70 160 6

70 155 6

70 159 6

70 150 6

Lack-of-Fit

Data for SAS

Page 18: 一般線性迴歸模型 (GLM)

【 Exp 18.6.b】研究年齡與血壓之關係 (p428)

Sum of Source DF Squares Mean Square F Value Pr > F Model 5 6305.705797 1261.141159 68.27 <.0001 Error 17 314.033333 18.472549 Source DF Type I SS Mean Square F Value Pr > F age 1 6228.709640 6228.709640 337.19 <.0001 lof 4 76.996157 19.249039 1.04 0.4146

Root MSE 4.31514 R-Square 0.9409

Parameter Estimates

Parameter Standard Variable DF Estimate Error t Value Pr > |t|

Intercept 1 85.50938 2.67183 32.00 <.0001 age 1 0.97989 0.05358 18.29 <.0001

Page 19: 一般線性迴歸模型 (GLM)

變因 平方和 自由度 均方 F p-值迴歸 6229 1 6228 335 <.0001誤差 391 21 18.6

欠合 77 4 19.25 1.04 0.4146純誤差 314 17 18.47

總計 6620

由 Lack-of-fit test 得到 F = 1.04 , p-value = .4146 > 0.05 ,結論為在 α=.05 下,直線模式適合。由迴歸得: 血壓 = 85.5 + 0.98 ( 年齡 ) , R2 = 0.94 , (.0536)

年齡增加一歲,估計血壓增加 0.98 。

ANOVA 表

Page 20: 一般線性迴歸模型 (GLM)

Model: Yi = E{Yi} + εi

n1,....,i ,}{ )(exp1)(exp

10

10

i

i

XX

ii pYE

此 Model 稱為 logistic regression model

邏輯迴歸模式 (Logistic Regression model)

--- 以影響變因預估某狀況發生之機率 ( p487)

特性:依變數 (Y) 為二分類的反應數,以 1 及 0 代表。

0)prob(y1)prob(y

10 勝算odds X,ββ) odds ( lnz 假設

Page 21: 一般線性迴歸模型 (GLM)

xp zz

10(-z)exp11

)(exp1)(exp ˆˆ z ,ˆ 發生率

可由最大概似估計法估計 β0 及 β1 ,迴歸式之圖可能如下。

Page 22: 一般線性迴歸模型 (GLM)

年齡層 25 35 40 45 50 55 60 65 70

無病人數 9 14 9 9 7 4 6 4 2

有病人數 1 2 3 5 6 5 12 11 8

【 Exp 18.6.1】研究年齡與患 CHD 之關係 (p489)

由年齡估計患病率

Page 23: 一般線性迴歸模型 (GLM)

SAS_邏輯迴歸: Analysis → Regression → Logistic

Columns :指定 Dependent variables ( 可選擇目標項 )

Quantitative variables

Classification variables

Frequency variabl

Statistics : ˇ logit

SPSS_邏輯迴歸:分析 → 迴歸→ 二元 Logistic

指定 依變數 共變數,或選項中的類別變數

Page 24: 一般線性迴歸模型 (GLM)

Testing Global Null Hypothesis: BETA=0

Test Chi-Square DF Pr > ChiSq Likelihood Ratio 29.7851 1 <.0001 Score 27.0896 1 <.0001 Wald 22.6152 1 <.0001

Analysis of Maximum Likelihood Estimates

Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -4.6486 0.9775 22.6171 <.0001 age 1 0.0881 0.0185 22.6152 <.0001

Odds Ratio Estimates

Point 95% Wald Effect Estimate Confidence Limits age 1.092 1.053 1.132

SAS 報表

Page 25: 一般線性迴歸模型 (GLM)

(3) 勝算比 (odds ratio , OR ) 或相對危險率之估計:

OR = exp(0.0881) = 1.092 .

年齡增加一歲患 CHD 之勝算 (風險 )是原來的 1.09 倍

0.6132p 58)0.0881-exp(4.651 1

(1) 適合性測驗: Wald test 得 p- 值 < 0.05 ,年齡的影響顯著。(2) 由最大概似估計得到由迴歸分析得到 z = - 4.65 + 0.0881 ( 年齡 )

58歲患病率估計

42歲患病率估計為 0.279

Page 26: 一般線性迴歸模型 (GLM)

Testing Global Null Hypothesis: BETA=0

Test Chi-Square DF Pr > ChiSq Likelihood Ratio 24.3214 2 <.0001 Score 17.5848 2 0.0002 Wald 9.0173 2 0.0110

Analysis of Maximum Likelihood Estimates

Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -9.5083 3.2208 8.7150 0.0032 air 1 3.8737 1.4229 7.4112 0.0065 trans 1 2.6402 0.9113 8.3942 0.0038

Odds Ratio Estimates

Point 95% Wald Effect Estimate Confidence Limits air 48.120 2.959 782.573 trans 14.016 2.349 83.621

【 Exp 18.6.3】研究不同空氣體積及傳遞速率是否引起血管收縮 (p498)

Page 27: 一般線性迴歸模型 (GLM)

(1) 適合度測驗: Wald test 得 p- 值 < 0.05 , X1 , X2 的影響顯著。(2) 由最大概似估計得到 z = - 9.51 + 3.87 X1 + 2.64 X2

發生率

z)exp(11p

(3) 勝算比:

X1 : OR = 48.1 ,經傳遞速率調整,空氣體積每增加一,

血管收縮之風險是原來的 48.1 倍 X2 : OR = 14.0 ,經空氣體積調整,傳遞速率每增加一, 血管收縮之風險是原來的 14 倍