Upload
reidar
View
391
Download
4
Embed Size (px)
DESCRIPTION
第十八章 迴歸分析. 一般線性迴歸模型 (GLM). 資料: ( y i , x i1 , ……, x ip ) i=1,….,n 模式: Y i = β 0 + β 1 X i1 +…….+ β p X ip + ε i , i=1,….,n 其中 Y i 為依變數 (dependent var.) β 0 為截距 (intercept) - PowerPoint PPT Presentation
Citation preview
一般線性迴歸模型 (GLM)
資料: (yi , x i1 , ……, x ip ) i=1,….,n
模式: Yi = β0+ β1X i1 +…….+ βpX ip+ εi, i=1,….,n
其中 Yi 為依變數 (dependent var.)
β0 為截距 (intercept)
β1, …, βp 為係數 Xij 為預測變數 (independent var.)
εij 為隨機誤差項 (error)註解 :
線性迴歸模型意指其對參數為線性的方程式,有 p 個預測變數 , 可為數量或質性變數 。 E(Y) = β0+ β1X 1 +…….+ βp X p
估計式: Y= b0+ b1X 1 +…….+ bp X p
第十八章 迴歸分析
特殊模式 兩個自變數的一階模式; 如 : E(Y) =β0+β1X1+β2 X2
若 X1 對平均反應的效應和 X2 無關, 而 X2 對平均反應的效應和 X1
無關, 則稱此兩自變數無交互作用 (no interaction) , 即自變數對反應變數的效應是可加的 , 或無交互作用的。
迴歸係數的意義 參數 β1 :經過 X2 調整,平均反應 (Y) 隨 X1 之每一單位增加而改變的量。 參數 β2 :經過 X1 調整,平均反應 (Y) 隨 X2 之每一單位增加而改變的量。
兩個自變數含交互作用項的一階模式;
如: E(Y) =β0+β1X1+β2 X2 + β3X 1 X2
二次完全迴歸式;
如: E(Y)=β0+β1X1+ β2 X12 +β3 X2 + β4 X2
2 + β5X 1 X2
E(Y) 為一曲面, 稱為 regression surface 或 response surface
多項式迴歸式; 如: E(Y) =β0+β1X1+ β2 X12
轉換變數迴歸式; 如: E(log(Y)) =β0+β1X1+β2 X2
E(Y) =β0+ β1 log(X1) + β2 X22
變異來源 SS df MS F p-value
迴 歸 SSR p MSR F*=MSR / MSE p
誤 差 SSE n-p-1 MSE
合 計 SSTO n-1
註 : F* 值用於檢定 Y 與 X 諸變數是否有迴歸關聯
i somefor 0:
0...:
1
110
i
P
H
H
p >α , 則結論為迴歸式不顯著。
p <α , 則結論為迴歸式顯著。
變異數分析表
決定係數 (coef. of determination , R2)
TO
E
TO
R
SSSS
SSSS
R 12
說明 : 1. R2 表示 Y 之總變異中由 X1,…,Xp 解釋的比例 2. 0 R≦ 2 1≦ 3. R2 值的大小通常代表迴歸式解釋程度的多少。
評論 :
1. 增加 X 變數個數 , 一定使 R2 值增加 。2. 高的 R2 值並不一定表示配套的模式適合 。3. 有些學者建議以 X 變數個數調整後的校正判定係數 ( Ra
2) 為比較標準 。
1) /(
)/(12
nSSTOpn SSE
Ra
1
由簡單相關係數矩陣可以看出變數間相關性之強度。 由檢定 H0 : ρ= 0 vs. Ha : ρ ≠0 決定變數間是否相關; 若 p- 值 < α ,結論為顯著相關。 兩預測變數的簡單相關係數相當大時,則其迴歸結果有共線性的現象存在,此時迴歸式的不準度性很高,應做修正。(p483)
相關係數與決定係數:• 相關係數量測兩變數間單純的相關性強度。• 決定係數量測一變數與其他多個變數間的相關性強度。• 在一個自變數問題上,決定係數是相關係數的平方值。
預測變數相關性的影響:
見例 18.3b
檢定第 i 自變數 (Xi) 對依變數 (Y) 影響之顯著性: H0 : βi = 0 Ha : βi ≠0
由 t-test 得到 p- 值,若 p- 值 < α ,結論為經由其它變數的調整後, Xi 對 Y 影響顯著。
係數之顯著性與區間估計:
係數之區間估計:βi 估計範圍在 bi ± tα/2;n-p-1 SE{bi}
【例 18.3b 】 研究某林區樹木之年齡 (X1) ,株高 (X2) ,以及單位面積上株數 (X3) 對樹木直徑 (Y) 的影響。Data : p481
SAS_ 相關性: Analysis → Descriptive → Correlation Columns :指定 Correlations variables Correlation : ˇ Pearson
SAS_ 迴歸: Analysis → Regression → Linear Columns :指定 Dependent variables Explanatory variables
SPSS_ 相關性:分析 → 相關 → 雙變數 選擇 Pearson 相關係數
SPSS_ 迴歸:分析 → 迴歸方法 → 線性 指定 依變數 自變數
變數間相關性
age, high 對 diam 的影響較強; treeno 與 diam 相關性不顯著,age 與 high 相關性很強,可能有共線性影響 。
Pearson Correlation Coefficients, N = 15 Prob > |r| under H0: Rho=0
age high treeno diam;
ageage
1.00000
0.90793<.0001
0.124580.6582
0.588140.0211
highhigh
0.90793<.0001
1.00000
0.177770.5262
0.763670.0009
treenotreeno
0.124580.6582
0.177770.5262
1.00000
0.003470.9902
diam;diam;
0.588140.0211
0.763670.0009
0.003470.9902
1.00000
考慮三個自變數的迴歸分析
high 的部分貢獻顯著 age 與 treeno 的部分貢獻不顯著
Parameter Estimates
Variable LabelDF
ParameterEstimate
StandardError
t Value
Pr > |t|
Intercept Intercept 1 4.33469 0.814 5.32 0.0002
age age 1 -0.13272 0.0869 -1.53 0.1549
high high 1 0.09306 0.0284 3.27 0.0074
treeno treeno 1 -0.000837 0.000919 -0.91 0.3820
Parameter Estimates
Variable Label DFParameterEstimate
StandardError t Value Pr > |t|
Intercept Intercept 1 3.82668 0.58865 6.50 <.0001
age age 1 -0.12565 0.08594 -1.46 0.1694
high high 1 0.08903 0.02789 3.19 0.0078
high 的部分貢獻顯著 age 的部分貢獻不顯著
考慮 age , high 自變數的迴歸分析
最終迴歸式: 直徑 = 3.59 + .0535 ( 株高 ) , R2 = 0.589 (.0124)
每增高一單位,直徑平均增加 0.0535 單位。括號內為標準誤。
high 對 Diam 的迴歸分析 Root MSE 0.42695 R-Square 0.5889 Parameter Estimates
Parameter Standard Variable Label DF Estimate Error t Value Pr > |t|
Intercept Intercept 1 3.59373 0.60940 5.90 <.0001 high 株高 1 0.05350 0.01240 4.32 0.0008
註:可由 Model selection method 中的 Stepwise 法選擇自變數,此例由 stepwise 法將得到相同結果。
以考慮的模式做預測之前 , 應先檢查模式對資料的適當性,在迴歸上稱為診斷 (Diagnostics) ;診斷方法分為殘差圖分析及殘差檢定。
模式是否適當 ?
殘差 (residual) ,iii YYe
殘差 , ei , 可視為觀測的誤差 , 用於估計真實誤差 , εi = Yi - E{Yi}
若模式適合 , 則殘差應反映出 εi 的特性 .
t 化殘差 以 MSE 估計 ei 的標準差,將 ei 標準化得到的值。
MSE
ee ii *
殘差的特性 : 1. 殘差的平均數 = 0 。 2. 殘差的樣本變異數定義為 MSE ,是 σ2 的不偏估計量。 3. ei
* 應介於 -3 與 3 之間。
例 18.3b 之殘差圖
(Forest Study – p481)
迴歸的模式配適性的檢定 ----- Lack-of-Fit F Test
.
判斷 X 與 Y 的關係式是直線或非直線。 檢定前提一:對一或多個 X 水準有重複觀測值 (replicates)
• H0 : Yi =β0 + β1Xi + εi ( 呈直線關係 )
H1 : Yi ≠β0 + β1Xi + εi ( 未呈直線關係 )
X x1 x2 …. …. xc
Y y11
….
y1k
檢定前提二: 對觀測值 Y 的假設: 1 、獨立, 2 、服從常態分佈, 3 、有相同變異數。
ANOVA 表變因 平方和 自由度 均方 F p-value
迴歸 SSR 1 MSR p1誤差 SSE n-2 MSE
欠合 SSLF c-2 MSLF F* p2純誤差 SSPE n-c MSPE
總 計 SSTO
註 : SSE = SSLF + SSPE, SSTO = SSR + SSE
使用 SAS 軟體執行欠合性檢定:
在 data 內增加一分組序號的變數 lof = 1 2 3 …..
Type I lof 的檢定即是缺失性的檢定,若檢定結果是直線模式適合,可以迴歸得到估計的直線。
age bp lof
20 102 1
20 110 1
20 108 1
30 120 2
30 115 2
30 118 2
30 112 2
40 126 3
40 119 3
40 120 3
50 135 4
50 130 4
50 136 4
50 128 4
60 150 5
60 146 5
60 148 5
60 138 5
60 140 5
70 160 6
70 155 6
70 159 6
70 150 6
Lack-of-Fit
Data for SAS
【 Exp 18.6.b】研究年齡與血壓之關係 (p428)
Sum of Source DF Squares Mean Square F Value Pr > F Model 5 6305.705797 1261.141159 68.27 <.0001 Error 17 314.033333 18.472549 Source DF Type I SS Mean Square F Value Pr > F age 1 6228.709640 6228.709640 337.19 <.0001 lof 4 76.996157 19.249039 1.04 0.4146
Root MSE 4.31514 R-Square 0.9409
Parameter Estimates
Parameter Standard Variable DF Estimate Error t Value Pr > |t|
Intercept 1 85.50938 2.67183 32.00 <.0001 age 1 0.97989 0.05358 18.29 <.0001
變因 平方和 自由度 均方 F p-值迴歸 6229 1 6228 335 <.0001誤差 391 21 18.6
欠合 77 4 19.25 1.04 0.4146純誤差 314 17 18.47
總計 6620
由 Lack-of-fit test 得到 F = 1.04 , p-value = .4146 > 0.05 ,結論為在 α=.05 下,直線模式適合。由迴歸得: 血壓 = 85.5 + 0.98 ( 年齡 ) , R2 = 0.94 , (.0536)
年齡增加一歲,估計血壓增加 0.98 。
ANOVA 表
Model: Yi = E{Yi} + εi
n1,....,i ,}{ )(exp1)(exp
10
10
i
i
XX
ii pYE
此 Model 稱為 logistic regression model
邏輯迴歸模式 (Logistic Regression model)
--- 以影響變因預估某狀況發生之機率 ( p487)
特性:依變數 (Y) 為二分類的反應數,以 1 及 0 代表。
0)prob(y1)prob(y
10 勝算odds X,ββ) odds ( lnz 假設
xp zz
10(-z)exp11
)(exp1)(exp ˆˆ z ,ˆ 發生率
可由最大概似估計法估計 β0 及 β1 ,迴歸式之圖可能如下。
年齡層 25 35 40 45 50 55 60 65 70
無病人數 9 14 9 9 7 4 6 4 2
有病人數 1 2 3 5 6 5 12 11 8
【 Exp 18.6.1】研究年齡與患 CHD 之關係 (p489)
由年齡估計患病率
SAS_邏輯迴歸: Analysis → Regression → Logistic
Columns :指定 Dependent variables ( 可選擇目標項 )
Quantitative variables
Classification variables
Frequency variabl
Statistics : ˇ logit
SPSS_邏輯迴歸:分析 → 迴歸→ 二元 Logistic
指定 依變數 共變數,或選項中的類別變數
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > ChiSq Likelihood Ratio 29.7851 1 <.0001 Score 27.0896 1 <.0001 Wald 22.6152 1 <.0001
Analysis of Maximum Likelihood Estimates
Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept 1 -4.6486 0.9775 22.6171 <.0001 age 1 0.0881 0.0185 22.6152 <.0001
Odds Ratio Estimates
Point 95% Wald Effect Estimate Confidence Limits age 1.092 1.053 1.132
SAS 報表
(3) 勝算比 (odds ratio , OR ) 或相對危險率之估計:
OR = exp(0.0881) = 1.092 .
年齡增加一歲患 CHD 之勝算 (風險 )是原來的 1.09 倍
0.6132p 58)0.0881-exp(4.651 1
(1) 適合性測驗: Wald test 得 p- 值 < 0.05 ,年齡的影響顯著。(2) 由最大概似估計得到由迴歸分析得到 z = - 4.65 + 0.0881 ( 年齡 )
58歲患病率估計
42歲患病率估計為 0.279
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > ChiSq Likelihood Ratio 24.3214 2 <.0001 Score 17.5848 2 0.0002 Wald 9.0173 2 0.0110
Analysis of Maximum Likelihood Estimates
Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -9.5083 3.2208 8.7150 0.0032 air 1 3.8737 1.4229 7.4112 0.0065 trans 1 2.6402 0.9113 8.3942 0.0038
Odds Ratio Estimates
Point 95% Wald Effect Estimate Confidence Limits air 48.120 2.959 782.573 trans 14.016 2.349 83.621
【 Exp 18.6.3】研究不同空氣體積及傳遞速率是否引起血管收縮 (p498)
(1) 適合度測驗: Wald test 得 p- 值 < 0.05 , X1 , X2 的影響顯著。(2) 由最大概似估計得到 z = - 9.51 + 3.87 X1 + 2.64 X2
發生率
z)exp(11p
(3) 勝算比:
X1 : OR = 48.1 ,經傳遞速率調整,空氣體積每增加一,
血管收縮之風險是原來的 48.1 倍 X2 : OR = 14.0 ,經空氣體積調整,傳遞速率每增加一, 血管收縮之風險是原來的 14 倍