48
Linear Model Residual Analysis 1. 개념 e 회귀분석은 설정된 회귀모형 이 적합한지 쌍 관측•를 활용하여 회 귀x수 의 유의성을 s정하여 모형의 유의성을 판단하는 분석방법 e 회귀분석 시작 시 오차항에 대한 ck정d과 함수의 선형성을 k정하였음 - 이 k정 하에 s정통x량의 샘플링분포도 구하였y 회귀x수에 대한 ”론과 분석 v과를 해석 e k정이 성립되지 않으면 분석v과를 신뢰할 수 없음 e 하여& 회귀모형의 k정을 만족하는지 분석할 필요k 있음 - 이를 잔차분석이라 함 e 선형성 k정은 회귀모형 유의성 s정 v과와 동일하므로 잔차분석이라 함은 오차항에 대 한 -k지 k정(정 성& 등분산성& 독립성)을 진단하y 문제를 해v하는 방법임 e 독립성 진단은 시x열 자료에서만 하u 됨 e ”k적으로 회귀모형 ”정 v과에 영향을 주는 (이상•& 영향•) 진단까지 잔차분석에 포 함됨 2. 잔차 (+) x산 e 0 잔차는 종속변수 관측•와 모형 적합•의 차이 e 회귀모형 오차항의 >EDE (,) 성질 e 잔차의 평균의 *이y 분산 >BE(2 & 오차항 분산의 >EDE) e 잔차는 서로 독립인k4 아니다( 회귀x수 ”정 식에는 모든 관측•k 포함 되어 있기 때문임 e & 0 설명변수와 잔차& 적합•와 잔차의 z은 * (-) 정의 0 잔차분석이란 오차의 ”정•인 잔차를 이용하여 다음 정보를 얻어내는 과정 e 설명변수와 종속변수의 함수 관x는 선형인k4 123 회귀x수 유의성 s정과 동일 e 오차의 분산은 설명 변수의 n에 따른 변화는 없는k4 (등분산성) e 오차항은 서로 독립인k4 (독립성) e 오차항은 정 분포를 따르는k4 (정 성) e 이상•나 영향•k 존재하는k4 e y려된 설명 변수 이외 다른 주요한 설명 변수k 존재하지는 않는k4 *)현실성 v여 y i = α + β x i + e i ( x i , y i ) β r i = y i ˆ y i r i = ˆ e i ˆ σ 2 ( α , β ) ( x i , y i ) x i r i = 0 ˆ y i r i = 0 한남대학교 권세혁교수 http://wolfpack.ac.kr / 16

1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model Residual Analysis

1. 개념

e회귀분석은 설정된 회귀모형 이 적합한지 쌍 관측•를 활용하여 회

귀x수 의 유의성을 s정하여 모형의 유의성을 판단하는 분석방법

e회귀분석 시작 시 오차항에 대한 ck정d과 함수의 선형성을 k정하였음 - 이 k정 하에 s정통x량의 샘플링분포도 구하였y 회귀x수에 대한 ”론과 분석 v과를 해석

ek정이 성립되지 않으면 분석v과를 신뢰할 수 없음

e하여& 회귀모형의 k정을 만족하는지 분석할 필요k 있음 - 이를 잔차분석이라 함

e선형성 k정은 회귀모형 유의성 s정 v과와 동일하므로 잔차분석이라 함은 오차항에 대한 -k지 k정(정 성& 등분산성& 독립성)을 진단하y 문제를 해v하는 방법임

e독립성 진단은 시x열 자료에서만 하u 됨

e”k적으로 회귀모형 ”정 v과에 영향을 주는 (이상•& 영향•) 진단까지 잔차분석에 포함됨

2. 잔차

(+) x산

e 0 잔차는 종속변수 관측•와 모형 적합•의 차이

e회귀모형 오차항의 >EDE

(,) 성질

e잔차의 평균의 *이y 분산 >BE(2 & 오차항 분산의 >EDE)

e잔차는 서로 독립인k4 아니다( 회귀x수 ”정 식에는 모든 관측•k 포함

되어 있기 때문임

e & 0 설명변수와 잔차& 적합•와 잔차의 z은 *

(-) 정의 0 잔차분석이란 오차의 ”정•인 잔차를 이용하여 다음 정보를 얻어내는 과정

e설명변수와 종속변수의 함수 관x는 선형인k4 123 회귀x수 유의성 s정과 동일

e오차의 분산은 설명 변수의 n에 따른 변화는 없는k4 (등분산성)

e오차항은 서로 독립인k4 (독립성)

e오차항은 정 분포를 따르는k4 (정 성)

e이상•나 영향•k 존재하는k4

ey려된 설명 변수 이외 다른 주요한 설명 변수k 존재하지는 않는k4 *)현실성 v여

yi =α + βxi + ei (xi , yi )β

ri = yi − yiri = ei

σ 2

(α ,β ) (xi , yi )

xiri∑ = 0 yiri∑ = 0

한남대학교 권세혁교수 http://wolfpack.ac.kr / 1 6

Page 2: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model Residual Analysis

(.) 잔차 종류

e표준화 stIULIYLiaML 잔차

표준화 잔차는 ”정 회귀식으로부터 관측•k 얼마나 떨어져 있나를 나타내는 t으로 보다 크면 이상•일 k능성이 높음

eb스튜던트 stuLMUt 잔차 � ,

(I) 잔차를 t-분포를 따르는 통x량으로 만든 t으로 이면 이상•(혹은 영향•)로 판단

(b) 는 :It 행렬의 대l 원소로 SMvMYIOM 레버리지(지렛대)로 정의& 영향• 판단에 사용

e표준화 제외 stIULIYLiaML & LMSMtML 잔차

i번째 관측•를 제외하y 회귀모형을 ”정한 후 얻은 적합•( ) 사용하여 얻은 잔차로 표

준화 잔차에 비해 더 정확한 q념의 잔차이지만 현실에서는 자주 사용하지 않음

e스튜던트 제외 잔차

표준화 제외 잔차와 동일한 방법으로 구한 t이며 활용방법은 스튜던트 잔차와 동일함용

3. 잔차진단

잔차분석의 /k지 이탈성에 대한 진단을 위하여 다음 그래프를 그릴 수 있다(

f잔차(H-축)와 설명변수 산점도 BKIttMY WSVt Vf YMsiLuIS IOIiUst iULMWMULMUt vIYiIbSM

설명변수와 잔차의 산점도는 함수 형태를 k져서는 안된다( 왜냐하면 오차와 설명변수k 종속변수를 설명하지 못하는 부분에 해당되기 때문이다( 단순회귀에서는 설명변수k 하나이므로 설명변수와 종속변수k 동일하므로(동일한 형태) 단순회귀에서는 이 산점도를 사용하지 않는다( 다중회귀에서는 오차의 등분산성 진단을 위하여 k끔 사용하기도 하지만 유효성이 의심되어 이 산점도는 다중회귀 잔차분석에서도 r의 사용하지 않는다(

g잔차와 종속변수 ”정• 산점도 (*) 단순회귀분석에서는 이 도구만 졸 사용

잔차를 H축& 종속변수의 예측•를 X-축으로 하여 산점도를 그린다( 잔차는 ”정된 회귀 모형이 종속 변수의 변동을 설명하지 못하는 부분에 해당하므로 산점도에 일정한 패턴이 있으면 안되y 평균 *을 중심으로 무작위(YIULVT) 하u 흩어져 있어야 한다( 그리y 잔차k 크다는 t은 그 관측•k 이상• k능성 있다( 또한 이 산점도에 의해 등분산성& 선형성도 진단한다(

h잔차(H-축)와 시m(tiTM& X-축)의 시m도표(tiTM WSVt)0 시x열 데이터에만 국한된다(

i변수(관측•를 나누는 분류 변수) 수준별 잔차 그래프

관측•를 분류할만한 변수k 있을 때에만(예0 성별) k능하다( 즉 설명변수 이외에 분류형 변수(이를 지시변수라 함)k 있을 때만 그린다(

MSErr

z i −=

ii

iii hMSE

yyr

−=

1/

ˆ

iiii xXXxh 1' )( −"=

hii

z(i ) =r(i ) − rMSE(i )

y(i )

r(i ) =y(i ) − y

MSE(i ) / (1− hii )

한남대학교 권세혁교수 http://wolfpack.ac.kr / 2 6

Page 3: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model Residual Analysis

⑤잔차에 대한 일변량 분석

BtMT IUL =MIf WSVt과 BPIWiYV-FiSRs F-통x량(정 성)& 6Vx-FPisRMY WSVt(정 성& 이상• 혹은 영향•) 이상•나 영향•는 g의 그래프에서 진단되므로 정 성만 s정하면 된다(

*) 잔차의 정 성 s정에 대한 찬반 0 (I) 잔차는 종속변수의 평균의 q념으로 x산되어 대표본 SIYOM sITWSM 이론에 의해 데이터k 충분히 크면 (3-*) 정 분포에 근사하u 되어 표본의 크기k 충분히 큰 w우 정 성 진단은 하지 않아도 됨

4. 진단과 해결책

(1) 도구

e잔차(설명변수k 설명하지 못한 부분)와 적합•(설명변수의 설명 부분) 산점도 123 (단순회귀) 종속변수와 설명변수 산점도와 동일함

e잔차의 합은 *이므로 수평선은 *에 해당

e밴드 안에서 잔차k 일정 패턴 없이 무작위 YIULVT 흩어져 있음

e밴드k 인지할 수 있는 패턴을 o는다는 t은 종속변수의 변동을 설정한 설명변수k 온전히 설명하지 못하였r나 k정이 파괴되었음을 의미함

123

(2) 선형성 파괴

(I) 진단

잔차와 예측• 산점도 123 (설명변수와 종속변수) 산점도 ➔ 이차 함수 형태

한남대학교 권세혁교수 http://wolfpack.ac.kr / 3 6

fittML SiUM (적합회귀식)yi

xi

fittML SiUM

Page 4: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model Residual Analysis

(b) 해v책

e설명변수의 이차항( )을 설명변수로 ”k -일차항에 이차항을 ”k하는 w우 다중공선

성 문제k 발생하므로 이를 완화하기 위하여 설명변수( )를 표준화 하여 활용

e종속변수를 제z근 변환 을 실시

(K) 선형 변환 =iUMIY TYIUsfVYTItiVU

(3) 등분산성 homoscedasticity 파괴

(I) 진단

e잔차와 예측• 산점도 123 (설명변수와 종속변수) 산점도 ➔ 나팔 fIU 모양

e종속변수의 n에 의존하여 분산이 커지r나 작아짐 - 등분산 k정이 무너지면 분산이 큰 부분에서 종속변수의 n이 적합선을 많이 벗어난 t이 적합 정도k 떨어진다y v론 내릴 수 없음& 이는

분산이 크므로

xi2

xi* = xi − x

s(x)

y

>MtPVL TYIUsfVYTItiVU(s) AMOYMssiVU MXuItiVU PYMLiKtML vISuM (ŷ)

ExWVUMUtiIS TVLMS DMWMULMUt vIYiIbSM 2 SVO(y) SVO(y) 2 b* + b+x ŷ 2 +*b* + b+x

AMKiWYVKIS TVLMS DMWMULMUt vIYiIbSM 2 +)y +)y 2 b* + b+x ŷ 2 + ) ( b* + b+x )

=VOIYitPTiK TVLMS IULMWMULMUt vIYiIbSM 2 SVO(x) y2 b* + b+SVO(x) ŷ 2 b* + b+SVO(x)PVwMY TVLMS DMWMULMUt vIYiIbSM 2 SVO(y)

IULMWMULMUt vIYiIbSM 2 SVO(x)

SVO(y)2 b* + b+SVO(x) ŷ 2 +*b* + b+SVO(x)양

σ i2 ∝ xi

한남대학교 권세혁교수 http://wolfpack.ac.kr / 4 6

fittML SiUM

Page 5: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model Residual Analysis

(b) 해v책 + - 설명변수로 회귀모형 나누기 *)”천 방법

e이분산 PMtMYsKMLIstiKity 회귀모형

e변환 - 등분산 회귀모형 0 종속변수는 & 설명

변수는 & 절편과 기울기 ”정x수k 바뀌어 있음에 주의

(b) 해v책 , - ?=B대신 F=B k중“소자승법 사용

e 을 “소화 하는 ”정• ”정•를 k중“소”정량

ek중• 사용 - 는 모르므로 사용

(4) 정규성 파괴

(I) 진단

잔차의 정 성 s정 - BPIWiYV FiSRs F-통x량& AD 통x량& <-B F-통x량

(b) 해v책

e종속변수의 정 성 변환 - (로그변환& 제z근 변환)

e잔차를 구할 때 회귀x수의 ”정•에 의해 구해지는 적합•k 필요한데 평균 q념이므로 대표본 이론에 의해 정 분포를 따르므로 데이터 크기k -*q 이상인 w우 정 성 파괴는 해v 불필요

(5) 독립성 파괴

(I) 진단

e시x열 데이터 모형에만 진단

eDF 통x량 0 오차의 +차 자기상관 자기상관이 없는 w우 DF2,

eDF 통x표 이용 방법

yi =α + βxi + ei ,ei ~ iidN(0,σ i2 )

yixi

=α / xi + β + ei / xi ,ei* = ei / xi ~ iidN(0,σ

2 ) yixi

1xi

2,

)(min∑ −− iii xyw βαβα α , β

wi =1σ i2

1σ i2

1yi2

ln(y), y

yt =α + βxt + et ,et ~ iidN((0,σ2 )

한남대학교 권세혁교수 http://wolfpack.ac.kr / 5 6

Page 6: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model Residual Analysis

(b) 해v책

e종속변수의 +차 전기 항( )을 설명변수로 사용하r나 종속변수의 차분항 을 종

속변수로 사용

(6) 새로운 설명변수 필요

(I) 진단 0 잔차와 예측• 산점도

(b) 해v책

e새로운 설명변수 찾음

5. 이상치 OUTLIER와 영향치 INFLUENCE OBSERVATION

(I) 진단

e표준화 잔차나 스튜던트 잔차 (선호) 0 이상이면 이상•

e레버리지 통x량 0 (W2설명변수 q수& U2데이터 수) ,배보다 크

면 영향•로 진단함

(b) 해v책

e이상• - 삭제 0 회귀모형의 적합성 높아짐 123 v정x수 높아짐

e영향• 0 영향• n이 있는 설명변수 구m (위의 그래프에서 설명변수 n이 /*) 데이터를 더 수집하여 이상•인지 실제 그 설명변수 구m에서는 종속변수 n이 +/* 부근인지 판단함 - 데이터 ”k 수집이 불k능한 w우에는 영향•도 이상•와 p이 삭제하는 t이 적절함

e설명변수 (+.*& ,**) 구m 이외 범위에서는 회귀 적합식을 활용해서는 안됨 0 이외 구m에서는 단순회귀식이 적합한지 UVbVLy RUVw

yt−1 ∇yt = yt − yt−1

±2

hii = xi, (X 'X)−1xi h = (p +1) / n

이상•&영향•

영향•이상•

한남대학교 권세혁교수 http://wolfpack.ac.kr / 6 6

Page 7: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

선형성 파괴 (1) - 이차함수 형태

데이터 ! TV_ad.csv (회사의 TV 광고액이 고객 평가점수에 미치는 영향)

도구 - ① 스튜던트 잔차와 적합치 - No pattern

② vs. - 성분 잔차 component-residual 플롯 - 직선의 관계 정도

표시함, 직선에 가까울수록 선형 정도가 높음

해결 - 선형변환, 이차항 삽입

(선형 변환 후 직선의 경향이 강함 - X2는 제곱근 변화, X3는 Exp 변환

Re sidual + βXi Xi

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page1 16

Page 8: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page2 16

Page 9: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

in R

회귀계수 기울기 유의성 검정 결과 문제가 없음 - 만약 잔차 진단을 하지 않는다면 직선 모형으로

판단하여 결론을 내릴 것임 - 그러나 완전하지 않음

(산점도 : 평가점수 vs. 광고액) (산점도 : 스튜던트 잔차 vs. 적합치)

=> 종속변수와 설명변수 산점도, 잔차 산점도 진단 결과 이차항을 삽입하는 것이 적절함

β

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page3 16

Page 10: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

(성분-잔차 산점도) - 직선의 경향이 낮음 : 문제 해결이 필요함 - 초록색 선은 실제 두 변수간의 함수 형태를 보여 줌, 붉은 직선은 적합 직선, 두 선이 일치하는 정도가 높을수록 선형 함수 관계가 있다고 결론 내림

해결 - 제곱항 삽입 : 결정계수가 42.4%에서 53%로 증가하고 잔차진단 결과 문제 없음

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page4 16

Page 11: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page5 16

Page 12: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

in SAS

SAS9.3부터는 자동으로 ODS 그래프가 자동출력되며 회귀분석에서 필요한 잔차분석 도구까지도 자동 출력됨

첫 행 두번째 그래프 (스튜던트 잔차와 적합치) 참고 - 이차 형태를 보임

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page6 16

Page 13: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

제곱항을 삽입한 결과 스튜던트 잔차와 적합치 산점도에는 이상 패턴 없음 - 문제 해결

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page7 16

Page 14: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

선형성 파괴 (2) - 선형 변환 (역변환)

데이터 ! CAR_HP.csv (차량 연비 MPG에 영향을 미치는 변인 - vol 엔진 사이즈 hp 호스파워 speed

최대속력 weight 차량무게) - 여기서는 MPG와 HP 단순 회귀 실시하였음

도구 - ① 스튜던트 잔차와 적합치 - No pattern

② vs. - 성분 잔차 component-residual 플롯 - 직선의 관계 정도

표시함, 직선에 가까울수록 선형 정도가 높음

해결 - 선형변환

In R

Re sidual + βXi Xi

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page8 16

Page 15: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

잔차 산점도를 보면 이차항 삽입처럼 보이지만 산점도에 의하면 종속변수 역변환 (선형변환)이 가장

적절해 보임 - 아래 결과에 의하면 잔차진단을 하지 않으면, 회귀계수 기울기가 매우 유의하므로(유의확률 <0.0001) 최종모형으로 (결정계수 62.4%) - 호스파워가 높은 차량의 연비는 낮음, hp 한단위 증가하면 연비는 0.139 낮아짐

1/ y

MPG = 50.07 − 0.139*HP

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page9 16

Page 16: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

성분-잔차 그래프도 초록 선(실제 함수 형태)은 적합 직선에 가깝지 않으므로 선형성이 파괴되므로 이에 대한 해결책이 필요함

(종속 변수 역변환에 의한 해결) - 기울기 유의성 증가 및 결정계수 77.1%로 상승

(호스파워 높아지면 연비는 낮아짐) 1/mpg = 0.0131+ 0.000165*HP

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page10 16

Page 17: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

잔차진단 결과 이상치는 있으나 다른 패턴 인지 없음

성분-잔차 그래프 : 큰 값에서 약간 벗어나는 것을 제외하면 문제 해결

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page11 16

Page 18: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

in SAS

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page12 16

Page 19: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

선형성 파괴 (3) - 선형 변환 (로그변환)

데이터 ! Oil.csv (연도별 오일(단위 만 배럴) 생산량)

도구 - ① 스튜던트 잔차와 적합치 - No pattern

② vs. - 성분 잔차 component-residual 플롯 - 직선의 관계 정도

표시함, 직선에 가까울수록 선형 정도가 높음

해결 - 선형변환 (로그변환)

in R

Re sidual + βXi Xi

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page13 16

Page 20: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

추정결과 오케이, 산점도 (지수함수 형태)-로그 변환 필요, 잔차 산점도 - 이차함수 형태, 잔차-성분 그래프도 직선 함수 형태가 아님

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page14 16

Page 21: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

(종속변수 로그변환) - 잔차 산점도 오케이, 성분-잔차 그래프 선형 오케이, 회귀계수 유의성 오케이, 결정계수 77.4%에서 99% 상승 최종모형 log(oil) = 0.012 + 0.0634 *Year

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page15 16

Page 22: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 선형성 파괴

in SAS

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page16 16

Page 23: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 정규변환

정규변환 Normal Transformation

개념

•일변량 분석의 기초는 평균에 대한 추론 - 평균은 치우침이나 이상치에 영향을 많이 받으로므로 평균, 평균 차이 방법론을 적용하기 전에 반드시 치우침과 이상치 진단을 함

•치우침은 정규성 검정, 이상치 진단은 상자-수염 그림에 의함

•선형모형에서 확률변수들에 의한 치우침이나 이상치 (회귀모형 관계 속에서는 스튜던트 잔차) 진단을 실시함

이상치 진단

•상자 수염 그림 BOX- whisker plot

•5개 기초 순서 통계량 : 최소값-제일사분위 Q1 - 중위값 - Q3 - 최대값

데이터 ! SMSA.csv

Mortality 사망률지수, Non-White 비백인 비율

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page1 6

Page 24: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 정규변환

정규성 진단 - 그래프 활용

(1) Q-Q plot

=g론 확률분포 .u/nti51 (x-축)과 데gr .u/nti51(y-축) 값을 산점도에 표현

=.u/nti51 값e D1ci51, .u/rti51, -1rc1nti51 값g다.

=g론 분포a 실n적(데gr) 분포가 동iy면 .-. 그래x는 o선

=데gr가 ()개h Dc ,(x)=1/(), (/(), … (rou2h5y) g것을 만ly는 x값g .u/nti51

Q = F−1

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page2 6

Page 25: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 정규변환

(2) 히스토그램

=히스트그P에서 중위값과 u균g i치 - 시각적 t단

정규성 진단 - 통계량 활용 (적합성 검정 Goodness of Fits Test)

(1) 통계량 활용

•수리 왜도 skewness :

•EDA 왜도 :

(적합성 검정)

귀무가설 : 데이터는 정규분포를 따른다.

대립가설 : 정규분포를 따르지 않는다.

(2) Shapiro Wilk W-통계량

= , 상수 는 분산행Q을 g용y여 F함

(3) Kolmogorov D-통계량

E(X − µ)3

σ 2

(Q3 −M )− (M −Q1)(Q3 −M )+ (M −Q1)

ai

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page3 6

Page 26: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 정규변환

=

(4) Anderson-Darling AD 통계량

=

정규 변환

Power Transformation

In R

Y * =

Y 3, leftY 2, mild left

Y , mild rightln(Y ), right

1/Y , severe right

⎜⎜⎜⎜⎜⎜⎜

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page4 6

Page 27: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 정규변환

(Q-Q plot) Mortality - 직선 형태, 정규분포 Non-White 직선에서 벗어남

(히스토그램) Mortality 정규분포 Non-white 우로 치우침 - 제곱근 혹은 로그

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page5 6

Page 28: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 정규변환

(Non-white 정규변환)

(제곱근 변환) (로그변환)

(정규성 검정)

•Mortality 유의확률 = 0.97 - 정규분포롤 따름

•Non White 유의확률 = 0.00018 - 정규분포 기각, 제곱근 변환 유의확률=0.32, 로그 변환 유의확률=0.18 두 변환 모두 정규분포 근사, 제곱근 변환 유의확률이 더 크므로 제곱근 변환이 가장 적절

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page6 6

Page 29: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단(독립성 파괴)

독립성 파괴

개념

시계열 데이터의 경우 오차항이 전 차항의 오차들에 의해 영향을 받음

회귀모형 : , -> 더 이상 오차항이 독립이 아님 (첨자는 t)

무엇이 문제인가?

오차항 독립이 아니면 종속변수에 설정된 설명변수가 설명하지 못하는 일정의 패턴이 존재하므로 회귀추정이 불완전함

도구

•Durbin Watson 퉁계량 - 검정통계량의 값은 에 근사한다. 은 두

변수 의 상관계수 (<=> 오차의 1차 자기상관계수)이다.

•오차가 독립이면 이고 에 근사한다.

(DW 이용방법)

positive autocorrelation (양의 상관관계)

•If d < dL,α, 양의 상관관계

•If d > dU,α, 상관관계 없음

•If dL,α < d < dU,α, 결론 내릴 수 없음

negative autocorrelation (음의 상관관계) the test statistic (4 − d)

•If (4-d) < dL,α, 음의 상관관계

•If (4-d) > dU,α, 상관관계 없음

•If dL,α < (4-d) < dU,α, 결론 내릴 수 없음

해결책

•설명변수 이전 값을 설명변수로 첨가

•종속변수의 차분항을 종속변수로 사용 : 을 종속변수로 사용

yt =α + βxt + et et ~ iidN(0,σ2 )

2(1− r) r(et ,et−1)

r = 0 DW = 2

yt =α + β1xt + β2xt−1 + et∇yt = yt − yt−1

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page1 5

Page 30: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단(독립성 파괴)

DW-기각역 표 (유의수준 5%, k=설명변수 개수+1)

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page2 5

Page 31: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단(독립성 파괴)

데이터

! OIL.csv 연도별 오일량

선형성 검증에서 이미 종속변수의 로그 변환이 가장 적절함 - 상세 내용은 선형성(3) 참고

in R

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page3 5

log(오일) 종속변수임

변수 산점도 성분-잔차 산점도 -두 두 변수(오일

로(와 )도)가 직선형태임을 보임

Page 32: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단(독립성 파괴)

(DW 통계량)

•오차 1차 자기상관계수=0.622 (+) DW=0.365 < DL=1.24 (n=27, k=2) => 양의 상관관계가 있음 (페이지 2 표 참고)

•유의확률이 0이므로 귀무가설이 기각됨 - 양의 상관관계

(해결) 종속변수를 diff(log(oil)) 사용

in SAS

선형성 진단 결과 - 종속변수 로그 변환이 선형성 만족하였음 (선형성 3) 참고)

•오차 1차 자기상관계수=0.622 (+) DW=0.365 < DL=1.24 (n=27, k=2) => 양의 상관관계가 있음 (페이지 2 표 참고)

•잔차 산점도 진단 - 문제 없어 보임

종속변수 차분항을 종속변수로 사용

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page4 5

Page 33: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단(독립성 파괴)

•회귀계수 추정치가 음이므로 오차항 1차 자기 상관계수도 1이다.

•그러므로 DW 통계량은 (4-d)=3.67 > Du=1.55 (n=27, k=2) 이므로 상관관계 없음

•그러므로 독립성 만족

•최종 모형 : => 즉 오일 증가량은 연도가 높아질수록 작아

짐.

•이상치는 존재함 - 이상치 진단을 통하여 제거할 필요 있음

log(Ot )− log(Ot−1) = 13.5 − 0.0068Yt

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page5 5

Page 34: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (등분산성 파괴)

등분산성 homoscedasticity 파괴

진단도구

•(종속변수, 설명변수) 산점도 - 팬 fan 모양

•(스튜던트 잔차, 적합치) 산점도 - 팬 모양

•Non-constant Variance Score Test : 귀무가설 : 오차항은 등분산을 갖는다

해결책

•가중최소자승추정치 Weighted Least Square :

•문제 설명변수로 모형을 나누어라. =>

데이터 ! NFL.csv

7F6 선수들의 연봉에 영향을 미치는 요인으X 드래프트 순위를 고W하였음

in R

산점도 - 이분산 A향% 성분-잔차 - 설명변수 작은 >에서 변동이 심함

ei !∼σ2,ei ∼σ i

2

wi = 1/ xi , 1 / yi

yi =α + βxi + eiyixi

=α 1xi+ β + ei

xi

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page1 7

as.numeric()은 문자형으로 된 숫자를 숫자로 만들어줌, draft 변수가 문자로 읽히는 경우가 발생하므로 필요할 수 있음

Page 35: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (등분산성 파괴)

회귀모형 추정 - 회귀계수는 매우 유의하나 결정계수가 11.5% 매우 낮음

이분산 검정 0 유의확률이 매우 작아 귀무가설 기=

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page2 7

Page 36: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (등분산성 파괴)

(잔차 산점도) - 팬 모양으로 등분산 가정이 무너짐

(이분산 문제 해결 방법1) 가중최소 추정 방법 - 문제 해결, but 결정계수 6.2% 떨어짐

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page3 7

Page 37: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (등분산성 파괴)

(이분산 해결방법2) 설명변수로 회귀모형을 나눔

(절편) 회귀계수 유의성 매우 높음% 결정계수 ,*.*% 증가% F러H 설명변수X HL 모형에서는 등분산 검정이 의미 없음

최종회귀모형 0 12 (드래프트 순위가 높아

지면(H쁜 순위임) 연봉은 T어짐

SD

= −33486 + 597121* 1D

S = 597121− 33486*D

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page4 7

Page 38: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (등분산성 파괴)

in SAS

•산점도, 잔차 산점도 출력

(종속변수% 설명변수) 산점도 - FA7 모양% 잔차 산점도 - 팬 모양 등분산 가정 파괴

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page5 7

Page 39: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (등분산성 파괴)

(방법1) 가중최소자승법 - 가중치=

1/ y2

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page6 7

가중치 W1*(Y5A8**2 새X운 종속변수 Y)% 설명변수 :) 만들기

회귀계수는 유의하H 결정계수가 낮아졌고 잔차 산점도도 문제 해결 A향이 안 보임

Page 40: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (등분산성 파괴)

(방법2) 설명변수로 모형 나누기

회귀계수도 유의하고 결정계수도 -../%X 매우 높아짐% F러H 여전히 잔차 산점도는 문제X 보임 - 이는 설명변수X 모형을 H누어서 발생한 문제이므X N음을 최종 결Y으X%%%

(절편) 회귀계수 유의성 매우 높음% 결정계수 ,*.*% 증가% F러H 설명변수X HL 모형에서는 등분산 검정이 의미 없음

최종회귀모형 0 12 (드래프트 순위가 높

아지면(H쁜 순위임) 연봉은 T어짐

SD

= −73098 + 722362* 1D

S = 722362 − 73098*D

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page7 7

Page 41: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (이상치 진단)

이상치 & 영향치 진단

개념

•이상치 outlier : 설명변수 관측치 범위 내에 존재하며 적합 회귀선에서 벗어난 관측치 - (문제) 회귀모형 적합정도, 결정계수를 떨어뜨림 (해결) 삭제 후 회귀모형 적합

•영향치 influential : 설명변수 관측값 범위를 벗어났으며 적합 회귀선 상에 있는 관측값 - (문제) 결정계수 값을 과하게 높이고 회귀계수 유의성 매우 높임 - 잘못된 결론 (해결) 설명변수 관측값 주변 관측치를 더 수집한 후 분석, 혹은 제외 후 모형 적합

진단도구

•원 변수 산점도

•잔차-적합치 산점도

•(이상치) 스튜던트 잔차 studentized residual >

•(영향치) 레버러지 leverage >

해결

•이상치 - 삭제

•영향치 - 설명변수 값 주변 관측치 수집 후 추가 분석 혹은 삭제 (그러나 이상치에 대한 언급과 해석이 필요)

±2

h = (p +1) / n

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page1 8

이상치&영향치

영향치이상치

Page 42: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (이상치 진단)

데이터

Is Babe Ruth an Outlier? 홈련왕 베이브루스는 이상 타자인가?

OBA (On Base Average): (hits + bases on balls + hit by pitcher) / (at bats + bases on balls + hit by pitcher)

EBP (extra base hit): (total bases - hits) / at bats

이상치 진단이 회귀분석의 최종 단계이므e y 예제 데이터에서는 회귀분석 순서we 실행

in R

① 산점도

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page2 8

산점도 & 이상치 존재 성분&잔차 산점도 & 실제함수 초록선이 이상치e 인하여 적합직선 빨간선을 벗어난 N으e 보임

이상치 혹은 영향치 존재만 진단

Page 43: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (이상치 진단)

② 모형 추정

회귀계수 유의, 결정계수 17.8%

③ 잔차분석

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page3 8

잔차 산점도 & (선형성 오케이) a분산성 (팬 m양) 파UI 보이나 이는 종속변수 값이 큰 P우 이상치I 발생 이e 인한 문제e 보임 a분산 검정 O과 ,..%e 유의하여 a분산 I정이 무너지R 있음 & 이는 이상치e 인한 현상

Page 44: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (이상치 진단)

④ 이상치 진단

StudRes (스튜던트 잔차) 2 이상 - 이상치 (1, 23)

Hat 값 > - 영향치 (1, 2)

이상치 & 영향치 - (1)

h = (p +1) / n = 2 / 25 = 0.08

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page4 8

Page 45: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (이상치 진단)

⑤ 결론

이상치 (1, 23) 번째 관측치 (Babe Ruth, Ty Cobb) 제거 후 회귀모형 추정, id.n 옵션은 이상치 개수를 지정하는 옵션임, 사용하지 않으면 2개가 디폴트임

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page5 8

이상치 제Le 회귀계수 유의성 증I 및 O정계수 2,.0% 상승

)(영향치이W도 함)% ),번째 T측값 여전히 이상치e 제외 후 m형 추정

Page 46: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (이상치 진단)

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page6 8

)3번째 약한 이상치% )번 영향치 존재

회귀m형이 더 이상 유의하지 않음 & 유의확h (.)-.% O정계수 0.7% 낮아짐 (wCy) 이는 전 번에 제외한 )번 T측치 ( TBAA WiEEiaF) 이상치이W도 하지만 영향치여서 이런 현상이 발생

O론 1 :32는 53Pi 설l하는데 유의하지 않음 & 9: 회귀적합 m형

Page 47: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (이상치 진단)

in SAS

① 산점도 + ② 모형 추정 + ③ 잔차분석 + ④ 이상치 진단

회귀계수 유의

이상치 2개, 영향치 1개 존재

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page7 8

R% 796LU5945 옵션으e 잔차 값과 레버리지 값 출d

Page 48: 1. 개념wolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2017-03-21 · e종속변수의 정 성 변환 - (로그변환& 제z근 변환) e잔차를 구할 때 회귀x수의

Linear Model 잔차진단 (이상치 진단)

⑤ 결론

•REWEIGHT 옵션은 이상치를 삭제하고 회귀모형을 추정하라는 명령

•이상치 1, 23번째 관측치가 삭제 되어 25개에서 23개만 사용

•적합 결과 스튜던트 잔차가 -2 라인에 있는 것이 2개, 영향치 1개 존재

•그 상황에서 회귀모형 추정 결과 OBA 회귀계수 유의하지 않고 결정계수 9.5%

•결론 : OBA는 EBP의 설명변수로 적절하지 않음

한남대학교 권세혁교수 http://wolfpack.hnu.ac.kr / Page8 8