20
선형모형 (30) Chapter 4. Multiple Regression 모형 설명 선형 linearity 함수 ( , , ,…, ) 회귀계수 : 모수, unknown but fixed 절편 : y-축을 통과하는 곳 기울기 : 편미분, 한 단위 증가 p개의 설명변수 들은 결정변수 (확률변 수 아님) 종속변수만 확률변수 가정 ~ ݎሺ0, ߪ 정규성 normality 등분산성 homoscedasticity 독립성 independency 시계열 데이터에서만 검증 DW 통계량, 오차 자기상관 모형 ݕ 설명변수 개수 p 관측치 개수 n, ൌ 1, 2, … , ~ ݎሺ0, ߪ (행렬) ݕ ݕ ݕ ݕ ݕ , , 1 ݔଵଵ ݔ1 ݔ ݔ ܯ~ሺ0 ߪ, ܫ 1. 회귀모형 및 가정

모형 설명 모형 - hnuwolfpack.hnu.ac.kr/2014_Spring/LM014s/LM 2014s_Ch4.pdf · 2020. 11. 19. · 선형모형 (30) Chapter 4. Multiple Regression 모형 설명 선형 linearity

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

선형모형

(30)

Chapter 4. Multiple Regression

모형 설명

선형 linearity 함수

( , , ,…, ) 회귀계수 : 모수, unknown but

fixed

절편 : y-축을 통과하는 곳

기울기 : 편미분, 한 단위 증가

p개의 설명변수 들은 결정변수 (확률변수 아님)

종속변수만 확률변수

가정 ~ 0, 정규성 normality

등분산성 homoscedasticity

독립성 independency

시계열 데이터에서만 검증

DW 통계량, 오차 자기상관

모형

⋯ 설명변수개수p개 관측치개수n, 1,2,…, ~ 0,

(행렬)

⋮ , ⋮ , ⋮

1 ⋯⋮ ⋱ ⋮

1 ⋯

~ 0,

1. 회귀모형 및 가정

선형모형

(31)

Chapter 4. Multiple Regression

2-1. 다중회귀 순서 (1)

(3)회귀계수 추정 및 유의성 검정

OLS 추정치 (MLE와 동일, OLS is BLUE)모형 유의성 (분산분석, F-검정)개별 설명변수 회귀계수 유의성 (t-검정)

(2) 산점도행렬, 상관분석, 변수 분포(정규분포)

1. (종속 변수와 설명 변수)의 산점도 상관분석2. (설명변수)들 간 산점도 상관분석

3. 종속변수와 설명변수 정규성 검정

(1) 선형관계 파괴 => 문제 야기 설명변수 변환(2) 다중공선성 문제 사전 진단(3) 변수 분포 => 문제 야기 변수변환

(1) 회귀모형 설정

이론이나 경험을 근거하여 인과 관계 설정 회귀분석 모형 구성도 (회귀계수 부호 예상)

선형모형

(32)

Chapter 4. Multiple Regression

2-2. 다중회귀 순서 (2)

(6) 모형 진단 및 잔차분석

Residual Analysis (잔차분석) (다음 슬라이드)

모형 진단

가정(정규성, 등분산성, 선형성, 독립성) 파괴

이상치 / 영향치 진단 – 삭제 필요

(5) 다중공선성 진단 및 해결

설명변수들간 높은 상관관계로 인하여 발생방법: VIF, Condition Index, 산점도 행렬(상관계수)

해결방법문제변수 제거 / 주성분 분석 / Ridge Regression

(4) 유의한 설명변수 선택

유의한 설명변수 선택방법: (backward, forward, stepwise), 산점도 행렬

유의한 설명변수만으로 다음 단계로 이동

뢰구 예측구 추 계수 력 화 회귀계수 대적(7) 회귀분석 활용 - 최종 추정 회귀모형 (추정결과 표, F-통계량, 결정계수, 부호 중심 해석, 필요 시 예측값,

신뢰구간/예측구간 추정) – 결정계수 (모형 설명력) – 표준화 회귀계수 (상대적 영향도)

선형모형

(33)

Chapter 4. Multiple Regression

예제 데이터

종속변수 사망률(Mortality)

변수 변수이름 변수내용

종속변수 Mortality 사망률

기후

JanTemp 1월기온

JulyTemp 7월기온

RelHum 상대습도

Rain 강우량

사회경제

Education 교육수준

PopDensity 인구밀도

NonWhite 비백인비율

WC 화이트칼라 비율

pop/house 가구당 가족수

income 소득

환경

HCPot 오염물질1

NOxPot 오염물질2

S02Pot 오염물질3

3-1. 회귀모형 설정 (순서1) 예제 데이터 smsa.xls

사망률

(기후)

1월기온(-)7월기온(+)상대습도(+)강우량(+)

(사회경제)

교육수준(-)인구밀도(+)비백인비율(+)WC 비율(+)가족수 (+?)소득(-)

(환경)

HCPot(+)NOcPot(+)SO2Pot(+)

선형모형

(34)

Chapter 4. Multiple Regression

정규성 검정

모든 변수에 대한 정규성 검정

종속변수는 반드시 정규성 검정

Box-Cox 변환

산점도 행렬

종속변수와 설명변수 산점도

직선의 관계가 아닌 경우 변환

설명변수가 많으므로 설명변수를 변환 적절

설명변수(간) 산점도

다중공선성 사전 진단

유의성 검정 상관분석 유의한 설명변수 예상 (10% 수준) – JulyTempRain Education PopDensity NonWhite WC pop_house income S02Pot

다중공선성 문제 야기 변수 군 – 다중공선성 진단 후 will be back

3-2. 산점도행렬 및 상관분석 (순서2)

∗ ∗ ln

선형모형

(35)

Chapter 4. Multiple Regression

SAS output

선형모형

(36)

Chapter 4. Multiple Regression

OLS 추정치

적합값 fitted value

- hat matrix ′

잔차 residual

잔차 분산 : V 전차 분산 추정치 :

MVUE 샘플링 분포

,

~ to test : ( 설명

변수 는 종속변수를 설명하지 못한다.

s 는 의 (k+1)번째 대각원소

분산분석

SST = ∑ (df=n-1)

SSE = ∑ (df=n-p-1)

SSR = ∑ (df=p)

- 오차분산 MVUE

3-3. 회귀모형 추정 (순서3)

선형모형

(37)

Chapter 4. Multiple Regression

SAS output

선형모형

(38)

Chapter 4. Multiple Regression

총변동 SST 분해

, ,…, , ,…,

추가 자승합

, 설명변수 이 종속변수 변동을 설명한 후가 추가적으로 설명하는 변동

, (*) – 가설검정 시 SSE 사용하여 검정함.

모형변동 분해 Type I SS (sequential SS) 순차 자승합

Type II SS (partial SS) 부분 자승합

Full 모형 vs. Reduced Model

완전모형 : 모든 설명변수 삽입 모형

⋯ , ,…,

축소모형 : 귀무가설( : 0) 하의 회귀모형

⋯ , ,…,

: (1월기온과 7월기온 회귀계수 동일)

: 1 (1월기온 회귀계수는 1이다)

: 0 (1월, 7월기온 모두 유의 않음)

검정통계량

~ 줄어든모수개수, 1

분산분석 – 변동 분해

선형모형

(39)

Chapter 4. Multiple Regression

In SAS

선형모형

(40)

Chapter 4. Multiple Regression

필요성

Occam razor – parsimony – 불필요한 가정을 말자. 같은 현상을 설명하는 동일한 주장이 있다면 간단한 것을 택하라. – 동일한 수준의 정보(결정계수 크기)를 최소의자원(데이터, 변수)을 활용하여 획득

F-통계량 방법 설명변수의 추가/제거로 인하여 분산분석의 F-통계량의 유의성 변화가 없다면 그 설명변수는종속변수를 설명하는 유의한 변수가 아니다.

Backward 후진제거

(1) 모든 설명변수를 고려한 완전모형

(2) 설명변수를 차례로 하나씩 제거하며 F-통계량 (유의확률) 축소 변화 크기를 보고 유의확률이 가장 큰 변수, RelHum-0.9023, 제거

(3) 남은 설명변수가 모두 유의할 때까지 제거를반복한다.

Forward 전진삽입

가장 유의한 설명변수(유의학률 가장 작은 것)부터 차례로 입력, 더 이상 유의한 설명변수 없을 때까지 계속한다.

Stepwise 단계삽입

전진삽입과 동일하지만 이미 삽입된 설명변수로 새로 진입한 설명변수들에 의해 유의성을다시 검정하여 삽입여부 결정

기타 보조 통계량

결정계수 determination Coeff.

모형의 종속변수 변동 설명 정도

유의하지 않은 설명변수가 삽입되어도 증가

수정결정계수 1 //

설명변수의 평균 설명 능력, 결정계수 증가 문제 해결, 여전히 검정통계량 dksla.

3-4. 변수선택 (순서4)

선형모형

(41)

Chapter 4. Multiple Regression

부분 결정계수 · |,

X1 설명변수가 설명하고 남은 종속변수 변동(오차변동)에 대한 X2 설명 비율

( → ) 잔차와 ( → ) 잔차의 상관계수 제곱과 동일

Mallow +2(p+1)

값이 (p+1)에 가까울수록 가장 적합한 모형

PRESS ∑ 는 i-번째 관측치를 제외하고 적합한 회귀모

형에 의한 i-번째 종속변수 예측값

작을수록 좋은 모형

3-4. 변수선택 (순서4) – cont.

작을수록 적합 모형

SBC (Schwarz Bayesian information criterion) 2 · ln

AIC (Akaike information criterion) 2 1 2ln

선형모형

(42)

Chapter 4. Multiple Regression

In SAS

선형모형

(43)

Chapter 4. Multiple Regression

Multicollinearity 문제

설명변수 간 상관관계가 높음

데이터 행렬 의 구성 변수들 간 높은 상관

이로 인하여 | | 0 (행렬식이 0에 가까움)

매우 불안정 => ′ ???

그리고 추정분산 커짐

회귀계수의 크기가 상대적으로 많이 변하고 회귀계수의 부호까지 바뀌는 문제까지 발생

예제 데이터 mri_iq.xls

FSIQ <- (PIQ)

FSIQ <- (PIQ, VIQ)

FSIQ <- (PIQ, MRI)

진단방법

설명변수 간 상관계수 – 사전 진단

두 변수 간 다중공선성 문제만 진단 가능

VIF 분산 팽창지수

종속변수 <-나머지 설명변수들을 설명변수로 하여 회귀분석 하여 얻은 결정계수

VIF가 크다는 것은 다른 설명변수들의 선형 결합으로 가 표현되므로 다중공선성 문제 발생

일반적으로 10 이상인 경우 문제 발생으로 진단

상태지수 condition index

⋯ – 설명변수들의 공분산 행렬로부터 구한 고유치

고유치는 (원)설명변수 변동의 설명 크기

상태지수 10 이상인 행에서 해당 고유치가 각설명하는 부분이 큰 변수들이 문제 진단

3-5. 다중공선성 (순서5)

선형모형

(44)

Chapter 4. Multiple Regression

문제 해결

문제 변수 제거

문제 변수 군에서 종속변수와 상관계수가 가장낮은 설명변수

분석자의 주관적 판단에 의해 결정 가능

가장 널리 사용되고 있음

주성분 분석 활용

주성분변수는 설명변수들( , ,…, )의 공분산행렬의 고유치에 대응하는 고유벡터(선형계수)로 만들어짐. ⋯

주성분변수는 원 변수들의 선형 결합으로 만들어지지만 서로 상관계수는 0이다.

주성분변수는 설명변수의 결합이므로 변수의정의가 쉽지 않아 이론적 방법

능형회귀 Ridge Regression

불편성을 희생하고 최소

화 하는 추정량 ′ 사용 (c는

0과 1사이의 상수)

상수 c는 다소 주관적으로 구해짐

이론적 방법론으로 사용

3-5. 다중공선성 (순서5) – cont.

=제1 주성분 설명주성분=( , ) 선형결합

선형모형

(45)

Chapter 4. Multiple Regression

단계삽입 선택변수

NonWhite Education JanTemp S02Pot RainJulyTemp

VIF – 문제 없음

Cond. 지수 – (교육수준, 7월 기온) 문제? maybe, then (7월 기온) 제외

주성분 분석 사용

능형회귀

In SAS

선형모형

(46)

Chapter 4. Multiple Regression

In SAS (2)

선형모형

(47)

Chapter 4. Multiple Regression

활용 잔차

표준화 잔차

스튜던트 잔차

정규성

잔차 정규성 검정

이미 회귀분석 시작 분포 정규성 검정 실시하였으므로 여기서는 문제 없을 것임

선형성, 등분산성, 이차항

스튜던트 잔차 – 적합값

종속변수 변환 필요 시 이미 문제는 회귀분석시작에서 어느 정도 해결 했음

스튜던트 잔차 – 설명변수

문제 해결을 설명변수 변환으로

회귀진단 - 이상치 & 영향치

표준화 잔차 -

스튜던트 잔차 -/

Leverage - ′

3-6. 잔차분석 및 모형진단 (순서6)

yHIersidual

XyFitted

yXXXOLS

IMNeXy

)(ˆ Re

ˆˆ

')'(ˆ

),0(~1

2

선형모형

(48)

Chapter 4. Multiple Regression

In SAS

SO2Pot 이분산 문제

선형모형

(49)

Chapter 4. Multiple Regression

적합 회귀모형 표 제시

자유도와 t-통계량은 필요 없음

F-통계량과 결정계수 제시

해석

회귀계수 부호 위주

표준화 회귀계수 절대값 크기 – 종속변수변동에 대한 상대적 설명 능력

이상치/영향치 논의

적합 회귀모형 활용 제한 점 시사

(2, 28, 37) 이상 주에 대한 설명

예측구간, 신뢰구간

새로운 개체 – 설명변수 값만 넣고 최종모형 재실행 하면 종속변수 적합값 추정

3-7. 회귀분석 활용 (순서7)

변수 회귀계수(b) 추정분산 유의확률 (B)

F-통계량=36.3 (<0.0001) 결정계수=78.1%

U95 / L95