23
제13장 상관분석과 회귀분석 Jinseog Kim Dongguk University [email protected] 2017-11-08 Jinseog Kim Dongguk University [email protected] 제13장 상관분석과 회귀분석

제13장 상관분석과 회귀분석datamining.dongguk.ac.kr/.../basic-stat/chap_13.회귀분석_1.pdf · 제13장상관분석과회귀분석 JinseogKim DonggukUniversity [email protected]

  • Upload
    haminh

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

제13장 상관분석과 회귀분석

Jinseog KimDongguk University

[email protected]

2017-11-08

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

두 개 이상의 변수간의 관계에 대한 분석

1 두 개 이상 범주형 변수 간의 관계 분석 (12 장)

동질성(동일성) 검정 (Test of homogeneity)

변수1: 그룹을 구분하는 범주형 변수변수2: 수준(범주 값)별 분포가 동일한지를 비교 하기 위한 변수

독립성 검정 (Test of independence): 두개 이상의 범주형 변수들이 서로 독립인지를 검정

2 두 개 이상 연속형 변수 간의 관계 분석

상관분석 (corelation analysis) : 두 변수 간의 직선(선형) 관계의 강도를 측정회귀분석(regression analysis) : 하나의 변수와 나머지 변수들의 선형(직선)관계를 함수로 나타내는방법

Y = α + β1X1 + ... + βpXp + ϵ.

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

미국의 주별 사회 데이터

일인당소득 문맹율 범죄율

Alabama 3624 2.1 15.1Alaska 6315 1.5 11.3Arizona 4530 1.8 7.8Arkansas 3378 1.9 10.1California 5114 1.1 10.3Colorado 4884 0.7 6.8Connecticut 5348 1.1 3.1Delaware 4809 0.9 6.2Florida 4815 1.3 10.7Georgia 4091 2.0 13.9Hawaii 4963 1.9 6.2Idaho 4119 0.6 5.3Illinois 5107 0.9 10.3Indiana 4458 0.7 7.1Iowa 4628 0.5 2.3Kansas 4669 0.6 4.5Kentucky 3712 1.6 10.6Louisiana 3545 2.8 13.2Maine 3694 0.7 2.7Maryland 5299 0.9 8.5

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

일인당소득과 범죄율의 일변량 분석

3500

4000

4500

5000

5500

6000

일인당소득

0.5

1.0

1.5

2.0

2.5

문맹율

24

68

1012

14

범죄율

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

산점도 - 일인당소득과 범죄율

3500 4000 4500 5000 5500 6000

24

68

1012

14

일인당소득과범죄율의관계

일인당소득

범죄율

Alaba

Alask

Arizo

Arkan Calif

Color

Conne

Delaw

Flori

Georg

Hawai

Idaho

Illin

India

Iowa

Kansa

Kentu

Louis

Maine

Maryl

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

산점도 - 일인당소득, 문맹율 그리고 범죄율

일인당소득과범죄율의관계

3000 3500 4000 4500 5000 5500 6000 6500

2 4

6 8

1012

1416

0.5

1.0

1.5

2.0

2.5

3.0

일인당소득

문맹율

범죄율

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

상관분석 (corelation analysis)

1 공분산 : 두 연속형 변수간의 산포의 정도를 측정

모집단

Cov(X,Y) = E[(X − E[X])(Y − E[Y])

]= E[XY] − E[X]E[Y].

표본

cov(X,Y) =

∑ni=1

(xi − x)(yi − y)n − 1

.

일인당소득 문맹율 범죄율

일인당소득 550626.41 -173.97 -541.10문맹율 -173.97 0.41 1.72범죄율 -541.10 1.72 13.87

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

상관분석 (corelation analysis)

아래 데이터에서 두 변수의 공분산을 비교하면?

5 6 7 8 9 10

56

78

910

x

y1

5 6 7 8 9 10

46

810

x

y2

5 6 7 8 9 10

-10

-9-8

-7-6

-5

x

-y1

5 6 7 8 9 10

-10

-8-6

-4

x

-y2

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

상관분석 (corelation analysis)

공분산의 성질 1

5 6 7 8 9 10

56

78

910

cov(x,y)= 2.41

x

y1

5 6 7 8 9 10

46

810

cov(x,y)= 2.31

x

y2

5 6 7 8 9 10

-10

-9-8

-7-6

-5

cov(x,y)= -2.41

x

-y1

5 6 7 8 9 10

-10

-8-6

-4

cov(x,y)= -2.31

x

-y2

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

상관분석 (corelation analysis)

아래의 그림에서는???

5 6 7 8 9 10

510

1520

x

y1

5 6 7 8 9 10

510

1520

x

2 *

y1

5 6 7 8 9 10

510

1520

x

y2

5 6 7 8 9 10

510

1520

x

2 *

y2

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

상관분석 (corelation analysis)

공분산의 성질 2

5 6 7 8 9 10

510

1520

cov(x,y)= 2.4118

x

y1

5 6 7 8 9 10

510

1520

cov(x,y)= 4.8237

x

2 *

y1

5 6 7 8 9 10

510

1520

cov(x,y)= 2.3109

x

y2

5 6 7 8 9 10

510

1520

cov(x,y)= 4.6219

x

2 *

y2

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

상관분석 (conti)

공분산의 성질 정리

1 산점도의 기울기가 1에 가까울 때 가장 큼2 공분산의 부호는 기울기의 부호와 관계 있음3 두 변수의 단위가 동일한 경우, 흩어짐의 정도가 크면 작아짐4 각 변수의 값이 클수록 커짐

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

상관분석 (corelation analysis)

표준화 자료의 공분산

-1.5 -0.5 0.0 0.5 1.0 1.5

-1.5

-0.5

0.5

1.5

cov(x,y)= 0.9979

x

y1

-1.5 -0.5 0.0 0.5 1.0 1.5

-1.5

-0.5

0.5

1.5

cov(x,y)= 0.8187

x

y2

-1.5 -0.5 0.0 0.5 1.0 1.5

-1.5

-0.5

0.5

1.5

cov(x,y)= -0.9979

x

-y1

-1.5 -0.5 0.0 0.5 1.0 1.5

-1.5

-0.5

0.5

1.5

cov(x,y)= -0.8187

x

-y2

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

상관분석 (conti)

2 상관계수 (correlation coefficient) : 연속형 변수간의 [선형적 관계]의 정도

모집단

ρX,Y =cov(X,Y)

σXσY

표본

r =

∑ni=1

(xi − x)(yi − y)√∑ni=1

(xi − x)2√∑n

i=1(yi − y)2

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

상관분석 (conti)

-2 -1 0 1 2 3

-2-1

01

cor(x,y)= 0.0961

x

y

-2 -1 0 1 2 3

-10

12

3

cor(x,y)= 0.9466

x

y

-2 -1 0 1 2 3

-3-2

-10

1

cor(x,y)= -0.9466

x

y

-1.0 -0.5 0.0 0.5 1.0

-1.0

-0.5

0.0

0.5

1.0

cor(x,y)= 0

x

y

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

두변수의 산점도 모양과 상관계수 1

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

두변수의 산점도 모양과 상관계수 2

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

상관분석 (conti)

상관계수의 성질

−1 ≤ ρ ≤ 1절대값이 1에 가까울수록 강한 직선관계부호에 따라 양(음)의 상관관계

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

상관분석 (conti)

상관계수의 가설검정 : 표본상관계수가 0이 아닌 값으로 추정되었을 때, 통계적으로 의미있는값일까?

H0 : ρ = 0, vs H1 : ρ = 0

- 검정통계량

T = r

√n − 2

1 − r2∼ t(n − 2) under H0 is true.

유의수준 α에서의 검정 : 다음을 만족하면 귀무가설 기각, 추정된 표본상관계수가 의미를갖는다.

P(T ≥ |t|) < α, or |t| > tα/2(n − 2).

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

산점도 - 일인당소득과 범죄율 (revisited)

3500 4000 4500 5000 5500 6000

24

68

1012

14

일인당소득과범죄율의관계

일인당소득

범죄율

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

일인당소득과 범죄율간의 상관분석 (conti)

일인당소득과 범죄율의 관계

자료수 = 20표본상관계수: r = −0.1958검정통계량: t = −0.84709자유도: 20 − 2 = 18P값 = 0.4081

그러면 일인당소득과 범죄율의 관계는???

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

문맹율과 범죄율

0.5 1.0 1.5 2.0 2.5

24

68

1012

14

문맹율과범죄율관계

문맹율

범죄율

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석

문맹율과 범죄율간의 상관분석 (conti)

일인당소득과 범죄율의 관계

자료수 = 20표본상관계수: r = 0.7246검정통계량: t = 4.461자유도: 20 − 2 = 18P값 = 0.0003019

그러면 문맹율과 범죄율의 관계는???

Jinseog Kim Dongguk University [email protected]

제13장 상관분석과 회귀분석