20
1 자료분석방법II: 수치를 이용한 기술적 통계분석

수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

1

자료분석방법II: 수치를 이용한 기술적 통계분석

Page 2: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

16

변동계수(Coefficient of Variation:cv)

• 변동계수(cv)는 표준편차를 평균으로 나눈 값이다

- 모집단의 변동계수 =

- 표본의 변동계수 =

Page 3: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

17

변동계수 (Coefficient of Variation)

-변동계수는 변동성의 비율적 측정값을 나타낸다

평균값이 100인 경우 표준편차가 10이면 변동성이 크게 나타날 수 있으나 평균값이 1000이면 표준편차10 은 변동성이 크게 나타나지 않는다

이와 같이 자료의 변수값들이 측정단위가 서로 다를 경우 표준편차로 변동성의 비교가 어려운 경우에 사용된다

Page 4: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

18

선형적 관련성의 측정(Measures of Linear Relationship)

-서로다른 두가지 자료들 또는 변수들간의 선형적 관련성에 대한 수치적 측정방법

공분산(covariance) 과 상관계수(coefficient of correlation)

Page 5: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

19

공분산(Covariance)의 산출식 모평균 of X, Y

표본평균 of X, Y

주의:분모값이 n-1

Page 6: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

20

공분산의 산출식(표본자료)

- 표본평균의 산출이 필요없는 방법:

Page 7: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

21

공분산의 해석

• 아래의 3가지 다른 표본자료를 통해 공분산값들의 의미를 파악해본다

• 각 표본자료의 경우, X값들은 크기와 순서가 모두 같으나 Y값들은 크기는 같으나 순서가 서로 다르다

Page 8: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

22

-Data set #1: X값이 증가함에 따라 Y값도 함께 증가한다; 공분산(Sxy)이크고 양의 값을 가진다 두 변수(X,Y)간에 서로 강한 양의 선형관계(strong positive linear relation) -Data set #2, X 값이 증가함에 따라 Y값이 감소한다; 공분산(Sxy) 값이 크고 음의 값을 가진다 두 변수(X,Y)간에 서로 강한 음의 선형관계(strong negative linear relation)

-Data set #3, X 값이 증가함에 따라 Y 값은 임의적으로 변화한다; 공분산(Sxy) 값이 적다 두 변수(X,Y)간에 선형관계(positive linear relation) 가 미약하다

Page 9: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

23

공분산에 대한 일반적 해석

• 두 변수값들이 서로 같은 방향으로 움직일 경우(같이 증가 또는 감

소), 공분산값은 크고 양의 값을 가진다

양의 선형관계(positive linear relation): 공분산값이 클수록 선형관계가 강하다

•두 변수값들이 서로 반대 방향으로 움직일 경우, 공분산값은 크고 음의 값을 가진다

음의 선형관계(negative linear relation): 공분산값이 작을 수록 선형관계가 강하다

• 두변수값들의 움직임에 특정형태가 없는 경우, 매우 적은 공분산값을 가진다

• 그러나 실제로 공분산값의 크기를 결정하기 어려운 경우가 발생한다

이러한 경우 상관계수(coefficient of correlation)가 보다 유용하다.

Page 10: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

24

상관계수 (Coefficient of Correlation)

• 상관계수값은 공분산을 표준편차로 나눈 값이다:

Greek letter “rho”

• 상관계수는 서로 다른 두 변수들간에 선형관계가 얼마나 강한지를 나타낸다

Page 11: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

25

상관계수 (Coefficient of Correlation)

• 상관계수의 장점은 계수의 값이 -1과 1사이의 범위내에서 고정되어 있다는 것이다: - 만일 두 변수가 서로 강한 양의 선형관계(strongly positive linear relation)에 있다면, 상관계수의 값이 +1에 가까워 진다. - 만일 If 두 변수가 서로 강한 음의 선형관계(strongly negative linear relation)에 있다면, 상관계수의 값이 -1에 가까워 진다. - 두 변수가 서로 직접적인 선형관계가 없다면(no linear relation)에 있다면, 상관계수의 값이 0 에 가까워 진다.

Page 12: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

26

상관계수 (Coefficient of Correlation)

r or r =

+1

0

-1

Strong positive linear relationship

No linear relationship

Strong negative linear relationship

Page 13: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

27

상관계수 (Coefficient of Correlation)

• 상관계수 = 0 ⇒ 두 변수 사이에 선형관계가 없다는 것이지 아무런 관계가 없다는 것은 아니다

⇒ 2차방정식 관계가 있으나 상관계수는 0에 가까움

Page 14: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

28

예시: 상관계수 앞의 서로다른 형태의 3자료를 이용하여 , 두변수사이의 상관계수를 구하면,

Page 15: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

29

예시: 상관계수

0.5

3

762x

0.20

3

272013y

0.7

2

419

13

)57()56()52(s

2222x

0.49

2

490149

13

)2027()2020()2013(s

2222y

Page 16: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

30

예시: 상관계수

두 변수 X,Y의 표준편차는,

65.20.7sx 00.70.49s y

따라서, 각 자료의 상관계수값은

Set 1:

Set 2:

Set 3:

943.)0.7)(65.2(

5.17

ss

sr

yx

xy

943.)0.7)(65.2(

5.17

ss

sr

yx

xy

189.)0.7)(65.2(

5.3

ss

sr

yx

xy

Page 17: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

31

상관관계(Correlation)와 인과관계(Causation)

• 두 변수사이에 상관관계가 있다는 것이 두 변수 사이에 항상 인과관계가 있음을 의미하지 않는다: 상관관계와 인과관계는 서로 다르다

만일 두 변수(X,Y)가 서로 선형적 상관관계가 있다면, X 와Y 가 서로 인과관계가 있음 나타내는 것은 아니다

: Y의 변화(증가/감소)가 X의 변화(증가/감소)에 의해 발생되는 것은 아니다

Page 18: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

32

모수(Parameters)와 통계량(Statistics)

• 모수(Parameters): 모집단 자료의 특성을 나타내는 기술적 수치들 • 통계량(Statistics): 표본자료의 특성을 나타내는 기술적 수치들

Page 19: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

33

모수와 통계량의 비교 모수 통계량

자료크기(Size) N n

평균(Mean)

분산(Variance) S2

표준편차(Standard Deviation)

S

변동계수(Coefficient of Variation)

CV cv

공분산(Covariance) Sxy

상관계수(Coefficient of Correlation)

r

Page 20: 수치를 이용한 기술적 통계분석 - contents.kocw.netcontents.kocw.net/KOCW/document/2014/Hallym/hanyoungwook/5.pdf · 수치를 이용한 기술적 통계분석 . 16 변동계수(Coefficient

34

연습문제

• 아래 표본자료 (X)에 대해 분석하시오 X = {72, 12, 47, 41, 38} 1) X의 평균값과 중앙값은? 2) X의 분산값과 표준편차값은? 3) 다른 표본자료, Y= {6,4,2,1,0}과의 공분산 값과 상관계수

값은? 4) 공분산과 상관계수 값을 토대로 한 X와Y의 선형관계는?