Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
1
자료분석방법II: 수치를 이용한 기술적 통계분석
16
변동계수(Coefficient of Variation:cv)
• 변동계수(cv)는 표준편차를 평균으로 나눈 값이다
- 모집단의 변동계수 =
- 표본의 변동계수 =
17
변동계수 (Coefficient of Variation)
-변동계수는 변동성의 비율적 측정값을 나타낸다
평균값이 100인 경우 표준편차가 10이면 변동성이 크게 나타날 수 있으나 평균값이 1000이면 표준편차10 은 변동성이 크게 나타나지 않는다
이와 같이 자료의 변수값들이 측정단위가 서로 다를 경우 표준편차로 변동성의 비교가 어려운 경우에 사용된다
18
선형적 관련성의 측정(Measures of Linear Relationship)
-서로다른 두가지 자료들 또는 변수들간의 선형적 관련성에 대한 수치적 측정방법
공분산(covariance) 과 상관계수(coefficient of correlation)
19
공분산(Covariance)의 산출식 모평균 of X, Y
표본평균 of X, Y
주의:분모값이 n-1
20
공분산의 산출식(표본자료)
- 표본평균의 산출이 필요없는 방법:
21
공분산의 해석
• 아래의 3가지 다른 표본자료를 통해 공분산값들의 의미를 파악해본다
• 각 표본자료의 경우, X값들은 크기와 순서가 모두 같으나 Y값들은 크기는 같으나 순서가 서로 다르다
22
-Data set #1: X값이 증가함에 따라 Y값도 함께 증가한다; 공분산(Sxy)이크고 양의 값을 가진다 두 변수(X,Y)간에 서로 강한 양의 선형관계(strong positive linear relation) -Data set #2, X 값이 증가함에 따라 Y값이 감소한다; 공분산(Sxy) 값이 크고 음의 값을 가진다 두 변수(X,Y)간에 서로 강한 음의 선형관계(strong negative linear relation)
-Data set #3, X 값이 증가함에 따라 Y 값은 임의적으로 변화한다; 공분산(Sxy) 값이 적다 두 변수(X,Y)간에 선형관계(positive linear relation) 가 미약하다
23
공분산에 대한 일반적 해석
• 두 변수값들이 서로 같은 방향으로 움직일 경우(같이 증가 또는 감
소), 공분산값은 크고 양의 값을 가진다
양의 선형관계(positive linear relation): 공분산값이 클수록 선형관계가 강하다
•두 변수값들이 서로 반대 방향으로 움직일 경우, 공분산값은 크고 음의 값을 가진다
음의 선형관계(negative linear relation): 공분산값이 작을 수록 선형관계가 강하다
• 두변수값들의 움직임에 특정형태가 없는 경우, 매우 적은 공분산값을 가진다
• 그러나 실제로 공분산값의 크기를 결정하기 어려운 경우가 발생한다
이러한 경우 상관계수(coefficient of correlation)가 보다 유용하다.
24
상관계수 (Coefficient of Correlation)
• 상관계수값은 공분산을 표준편차로 나눈 값이다:
Greek letter “rho”
• 상관계수는 서로 다른 두 변수들간에 선형관계가 얼마나 강한지를 나타낸다
25
상관계수 (Coefficient of Correlation)
• 상관계수의 장점은 계수의 값이 -1과 1사이의 범위내에서 고정되어 있다는 것이다: - 만일 두 변수가 서로 강한 양의 선형관계(strongly positive linear relation)에 있다면, 상관계수의 값이 +1에 가까워 진다. - 만일 If 두 변수가 서로 강한 음의 선형관계(strongly negative linear relation)에 있다면, 상관계수의 값이 -1에 가까워 진다. - 두 변수가 서로 직접적인 선형관계가 없다면(no linear relation)에 있다면, 상관계수의 값이 0 에 가까워 진다.
26
상관계수 (Coefficient of Correlation)
r or r =
+1
0
-1
Strong positive linear relationship
No linear relationship
Strong negative linear relationship
27
상관계수 (Coefficient of Correlation)
• 상관계수 = 0 ⇒ 두 변수 사이에 선형관계가 없다는 것이지 아무런 관계가 없다는 것은 아니다
⇒ 2차방정식 관계가 있으나 상관계수는 0에 가까움
28
예시: 상관계수 앞의 서로다른 형태의 3자료를 이용하여 , 두변수사이의 상관계수를 구하면,
29
예시: 상관계수
0.5
3
762x
0.20
3
272013y
0.7
2
419
13
)57()56()52(s
2222x
0.49
2
490149
13
)2027()2020()2013(s
2222y
30
예시: 상관계수
두 변수 X,Y의 표준편차는,
65.20.7sx 00.70.49s y
따라서, 각 자료의 상관계수값은
Set 1:
Set 2:
Set 3:
943.)0.7)(65.2(
5.17
ss
sr
yx
xy
943.)0.7)(65.2(
5.17
ss
sr
yx
xy
189.)0.7)(65.2(
5.3
ss
sr
yx
xy
31
상관관계(Correlation)와 인과관계(Causation)
• 두 변수사이에 상관관계가 있다는 것이 두 변수 사이에 항상 인과관계가 있음을 의미하지 않는다: 상관관계와 인과관계는 서로 다르다
만일 두 변수(X,Y)가 서로 선형적 상관관계가 있다면, X 와Y 가 서로 인과관계가 있음 나타내는 것은 아니다
: Y의 변화(증가/감소)가 X의 변화(증가/감소)에 의해 발생되는 것은 아니다
32
모수(Parameters)와 통계량(Statistics)
• 모수(Parameters): 모집단 자료의 특성을 나타내는 기술적 수치들 • 통계량(Statistics): 표본자료의 특성을 나타내는 기술적 수치들
33
모수와 통계량의 비교 모수 통계량
자료크기(Size) N n
평균(Mean)
분산(Variance) S2
표준편차(Standard Deviation)
S
변동계수(Coefficient of Variation)
CV cv
공분산(Covariance) Sxy
상관계수(Coefficient of Correlation)
r
34
연습문제
• 아래 표본자료 (X)에 대해 분석하시오 X = {72, 12, 47, 41, 38} 1) X의 평균값과 중앙값은? 2) X의 분산값과 표준편차값은? 3) 다른 표본자료, Y= {6,4,2,1,0}과의 공분산 값과 상관계수
값은? 4) 공분산과 상관계수 값을 토대로 한 X와Y의 선형관계는?