32
제3장 상관분석 제3장 상관분석

제3장 상관분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/3.… · 공분산(covariance) §연관성의방향 • 두변수간의연관성은방향을갖게됨

  • Upload
    doandat

  • View
    235

  • Download
    0

Embed Size (px)

Citation preview

3장

상 분

3장

상 분

론(introduction)§ 자연 사회 상의 규명에 있어 변 들 간의 상

을 갖게 는 경우가 흔히 있음.

§ 를 들어 가계소득과 축, 흡연량과 폐암 병률 등이 있음.

§ 상 분 (correlation analysis) 이 같이 두 변 간의계가 존재하는지 는 존재하지 않는지를 분 함. 즉, 상 분

변 들 간의 의 강도에 한 통계 분 이라 할있음.

§ 라 변 들 간의 구체 인 함 계를 악하는 것이 아님.

§ 그러나 한 변 의 값 로부 다른 변 의 값을 하고자 하는 경우( 를 들어 가계소득 로부 축을 하는 경우), 즉 변 들 간의 구체 인 함 계를 악하고자 하는 경우에는 회귀분 (regression analysis)이라는 통계 분 이 사용 .

3장 상 분

공분산(covariance)§ 연 의 척도

• 만약 두 변 가 독립이 아니라면 변 들 간에 어떤 연(association)이 존재할 것이고, 그 연 도는 높을 도있고 는 낮을 도 있음.

• 변 들 간에 연 도는 여러 가지 법에 의하여할 있음.

• 그 하나인 공분산(covariance)을 명할 때 두 변 는 크가 는 량변 (metric variable), 즉 질 변

(qualitative variable)가 아닌 양 변 (quantitative variable)이어야 함.

3장 상 분

공분산(covariance)§ 연 의 향

• 두 변 간의 연 향을 갖게 . 즉, 한 변 의 값이커질 때(작아질 때) 다른 변 의 값도 커지면(작아지면) 두변 는 (+)의 연 이 있고, 로 한 변 의 값이 커질때(작아질 때) 다른 변 의 값이 작아지면(커지면) 두 변는 부(-)의 연 이 있다고 함.

• 를 들어 사람들의 키 몸 게간에는 (+)의 연 이있고, 흡연량과 명간에는 부(-)의 연 이 있을 것임.

§ 공분산의 의

• 두 변 간의 연 을 나타내는 공분산(covariance)다음과 같이 의 .

Cov(X, Y)=σXY=E(X-μX)(Y-μY), 단, μX=E(X), μY=E(Y)

• 상 계 (correlation coefficient)는 공분산 로부 도 .

3장 상 분

공분산(covariance)§ 공분산의 의미

• 공분산 두 변 X, Y가 로 어떤 (pattern)을 보여주는가를 나타냄.

• Cov(X, Y)>0이면 X가 증가(감소)할 때 Y도 증가(감소)

• Cov(X, Y)<0이면 X가 증가(감소)할 때 Y는 감소(증가)

• Cov(X, Y)=0이면 두 변 는 아 런 상 이 없음.

3장 상 분

공분산(covariance)§ 공분산의 의미

• 공분산이 (+)의 값을 가지는 경우 많 값치들 1사분면과 3사분면에 분포함.

3장 상 분

X

Y

공분산(covariance)§ 공분산의 의미

• 공분산이 부(-)의 값을 가지는 경우 많 값들 2사분면과 4사분면에 분포함.

3장 상 분

X

Y

공분산(covariance)§ 공분산의 의미

• 공분산이 0의 값, 즉 값들이 4개 면에 균일하게 분포어 있 면 어떤 계도 존재하지 않고 로 독립임.

3장 상 분

X

Y

공분산(covariance)§ 공분산의 계산

• Excel에 공분산(COVARiance)을 구하는 법 두 가지임.

• 함 마법사에 ‘통계-COVAR’ 함 를 이용하는 법

• Excel 메뉴의 데이 -데이 분 의 분 도구에 ‘공분산 분 ’을 이용하는 법

• 그러나 ‘통계-COVAR’ 함 는 두 변 간에 공분산을 계산할 때만 이용할 있고, ‘공분산 분 ’에 는 변 가2개 이상일 때도 사용할 있 므로 여러 변 들 간의공분산 값을 포함하는 공분산 행 을 얻을 있음.

3장 상 분

공분산(covariance)§ 함 마법사를 클릭하고 ‘통계-COVAR’ 함 를 택함.

3장 상 분

공분산(covariance)§ Array1과 Array2에 각각 X Y의 데이 역을 지 하고 확인버튼을 름.

3장 상 분

공분산(covariance)§ 공분산의 계산

• Excel의 메뉴에 데이 -데이 분 을 클릭한 후 ‘공분산분 ’을 택하고 확인 버튼을 름.

3장 상 분

공분산(covariance)§ 입 범 (I)에 X Y의 모든 변 를 지 , 데이 향에 열

(C) 택, 그리고 첫째 행 이름표 사용(L)을 클릭함.

3장 상 분

공분산(covariance)§ Excel의 출 결과는 다음과 같이 2´2행 로 나타남.

• 의 출 결과는 다음을 의미함.

Var(X) Cov(X, Y) 4 4

Cov(X, Y) Var(Y) 4 4.061224

3장 상 분

=

공분산(covariance)§ 공분산의

• 공분산이 크다고 드시 두 변 간 연 이 높지 않음.

• 공분산 변 의 단 범 에 향을 음.

3장 상 분

상 분 (correlation analysis)§ 상 계 (correlation coefficient)

• 공분산의 경우 두 변 간 계의 향 알 있지만, 계의 도는 알 없음. 왜냐하면 공분산 두 변 의 단

에 라 그 값이 달라지 때 임.

• 이러한 를 해결하 해 단 에 계없이 계의도를 비교할 있도록 표 화한 것이 상 계 임.

• 공분산을 두 변 X Y의 각 표 편차로 나 면 다음과 같모상 계 를 구할 있음.

ρ=Corr(X, Y)= =

• 이때 상 계가 0<ρ£1이면 (+)의 상 계, -1£ρ<0이면부(-)의 상 계, ρ=0이면 상 계가 없다는 의미가 아니라 의 상 계가 아니라는 의미임.

3장 상 분

ÖVar(X) Var(Y)

Cov(X, Y)

σXσY

σXY

상 분 (correlation analysis)§ 상 계 (correlation coefficient)

• 상 계 의 경우에도 모집단(population)과 표본(sample)로 엄격히 구분 . 모상 계 는 상 인 면, 표본상

계 는 변 임. 그러나 모집단에 어떤 표본이 추출 느냐에 라 표본의 상 계 는 달라짐.

• 표본상 계 는 표본공분산을 각각의 표본표 편차로 나어 표 화한 값을 나타내며 ‘r’로 표 함.

• 표본상 계 는 어슨(Karl Pearson)에 의하여 안 었때 에 ‘ 어슨의 표본상 계 ’라고도 함.

3장 상 분

2

n

1i

i

2

n

1i

i

n

1i

ii

)yy()xx(

)yy)(xx(

r

åå

å

==

=

--

--

=

상 분 (correlation analysis)§ 상 계 (correlation coefficient)

• 상 계 의 경우에도 단 히 두 개의 변 가 어느 도 강한 계에 있는가를 하는 단 상 분 (simple correlation analysis), 3개 이상의 변 들 간의 계에 한강도를 하는 다 상 분 (multiple correlation analysis)이 있음.

• 다 상 분 에 다른 변 들과의 계를 고 하고 두 변만의 계에 한 강도를 나타내는 것을 편상 계분

(partial correlation analysis)이라고 함.

3장 상 분

상 분 (correlation analysis)§ 표본상 계 는 두 변 의 (직 ) 계 도를 나타내는데다음과 같 특징이 있음.

• 표본상 계 (r)는 항상 -1과 1 사이에 있음(-1£r£1).

• 표본상 계 의 값의 크 는 (직 ) 계에 가까운도를 나타내고, 표본상 계 의 부 는 (직 ) 계

의 향을 나타냄.

• r>0 : 산 도에 들이 좌하 에 우상 로 띠를(우상향의 태)

• r<0 : 산 도에 들이 좌상 에 우하 로 띠를(우하향의 태)

• r=1 : 모든 들이 울 가 양 인 직 상에 치

• r=-1 : 모든 들이 울 가 음 인 직 상에 치

3장 상 분

상 분 (correlation analysis)§ 표본상 계 의 값이 클 록 산 도의 띠 폭 좁아지고, 표본상 계 의 값이 작을 록 산 도의 띠 폭 어짐.

3장 상 분

상 분 (correlation analysis)§ 표본상 계 의 크 에 른 해

표본상 계 의 값 해

0.2 이하 상 계 거의 없음

0.2 ~ 0.4 낮 상 계

0.4 ~ 0.6 보통 계

0.6 ~ 0.8 높 상 계

0.8 이상 매우 높 상 계

3장 상 분

상 분 (correlation analysis)§ 데이 체 역을 지 한 후 Excel의 메뉴에 삽입-차트-분산 을 클릭

3장 상 분

상 분 (correlation analysis)§ 상 계 의 계산

• Excel에 상 계 (correlation coefficient)를 구하는 법두 가지임.

• 함 마법사에 ‘통계-CORREL’ 함 를 이용하는 법

• Excel 메뉴의 데이 -데이 분 의 분 도구에 ‘상분 ’을 이용하는 법

3장 상 분

상 분 (correlation analysis)§ 두 변 의 상 계 는 Excel의 함 마법사에 ‘통계-CORREL’ 함 를 이용하여 구할 있음.

3장 상 분

상 분 (correlation analysis)§ 함 마법사를 클릭하고 ‘통계-CORREL’ 함 를 택함.

3장 상 분

상 분 (correlation analysis)§ Array1과 Array2에 데이 역을 택, 확인 버튼을 름.

3장 상 분

상 분 (correlation analysis)§ 상 계 의 계산

• Excel의 메뉴에 데이 -데이 분 을 클릭한 후 ‘상분 ’을 택하고 확인 버튼을 름.

3장 상 분

상 분 (correlation analysis)§ 상 계 의 계산

• 입 범 는 두 데이 의 체 역을 택함.

• 데이 향 자료들이 로로 어 있 면‘열’(column)을, 가로로 어 있 면 ‘행’(row)을 택

• 데이 의 목을 역에 포함시키 면 첫째 행 이름표 사용을 택, 그 지 않 면 택하지 않음.

• 재 작업 시트(sheet)에 출 하고자 할 경우 출 범 를택하여 출 하고자 하는 을 지 한 후 확인 버튼을

름.

3장 상 분

상 분 (correlation analysis)§ 상 계 의 계산

3장 상 분

상 분 (correlation analysis)§ 상 계 의 계산

3장 상 분

남매의 신장간에는 계가 0.558 도라는것을 의미함.

상 계 의 부 가 (+)이라는 것 남자의 키가크면 여자의 키도 크다는 것을 시사함.

상 분 (correlation analysis)§ 상 계 의 단

• 상 계 의 하나의 특징 어느 한 변 는 두 변 의모든 값에 0이 아닌 상 가 더해지거나 곱해지더라도 그 값이 변하지 않는다는 것임. 즉, 상 계 는 척도의 원과 단 의 변환 로 변경 지 않음.

• 이러한 결과는 상 계 의 사용에 해 요한 의미를 가짐. 즉, 값들이 단 가 티미 나 인치 는 분이나 로

어있든 변 들 간의 상 계 값 항상 일 함.

• 실 로 변 들 모두에 하여 값의 원 는 단 가변할 때에도 상 계 r 변하지 않는다는 사실 상 계

의 활용범 를 크게 해 .

3장 상 분

상 분 (correlation analysis)§ 상 계 의 한계

• 상 계 는 학 인 계일 뿐 속 의 계로 확 해 해는 안 .

• 상 계 는 계의 척도임. 상 계 가 낮더라도 비(곡 ) 계가 있을 있 므로 드시 산 도(scatter

diagram)로 확인해야 함.

• 상 계 는 자료분 의 단계일 뿐 결론단계에 사용는 통계량 아님.

3장 상 분