Upload
doandat
View
235
Download
0
Embed Size (px)
Citation preview
론(introduction)§ 자연 사회 상의 규명에 있어 변 들 간의 상
을 갖게 는 경우가 흔히 있음.
§ 를 들어 가계소득과 축, 흡연량과 폐암 병률 등이 있음.
§ 상 분 (correlation analysis) 이 같이 두 변 간의계가 존재하는지 는 존재하지 않는지를 분 함. 즉, 상 분
변 들 간의 의 강도에 한 통계 분 이라 할있음.
§ 라 변 들 간의 구체 인 함 계를 악하는 것이 아님.
§ 그러나 한 변 의 값 로부 다른 변 의 값을 하고자 하는 경우( 를 들어 가계소득 로부 축을 하는 경우), 즉 변 들 간의 구체 인 함 계를 악하고자 하는 경우에는 회귀분 (regression analysis)이라는 통계 분 이 사용 .
3장 상 분
공분산(covariance)§ 연 의 척도
• 만약 두 변 가 독립이 아니라면 변 들 간에 어떤 연(association)이 존재할 것이고, 그 연 도는 높을 도있고 는 낮을 도 있음.
• 변 들 간에 연 도는 여러 가지 법에 의하여할 있음.
• 그 하나인 공분산(covariance)을 명할 때 두 변 는 크가 는 량변 (metric variable), 즉 질 변
(qualitative variable)가 아닌 양 변 (quantitative variable)이어야 함.
3장 상 분
공분산(covariance)§ 연 의 향
• 두 변 간의 연 향을 갖게 . 즉, 한 변 의 값이커질 때(작아질 때) 다른 변 의 값도 커지면(작아지면) 두변 는 (+)의 연 이 있고, 로 한 변 의 값이 커질때(작아질 때) 다른 변 의 값이 작아지면(커지면) 두 변는 부(-)의 연 이 있다고 함.
• 를 들어 사람들의 키 몸 게간에는 (+)의 연 이있고, 흡연량과 명간에는 부(-)의 연 이 있을 것임.
§ 공분산의 의
• 두 변 간의 연 을 나타내는 공분산(covariance)다음과 같이 의 .
Cov(X, Y)=σXY=E(X-μX)(Y-μY), 단, μX=E(X), μY=E(Y)
• 상 계 (correlation coefficient)는 공분산 로부 도 .
3장 상 분
공분산(covariance)§ 공분산의 의미
• 공분산 두 변 X, Y가 로 어떤 (pattern)을 보여주는가를 나타냄.
• Cov(X, Y)>0이면 X가 증가(감소)할 때 Y도 증가(감소)
• Cov(X, Y)<0이면 X가 증가(감소)할 때 Y는 감소(증가)
• Cov(X, Y)=0이면 두 변 는 아 런 상 이 없음.
3장 상 분
공분산(covariance)§ 공분산의 계산
• Excel에 공분산(COVARiance)을 구하는 법 두 가지임.
• 함 마법사에 ‘통계-COVAR’ 함 를 이용하는 법
• Excel 메뉴의 데이 -데이 분 의 분 도구에 ‘공분산 분 ’을 이용하는 법
• 그러나 ‘통계-COVAR’ 함 는 두 변 간에 공분산을 계산할 때만 이용할 있고, ‘공분산 분 ’에 는 변 가2개 이상일 때도 사용할 있 므로 여러 변 들 간의공분산 값을 포함하는 공분산 행 을 얻을 있음.
3장 상 분
공분산(covariance)§ Excel의 출 결과는 다음과 같이 2´2행 로 나타남.
• 의 출 결과는 다음을 의미함.
Var(X) Cov(X, Y) 4 4
Cov(X, Y) Var(Y) 4 4.061224
3장 상 분
=
상 분 (correlation analysis)§ 상 계 (correlation coefficient)
• 공분산의 경우 두 변 간 계의 향 알 있지만, 계의 도는 알 없음. 왜냐하면 공분산 두 변 의 단
에 라 그 값이 달라지 때 임.
• 이러한 를 해결하 해 단 에 계없이 계의도를 비교할 있도록 표 화한 것이 상 계 임.
• 공분산을 두 변 X Y의 각 표 편차로 나 면 다음과 같모상 계 를 구할 있음.
ρ=Corr(X, Y)= =
• 이때 상 계가 0<ρ£1이면 (+)의 상 계, -1£ρ<0이면부(-)의 상 계, ρ=0이면 상 계가 없다는 의미가 아니라 의 상 계가 아니라는 의미임.
3장 상 분
ÖVar(X) Var(Y)
Cov(X, Y)
σXσY
σXY
상 분 (correlation analysis)§ 상 계 (correlation coefficient)
• 상 계 의 경우에도 모집단(population)과 표본(sample)로 엄격히 구분 . 모상 계 는 상 인 면, 표본상
계 는 변 임. 그러나 모집단에 어떤 표본이 추출 느냐에 라 표본의 상 계 는 달라짐.
• 표본상 계 는 표본공분산을 각각의 표본표 편차로 나어 표 화한 값을 나타내며 ‘r’로 표 함.
• 표본상 계 는 어슨(Karl Pearson)에 의하여 안 었때 에 ‘ 어슨의 표본상 계 ’라고도 함.
3장 상 분
2
n
1i
i
2
n
1i
i
n
1i
ii
)yy()xx(
)yy)(xx(
r
åå
å
==
=
--
--
=
상 분 (correlation analysis)§ 상 계 (correlation coefficient)
• 상 계 의 경우에도 단 히 두 개의 변 가 어느 도 강한 계에 있는가를 하는 단 상 분 (simple correlation analysis), 3개 이상의 변 들 간의 계에 한강도를 하는 다 상 분 (multiple correlation analysis)이 있음.
• 다 상 분 에 다른 변 들과의 계를 고 하고 두 변만의 계에 한 강도를 나타내는 것을 편상 계분
(partial correlation analysis)이라고 함.
3장 상 분
상 분 (correlation analysis)§ 표본상 계 는 두 변 의 (직 ) 계 도를 나타내는데다음과 같 특징이 있음.
• 표본상 계 (r)는 항상 -1과 1 사이에 있음(-1£r£1).
• 표본상 계 의 값의 크 는 (직 ) 계에 가까운도를 나타내고, 표본상 계 의 부 는 (직 ) 계
의 향을 나타냄.
• r>0 : 산 도에 들이 좌하 에 우상 로 띠를(우상향의 태)
• r<0 : 산 도에 들이 좌상 에 우하 로 띠를(우하향의 태)
• r=1 : 모든 들이 울 가 양 인 직 상에 치
• r=-1 : 모든 들이 울 가 음 인 직 상에 치
3장 상 분
상 분 (correlation analysis)§ 표본상 계 의 크 에 른 해
표본상 계 의 값 해
0.2 이하 상 계 거의 없음
0.2 ~ 0.4 낮 상 계
0.4 ~ 0.6 보통 계
0.6 ~ 0.8 높 상 계
0.8 이상 매우 높 상 계
3장 상 분
상 분 (correlation analysis)§ 상 계 의 계산
• Excel에 상 계 (correlation coefficient)를 구하는 법두 가지임.
• 함 마법사에 ‘통계-CORREL’ 함 를 이용하는 법
• Excel 메뉴의 데이 -데이 분 의 분 도구에 ‘상분 ’을 이용하는 법
3장 상 분
상 분 (correlation analysis)§ 상 계 의 계산
• 입 범 는 두 데이 의 체 역을 택함.
• 데이 향 자료들이 로로 어 있 면‘열’(column)을, 가로로 어 있 면 ‘행’(row)을 택
• 데이 의 목을 역에 포함시키 면 첫째 행 이름표 사용을 택, 그 지 않 면 택하지 않음.
• 재 작업 시트(sheet)에 출 하고자 할 경우 출 범 를택하여 출 하고자 하는 을 지 한 후 확인 버튼을
름.
3장 상 분
상 분 (correlation analysis)§ 상 계 의 계산
3장 상 분
남매의 신장간에는 계가 0.558 도라는것을 의미함.
상 계 의 부 가 (+)이라는 것 남자의 키가크면 여자의 키도 크다는 것을 시사함.
상 분 (correlation analysis)§ 상 계 의 단
• 상 계 의 하나의 특징 어느 한 변 는 두 변 의모든 값에 0이 아닌 상 가 더해지거나 곱해지더라도 그 값이 변하지 않는다는 것임. 즉, 상 계 는 척도의 원과 단 의 변환 로 변경 지 않음.
• 이러한 결과는 상 계 의 사용에 해 요한 의미를 가짐. 즉, 값들이 단 가 티미 나 인치 는 분이나 로
어있든 변 들 간의 상 계 값 항상 일 함.
• 실 로 변 들 모두에 하여 값의 원 는 단 가변할 때에도 상 계 r 변하지 않는다는 사실 상 계
의 활용범 를 크게 해 .
3장 상 분