ANOVAANalysis Of VAriance
한동대학교
강병덕
일원배치 분산분석 ANOVA
• 세 개 이상의 모평균이 동일한지의 여부를 검정
• 하나의 집단에 세 개 이상의 하위 집단이 있을 때 이들의 평균이 동일한지의 여부를 검정
• 4개의 모집단(A, B, C, D)의 모평균 동질성 여부 검정
집단 1 집단 2 집단 1 집단 2 집단 1 집단 2
A B B C C D
C D
D
6번의 Z검정또는 t검정을실시
Z검정/t검정을 반복 실시할 때의 문제점
• 검정과정의 번거로움• 시간과 노력면에서 비효율적
• 가설검정의 유의수준 유지가 곤란• 유의수준은 1종 오류 (0.05)
• 6번의 t-test … 0.95 х 0.95 х 0.95 х 0.95 х 0.95 х 0.95 = 0.735
• 6번의 t-test의 유의수준은 = 1 – 0.735 = 0.265
ANOVA
• 독립변수의 수 = 1
일원분산분석 (One-Way ANOVA)
• 독립변수의 수 = 2
이원분산분석 (Two-Way ANOVA)
• 독립변수의 수 = 3 이상
다원분산분석 (Multivariate Analysis of Variance: MANOVA)
F검정을 실시하는데 필요한 세 가지 조건
• 조건 1 :
각 모집단을 구성하고 있는 구성원소들은 동일 모집단내의 다른 구성원소와 서로 독립 &
다른 모집단의 구성원소와도 독립인 관계• 조건 2 :
각 모집단은 정규분포를 따름• 조건 3 :
모분산은 알려져 있지 않으나 동일함
분포 : 영가설이 사실일 때 vs. 영가설이 사실이 아닐 때
평균1 = 평균2 = 평균3
분산1 = 분산2 = 분산3
SST = SSW
분산1 = 분산2 = 분산3
SST = SSW + SSB
아노바 기본 개념과 일원배치 분산분석
• Statistics 101 : ANOVA, A Visual Guide
• Statistics 101 : One Way ANOVA (Part 1) A Visual Guide
• Statistics 101 : One Way ANOVA (Part 2) A Visual Guide
세 개의 분포가하나의 모집단으로부터 왔는가?
X1
X2
X3
세 개의 분포가하나의 모집단으로부터 왔는가?
세 개의 분포가하나의 모집단으로부터 왔는가?
세 개의 분포가하나의 모집단으로부터 왔는가?
귀무가설:모집단1 평균 = 모집단2 평균 = 모집단3 평균
세 집단의 평균이정확하게 동일한가에대한 것이 아니라각 집단의 평균이하나의 전체 모집단으로부터왔는가에 대한 것이다.
각 샘플 평균 간의 차이에대한 관심
Variability Among / Between
Sample Means
세 개의 분포가하나의 모집단으로부터 왔는가?
각 분포가 좌우로 확장된다면…
각 분포의 차이가 확장된 것
Variability Around/Within the distribution
ANOVA = 차이의 비율
Variability Among / Between
the Means
Variability Around / Within
the Means
X1
X2
X3
각 집단이전체 평균과의차이
X1
X2
X3
각 집단 내부의흩어진 정도(차이)
Variance Between
Variance Within
ANOVA = 차이의 비율
Variance Between
Variance WithinTotal Variance Components
Variance Between + Variance Within = Total Variance
분자가 분모보다 크게 되면 그 비율은 1보다 크게 된다.비율이 1보다 크다는 것은 각 샘플이 하나의 모집단에서 왔을 가능성이작다는 것이다.즉, 각 집단의 평균이 같다는 귀무가설을 기각하게 된다.
F =
분산(variance) & 제곱합 (sum of squares)
• ANOVA (Analysis of Variance)
• Variance 분산 = 한 분포에서 각 구성원과 그 평균간의 차이들제곱의 평균
• 평균을 구하는 과정에서 마지막 순서는 “차이들 제곱의 합"을구성원수(n)으로 나누는 것
• 차이들 제곱의 합 = SS (Sum of Squares)
샘플 분산 = Σ (x 값 – x 평균)2
n – 1
SS
SS (Sum of Squares) 제곱합
• j번째 표본의 i번째 관찰값 = xij
• 편차 (Deviation) = 특정 값 (xij) – 평균
• 총편차제곱합 SST (Total Sum of Squared Distance)
• 집단 간 편차 제곱합 SSB (Sum of Squares Between)
• 집단 내 편차 제곱합 SSW (Sum of Squares Within)
•SST = SSB + SSW
샘플 분산 = Σ (x 값 – x 평균)2
n – 1= Mean Squares
SS
df=
Sources분산원
SS제곱합
df자유도
Mean Squares평균제곱 F
집단 간 SSB (or SSC) k – 1 MSB = SSB
MSBk – 1
집단 내 SSW (or SSE) N – k MSW = SSW
N – k MSW
전체 SST N – 1
분산원 제곱합 자유도 평균제곱 F
집단 간 18.07 2 9.03 .529
집단 내 460.10 27 17.04
전체 478.17 29
p (F2,27 ≥ .529) = .595 α = 0.05
통계적으로 유의미한 차이가 있는가?
F 비율(ratio) = 두 분산의 비율
F 분포 (distribution) = 비율의 분포
사후검증 post hoc tests
• Scheffe’s test• 가장 많이 이용되고 있는 사후검증
• 가장 보수적인 사후검증
• Tukey’s HSD test• 집단별 샘플 크기가 동일한 경우
세 개 이상의 모집단 평균검증
• 대학교 학생들의 출신 고등학교별 시험성적 비교• 출신 고등학교 : 특목고 / 일반고 / 대안학교
• 연구 가설• 학생들에 대한 출신 고등학교에 따른 시험성적의 차이가 있을 것이다.
• 검증 가설?
• 검증 결과
연구문제
가설설정 영가설 :
유의수준 결정
통계분석 방법의 결정
독립변수 :
종속변수 :
검증
기본가정 검토정규성 :
등분산성 :
검증통계량 , 유의확률과
유의수준 비교
검증통계량 =
유의확률 =
결과 해석유의수준 0.05에서 영가설을 __________한다.
• 보고서 작성
기술통계량F (p)
빈도 평균 표준편차
출신
고등학교
특목고
일반고
대안학교
양점도, 정영주 (2012) 사회복지사의 이직의도에 미치는 영향요인에 관한 연구, 복지행정논총, 22 (1), 177-197
• 이직의도 = 4개 문항, 각 5점 척도
<표 2 > 연령에 따른 이직의도의 차
p < 0.05 Scheffe : G1 > G4; G2 > G3; G2 > G4
“연령에 따른 이직의도와의 관계에서는 <표 2>와 같이 F=6.583, p<.05로 나타나 통계적으로 유의미한 차이가 있는 것으로 나타났다. 그 차이를 알아보기 위해 Scheffe의 사후검정을 실시한 결과 50대보다 20대가 이직의도가 높고, 40대와 50대 보다는 30대가 이직의도가 높음을 알 수 있다.”
연령 n 평균 표준편차 F p
20대 (G1) 68 3.2912 .6271
6.583 .00030대 (G2) 101 3.4040 .6991
40대 (G3) 31 2.9613 .8678
50대 (G4) 8 2.4750 .7478