Upload
scarlett-hayes
View
449
Download
1
Embed Size (px)
DESCRIPTION
Histogram. 이항분포의 정규 근사. 계급 값 ( 막대중앙 ). 계급의 크기 ( 막대 폭 ). 정규분포 (n ≥30). – 정규분포 ( 평균 μ, 분산 σ 2 ) 확률변수 X 는 X ~ N(μ, σ 2 ). t (10) : 자유도 10 인 t 분포. t (5) : 자유도 5 인 t 분포. 표준편차. X1. 평균. 6 σ 를 위한 알기 쉬운 기초통계. 목차. 1. 통계학 (Statistics) 이란 ? 2. 기술통계 (Descriptive Statistic) 란 ? - PowerPoint PPT Presentation
Citation preview
20081101~19 변환 6시그마를 위한 기초통계 1
6σ 를 위한 알기 쉬운 기초통계6σ 를 위한 알기 쉬운 기초통계
0
0.1
0.2
0.3
0.4
0 5 10 15 20불량품
확률
p=0.1p=0.2p=0.3p=0.4p=0.5
이항분포의 정규 근사
X1평균
표준편차
– 정규분포 ( 평균 μ, 분산 σ2) 확률변수 X 는 X ~ N(μ, σ2)
Histogram
0
0.05
0.1
0.15
0.2
8~ 10 10 ~ 12 12~14 14~16 16~18 18~20 20~22
diameter
Height
계급의 크기( 막대 폭 )
계급 값( 막대중앙 )
Histogram
정규분포 (n ≥30)
t (5) : 자유도 5 인 t 분포
t (10) : 자유도 10 인 t 분포
20081101~19 변환 6시그마를 위한 기초통계 2
목차목차
1. 통계학 (Statistics) 이란 ?2. 기술통계 (Descriptive Statistic) 란 ?3. 데이터 (Data) 란 ?4. 확률분포 (Probability Distribution)5. 추정 (Inference)6. 검정 (Testing) 7. 두 모집단의 비교8. 상관분석 (Correlation) 9. 분산분석 (ANOVA)10. 질적 자료분석11. 자료출처
20081101~19 변환 6시그마를 위한 기초통계 3
통계학의 정의
통계학은 특별한 의도나 목적을 가지고 조사 연구할 때
1. 자료의 수집방법뿐만 아니라
2. 측정된 자료를 정리하여 정보화하고
3. 그러한 정보를 바탕으로 의사결정을 하는데 있어서
과학적이고 효율적인 방법을 연구 개발하는 학문이다 .
통계학이란 ?통계학이란 ?
통계학의 분류 기술 통계학
관찰대상 전체에서 얻어진 자료를 평균 , 분산 등의
요약 통계량이나 여러 가지 그래프를 이용하여 체계적으로 정리 요약하여
자료에 대한 전반적인 특성을 파악하는 통계 기술이다 .
추측 통계학
표본을 관찰함으로써 얻어진 자료를 이용하여
확률이론에 의해 모집단의 특성을 추론하거나 미래를 예측하는 것이 목적이다
20081101~19 변환 6시그마를 위한 기초통계 4
뿌리( 목적 )
기술 통계학(Descriptive Statistics) ( 통계량 / 그래프로 자료 특성을 파악 )
추측 통계학(Inferential statistics) ( 모집단 특성추론 / 미래 예측 )
나무 기술통계학 확률이론 추론 특별한 통계분석
( 特徵 ) ( 자료 정리 · 요약 기술 ) ( 통계학 이론바탕 ) ( 통계학 中心이론 ) ( 특별한 분석기법 )
가지 자료 (Data) 란?이산 형 자료연속 형 자료그래프 분석
확률확률분포이항분포정규분포표본분포
통계적 추정정규 모집단에서 추론 ( 모평균추정 / 검정 )두 모집단 비교 ( 모 비율차이추론 )
분산분석회귀분석범주형 자료비모수 추론
교재표현
탐색적 데이터 분석 확률분포 추정 ( 점 / 구간 추정 )검정 ( 통계적 가설검정 )
ANOVA ( 분산분석 )상관 및 회귀분석
잔가지 계수형 ( 이산 ) · 이항 / 포아송 · 초기하 분포계량형 ( 연속 ) · 정규 /t/χ2/F 분포 · 지수 / 감마 / 와이블
추정 · 점 / 구간 추정 · 신뢰구간 추정가설검정 · 단일 / 두 / 둘이상 모집단( 평균 / 분산 / 비율 /비모수 )
ANOVA상관 및 회귀분석
통계학의 구분과 내용통계학의 구분과 내용
20081101~19 변환 6시그마를 위한 기초통계 5
- 모집단 (Population) 우리가 알고자 하는 관심의 대상이 되는 전체의 집합 유한 모집단 무한 모집단
- 표본 (Samples) 모집단에서 조사 대상으로 채택된 일부
- 모수 (parameter) 모집단의 특성을 나타내는 척도로 보통 평균과 표준편차 등이 많이 사용됨
- 통계량 (Statistics) 모수에 대응하는 표본의 특성을 나타내는 척도로 보통 산술평균과
표준편차가 많이 사용됨
통계학의 기본 용어
통계학의 기본용어통계학의 기본용어
20081101~19 변환 6시그마를 위한 기초통계 6
20081101~19 변환 6시그마를 위한 기초통계 7
기술통계는 Data 를 표와 그림으로 표현하는 방법이고 통계적 추론은 Data 를 통해 모집단의 특성을 일반화하는 방법입니다 .
모평균 () 모표준편차 () 모분산 (²) 모비율 (p)
모집단 분포의 특징을 나타내는 대표 값 :
모 수 (Parameter)
모집단 (Population)
통계적 추론
표본추출
X1 , X2 , …, Xn
• 추정 ( 점 / 구간 , Estimation)• 가설 검정 (Hypothesis Test)
표본평균 (X) 표본표준편차 (S)
표본분산 (V)표본비율 (p)
표본 (Sample)
표본 분포의 특징을 나타내는 대표 값 :
통계량 (Statistic)
기술통계란 ?기술통계란 ?
20081101~19 변환 6시그마를 위한 기초통계 8
Data 는 변동 (Variance) 를 표현하는 중요한 수단입니다 .
(1) 입론 ( 立論 ) 의 기초가 되는 자료(2) 관찰에서 획득한 사실
DATA 란 무엇인가 ?
• 데이터는 일반적으로 임의의 집단을 대표하는 표본을 통해 수집된다 .
품질 데이터 관리 절차
1. DATA 정의
2. DATA 수집
3. DATA 처리 및 표현
참고 ) 편향 (Bias) 된 데이터로 도출되는 결론의 문제
정보(Information)
데이터처리
데이터(Data)
Data 와 처리과정Data 와 처리과정
20081101~19 변환 6시그마를 위한 기초통계 9
1. 데이터 수집하는 방법1) Observational study (
관측연구 )
a. 관심 있는 현상을 관찰
EX) 담배가 폐암을 유발하는가 ?
b. Process에 영향을 주지 않음
2) Designed( controlled) experiment (실험연구 )
- Key process 변수를 통제함으로써 process가 영향을 줄때 data가 얻어짐
EX) 두 약 중 어느것이 인간의 어떤 병을 통제하는데 효과적인가 ?
3) Sample survey (표본조사 )
- Key issue :
실험의 결과로서 일어나는 data에 의한 의사 결정을 하고자 함
• Basic Ideas for Collecting Data(데이터 수집을 위한 기본 아이디어 )
Data 의 수집Data 의 수집
20081101~19 변환 6시그마를 위한 기초통계 10
Data 의 이용방법Data 의 이용방법
2. 데이터 이용 방법
1) 기술통계학 (Descriptive statistics)-자료를 수집하고 정리하여 도표나 표를 만들거나 요약하여 대표 값 ,
표본의 크기 등을 다루는 분야
- 방대한 자료집합의 특징을 쉽게 알 수 있게 함
2) 추측통계학 (Inferential statistics)
- 회귀분석 , 상관분석 , 분산분석 , 범주형 자료분석 , 시계열분석
- Enumerative study
- Analytical study
20081101~19 변환 6시그마를 위한 기초통계 11
Type of Studies (연구의 유형 )
1. 대부분의 실험계획은 Analytical studies 임
- 통계적 모형을 설정하고 또한 설정된 모형이 합리적인 여부를 평가하며 자료로부터 얻어지는
정보에 근거해 미지의 특성에 대한 결론을 내리고 미래에 일어날 현상에 대한 예측을 함
2. 최종 상품 출시 Testing은 Enumerative study임
- 오직 제품의 특성을 나타내기 위한 시도이기 때문
3. Analytical study에 어떠한 통계적 방법을 적용할 지에 주의 바람
기본적 통계 용어
1) 모집단 (Population) : 주어진 문제에 있어서 관심이 있는 모든 가능한 개체의 집단
2) 표본 (Sample) : 관찰 가능한 모집단의 일부분
연구의 유형연구의 유형
20081101~19 변환 6시그마를 위한 기초통계 12
20081101~19 변환 6시그마를 위한 기초통계 13
Data 란 ?Data 란 ?
20081101~19 변환 6시그마를 위한 기초통계 14
: 모집단으로부터 얻은 표본으로부터 얻은 어떠한 관심 있는 현상의 실제 관측치
EX) 2 개의 다른 시약 처리에 의한 2개 표본 환자 집단의 증세 호전 시간
한 공장 라인에서 랜덤하게 뽑힌 20 개의 샘플에서 발견된 불량품의 수
Data
변수 (Variable): 측정단위 사이에 변화하는 특성을 보여주는 것
통계학의 목적 : Data를 의미 있게 표현 (Description)하고 요약 (Summary)하는 것
- 질적 변수 (Qualitative Variables)
1. 통계 용어의 정리
- 양적 변수 (Quantitative Variables)1) 이산형 (Discrete) : 정해진 수량으로 표현되어 지는 변수 –
Ordinal(Categorical)
2) 연속형 (Continuous) : 주어진 범위 내에서의 가능한 모든 실수 값을 가지는 변수
EX) 남녀 , 6학년 학생의 반 , 혈압 등급 (고 , 중 , 저 )
EX) 초등학교 학년 , 마라톤의 순위
EX) 이율 , 시간
2. 변수의 종류
3. Random 표본
표본은 모집단을 대표한다는 가정이 되어야 한다 .
이 표본은 모집단에서 랜덤하게 추출되었다는 Idea 는 많은 통계적 이론의 기초가 되고 있다 .
Data와 변수Data와 변수
20081101~19 변환 6시그마를 위한 기초통계 15
- 측정 가능 데이터 (수량 데이터 )
당신의 나이는 ? ( 세 )
한 달에 구입하는 생수는 ? ( 개 )
몸무게 , 온도 , 100m 달리기 기록 , 키를 잴 때 눈금과 눈금 사이 간격이 균등
- 측정 불가 데이터 (카테고리 데이터 )
통계학을 읽고 난 느낌은 ? 1. 매우 재미있다 2. 재미있다 3. 보통이다 . 4. 재미없다 5. 매우 재미없다 ( 실무에서 수량데이터로 취급하는 경우가 있음 )
출신지 , 날씨 , 혈액형 급과 급사이의 간격이 균등하지 않음
측정가능 데이터 / 측정 불가 데이터 ( 앙케트 )
측정 가능 ·불가능 데이터측정 가능 ·불가능 데이터
20081101~19 변환 6시그마를 위한 기초통계 16
Data 의 표현 : 데이터의 전체적인 분위기를 파악함
1. 표현의 목적 : 표본의 정보를 요약하여 보여주는 것
2. 빈도 표 (Frequency table)
1.00031
0.0160.032120 - 22
0.0320.065218 – 20
0.0810.161516 – 18
0.0490.097314 – 16
0.0970.193612 – 14
0.1770.3551110 – 12
0.0490.097308 – 10
HeightRelative Frequency
FrequencyClass Interval계급
Relative frequency =
Frequency
Total # of observations in sample
Height = Relative frequency / Width
( 상대도수 )
3. 히스토그램(Histogram)
Histogram
0
0.05
0.1
0.15
0.2
8~ 10 10 ~ 12 12~14 14~16 16~18 18~20 20~22
diameter
Height
계급의 크기 ( 막대 폭 )
계급 값( 막대중앙 )
Data 의 표현방법Data 의 표현방법
20081101~19 변환 6시그마를 위한 기초통계 17
그 외의 방법들
4. Box plot
94N =
HOURS
60
50
40
30
20
10
0
-10
92
91
490
69
5. 줄기와 잎 그림 (Stem-and-leaf plot)
HOURS Stem-and-Leaf Plot Frequency Stem & Leaf 34.00 0 . 000001111111222222222333333344444427.00 0 . 55555555566666666677777788817.00 1 . 000000000000222448.00 1 . 555555663.00 2 . 0005.00 Extremes (>=25) Stem width: 10Each leaf: 1 case(s)
기타 표현방법기타 표현방법
20081101~19 변환 6시그마를 위한 기초통계 18
6. Data 표현에 있어서의 고려하여야 할 점
ex) 히스토그램의 예에서
같은 Data 임에도 불구하고 결과를 임의로 변질시킬 위험이 있다 .
0 10 20 30
tv / week
0
50
100
150
Using 3 bins
0 10 20 30
tv / week
0
5
10
15
20
Using 40 bins
0 10 20 30
tv / week
10
20
30
40
50
Using 10 bins
7. Data 표현을 통해 관심있게 보아야 할 점
1) 대칭성 (Symmetry)
대칭(Symmetric)
Rightly skewed
Leftly skewed
2) 봉우리(Modality)
단봉 (Unimodal) 양봉 (Bimodal)
3) 이상치(Outlier)
Data의 표현 시 고려할 점Data의 표현 시 고려할 점
20081101~19 변환 6시그마를 위한 기초통계 19
기술 통계 (Descriptive Statistic)
위치 모수 (Location parameter) : 평균 , 중앙값 , 최빈 값
측정 모수 (Scale parameter) : 분산 , 표준편차
반복되어 가장 많이 나타나는 측정치
평균 (Mean, average) :
xn
xii
n
1
1
중앙값 (Median) :
n개의 데이터를 크기 순으로 나열했을 때 n이 홀수이면 중앙에 위치하는 값이고 , 짝수이면 중앙에 위치한 2개의 데이터를 평균한다 .
최빈 값 (Mode) :
EX) 1, 3, 5, 5, 8, 8, 9, 9, 9, 10, 11
Mean = (1+3+5+5+8+8+9+9+9+10+11)/11 = 7.090909
Median = 8
Mode = 9
1. 중심의 측정 (Measure of center)
기술통계기술통계
2. 산포의 측정 (Measure of spread)
표본 분산 (Sample variance) :
S x x ni
n2 2
1
1 [ ( ) ] / [ ]
표본 편차 (Standard deviation) :
범위 (Range) :
데이터의 가장 큰 값 (MAX) – 데이터의 가장 작은 값(MIN)
√S²
20081101~19 변환 6시그마를 위한 기초통계 20
통계적 추론 (Statistical Inference)
1. 모수 (Parameter) : 모집단의 특성치
= 모집단의 평균 2= 모집단의 분산
2. 추정치 (Estimator) : 모집단에 대응되는 표본의 특성치
x
= 표본집단의 평균의 추정치 S 2 = 표본집단의 분산의 추정치
=들의 평균 의 분산 =
x
x 2 / n
n 이 증가할수록 2 / n 값은 작아짐
표본의 수가 증가할수록 더 정확한 추정치를 얻을 수 있다 .
변동계수 (Coefficient of variation, CV)
CV= (비율 ) 또는 *100 (PERCENT) / /
서로 다른 평균과 표준편차를 갖는 여러 자료의 상대적인 변동 혹은 산포를 측정하기 위해각 자료의 평균과 표준편차를 동시에 고려한 계수
선형추가 모형 (Linear additive model)
X i i i: 표본추출 등의 문제 등으로 발생한 오차
표준편차는 이 오차의 추정치이다 .
은 의 추정 값이다 .x
통계적 추론통계적 추론
20081101~19 변환 6시그마를 위한 기초통계 21
20081101~19 변환 6시그마를 위한 기초통계 22
확률분포확률분포
20081101~19 변환 6시그마를 위한 기초통계 23
신뢰성 데이터는와이블 분포를
따르는 경우가 많다 .
와이블 분포 분포
F 분포
확률분포의구분
이항 분포 포아송 분포 정규 분포
t 분포
계수형( 이산형 확률 분포 )
계량형( 연속형 확률 분포 )
2
초기하 분포 감마 분포
지수 분포
확률분포의 구분확률분포의 구분
20081101~19 변환 6시그마를 위한 기초통계 24
이항 분포( 불량품 )
정규 분포
포아송 분포( 결점수 )
p < 0.1
n > 50
평균≥ 5
np≥5
n(1-p)≥50
0.1
0.2
0.3
0.4
0 5 10 15 20불량품
확률
p=0.1p=0.2p=0.3p=0.4p=0.5
1. 이항분포의 정규 근사
이산형 확률분포와 정규분포 근사 (Approximately)이산형 확률분포와 정규분포 근사 (Approximately)
0
0.2
0.4
0.6
0.8
1
0 5 10 15 20결점수
확률
dpu=0.1dpu=1.0dpu=2.0dpu=2.5dpu=4.0
2. 포아송 분포의 정규 근사
20081101~19 변환 6시그마를 위한 기초통계 25
68% within1 standard deviation
0.340 0.340
95% within 2 standard deviations
99.7% of data are within 3 standard deviations of the mean
0.001 0.0010.024 0.024
0.135 0.135
- 3 - 2 - + 2 + 3 +
정규분포 (Normal Distribution) 정규분포 (Normal Distribution)
20081101~19 변환 6시그마를 위한 기초통계 26
X1평균
표준편차
– 정규분포 ( 평균 μ, 분산 σ2) 확률변수 X 는 X ~ N(μ, σ2)
Z0
1
? Z
– 표준정규분포 ( 평균 0, 표준편차 1) 확률변수 Z 은 Z ~ N(0,1)
-i
i
xZ Z
변환
정규분포
),(~ 2NX
표준정규분포
)1,0(~ 2NZ
※ 표준정규분포 및 확률밀도함수에서 넓이 = 비율 = 확률표준정규분포 (Standard Normal Distribution) 변환표준정규분포 (Standard Normal Distribution) 변환
20081101~19 변환 6시그마를 위한 기초통계 27
표준정규분포 변환표준정규분포 변환
20081101~19 변환 6시그마를 위한 기초통계 28
− t- 분포는 정규분포보다 더 넓게 퍼져 있고 , 꼬리부분이 더 평평함 . − 평균을 중심으로 대칭이고 , 종 모양을 띄고 있어 정규분포와 형태가 유사함 . − 표본크기가 커질수록 분포가 중심부근에서 점점 뾰족해 지고 , 표본의 크기가 30 이상이면 정규분포가 거의 같아짐 .
정규분포 (n ≥30)
t (5) : 자유도 5 인 t 분포
t (10) : 자유도 10 인 t 분포
표본분포 (Sample Distribution) :t-분포표본분포 (Sample Distribution) :t-분포
20081101~19 변환 6시그마를 위한 기초통계 29
– 카이제곱 분포는 표본분산 s2 과 관련된 분포임 .
– 확률 변수 가 각각 표준정규 분포 N(0,1) 을 따르고 , 서로 독립일 때
그들 제곱합 l I 은 자유도 k 인 카이 제곱분포 χ2(k) 를 따른다 .
– 모집단 분산 추론에 카이제곱 분포 를 이용한다
k1 ZZ ,, 22
221 kzzz
)1(~)1( 2
2
2
nSn
),(2 k
)1,(2 k
표본분포 : χ²( 카이제곱 )분포표본분포 : χ²( 카이제곱 )분포
20081101~19 변환 6시그마를 위한 기초통계 30
– F- 분포는 두 정규모집단의 분산을 비교하기 위한 추론에 주로 사용 .– 확률 변수 χ1
2 과 χ22 가 각각 자유도 ν1( 분자의 자유도 ) 과 ν2( 분모의 자유도 ) 인
카이 제곱분포를 따르며 서로 독립이라고 할 때 , 통계량
는
자유도 (ν1, ν2) 인 F- 분포 (ν1, ν2) 를 따른다 .
22
2
12
1
/
/
F
표본분포 : F 분포표본분포 : F 분포
20081101~19 변환 6시그마를 위한 기초통계 31
구 분 계수형 확률 분포 계량형 확률 분포
종 류 이항 분포 포아송 분포 정규 분포 표준 정규 분포
특 징 불량형 데이터를 대표하는 분포
결점형 데이터를 대표하는 분포
계량형 데이터를 대표하는 분포
평균이 0 이고 , 표준편차가 1 인 정규 분포
용 도
결과가 성공 / 실패 불량 / 양품 등 두 가지로 표현되는 데이터의 확률 계산
일정 단위 ( 연속적인 시간 , 공간 , 면적 , 구간 등 )당특정한 사건이 일어날 확률 계산
정규분포를 따르는 데이터의 확률 계산
정규분포의 확률 계산을 편리하게 해 줌 . 또한 서로 다른 계량 형 데이터를 객관적으로 비교
대표적 확률분포 요약대표적 확률분포 요약
20081101~19 변환 6시그마를 위한 기초통계 32
20081101~19 변환 6시그마를 위한 기초통계 33
확률분포 (Probability Distribution)확률분포 (Probability Distribution)
20081101~19 변환 6시그마를 위한 기초통계 34
Ⅰ. 이산확률분포
1. 이항 분포 (Binomial distribution)1) Bernoulli 의 확률 분포
Bernoulli 의 실행 : 두 가지 실행 가능한 결과 EX) 성공 , 실패
성공의 확률이 p이라면 실패의 확률은 q=1-pE X p( ) Var X pq p p( ) ( ) 1
2) 이항 분포 : n개의 Bernoulli 확률 변수로 이루어짐
EX) 완구 완제품 중 34개를 무작위로 뽑아내어서 불량률이 17%일 때 몇 개의 불량품이 나오는지 조사
P X xn
xp px x( ) ( )
1 1
: 이항 분포 함수
X B n p~ ( , ) E X np( ) Var X npq np p( ) ( ) 1
2. 포아송 분포 (Poisson distribution)단위시간이나 공간에서의 희귀사건의 발생건수의 분포
EX) 1898년 프러시아 기마병중에서 말에 차여 사망한 숫자
P X xe
x( )
!
x: 포아송 분포 함수
E X( ) Var X( ) X Poisson~ ( )
이산확률분포 (Discrete Probability Distribution)이산확률분포 (Discrete Probability Distribution)
20081101~19 변환 6시그마를 위한 기초통계 35
Ⅱ. 연속확률분포 (Continous Probability Distribution)
: 정규분포를 변환을 통해 표준 정규 분포로 표현
평균이 0이고 분산이 1인 정규 분포1.-1 표준 정규 분포 (Standard Normal
Distribution)
f z( ) 1
2e
z
2
2 X N~ ( , )0 1: 표준 정규 분포 함수
표 준 화
ZN
N
~ ( , )0 1 EX) P X b PX b
P Zb
( ) ( ) ( )
1. 정규 분포 (Normal Density Distribution)
f x( ) 1
2e
x
( )
2
22
P X( ) = 0.683
P X( . . ) 196 196 = 0.95
P X( ) 2 2 = 0.954
P X( . . ) 2 56 2 56 = 0.99
P X( ) 3 3 = 0.997
: 정규 분포 함수 X N~ ( , ) 2 E X( ) Var X( ) 2
통계학에 있어서 중추적인 역할을 하는 분포
1) 평균을 중심으로 좌우대칭의 종 모양의 분포
2) 평균 = 중앙값 = 최빈값
3) 평균은 분포의 중심위치를 결정하고 , 분산은 분포의 모양을 결정
4)
연속확률분포 (Probability Distribution)연속확률분포 (Probability Distribution)
20081101~19 변환 6시그마를 위한 기초통계 36
1.-2 이항분포의 정규근사
에 대해 n이 충분이 크고 p가 0 또는 1에 가깝지 아니하면
X B n p~ ( , )
표준화된 확률변수 는 근사적으로 표준정규 분포 를 따르게 된다 .X np
npq
X N~ ( , )0 1
1.-3 중심극한정리 (Central Limit Theorem)
평균이 고 분산이 인 임의의 확률분포를 가지는 모집단으로부터 크기 n 인 확률표본 X1,X2,…,Xn 을 취했을 때 표본평균 는 n 이 충분히 크면 대략적으로 정규분포 을 따른다 .
2
X Nn
( , ) 2
2. t 분포 (Student t-Distribution)
대표본에서는 모집단의 분포가 정규분포가 아닐 때에도 중심극한 정리에 의하여 는 정규분포에 가까운 분포를 따르며 대신에 표본표준편차 (s) 를 대입해도 위의 사실은 근사적으로 성립한다 . 그러나 소표본에서는 모집단이 정규분포를 따를 때에도 대신에 s를 대입한 것이 정규분포와는 많이 다를 수 있음
보통 n 이 30 보다 작은 경우 분포는 Z- 통계량에서 대신에 s를 대입한 t- 통계량의 분포를 사용 .
X
X1, X2, ... , Xn 이 에서의 랜덤하게 추출한 표본일 때 (n < 30)X N~ ( , ) 2
tX
S nt n
/
~ ( )1 n-1 : 자유도 (Degree of Freedom)
연속확률분포 (Probability Distribution)연속확률분포 (Probability Distribution)
20081101~19 변환 6시그마를 위한 기초통계 37
< 풀이 2> 정규분포에 의한 근사적 계산으로 비교해보자
n=1,000, p=0.002
X N np npq N N ( , ) ( . , . . ) ( , . )1000 0 002 1000 0 002 0 998 2 1996
f z( ) 1
2 ez
2
2Z N~ ( , )0 1
이때 , x 를 N(2, 1.996) 에 0.5 의 구간보정을 하여 확률을 계산하면 , 포아송 분포로 구한 실제확률 0.053 에 가까워짐을 볼 수 있다 .
P X c PX c
P Zc
P X P Z P Z
( ) ( ) ( ), , .
( ) (.
) ( . ) . . .
2 1412
55 2
14122 12 0 5 0 483 0 017
P X P X P Z P Z( ) ( . ) (.
.) ( . )
. . .
5 4 54 5 2
1412177
0 5 0 4616 0 0384
1. 어느 제조 공장의 불량률이 0.2%로 알려져 있다 . 무작위로 1,000개를 취하여 검사할 때
불량품이 5개 이상 나올 확률은 얼마인가 ?E X( )
np 1000 0 002 2. ,
P X P X
e e e e e
e
[ ] [ ]
! ! ! !
( . . ) . .
5 1 4
12
0!
2
1
2
2
2
3
2
4
1 1 2 2 133 0 667 1 0 947 0 053
2 0 2 1 2 2 2 3 2 4
2
p X xe
x
x
[ ]!
f xe
x
x
( )!
,
Example 1 Example 1
20081101~19 변환 6시그마를 위한 기초통계 38
20081101~19 변환 6시그마를 위한 기초통계 39
확률분포와 표본분포확률분포와 표본분포
20081101~19 변환 6시그마를 위한 기초통계 40
1. 확률 표본 : 서로 독립이고 같은 분포를 따르는 확률 변수들I i d (Independently Identically Distributed)
2. 통계량 (Statistic) : 확률표본의 함수 (표본에서 얻은 정보량 )
표본평균 : 표본분산 :Xn
X ii
n
1
1S
nX Xi
i
n2 2
1
1
1
( )
3. 표본평균의 분포와 중심극한정리
중심극한정리 : 앞 Chapter의 정규분포 참조
에서 구한 표본평균 는 을 따른다 .Nn
( , ) 2
N ( , ) 2 X
Nn
( , ) 2
N 이 증가할수록
(a)->(b)->(c)->(d)로 변함
Ⅰ. 확률표본 (Random Sample)Ⅰ. 확률표본 (Random Sample)
20081101~19 변환 6시그마를 위한 기초통계 41
1. 분포 (Chi-Squared Distribution)
2
확률변수 가 각각 표준정규분포 N(0, 1) 을 따르고 서로 독립일 때 ,
의 분포를 자유도 (Degree of Freedom) K 인 ( 카이제곱 ,Chi-Square) 분포라 한다 .
2
Z Z ZK1 2, ,....
Z Z Z KK12
22 2 2, ,.... ~ ( )
표본분산 의 분포는 Sn
X Xii
n2 2
1
1
1
( )
단일모집단의 경우 : ~
22
21 ( )nS 2 1( )n
독립인 두 집단의 경우 : ~
21 2 1( )n n
2
1 2
2
21 ( )n nSp
S n S n S n np2
1 12
2 22
1 21 1 2 [( ) ( ) ] / ( )단 ,
2. t 분포 (t-Distribution) 확률 변수 Z ~ N(0,1) 이고 , 이고 서로 독립이라면 ,
V K~ ( ) 2
tZ
V K~
/
을 자유도가 K인 t분포라 한다 .
분산을 모를 경우 표본 분산을 사용하여 X
S nt n
/
~ ( )1
분산이 동일한 두 정규모집단일 경우 X Y
S n nt n n
p
( )
/ /~ ( )
1 2
1 21 21 1
1
Ⅱ. 표본분포 (Sample Distribution) -1Ⅱ. 표본분포 (Sample Distribution) -1
20081101~19 변환 6시그마를 위한 기초통계 42
3. F 분포 (F-Distribution)
분산이 동일한 두 개의 정규 모집단으로부터 각각 랜덤하게 추출한 의 2 조의 표본에서
의 비 ( 단 , F>1 즉 , ) 는 자유도
인 F 분포 를 한다 .
FV
V 1
2
V V1 2V K12
1~ ( ) V K22
2~ ( ) 1 1 2 21 1 n n,
F F K K~ ( , )1 2
n n1 2,
1) 일때 이다 .1
2 1FF n n~ ( , )
F F K K~ ( , )1 2
2) 두 정규모집단에서의 표본분산의 비에 대한 분포
22
12
12
22 1 21 1* ~ ( , )
S
SF n n
Ⅱ.표본분포 -
2
Ⅱ.표본분포 -
2
20081101~19 변환 6시그마를 위한 기초통계 43
20081101~19 변환 6시그마를 위한 기초통계 44
추론 (추정 /검정 )추론 (추정 /검정 )
20081101~19 변환 6시그마를 위한 기초통계 45
통계적 추론 : 표본에서 얻은 정보를 이용하여 모집단 (모수 )에 대한추측을 하는 과정
추 정 : 점 추정 --- 불편성 , 유효성 (최소분산불편추정량 )
구간추정 --- 같은 신뢰수준 하에서는 구간의 길이가 최소
검 정 : 모수에 대한 주장의 옳고 그름을 판정하는 과정1. 점 추정 (Point estimation)
: 표본에서 얻어지는 정보를 이용하여 미지인 모수의 참값으로 생각되는 하나의 수 값을 택하는 과정
추정 량 (Estimator) : 모수를 추정하기 위하여 사용되는 통계량
추정 값 (Estimate) : 추정량의 관측 값
표준오차 (Standard Error) : 추정량의 표준편차
(1) 점 추정에 요구되어지는 성질
a. 불편성 (Unbiased) : 추정량의 분포의 중심위치에 요구되는 성질
b. 유효성 (Efficiency) : 추정량의 산포에 요구되는 성질
c. 일치성 (Consistency)
d. 충분성 (Sufficiency) : 표본이 제공하는 모수에 대한 모든 정보를 이용한 통계량
불편추정량 (Unbiased estimator)
추론 (Inference)추론 (Inference)
20081101~19 변환 6시그마를 위한 기초통계 46
20081101~19 변환 6시그마를 위한 기초통계 47
검정 (Testing) 검정 (Testing)
20081101~19 변환 6시그마를 위한 기초통계 48
가설검정 ( 假設檢定 : Hypothesis testing) 의 개요
정의 : 모집단의 모수 또는 분포 등에 관하여 귀무가설과 대립가설을 설정한 후에 표본을 통하여 얻어지는 정보에 따라서 어떤 가설이 맞는가를 결정하는 통계적 분석 ( 용어적 정의임 )
가설검정의 의미 : 관심이 되는 모집단 특성에 대한 어떠한 주장을 확인하기 위해 그 모집단으로부터 표본을 추출하여 분석해 봄으로써 모집단에 대한 어떠한 주장의 타당성을 검토해 보는 것
가설검정의 개요
가설검정가설검정
20081101~19 변환 6시그마를 위한 기초통계 49
계량형 계수형 비 모수
모집 단수
전제 1 정규성 (Normality Test) : (Stat - Basic Stat - Normality Test) 이산형 비정규성
전제 2등분산 (○)
(Stat - Basic Stat - 2 variances )등분산 (×) 등분산 (×) - -
비교대상
평균 비교 ( 중심 ) 분산 비교 ( 산포 ) 비율 비교 목표 값 비교
1 1 Sample t 1 Sample Z
- - 1-Proportion1 Sample-Sign
1Sample-Wilcoxon
22Samplet “AEV” 선택
(Paired t)2 Sample t
( “assume EV” 선택 안함 )2 Variances F Test 2-Proportion Mann-Whitney Test
2 이상One-way ANOVA
(Two-way ANOVA)-
Test for Equal Variances(F Test or Bartlett’s Test)
Chi-square Kruskal-Wallis Test
주로 사용하는 곳
•표본이 정규분포일 경우에 사용•표본의 평균치가 같은지를 알아 볼 경우
표본의 분산이 같은 지를 알아 볼 경우
표본의 비율이 같은지를 알아 볼 경우
•표본이 비정규 분포를 보일 경우
Ho Ho: M1 = M2 = M3 = ...
미니텝Stat - Basic Stats - 1 Sample-t -1Sample Z ( 를 알 때 )
Stat - Basic Stats - 2-Sample tStat-Anova-One-way(Twoway)
Stat-Basic Stats- 2-Sample t (“assume equal variances” 선택 안 함 )
Stat - Basic Stats - 2 variances F-Test P-Value
Stat - Anova - Test for Equal Variances
Stat -Basic Stats -1, 2 proportion
Stat -Tables - Chi-square Test
Stat - Nonparametric - 1 Sample-Sign, WilcoxonMann -WhitneyKruskal -Wallis
확률분포정규분포 , t 분포 , 2 분포 , F 분포
지수분포 , 감마분포 , 와이블 분포 이항 / 포아송초기하 분포
분석목적에 따른 통계적 가설검정의 형태분석목적에 따른 통계적 가설검정의 형태
20081101~19 변환 6시그마를 위한 기초통계 50
가설검정유의수준 = 0.05 인 경우 :P- 값 >0.05 이면 Ho 기각하지 못함P- 값 < 0.05 이면 Ho 기각
계수형 데이터
Stat -Tables - Chi-square Test
Stat -Basic Stats -2 proportion
Stat -Basic Stats -1 proportion
카이제곱검정
1-Proportion
2-Proportion
하나의 모집단
두 개의모집단
둘 이상의 모집단
계량형 데이터
Normality Test Ho: 정규분포를 따른다 , H1: 정규분포가 아니다Stat - Basic Stat - Normality Test
Ho: H1: Stat - Basic Stats - 2-Sample t “assume equal variances” 선택
One-wayANOVA
Ho: H1: 적어도 하나는 다르다Stat - Anova- One-way
정규 데이터
표준편차의 신뢰구간
하나의 모집단둘 이상의 모집단
2 Sample t( 동일한 분산 ) 2 Sample t
( 분산이 다를 때)
1 Sample t 또는1 Sample Z
Ho: 목목목H1: 목목목Stat - Basic Stats - 1 Sample-t ( 를 모를 때 ) 1Sample Z ( 를 알 때 )
둘 이상의 모집단 두 개의 모집단
등 분산Yes
No
Ho: H1: Stat - Basic Stats - 2-Sample t “assume equal variances” 선택 안 함
Test for Equal Variances(F Test or Bartlett’s Test) Ho: 목목목
H1: 목목목표준편차가 특정 값과 같은 지에 대한 검정은 Minitab 이 지원하지 못한다 . 다만 표준편차의 추정치와 신뢰구간을 구하기 위해서는 다음 메뉴를 활용한다 . Stat -Basic Statistics - Display Descriptive Stats
Ho: H1: 적어도 하나는 다르다Stat - Anova - Test for Equal Variances두 모집단만을 비교할 때는 F-test 사용
Ho: M1M ( 목표 값 )H1: M1M ( 목표 값 )Stat - Nonparametric - 1 Sample-Sign 또는Stat - Nonparametric - 1 Sample-Wilcoxon
1 Sample-Sign 또는 1 Sample-Wilcoxon
Mann-Whitney Test
비정규 데이터
Kruskal-Wallis Test
하나의 모집단
두 개의모집단
둘 이상의 모집단
Ho: M1 = M2H1: M1 M2Stat - Nonparametric - Mann-Whitney
Ho: M1 = M2 = M3 = ...H1: 적어도 하나는 다르다Stat - Nonparametric - Kruskal-Wallis
Test for Equal Variances(Levene’s Test)
가설검정 로드 맵가설검정 로드 맵
20081101~19 변환 6시그마를 위한 기초통계 51
X 의 변화가 Y 를 어떻게 변화시키는가 ?(= 입력인자 X 값에 따라 출력변수 Y 의 결과가 달라지는가 ? )예 ) 제품부피 ( 연속형 ) 에 따라 배송시간 (L/T)( 연속형 ) 이 달라 지는가? ( 포장시간 X 와 총 배송기일 Y 관계 )
검정 : 상관분석 ( 관계 ), 회귀분석 ( 관계 ) 산점도 ( 그래픽 )
X 의 변화가 Y 를 어떻게 변화시키는가 ?(= 입력인자 X 값에 따라 출력변수 Y 의 결과가 달라지는가 ? )예 ) 제품부피 ( 연속형 ) 에 따라 배송시간 (L/T)( 연속형 ) 이 달라 지는가? ( 포장시간 X 와 총 배송기일 Y 관계 )
검정 : 상관분석 ( 관계 ), 회귀분석 ( 관계 ) 산점도 ( 그래픽 )
X 의 변화가 Y 를 어떻게 변화시키는가 ?(= 입력인자 X 各各의 값에 따라 출력변수 Y 의 결과가 달라지는가 ? )예 ) 교통체증 정도 ( 연속형 지수화 ) 에 따라 적기 배송 여부 (○,X) 가 달라 지는가? ( 상담원의 경력 X 와 리콜 여부 Y )
검정 : 로지스틱 회귀분석 (Logistic Regression)
X 의 변화가 Y 를 어떻게 변화시키는가 ?(= 입력인자 X 各各의 값에 따라 출력변수 Y 의 결과가 달라지는가 ? )예 ) 교통체증 정도 ( 연속형 지수화 ) 에 따라 적기 배송 여부 (○,X) 가 달라 지는가? ( 상담원의 경력 X 와 리콜 여부 Y )
검정 : 로지스틱 회귀분석 (Logistic Regression)
연속형 이산형결과 (Y)
원인(X)
연 속
형이
산 형
평균이 다른가 ? ( 중심 )(= 입력인자 X 유형에 따라 출력변수 Y 의 결과가 달라지는가 ? )예 ) 배송방법 ( 이산형 ) 에 따라 배송시간 (L/T)( 연속형 ) 이 달라 지는가? ( 고객 연락처 개수 X 와 주식 회전율 Y 관계 )
검정 : Sample t-test, Z-test, ANOVA, 히스토그램
전제 ① 정규성 검증 ② 등분산 검정
분산이 다른가 ?검정 : Test for Equal Variances , F-test 그래픽 (Box-plot, Multi-vari Chart)
평균이 다른가 ? ( 중심 )(= 입력인자 X 유형에 따라 출력변수 Y 의 결과가 달라지는가 ? )예 ) 배송방법 ( 이산형 ) 에 따라 배송시간 (L/T)( 연속형 ) 이 달라 지는가? ( 고객 연락처 개수 X 와 주식 회전율 Y 관계 )
검정 : Sample t-test, Z-test, ANOVA, 히스토그램
전제 ① 정규성 검증 ② 등분산 검정
분산이 다른가 ?검정 : Test for Equal Variances , F-test 그래픽 (Box-plot, Multi-vari Chart)
YN
결과물이 다른가 ?(= 입력인자 X 유형에 따라 출력변수 Y 의 결과가 달라지는가 ? )예 ) 교통체증 정도 ( 정체 , 지체 , 원할 ) 에 따라 적기 배송 여부 (○,X) 가 달라 지는가? ( 고객 연락처 갯수 X 와 본인 통화여부 Y )
검정 : 비율검정 , 카이제곱 (2) 검정 , Pareto Chart
결과물이 다른가 ?(= 입력인자 X 유형에 따라 출력변수 Y 의 결과가 달라지는가 ? )예 ) 교통체증 정도 ( 정체 , 지체 , 원할 ) 에 따라 적기 배송 여부 (○,X) 가 달라 지는가? ( 고객 연락처 갯수 X 와 본인 통화여부 Y )
검정 : 비율검정 , 카이제곱 (2) 검정 , Pareto Chart
Chi-SquareTest for Equal VariancesANOVA3 이상
2 Proportion2 Variances F Test
2 Sample t Paired t2
1 Proportion-1 Sample t , z1
비율비교분산비교평균비교집단 수
X·Y에 따른 통계적 가설검정의 형태X·Y에 따른 통계적 가설검정의 형태
20081101~19 변환 6시그마를 위한 기초통계 52
H0 참 (H1 거짓 ) H0 거짓 (H1 참 )
옳은 결정 (1-α) 제 2 종의 오류 (β) :소비자
제 1 종의 오류 (α) : 생산자 옳은 결정 (1-β)
귀무가설 H0 채택
귀무가설 H0 기각
실제의사결정
가설검정에서 발생하는 오류의 형태가설검정에서 발생하는 오류의 형태
1. 가설검정에서 오류를 완전히 배제할 수는 없으며 , 단지 어느 정도의 작은 확률로 이를 피하고자 할 수밖에 없다 .2. 가설검정을 수행할 때 이와 같은 두 가지 오류를 범할 확률을 되도록 작게 하는 것이 바람직할 것이다3. 그러나 두 가지 오류를 동시에 최소로 할 수 있는 검정방법은 일반적으로 존재하지 않는다 .4. 따라서 실제적으로 보다 중요한 의미를 가지는 제 1 종 오류를 범할 확률을 미리 지정된 확률 이하 수준 ( 유의수준 ) 로 하는 검정방법을 사용함 .
20081101~19 변환 6시그마를 위한 기초통계 53
통계적 가설 검정 (Statistical Hypothesis Testing)의 정의: 표본에서 얻은 정보를 이용하여 모수에 대한 주장의 옳고 그름을 판정하는
과정 EX) 진통제의 진통효과 문제
기존 진통제는 진통효과가 나타나는 시간이 평균 30분 , 표준편차 5분이라 한다 . 연구진에서 개발한 새로운 진통제가 더 효과적인가를 확인하기 위하여 50명의 환자에게 실험을 하여 자료를 얻었다 . 어떻게 결정을 내려야 하는가 ?
1. 통계적 가설 (Statistical hypothesis) : 모수에 대한 주장귀무가설 : 기존에 존재하는 대립가설에 반대되는 가설
대립가설 : 새로이 입증하고자 하는 가설 (연구자 주장 )
H0 H1 EX) : 30 : 30
H0
무엇을 기준으로 H0 와 H1 중에서 하나를 선택하겠는가 ?
검정 통계량 (Test statistic) : 검정에 사용되는 통계량
EX) 표본평균 , 표본 분산 , 표본비율 등을 사용검정통계량을 정했다면 어떤 경우에 H0 를 기각하겠는가 ?
기각역 (Critical region) : H0 를 기각시키는 검정통계량의 관측 값의 영역
EX) R X c { }
통계적 가설검정의 정의통계적 가설검정의 정의
20081101~19 변환 6시그마를 위한 기초통계 54
모수를 모르므로 위의 기각역을 가지고 결정을 해도 항상 두 가지의 오류를 범한다 .
H0
H0
H1
H1사실 사실
제 1종 오류
제 2종 오류채택
채택
유의수준 (Significance level) : 제 1종 오류를 범할 확률의 최대 허용한계 (α로 표기 )
EX) 유의 수준 5% 검정법 --- 제 1종 오류를 범할 확률이 5% 이하인 검정법
검정력 함수 (Power function) : 모수의 값에 따른 귀무가설 H0 를 기각하는 확률의 변화를 나타내는 함수
유의확률 ( Significance Probability) : 검정통계량의 관측 값을 가지고
귀무가설 H0 를 기각할 수 있는 최소의 유의수준
통계적 가설검정의 정의통계적 가설검정의 정의
두 종류의 오류를 둘 다 작게 해주는 것이 바람직하지만 동시에 작게 해주는 검정법은 없다 . 보통 제 1종 오류가 더 큰 문제를 일으킬 경우가 많으므로 일반적으로 제 1 종 오류의 범위를 최대 허용한계에 고정시켜 놓고 제 2종 오류를 줄이는 경우가 많다
20081101~19 변환 6시그마를 위한 기초통계 55
1-1. 모평균 검정의 예
우리 회사에서 마케팅 계획하고 있는 보험상품의 회사수익을 현재 가치를 계산한 결과가 다음과 같다 .
51 45 48 53 47 45 55 60 46 63 55 59 (단위 : 천원 )
평균수익이 49이상이면 양호하다고 할 수 있는가 ? 유의수준 5%로 검정하여 보자 .
t 검정통계량은 1.804 로 기각역인 1.796 보다 크므로 귀무가설이 기각된다 .
즉 , 보험상품의 평균수익은 49(천원 ) 이상이라고 말할 수 있다 .
모평균 검정의 예모평균 검정의 예
20081101~19 변환 6시그마를 위한 기초통계 56
검정 (Testing) : P-value 이용1. 모평균의 검정
cf) Test Statistic 이용
Z > Z이면 ,
,H0: 0 H1: 0
그러므로 , Z =
X
nZ
/
.196 이면 , 귀무가설 기각
P-value Method 이용 방법
Z = kX
n
/
P( Z > k) = p - value
만약 , 이면 귀무가설 기각 못함p - value >
1-1. 모평균 검정의 예
포항제철에서 생산하는 강판의 두께가 평균이 300, 표준편차가 15이다 .
생산된 강판 중 100개의 표본을 추출하여 두께를 재어 보니 평균 297을 얻어 내였다 .
이때 , 두께 297가 95% 유의수준에서 유의하다 볼 수 있는가 ?
H0: 300 H1: 300, 이므로95% 유의 수준이므로 Z value는 1.96 (양측
검증임 )
Z =X
n
/ /
.296 300
15 1002 67 P( Z > 2.67) = p - value = 0.076
p - value > 0 05. 이므로 귀무가설 기각
검정 : P-Value 의 이용 검정 : P-Value 의 이용
20081101~19 변환 6시그마를 위한 기초통계 57
2. 모분산의 검정
검정 통계량은
이면
이면
일 때 기각
일 때 기각
일 때 기각
H0
H0
H0
이면
2-1. 모분산 검정의 예
삼성전기 부품 20개를 임의 추출하여 동일한 기계를 이용하여 사용시간을 측정하였더니
표본표준편차가 52시간이었다 . 사용시간이 정규분포를 따른다고 가정할 때 건전지 사용시간의 표준편차의 참값이 48시간보다 높다는
뚜렷한 증거가 있는지 유의수준 1%에서 검정하여보자 .
카이제곱 통계량의 기각치보다 작으므로 귀무가설을 기각할 수 없다 .
즉 , 부품 사용시간의 표준편차의 참값이
48시간보다 높다는 뚜렷한 증거가 없다 .
모 분산의 검정모 분산의 검정
20081101~19 변환 6시그마를 위한 기초통계 58
20081101~19 변환 6시그마를 위한 기초통계 59
두 모집단의 비교두 모집단의 비교
20081101~19 변환 6시그마를 위한 기초통계 60
용어의 정의
1. 처리 (Treatment) : 실험단위에 특정한 실험환경
또는 실험조건을 가하는 것 .
2. 독립표본 (Independent sample) : 두 모집단에서 각각 독립적으로 관측된 표본
3. 대응표본 (Paired sample) : 실험단위를 동질적인 쌍으로 택하여
각 쌍에서 임의로 한 실험단위에는 처리 1을 ,
다른 실험단위에는 처리 2를 적용하여 얻은 관측 값 .
용어의 정의용어의 정의
20081101~19 변환 6시그마를 위한 기초통계 61
< 예 > 당사 자사 초 우량회원 중 무작위로 추출한 남녀 (각 1,000 名 )
두 집단간 신판 평균이용금액의 차이 검정 .
• 두 모평균의 비교 : 독립표본 T 검증 모집단 1 :
모집단 2 : * 두 모집단은 서로 독립
두 모평균차에 대한 추론 : 을 알 경우
12
22,
두 모평균의 차인 μ1-μ2 의 추론에 사용할 통계량 :
통계량의 분포 :
추론에 사용할 표준화된 통계량 :
가설검정 : 통계량은 :
두 모평균의 비교 : 독립표본 T 검증두 모평균의 비교 : 독립표본 T 검증
20081101~19 변환 6시그마를 위한 기초통계 62
• 쌍체비교 (Paired comparison) 에 대한 t 검정
: 연속형 변수들에 대한 기본적인 단일변수 서술통계량 및 모평균이 0 인지에 대한 가설의
t 검정 값 및 이의 확률 값 (PRT) 을 구하고자 할 때와 두 집단간 비교 (paired comparison) 에 대한
t 검정을 실시한다 .
특히 , 쌍체 비교 (paired comparison)란 실험단위를 동질적인 쌍 (또는 동질적이라고 생각되는 쌍 )에서
임의로 한 실험단위에 대해서는 처리방법 1 을 적용시키고 나머지 실험집단에는 처리방법 2 를 적용시켜서
두 쌍간의 처리효과를 관측하여 차이를 비교하는 방법이다 .
쌍대비교에 대한 t검정쌍대비교에 대한 t검정
예 > 아래의 숫자는 텔레비전 광고타입 (Type1과 Type2)을 보고 소비자가 그 상품을 소비하고자 하는
정도라 하자 .
이때 , 광고타입 1(Type1)과 광고타입 2(Type2)중 어느 Type이 효과가 있는가를 알아보자 .
70 78 80 72 72 62 76 70 76 58 76 66 72 52
78 53 64 72 92 80 74 74 68 72 83 74 64 60
20081101~19 변환 6시그마를 위한 기초통계 63
예제 풀이 공식예제 풀이 공식),2,1( nixyd iii
0:0: 10 DD HvsH
n
iiD
n
ii
D
D
nddsndd
sd
sdntPp
1
2
1
)1/()(,/
/ˆ
}/{
여기서
값
nstd Dn
D
/
:)( %95
1,025.0
신뢰한계신뢰구간의신뢰수준대한에
20081101~19 변환 6시그마를 위한 기초통계 64
20081101~19 변환 6시그마를 위한 기초통계 65
상관분석 상관분석
20081101~19 변환 6시그마를 위한 기초통계 66
상관분석 (Correlation) 상관분석 (Correlation)
□ 의미 : 두 변수가 1차 선형관계 존재 여부 및 강도를 측정
□ 용어 : 상관계수 (두 변수간의 밀접도 )
□ 상관계수의 정의 공식
22 )()(
))((
yyxx
yyxxr
ii
ii
□ 관련 부문
- 두 변수간의 선형 관계 분석 (회귀분석 ) : 결정계수
- 두 변수 이상의 연관성 분석 ( 다변량 분석 ) : 주성분분석 , 요인분석 등
20081101~19 변환 6시그마를 위한 기초통계 67
□ 산포도와 상관계수와의 관계
r=-1 r=-0.8 r=0
r=1 r=0.8 r=0
산점도와 상관계수와의 관계산점도와 상관계수와의 관계
20081101~19 변환 6시그마를 위한 기초통계 68
20081101~19 변환 6시그마를 위한 기초통계 69
분산분석 (ANOVA)분산분석 (ANOVA)
20081101~19 변환 6시그마를 위한 기초통계 70
testt testt
testt
31y32y
ly3
11y12y
ny1
21y
22y
my2
ANOVA
분산분석과 t검정분산분석과 t검정
20081101~19 변환 6시그마를 위한 기초통계 71
관심 있는 확률표본과 관련하여 다른 형태의 분산을 분석하여 여러 모집단 평균들의 동일성을 검정
주요용어 : 인자 (factor)/요인 /처리 (treatment)/설명변수 , 수준 (level), 반복 (replication), 반응변수
예 : 어떤 약품의 합성반응에서 합성 수율에 대한 가열온도의 영향을 조사하기 위해
가열온도로 70 80 90 ℃를 실험한다면
인자 : 가열온도 / 수준 : 3 개 (70 80 90) / 반응변수 : 합성수율
추가 인자로 납품업자를 고려 시 수준 A, B 가 존재한다면 처리 : 납품업자 by 가열온도 ( 6 가지 처리 )
각 처리마다 5회 반복실험을 한다면 반복 : 5
분산분석의 정의분산분석의 정의
20081101~19 변환 6시그마를 위한 기초통계 72
ijiijy
i
),0(~ 2 Nij
: 전체 평균
: ii번째 집단의 평균
가 정
1) 모집단은 정규분포를 따른다2) 모집단의 분산은 모두 같다3) 표본은 서로 독립이며 무작위로 추출한다
0:0 iH 0:1 iH vs
분산분석 모델분산분석 모델
20081101~19 변환 6시그마를 위한 기초통계 73
ijiijy
#Groupi
ii
ijiijy
)()( iiji
ijiij
y
y
처리효과 잔 차
처리효과
전체평균
분산분석 모델분산분석 모델
20081101~19 변환 6시그마를 위한 기초통계 74
4321
25
15
5
4 가지 학습방법 ( 처리 4 수준 ) , 6 번 반복 측정
예제 자료예제 자료
1 2 3 47 12 14 198 17 18 2515 13 19 2211 18 17 239 19 16 1810 15 18 20
20081101~19 변환 6시그마를 위한 기초통계 75
2
2 )()()( k
i
n
jiiij
k
i
n
jij
ii
YY
k
i
n
ji
k
i
n
jiij
ii
Y 22 )()(
k
i
n
ji
k
i
n
jiij
k
i
n
jij
iii
YYYYYY 222 )()()(
)()( iijiijiij YY
SST = SSW + SSB총 변동 그룹 내 변동 그룹 간 변동
변동 분해 결과변동 분해 결과
20081101~19 변환 6시그마를 위한 기초통계 76
SST총변동
MSB
MSW
k-1SSB
SSW
급간변동
급내변동
F제곱평균자유도제곱합변동요인
1i
i kn
1
1i
in
MSW
MSB
0:0 iH 0:1 iH vs
~MSW
MSBF knk i
F ,1
1
knk iF ,1
ANOVA table ANOVA table
20081101~19 변환 6시그마를 위한 기초통계 77
• 분산분석표에서 귀무가설을 기각하는 경우 어느 그룹간에 모평균 차이가 있는지 분석절차
• 실제로 분산분석결과와 관계없이 수행가능
Fisher’s least significant difference
• 반복수가 다른 경우
Newman-Keuls test • 반복수가 같은 경우
Tukey’s honestly significance difference
• 반복 수 동일 , 유의수준 0.1이상 이용
Tukey’s Studentized range test
• Tukey’s HSD 의 신중성 극복
Scheffe’s test • 반복 수 상이 , 유의수준 0.1이상 이용
Duncan’s test • 반복 수 동일 , 검출력 높으나 오류가능성 높음
다중비교다중비교
20081101~19 변환 6시그마를 위한 기초통계 78
20081101~19 변환 6시그마를 위한 기초통계 79
질적 자료분석질적 자료분석
20081101~19 변환 6시그마를 위한 기초통계 80
범주형 변수 (Categorical Variables)
예 : 성별 (gender) - 여 (0), 남 (1) 출신지역 - 서울 경기• (1), 강원 (2), 충청 (3), 호남 (4), 영남 (5) 교육수준 - 초등 (1), 중 (2), 고등 (3), 대학 (4)
분류 : 이항형 (binary) 예 - 성별 명목형 (nominal) 예 - 출신지역 순서형 (ordered) 예 - 교육수준
범주형 변수 (Categorical Variables)범주형 변수 (Categorical Variables)
20081101~19 변환 6시그마를 위한 기초통계 81
카이제곱 검증 (Chi-Square Test)카이제곱 검증 (Chi-Square Test)
열 1 열 2 열 3 합계
행 1 11n 12n 13n 1n
행 2 21n 22n 23n 2n
합계 1n 2n 3n N
행의 동질성 (Homogeneity) : 각 행의 구성비율이 동일 행과 열의 독립(Independence)
20081101~19 변환 6시그마를 위한 기초통계 82
카이제곱 검증카이제곱 검증
NnjP j /) ( 열
),( ji
NnnjpnEjiiij/) (
열
1) 행들이 동질적이라는 가설 하에서는 이므로 칸 의 기대빈도 (expected frequency) 는
으로 추정 .
2) 관측빈도 (observed frequency) 와 차이는
: Pearson 의 카이 제곱
3) 분할 표에서 Pearson 카이 제곱에 대한 준거 분포는 자유도
의 카이 제곱 분포.
ijn
i j ij
ijij
E
En 22 )(
JI
)1()1( JI
20081101~19 변환 6시그마를 위한 기초통계 83
자료출처자료출처
참고교재 : 통계학 원리와 방법 ( 자유아카데미 ), 만화로 쉽게 배우는 통계학 ( 성안당 )
자료 : SERI 게시자료 다운로드 . 이 창엽 , 2008. 08. 20, easy 기초통계강의 교재 (BB대상 ):1006kb