6 σ 를 위한 알기 쉬운 기초통계

20081101~19 변환 6시그마를 위한 기초통계 1

6σ 를 위한 알기 쉬운 기초통계6σ 를 위한 알기 쉬운 기초통계

0

0.1

0.2

0.3

0.4

0 5 10 15 20불량품

확률

p=0.1p=0.2p=0.3p=0.4p=0.5

이항분포의 정규 근사

X1평균

표준편차

– 정규분포 ( 평균 μ, 분산 σ2) 확률변수 X 는 X ~ N(μ, σ2)

Histogram

0

0.05

0.1

0.15

0.2

8~ 10 10 ~ 12 12~14 14~16 16~18 18~20 20~22

diameter

Height

계급의 크기( 막대 폭 )

계급 값( 막대중앙 )

Histogram

정규분포 (n ≥30)

t (5) : 자유도 5 인 t 분포

t (10) : 자유도 10 인 t 분포


목차목차

1. 통계학 (Statistics) 이란 ?2. 기술통계 (Descriptive Statistic) 란 ?3. 데이터 (Data) 란 ?4. 확률분포 (Probability Distribution)5. 추정 (Inference)6. 검정 (Testing) 7. 두 모집단의 비교8. 상관분석 (Correlation) 9. 분산분석 (ANOVA)10. 질적 자료분석11. 자료출처


통계학의 정의

통계학은 특별한 의도나 목적을 가지고 조사 연구할 때

1. 자료의 수집방법뿐만 아니라

2. 측정된 자료를 정리하여 정보화하고

3. 그러한 정보를 바탕으로 의사결정을 하는데 있어서

과학적이고 효율적인 방법을 연구 개발하는 학문이다 .

통계학이란 ?통계학이란 ?

통계학의 분류 기술 통계학

관찰대상 전체에서 얻어진 자료를 평균 , 분산 등의

요약 통계량이나 여러 가지 그래프를 이용하여 체계적으로 정리 요약하여

자료에 대한 전반적인 특성을 파악하는 통계 기술이다 .

추측 통계학

표본을 관찰함으로써 얻어진 자료를 이용하여

확률이론에 의해 모집단의 특성을 추론하거나 미래를 예측하는 것이 목적이다


뿌리( 목적 )

기술 통계학(Descriptive Statistics) ( 통계량 / 그래프로 자료 특성을 파악 )

추측 통계학(Inferential statistics) ( 모집단 특성추론 / 미래 예측 )

나무 기술통계학 확률이론 추론 특별한 통계분석

( 特徵 ) ( 자료 정리 · 요약 기술 ) ( 통계학 이론바탕 ) ( 통계학 中心이론 ) ( 특별한 분석기법 )

가지 자료 (Data) 란？이산 형 자료연속 형 자료그래프 분석

확률확률분포이항분포정규분포표본분포

통계적 추정정규 모집단에서 추론 ( 모평균추정 / 검정 )두 모집단 비교 ( 모 비율차이추론 )

분산분석회귀분석범주형 자료비모수 추론

교재표현

탐색적 데이터 분석 확률분포 추정 ( 점 / 구간 추정 )검정 ( 통계적 가설검정 )

ANOVA ( 분산분석 )상관 및 회귀분석

잔가지 계수형 ( 이산 ) · 이항 / 포아송 · 초기하 분포계량형 ( 연속 ) · 정규 /t/χ2/F 분포 · 지수 / 감마 / 와이블

추정 · 점 / 구간 추정 · 신뢰구간 추정가설검정 · 단일 / 두 / 둘이상 모집단( 평균 / 분산 / 비율 /비모수 )

ANOVA상관 및 회귀분석

통계학의 구분과 내용통계학의 구분과 내용


- 모집단 (Population) 우리가 알고자 하는 관심의 대상이 되는 전체의 집합 유한 모집단 무한 모집단

- 표본 (Samples) 모집단에서 조사 대상으로 채택된 일부

- 모수 (parameter) 모집단의 특성을 나타내는 척도로 보통 평균과 표준편차 등이 많이 사용됨

- 통계량 (Statistics) 모수에 대응하는 표본의 특성을 나타내는 척도로 보통 산술평균과

표준편차가 많이 사용됨

통계학의 기본 용어

통계학의 기본용어통계학의 기본용어



기술통계는 Data 를 표와 그림으로 표현하는 방법이고 통계적 추론은 Data 를 통해 모집단의 특성을 일반화하는 방법입니다 .

모평균 () 모표준편차 () 모분산 (²) 모비율 (p)

모집단 분포의 특징을 나타내는 대표 값 :

모 수 (Parameter)

모집단 (Population)

통계적 추론

표본추출

X1 , X2 , …, Xn

• 추정 ( 점 / 구간 , Estimation)• 가설 검정 (Hypothesis Test)

표본평균 (X) 표본표준편차 (S)

표본분산 (V)표본비율 (p)

표본 (Sample)

표본 분포의 특징을 나타내는 대표 값 :

통계량 (Statistic)

기술통계란 ?기술통계란 ?


Data 는 변동 (Variance) 를 표현하는 중요한 수단입니다 .

(1) 입론 ( 立論 ) 의 기초가 되는 자료(2) 관찰에서 획득한 사실

DATA 란 무엇인가 ?

• 데이터는 일반적으로 임의의 집단을 대표하는 표본을 통해 수집된다 .

품질 데이터 관리 절차

1. DATA 정의

2. DATA 수집

3. DATA 처리 및 표현

참고 ) 편향 (Bias) 된 데이터로 도출되는 결론의 문제

정보(Information)

데이터처리

데이터(Data)

Data 와 처리과정Data 와 처리과정


1. 데이터 수집하는 방법1) Observational study (

관측연구 )

a. 관심 있는 현상을 관찰

EX) 담배가 폐암을 유발하는가 ?

b. Process에 영향을 주지 않음

2) Designed( controlled) experiment (실험연구 )

- Key process 변수를 통제함으로써 process가 영향을 줄때 data가 얻어짐

EX) 두 약 중 어느것이 인간의 어떤 병을 통제하는데 효과적인가 ?

3) Sample survey (표본조사 )

- Key issue :

실험의 결과로서 일어나는 data에 의한 의사 결정을 하고자 함

• Basic Ideas for Collecting Data(데이터 수집을 위한 기본 아이디어 )

Data 의 수집Data 의 수집

20081101~19 변환 6시그마를 위한 기초통계 10

Data 의 이용방법Data 의 이용방법

2. 데이터 이용 방법

1) 기술통계학 (Descriptive statistics)-자료를 수집하고 정리하여 도표나 표를 만들거나 요약하여 대표 값 ,

표본의 크기 등을 다루는 분야

- 방대한 자료집합의 특징을 쉽게 알 수 있게 함

2) 추측통계학 (Inferential statistics)

- 회귀분석 , 상관분석 , 분산분석 , 범주형 자료분석 , 시계열분석

- Enumerative study

- Analytical study

20081101~19 변환 6시그마를 위한 기초통계 11

Type of Studies (연구의 유형 )

1. 대부분의 실험계획은 Analytical studies 임

- 통계적 모형을 설정하고 또한 설정된 모형이 합리적인 여부를 평가하며 자료로부터 얻어지는

정보에 근거해 미지의 특성에 대한 결론을 내리고 미래에 일어날 현상에 대한 예측을 함

2. 최종 상품 출시 Testing은 Enumerative study임

- 오직 제품의 특성을 나타내기 위한 시도이기 때문

3. Analytical study에 어떠한 통계적 방법을 적용할 지에 주의 바람

기본적 통계 용어

1) 모집단 (Population) : 주어진 문제에 있어서 관심이 있는 모든 가능한 개체의 집단

2) 표본 (Sample) : 관찰 가능한 모집단의 일부분

연구의 유형연구의 유형

20081101~19 변환 6시그마를 위한 기초통계 12

20081101~19 변환 6시그마를 위한 기초통계 13

Data 란 ?Data 란 ?

20081101~19 변환 6시그마를 위한 기초통계 14

: 모집단으로부터 얻은 표본으로부터 얻은 어떠한 관심 있는 현상의 실제 관측치

EX) 2 개의 다른 시약 처리에 의한 2개 표본 환자 집단의 증세 호전 시간

한 공장 라인에서 랜덤하게 뽑힌 20 개의 샘플에서 발견된 불량품의 수

Data

변수 (Variable): 측정단위 사이에 변화하는 특성을 보여주는 것

통계학의 목적 : Data를 의미 있게 표현 (Description)하고 요약 (Summary)하는 것

- 질적 변수 (Qualitative Variables)

1. 통계 용어의 정리

- 양적 변수 (Quantitative Variables)1) 이산형 (Discrete) : 정해진 수량으로 표현되어 지는 변수 –

Ordinal(Categorical)

2) 연속형 (Continuous) : 주어진 범위 내에서의 가능한 모든 실수 값을 가지는 변수

EX) 남녀 , 6학년 학생의 반 , 혈압 등급 (고 , 중 , 저 )

EX) 초등학교 학년 , 마라톤의 순위

EX) 이율 , 시간

2. 변수의 종류

3. Random 표본

표본은 모집단을 대표한다는 가정이 되어야 한다 .

이 표본은 모집단에서 랜덤하게 추출되었다는 Idea 는 많은 통계적 이론의 기초가 되고 있다 .

Data와 변수Data와 변수

20081101~19 변환 6시그마를 위한 기초통계 15

- 측정 가능 데이터 (수량 데이터 )

당신의 나이는 ？ ( 세 )

한 달에 구입하는 생수는 ？ ( 개 )

몸무게 , 온도 , 100m 달리기 기록 , 키를 잴 때 눈금과 눈금 사이 간격이 균등

- 측정 불가 데이터 (카테고리 데이터 )

통계학을 읽고 난 느낌은 ？ 1. 매우 재미있다 2. 재미있다 3. 보통이다 . 4. 재미없다 5. 매우 재미없다 ( 실무에서 수량데이터로 취급하는 경우가 있음 )

출신지 , 날씨 , 혈액형 급과 급사이의 간격이 균등하지 않음

측정가능 데이터 / 측정 불가 데이터 ( 앙케트 )

측정 가능 ·불가능 데이터측정 가능 ·불가능 데이터

20081101~19 변환 6시그마를 위한 기초통계 16

Data 의 표현 : 데이터의 전체적인 분위기를 파악함

1. 표현의 목적 : 표본의 정보를 요약하여 보여주는 것

2. 빈도 표 (Frequency table)

1.00031

0.0160.032120 - 22

0.0320.065218 – 20

0.0810.161516 – 18

0.0490.097314 – 16

0.0970.193612 – 14

0.1770.3551110 – 12

0.0490.097308 – 10

HeightRelative Frequency

FrequencyClass Interval계급

Relative frequency =

Frequency

Total # of observations in sample

Height = Relative frequency / Width

( 상대도수 )

3. 히스토그램(Histogram)

Histogram

0

0.05

0.1

0.15

0.2

8~ 10 10 ~ 12 12~14 14~16 16~18 18~20 20~22

diameter

Height

계급의 크기 ( 막대 폭 )

계급 값( 막대중앙 )

Data 의 표현방법Data 의 표현방법

20081101~19 변환 6시그마를 위한 기초통계 17

그 외의 방법들

4. Box plot

94N =

HOURS

60

50

40

30

20

10

0

-10

92

91

490

69

5. 줄기와 잎 그림 (Stem-and-leaf plot)

HOURS Stem-and-Leaf Plot Frequency Stem & Leaf 34.00 0 . 000001111111222222222333333344444427.00 0 . 55555555566666666677777788817.00 1 . 000000000000222448.00 1 . 555555663.00 2 . 0005.00 Extremes (>=25) Stem width: 10Each leaf: 1 case(s)

기타 표현방법기타 표현방법

20081101~19 변환 6시그마를 위한 기초통계 18

6. Data 표현에 있어서의 고려하여야 할 점

ex) 히스토그램의 예에서

같은 Data 임에도 불구하고 결과를 임의로 변질시킬 위험이 있다 .

0 10 20 30

tv / week

0

50

100

150

Using 3 bins

0 10 20 30

tv / week

0

5

10

15

20

Using 40 bins

0 10 20 30

tv / week

10

20

30

40

50

Using 10 bins

7. Data 표현을 통해 관심있게 보아야 할 점

1) 대칭성 (Symmetry)

대칭(Symmetric)

Rightly skewed

Leftly skewed

2) 봉우리(Modality)

단봉 (Unimodal) 양봉 (Bimodal)

3) 이상치(Outlier)

Data의 표현 시 고려할 점Data의 표현 시 고려할 점

20081101~19 변환 6시그마를 위한 기초통계 19

기술 통계 (Descriptive Statistic)

위치 모수 (Location parameter) : 평균 , 중앙값 , 최빈 값

측정 모수 (Scale parameter) : 분산 , 표준편차

반복되어 가장 많이 나타나는 측정치

평균 (Mean, average) :

xn

xii

n

1

1

중앙값 (Median) :

n개의 데이터를 크기 순으로 나열했을 때 n이 홀수이면 중앙에 위치하는 값이고 , 짝수이면 중앙에 위치한 2개의 데이터를 평균한다 .

최빈 값 (Mode) :

EX) 1, 3, 5, 5, 8, 8, 9, 9, 9, 10, 11

Mean = (1+3+5+5+8+8+9+9+9+10+11)/11 = 7.090909

Median = 8

Mode = 9

1. 중심의 측정 (Measure of center)

기술통계기술통계

2. 산포의 측정 (Measure of spread)

표본 분산 (Sample variance) :

S x x ni

n2 2

1

1 [ ( ) ] / [ ]

표본 편차 (Standard deviation) :

범위 (Range) :

데이터의 가장 큰 값 (MAX) – 데이터의 가장 작은 값(MIN)

√S²

20081101~19 변환 6시그마를 위한 기초통계 20

통계적 추론 (Statistical Inference)

1. 모수 (Parameter) : 모집단의 특성치

= 모집단의 평균 2= 모집단의 분산

2. 추정치 (Estimator) : 모집단에 대응되는 표본의 특성치

x

= 표본집단의 평균의 추정치 S 2 = 표본집단의 분산의 추정치

=들의 평균 의 분산 =

x

x 2 / n

n 이 증가할수록 2 / n 값은 작아짐

표본의 수가 증가할수록 더 정확한 추정치를 얻을 수 있다 .

변동계수 (Coefficient of variation, CV)

CV= (비율 ) 또는 *100 (PERCENT) / /

서로 다른 평균과 표준편차를 갖는 여러 자료의 상대적인 변동 혹은 산포를 측정하기 위해각 자료의 평균과 표준편차를 동시에 고려한 계수

선형추가 모형 (Linear additive model)

X i i i: 표본추출 등의 문제 등으로 발생한 오차

표준편차는 이 오차의 추정치이다 .

은 의 추정 값이다 .x

통계적 추론통계적 추론

20081101~19 변환 6시그마를 위한 기초통계 21

20081101~19 변환 6시그마를 위한 기초통계 22

확률분포확률분포

20081101~19 변환 6시그마를 위한 기초통계 23

신뢰성 데이터는와이블 분포를

따르는 경우가 많다 .

와이블 분포 분포

F 분포

확률분포의구분

이항 분포 포아송 분포 정규 분포

t 분포

계수형( 이산형 확률 분포 )

계량형( 연속형 확률 분포 )

2

초기하 분포 감마 분포

지수 분포

확률분포의 구분확률분포의 구분

20081101~19 변환 6시그마를 위한 기초통계 24

이항 분포( 불량품 )

정규 분포

포아송 분포( 결점수 )

p < 0.1

n > 50

평균≥ 5

np≥5

n(1-p)≥50

0.1

0.2

0.3

0.4

0 5 10 15 20불량품

확률

p=0.1p=0.2p=0.3p=0.4p=0.5

1. 이항분포의 정규 근사

이산형 확률분포와 정규분포 근사 (Approximately)이산형 확률분포와 정규분포 근사 (Approximately)

0

0.2

0.4

0.6

0.8

1

0 5 10 15 20결점수

확률

dpu=0.1dpu=1.0dpu=2.0dpu=2.5dpu=4.0

2. 포아송 분포의 정규 근사

20081101~19 변환 6시그마를 위한 기초통계 25

68% within1 standard deviation

0.340 0.340

95% within 2 standard deviations

99.7% of data are within 3 standard deviations of the mean

0.001 0.0010.024 0.024

0.135 0.135

- 3 - 2 - + 2 + 3 +

정규분포 (Normal Distribution) 정규분포 (Normal Distribution)

20081101~19 변환 6시그마를 위한 기초통계 26

X1평균

표준편차

– 정규분포 ( 평균 μ, 분산 σ2) 확률변수 X 는 X ~ N(μ, σ2)

Z0

1

? Z

– 표준정규분포 ( 평균 0, 표준편차 1) 확률변수 Z 은 Z ~ N(0,1)

-i

i

xZ Z

변환

정규분포

),(~ 2NX

표준정규분포

)1,0(~ 2NZ

※ 표준정규분포 및 확률밀도함수에서 넓이 = 비율 = 확률표준정규분포 (Standard Normal Distribution) 변환표준정규분포 (Standard Normal Distribution) 변환

20081101~19 변환 6시그마를 위한 기초통계 27

표준정규분포 변환표준정규분포 변환

20081101~19 변환 6시그마를 위한 기초통계 28

− t- 분포는 정규분포보다 더 넓게 퍼져 있고 , 꼬리부분이 더 평평함 . − 평균을 중심으로 대칭이고 , 종 모양을 띄고 있어 정규분포와 형태가 유사함 . − 표본크기가 커질수록 분포가 중심부근에서 점점 뾰족해 지고 , 표본의 크기가 30 이상이면 정규분포가 거의 같아짐 .

정규분포 (n ≥30)

t (5) : 자유도 5 인 t 분포

t (10) : 자유도 10 인 t 분포

표본분포 (Sample Distribution) :t-분포표본분포 (Sample Distribution) :t-분포

20081101~19 변환 6시그마를 위한 기초통계 29

– 카이제곱 분포는 표본분산 s2 과 관련된 분포임 .

– 확률 변수 가 각각 표준정규 분포 N(0,1) 을 따르고 , 서로 독립일 때

그들 제곱합 l I 은 자유도 k 인 카이 제곱분포 χ2(k) 를 따른다 .

– 모집단 분산 추론에 카이제곱 분포 를 이용한다

k1 ZZ ,, 22

221 kzzz

)1(~)1( 2

2

2

nSn

),(2 k

)1,(2 k

표본분포 : χ²( 카이제곱 )분포표본분포 : χ²( 카이제곱 )분포

20081101~19 변환 6시그마를 위한 기초통계 30

– F- 분포는 두 정규모집단의 분산을 비교하기 위한 추론에 주로 사용 .– 확률 변수 χ1

2 과 χ22 가 각각 자유도 ν1( 분자의 자유도 ) 과 ν2( 분모의 자유도 ) 인

카이 제곱분포를 따르며 서로 독립이라고 할 때 , 통계량

는

자유도 (ν1, ν2) 인 F- 분포 (ν1, ν2) 를 따른다 .

22

2

12

1

/

/

F

표본분포 : F 분포표본분포 : F 분포

20081101~19 변환 6시그마를 위한 기초통계 31

구 분 계수형 확률 분포 계량형 확률 분포

종 류 이항 분포 포아송 분포 정규 분포 표준 정규 분포

특 징 불량형 데이터를 대표하는 분포

결점형 데이터를 대표하는 분포

계량형 데이터를 대표하는 분포

평균이 0 이고 , 표준편차가 1 인 정규 분포

용 도

결과가 성공 / 실패 불량 / 양품 등 두 가지로 표현되는 데이터의 확률 계산

일정 단위 ( 연속적인 시간 , 공간 , 면적 , 구간 등 )당특정한 사건이 일어날 확률 계산

정규분포를 따르는 데이터의 확률 계산

정규분포의 확률 계산을 편리하게 해 줌 . 또한 서로 다른 계량 형 데이터를 객관적으로 비교

대표적 확률분포 요약대표적 확률분포 요약

20081101~19 변환 6시그마를 위한 기초통계 32

20081101~19 변환 6시그마를 위한 기초통계 33

확률분포 (Probability Distribution)확률분포 (Probability Distribution)

20081101~19 변환 6시그마를 위한 기초통계 34

Ⅰ. 이산확률분포

1. 이항 분포 (Binomial distribution)1) Bernoulli 의 확률 분포

Bernoulli 의 실행 : 두 가지 실행 가능한 결과 EX) 성공 , 실패

성공의 확률이 p이라면 실패의 확률은 q=1-pE X p( ) Var X pq p p( ) ( ) 1

2) 이항 분포 : n개의 Bernoulli 확률 변수로 이루어짐

EX) 완구 완제품 중 34개를 무작위로 뽑아내어서 불량률이 17%일 때 몇 개의 불량품이 나오는지 조사

P X xn

xp px x( ) ( )

1 1

: 이항 분포 함수

X B n p~ ( , ) E X np( ) Var X npq np p( ) ( ) 1

2. 포아송 분포 (Poisson distribution)단위시간이나 공간에서의 희귀사건의 발생건수의 분포

EX) 1898년 프러시아 기마병중에서 말에 차여 사망한 숫자

P X xe

x( )

!

x: 포아송 분포 함수

E X( ) Var X( ) X Poisson~ ( )

이산확률분포 (Discrete Probability Distribution)이산확률분포 (Discrete Probability Distribution)

20081101~19 변환 6시그마를 위한 기초통계 35

Ⅱ. 연속확률분포 (Continous Probability Distribution)

: 정규분포를 변환을 통해 표준 정규 분포로 표현

평균이 0이고 분산이 1인 정규 분포1.-1 표준 정규 분포 (Standard Normal

Distribution)

f z( ) 1

2e

z

2

2 X N~ ( , )0 1: 표준 정규 분포 함수

표 준 화

ZN

N

~ ( , )0 1 EX) P X b PX b

P Zb

( ) ( ) ( )

1. 정규 분포 (Normal Density Distribution)

f x( ) 1

2e

x

( )

2

22

P X( ) = 0.683

P X( . . ) 196 196 = 0.95

P X( ) 2 2 = 0.954

P X( . . ) 2 56 2 56 = 0.99

P X( ) 3 3 = 0.997

: 정규 분포 함수 X N~ ( , ) 2 E X( ) Var X( ) 2

통계학에 있어서 중추적인 역할을 하는 분포

1) 평균을 중심으로 좌우대칭의 종 모양의 분포

2) 평균 = 중앙값 = 최빈값

3) 평균은 분포의 중심위치를 결정하고 , 분산은 분포의 모양을 결정

4)

연속확률분포 (Probability Distribution)연속확률분포 (Probability Distribution)

20081101~19 변환 6시그마를 위한 기초통계 36

1.-2 이항분포의 정규근사

에 대해 n이 충분이 크고 p가 0 또는 1에 가깝지 아니하면

X B n p~ ( , )

표준화된 확률변수 는 근사적으로 표준정규 분포 를 따르게 된다 .X np

npq

X N~ ( , )0 1

1.-3 중심극한정리 (Central Limit Theorem)

평균이 고 분산이 인 임의의 확률분포를 가지는 모집단으로부터 크기 n 인 확률표본 X1,X2,…,Xn 을 취했을 때 표본평균 는 n 이 충분히 크면 대략적으로 정규분포 을 따른다 .

2

X Nn

( , ) 2

2. t 분포 (Student t-Distribution)

대표본에서는 모집단의 분포가 정규분포가 아닐 때에도 중심극한 정리에 의하여 는 정규분포에 가까운 분포를 따르며 대신에 표본표준편차 (s) 를 대입해도 위의 사실은 근사적으로 성립한다 . 그러나 소표본에서는 모집단이 정규분포를 따를 때에도 대신에 s를 대입한 것이 정규분포와는 많이 다를 수 있음

보통 n 이 30 보다 작은 경우 분포는 Z- 통계량에서 대신에 s를 대입한 t- 통계량의 분포를 사용 .

X

X1, X2, ... , Xn 이 에서의 랜덤하게 추출한 표본일 때 (n < 30)X N~ ( , ) 2

tX

S nt n

/

~ ( )1 n-1 : 자유도 (Degree of Freedom)

연속확률분포 (Probability Distribution)연속확률분포 (Probability Distribution)

20081101~19 변환 6시그마를 위한 기초통계 37

< 풀이 2> 정규분포에 의한 근사적 계산으로 비교해보자

n=1,000, p=0.002

X N np npq N N ( , ) ( . , . . ) ( , . )1000 0 002 1000 0 002 0 998 2 1996

f z( ) 1

2 ez

2

2Z N~ ( , )0 1

이때 , x 를 N(2, 1.996) 에 0.5 의 구간보정을 하여 확률을 계산하면 , 포아송 분포로 구한 실제확률 0.053 에 가까워짐을 볼 수 있다 .

P X c PX c

P Zc

P X P Z P Z

( ) ( ) ( ), , .

( ) (.

) ( . ) . . .

2 1412

55 2

14122 12 0 5 0 483 0 017

P X P X P Z P Z( ) ( . ) (.

.) ( . )

. . .

5 4 54 5 2

1412177

0 5 0 4616 0 0384

1. 어느 제조 공장의 불량률이 0.2%로 알려져 있다 . 무작위로 1,000개를 취하여 검사할 때

불량품이 5개 이상 나올 확률은 얼마인가 ?E X( )

np 1000 0 002 2. ,

P X P X

e e e e e

e

[ ] [ ]

! ! ! !

( . . ) . .

5 1 4

12

0!

2

1

2

2

2

3

2

4

1 1 2 2 133 0 667 1 0 947 0 053

2 0 2 1 2 2 2 3 2 4

2

p X xe

x

x

[ ]!

f xe

x

x

( )!

,

Example 1 Example 1

20081101~19 변환 6시그마를 위한 기초통계 38

20081101~19 변환 6시그마를 위한 기초통계 39

확률분포와 표본분포확률분포와 표본분포

20081101~19 변환 6시그마를 위한 기초통계 40

1. 확률 표본 : 서로 독립이고 같은 분포를 따르는 확률 변수들I i d (Independently Identically Distributed)

2. 통계량 (Statistic) : 확률표본의 함수 (표본에서 얻은 정보량 )

표본평균 : 표본분산 :Xn

X ii

n

1

1S

nX Xi

i

n2 2

1

1

1

( )

3. 표본평균의 분포와 중심극한정리

중심극한정리 : 앞 Chapter의 정규분포 참조

에서 구한 표본평균 는 을 따른다 .Nn

( , ) 2

N ( , ) 2 X

Nn

( , ) 2

N 이 증가할수록

(a)->(b)->(c)->(d)로 변함

Ⅰ. 확률표본 (Random Sample)Ⅰ. 확률표본 (Random Sample)

20081101~19 변환 6시그마를 위한 기초통계 41

1. 분포 (Chi-Squared Distribution)

2

확률변수 가 각각 표준정규분포 N(0, 1) 을 따르고 서로 독립일 때 ,

의 분포를 자유도 (Degree of Freedom) K 인 ( 카이제곱 ,Chi-Square) 분포라 한다 .

2

Z Z ZK1 2, ,....

Z Z Z KK12

22 2 2, ,.... ~ ( )

표본분산 의 분포는 Sn

X Xii

n2 2

1

1

1

( )

단일모집단의 경우 : ~

22

21 ( )nS 2 1( )n

독립인 두 집단의 경우 : ~

21 2 1( )n n

2

1 2

2

21 ( )n nSp

S n S n S n np2

1 12

2 22

1 21 1 2 [( ) ( ) ] / ( )단 ,

2. t 분포 (t-Distribution) 확률 변수 Z ~ N(0,1) 이고 , 이고 서로 독립이라면 ,

V K~ ( ) 2

tZ

V K~

/

을 자유도가 K인 t분포라 한다 .

분산을 모를 경우 표본 분산을 사용하여 X

S nt n

/

~ ( )1

분산이 동일한 두 정규모집단일 경우 X Y

S n nt n n

p

( )

/ /~ ( )

1 2

1 21 21 1

1

Ⅱ. 표본분포 (Sample Distribution) -1Ⅱ. 표본분포 (Sample Distribution) -1

20081101~19 변환 6시그마를 위한 기초통계 42

3. F 분포 (F-Distribution)

분산이 동일한 두 개의 정규 모집단으로부터 각각 랜덤하게 추출한 의 2 조의 표본에서

의 비 ( 단 , F>1 즉 , ) 는 자유도

인 F 분포 를 한다 .

FV

V 1

2

V V1 2V K12

1~ ( ) V K22

2~ ( ) 1 1 2 21 1 n n,

F F K K~ ( , )1 2

n n1 2,

1) 일때 이다 .1

2 1FF n n~ ( , )

F F K K~ ( , )1 2

2) 두 정규모집단에서의 표본분산의 비에 대한 분포

22

12

12

22 1 21 1* ~ ( , )

S

SF n n

Ⅱ.표본분포 -

2

Ⅱ.표본분포 -

2

20081101~19 변환 6시그마를 위한 기초통계 43

20081101~19 변환 6시그마를 위한 기초통계 44

추론 (추정 /검정 )추론 (추정 /검정 )

20081101~19 변환 6시그마를 위한 기초통계 45

통계적 추론 : 표본에서 얻은 정보를 이용하여 모집단 (모수 )에 대한추측을 하는 과정

추 정 : 점 추정 --- 불편성 , 유효성 (최소분산불편추정량 )

구간추정 --- 같은 신뢰수준 하에서는 구간의 길이가 최소

검 정 : 모수에 대한 주장의 옳고 그름을 판정하는 과정1. 점 추정 (Point estimation)

: 표본에서 얻어지는 정보를 이용하여 미지인 모수의 참값으로 생각되는 하나의 수 값을 택하는 과정

추정 량 (Estimator) : 모수를 추정하기 위하여 사용되는 통계량

추정 값 (Estimate) : 추정량의 관측 값

표준오차 (Standard Error) : 추정량의 표준편차

(1) 점 추정에 요구되어지는 성질

a. 불편성 (Unbiased) : 추정량의 분포의 중심위치에 요구되는 성질

b. 유효성 (Efficiency) : 추정량의 산포에 요구되는 성질

c. 일치성 (Consistency)

d. 충분성 (Sufficiency) : 표본이 제공하는 모수에 대한 모든 정보를 이용한 통계량

불편추정량 (Unbiased estimator)

추론 (Inference)추론 (Inference)

20081101~19 변환 6시그마를 위한 기초통계 46

20081101~19 변환 6시그마를 위한 기초통계 47

검정 (Testing) 검정 (Testing)

20081101~19 변환 6시그마를 위한 기초통계 48

가설검정 ( 假設檢定 : Hypothesis testing) 의 개요

정의 : 모집단의 모수 또는 분포 등에 관하여 귀무가설과 대립가설을 설정한 후에 표본을 통하여 얻어지는 정보에 따라서 어떤 가설이 맞는가를 결정하는 통계적 분석 ( 용어적 정의임 )

가설검정의 의미 : 관심이 되는 모집단 특성에 대한 어떠한 주장을 확인하기 위해 그 모집단으로부터 표본을 추출하여 분석해 봄으로써 모집단에 대한 어떠한 주장의 타당성을 검토해 보는 것

가설검정의 개요

가설검정가설검정

20081101~19 변환 6시그마를 위한 기초통계 49

계량형 계수형 비 모수

모집 단수

전제 1 정규성 (Normality Test) : (Stat - Basic Stat - Normality Test) 이산형 비정규성

전제 2등분산 (○)

(Stat - Basic Stat - 2 variances )등분산 (×) 등분산 (×) - -

비교대상

평균 비교 ( 중심 ) 분산 비교 ( 산포 ) 비율 비교 목표 값 비교

1 1 Sample t 1 Sample Z

- - 1-Proportion1 Sample-Sign

1Sample-Wilcoxon

22Samplet “AEV” 선택

(Paired t)2 Sample t

( “assume EV” 선택 안함 )2 Variances F Test 2-Proportion Mann-Whitney Test

2 이상One-way ANOVA

(Two-way ANOVA)-

Test for Equal Variances(F Test or Bartlett’s Test)

Chi-square Kruskal-Wallis Test

주로 사용하는 곳

•표본이 정규분포일 경우에 사용•표본의 평균치가 같은지를 알아 볼 경우

표본의 분산이 같은 지를 알아 볼 경우

표본의 비율이 같은지를 알아 볼 경우

•표본이 비정규 분포를 보일 경우

Ho Ho: M1 = M2 = M3 = ...

미니텝Stat - Basic Stats - 1 Sample-t -1Sample Z ( 를 알 때 )

Stat - Basic Stats - 2-Sample tStat-Anova-One-way(Twoway)

Stat-Basic Stats- 2-Sample t (“assume equal variances” 선택 안 함 )

Stat - Basic Stats - 2 variances F-Test P-Value

Stat - Anova - Test for Equal Variances

Stat -Basic Stats -1, 2 proportion

Stat -Tables - Chi-square Test

Stat - Nonparametric - 1 Sample-Sign, WilcoxonMann -WhitneyKruskal -Wallis

확률분포정규분포 , t 분포 , 2 분포 , F 분포

지수분포 , 감마분포 , 와이블 분포 이항 / 포아송초기하 분포

분석목적에 따른 통계적 가설검정의 형태분석목적에 따른 통계적 가설검정의 형태

20081101~19 변환 6시그마를 위한 기초통계 50

가설검정유의수준 = 0.05 인 경우 :P- 값 >0.05 이면 Ho 기각하지 못함P- 값 < 0.05 이면 Ho 기각

계수형 데이터

Stat -Tables - Chi-square Test

Stat -Basic Stats -2 proportion

Stat -Basic Stats -1 proportion

카이제곱검정

1-Proportion

2-Proportion

하나의 모집단

두 개의모집단

둘 이상의 모집단

계량형 데이터

Normality Test Ho: 정규분포를 따른다 , H1: 정규분포가 아니다Stat - Basic Stat - Normality Test

Ho: H1: Stat - Basic Stats - 2-Sample t “assume equal variances” 선택

One-wayANOVA

Ho: H1: 적어도 하나는 다르다Stat - Anova- One-way

정규 데이터

표준편차의 신뢰구간

하나의 모집단둘 이상의 모집단

2 Sample t( 동일한 분산 ) 2 Sample t

( 분산이 다를 때)

1 Sample t 또는1 Sample Z

Ho: 목목목H1: 목목목Stat - Basic Stats - 1 Sample-t ( 를 모를 때 ) 1Sample Z ( 를 알 때 )

둘 이상의 모집단 두 개의 모집단

등 분산Yes

No

Ho: H1: Stat - Basic Stats - 2-Sample t “assume equal variances” 선택 안 함

Test for Equal Variances(F Test or Bartlett’s Test) Ho: 목목목

H1: 목목목표준편차가 특정 값과 같은 지에 대한 검정은 Minitab 이 지원하지 못한다 . 다만 표준편차의 추정치와 신뢰구간을 구하기 위해서는 다음 메뉴를 활용한다 . Stat -Basic Statistics - Display Descriptive Stats

Ho: H1: 적어도 하나는 다르다Stat - Anova - Test for Equal Variances두 모집단만을 비교할 때는 F-test 사용

Ho: M1M ( 목표 값 )H1: M1M ( 목표 값 )Stat - Nonparametric - 1 Sample-Sign 또는Stat - Nonparametric - 1 Sample-Wilcoxon

1 Sample-Sign 또는 1 Sample-Wilcoxon

Mann-Whitney Test

비정규 데이터

Kruskal-Wallis Test

하나의 모집단

두 개의모집단

둘 이상의 모집단

Ho: M1 = M2H1: M1 M2Stat - Nonparametric - Mann-Whitney

Ho: M1 = M2 = M3 = ...H1: 적어도 하나는 다르다Stat - Nonparametric - Kruskal-Wallis

Test for Equal Variances(Levene’s Test)

가설검정 로드 맵가설검정 로드 맵

20081101~19 변환 6시그마를 위한 기초통계 51

X 의 변화가 Y 를 어떻게 변화시키는가 ?(= 입력인자 X 값에 따라 출력변수 Y 의 결과가 달라지는가 ？ )예 ) 제품부피 ( 연속형 ) 에 따라 배송시간 (L/T)( 연속형 ) 이 달라 지는가？ ( 포장시간 X 와 총 배송기일 Y 관계 )

검정 : 상관분석 ( 관계 ), 회귀분석 ( 관계 ) 산점도 ( 그래픽 )

X 의 변화가 Y 를 어떻게 변화시키는가 ?(= 입력인자 X 값에 따라 출력변수 Y 의 결과가 달라지는가 ？ )예 ) 제품부피 ( 연속형 ) 에 따라 배송시간 (L/T)( 연속형 ) 이 달라 지는가？ ( 포장시간 X 와 총 배송기일 Y 관계 )

검정 : 상관분석 ( 관계 ), 회귀분석 ( 관계 ) 산점도 ( 그래픽 )

X 의 변화가 Y 를 어떻게 변화시키는가 ?(= 입력인자 X 各各의 값에 따라 출력변수 Y 의 결과가 달라지는가 ？ )예 ) 교통체증 정도 ( 연속형 지수화 ) 에 따라 적기 배송 여부 (○,X) 가 달라 지는가？ ( 상담원의 경력 X 와 리콜 여부 Y )

검정 : 로지스틱 회귀분석 (Logistic Regression)

X 의 변화가 Y 를 어떻게 변화시키는가 ?(= 입력인자 X 各各의 값에 따라 출력변수 Y 의 결과가 달라지는가 ？ )예 ) 교통체증 정도 ( 연속형 지수화 ) 에 따라 적기 배송 여부 (○,X) 가 달라 지는가？ ( 상담원의 경력 X 와 리콜 여부 Y )

검정 : 로지스틱 회귀분석 (Logistic Regression)

연속형 이산형결과 (Y)

원인(X)

연 속

형이

산 형

평균이 다른가 ? ( 중심 )(= 입력인자 X 유형에 따라 출력변수 Y 의 결과가 달라지는가 ？ )예 ) 배송방법 ( 이산형 ) 에 따라 배송시간 (L/T)( 연속형 ) 이 달라 지는가？ ( 고객 연락처 개수 X 와 주식 회전율 Y 관계 )

검정 : Sample t-test, Z-test, ANOVA, 히스토그램

전제 ① 정규성 검증 ② 등분산 검정

분산이 다른가 ?검정 : Test for Equal Variances , F-test 그래픽 (Box-plot, Multi-vari Chart)

평균이 다른가 ? ( 중심 )(= 입력인자 X 유형에 따라 출력변수 Y 의 결과가 달라지는가 ？ )예 ) 배송방법 ( 이산형 ) 에 따라 배송시간 (L/T)( 연속형 ) 이 달라 지는가？ ( 고객 연락처 개수 X 와 주식 회전율 Y 관계 )

검정 : Sample t-test, Z-test, ANOVA, 히스토그램

전제 ① 정규성 검증 ② 등분산 검정

분산이 다른가 ?검정 : Test for Equal Variances , F-test 그래픽 (Box-plot, Multi-vari Chart)

YN

결과물이 다른가 ?(= 입력인자 X 유형에 따라 출력변수 Y 의 결과가 달라지는가 ？ )예 ) 교통체증 정도 ( 정체 , 지체 , 원할 ) 에 따라 적기 배송 여부 (○,X) 가 달라 지는가？ ( 고객 연락처 갯수 X 와 본인 통화여부 Y )

검정 : 비율검정 , 카이제곱 (2) 검정 , Pareto Chart

결과물이 다른가 ?(= 입력인자 X 유형에 따라 출력변수 Y 의 결과가 달라지는가 ？ )예 ) 교통체증 정도 ( 정체 , 지체 , 원할 ) 에 따라 적기 배송 여부 (○,X) 가 달라 지는가？ ( 고객 연락처 갯수 X 와 본인 통화여부 Y )

검정 : 비율검정 , 카이제곱 (2) 검정 , Pareto Chart

Chi-SquareTest for Equal VariancesANOVA3 이상

2 Proportion2 Variances F Test

2 Sample t Paired t2

1 Proportion-1 Sample t , z1

비율비교분산비교평균비교집단 수

X·Y에 따른 통계적 가설검정의 형태X·Y에 따른 통계적 가설검정의 형태

20081101~19 변환 6시그마를 위한 기초통계 52

H0 참 (H1 거짓 ) H0 거짓 (H1 참 )

옳은 결정 (1-α) 제 2 종의 오류 (β) :소비자

제 1 종의 오류 (α) : 생산자 옳은 결정 (1-β)

귀무가설 H0 채택

귀무가설 H0 기각

실제의사결정

가설검정에서 발생하는 오류의 형태가설검정에서 발생하는 오류의 형태

1. 가설검정에서 오류를 완전히 배제할 수는 없으며 , 단지 어느 정도의 작은 확률로 이를 피하고자 할 수밖에 없다 .2. 가설검정을 수행할 때 이와 같은 두 가지 오류를 범할 확률을 되도록 작게 하는 것이 바람직할 것이다3. 그러나 두 가지 오류를 동시에 최소로 할 수 있는 검정방법은 일반적으로 존재하지 않는다 .4. 따라서 실제적으로 보다 중요한 의미를 가지는 제 1 종 오류를 범할 확률을 미리 지정된 확률 이하 수준 ( 유의수준 ) 로 하는 검정방법을 사용함 .

20081101~19 변환 6시그마를 위한 기초통계 53

통계적 가설 검정 (Statistical Hypothesis Testing)의 정의: 표본에서 얻은 정보를 이용하여 모수에 대한 주장의 옳고 그름을 판정하는

과정 EX) 진통제의 진통효과 문제

기존 진통제는 진통효과가 나타나는 시간이 평균 30분 , 표준편차 5분이라 한다 . 연구진에서 개발한 새로운 진통제가 더 효과적인가를 확인하기 위하여 50명의 환자에게 실험을 하여 자료를 얻었다 . 어떻게 결정을 내려야 하는가 ?

1. 통계적 가설 (Statistical hypothesis) : 모수에 대한 주장귀무가설 : 기존에 존재하는 대립가설에 반대되는 가설

대립가설 : 새로이 입증하고자 하는 가설 (연구자 주장 )

H0 H1 EX) : 30 : 30

H0

무엇을 기준으로 H0 와 H1 중에서 하나를 선택하겠는가 ?

검정 통계량 (Test statistic) : 검정에 사용되는 통계량

EX) 표본평균 , 표본 분산 , 표본비율 등을 사용검정통계량을 정했다면 어떤 경우에 H0 를 기각하겠는가 ?

기각역 (Critical region) : H0 를 기각시키는 검정통계량의 관측 값의 영역

EX) R X c { }

통계적 가설검정의 정의통계적 가설검정의 정의

20081101~19 변환 6시그마를 위한 기초통계 54

모수를 모르므로 위의 기각역을 가지고 결정을 해도 항상 두 가지의 오류를 범한다 .

H0

H0

H1

H1사실 사실

제 1종 오류

제 2종 오류채택

채택

유의수준 (Significance level) : 제 1종 오류를 범할 확률의 최대 허용한계 (α로 표기 )

EX) 유의 수준 5% 검정법 --- 제 1종 오류를 범할 확률이 5% 이하인 검정법

검정력 함수 (Power function) : 모수의 값에 따른 귀무가설 H0 를 기각하는 확률의 변화를 나타내는 함수

유의확률 ( Significance Probability) : 검정통계량의 관측 값을 가지고

귀무가설 H0 를 기각할 수 있는 최소의 유의수준

통계적 가설검정의 정의통계적 가설검정의 정의

두 종류의 오류를 둘 다 작게 해주는 것이 바람직하지만 동시에 작게 해주는 검정법은 없다 . 보통 제 1종 오류가 더 큰 문제를 일으킬 경우가 많으므로 일반적으로 제 1 종 오류의 범위를 최대 허용한계에 고정시켜 놓고 제 2종 오류를 줄이는 경우가 많다

20081101~19 변환 6시그마를 위한 기초통계 55

1-1. 모평균 검정의 예

우리 회사에서 마케팅 계획하고 있는 보험상품의 회사수익을 현재 가치를 계산한 결과가 다음과 같다 .

51 45 48 53 47 45 55 60 46 63 55 59 (단위 : 천원 )

평균수익이 49이상이면 양호하다고 할 수 있는가 ? 유의수준 5%로 검정하여 보자 .

t 검정통계량은 1.804 로 기각역인 1.796 보다 크므로 귀무가설이 기각된다 .

즉 , 보험상품의 평균수익은 49(천원 ) 이상이라고 말할 수 있다 .

모평균 검정의 예모평균 검정의 예

20081101~19 변환 6시그마를 위한 기초통계 56

검정 (Testing) : P-value 이용1. 모평균의 검정

cf) Test Statistic 이용

Z > Z이면 ,

,H0: 0 H1: 0

그러므로 , Z =

X

nZ

/

.196 이면 , 귀무가설 기각

P-value Method 이용 방법

Z = kX

n

/

P( Z > k) = p - value

만약 , 이면 귀무가설 기각 못함p - value >

1-1. 모평균 검정의 예

포항제철에서 생산하는 강판의 두께가 평균이 300, 표준편차가 15이다 .

생산된 강판 중 100개의 표본을 추출하여 두께를 재어 보니 평균 297을 얻어 내였다 .

이때 , 두께 297가 95% 유의수준에서 유의하다 볼 수 있는가 ?

H0: 300 H1: 300, 이므로95% 유의 수준이므로 Z value는 1.96 (양측

검증임 )

Z =X

n

/ /

.296 300

15 1002 67 P( Z > 2.67) = p - value = 0.076

p - value > 0 05. 이므로 귀무가설 기각

검정 : P-Value 의 이용 검정 : P-Value 의 이용

20081101~19 변환 6시그마를 위한 기초통계 57

2. 모분산의 검정

검정 통계량은

이면

이면

일 때 기각

일 때 기각

일 때 기각

H0

H0

H0

이면

2-1. 모분산 검정의 예

삼성전기 부품 20개를 임의 추출하여 동일한 기계를 이용하여 사용시간을 측정하였더니

표본표준편차가 52시간이었다 . 사용시간이 정규분포를 따른다고 가정할 때 건전지 사용시간의 표준편차의 참값이 48시간보다 높다는

뚜렷한 증거가 있는지 유의수준 1%에서 검정하여보자 .

카이제곱 통계량의 기각치보다 작으므로 귀무가설을 기각할 수 없다 .

즉 , 부품 사용시간의 표준편차의 참값이

48시간보다 높다는 뚜렷한 증거가 없다 .

모 분산의 검정모 분산의 검정

20081101~19 변환 6시그마를 위한 기초통계 58

20081101~19 변환 6시그마를 위한 기초통계 59

두 모집단의 비교두 모집단의 비교

20081101~19 변환 6시그마를 위한 기초통계 60

용어의 정의

1. 처리 (Treatment) : 실험단위에 특정한 실험환경

또는 실험조건을 가하는 것 .

2. 독립표본 (Independent sample) : 두 모집단에서 각각 독립적으로 관측된 표본

3. 대응표본 (Paired sample) : 실험단위를 동질적인 쌍으로 택하여

각 쌍에서 임의로 한 실험단위에는 처리 1을 ,

다른 실험단위에는 처리 2를 적용하여 얻은 관측 값 .

용어의 정의용어의 정의

20081101~19 변환 6시그마를 위한 기초통계 61

< 예 > 당사 자사 초 우량회원 중 무작위로 추출한 남녀 (각 1,000 名 )

두 집단간 신판 평균이용금액의 차이 검정 .

• 두 모평균의 비교 : 독립표본 T 검증 모집단 1 :

모집단 2 : * 두 모집단은 서로 독립

두 모평균차에 대한 추론 : 을 알 경우

12

22,

두 모평균의 차인 μ1-μ2 의 추론에 사용할 통계량 :

통계량의 분포 :

추론에 사용할 표준화된 통계량 :

가설검정 : 통계량은 :

두 모평균의 비교 : 독립표본 T 검증두 모평균의 비교 : 독립표본 T 검증

20081101~19 변환 6시그마를 위한 기초통계 62

• 쌍체비교 (Paired comparison) 에 대한 t 검정

: 연속형 변수들에 대한 기본적인 단일변수 서술통계량 및 모평균이 0 인지에 대한 가설의

t 검정 값 및 이의 확률 값 (PRT) 을 구하고자 할 때와 두 집단간 비교 (paired comparison) 에 대한

t 검정을 실시한다 .

특히 , 쌍체 비교 (paired comparison)란 실험단위를 동질적인 쌍 (또는 동질적이라고 생각되는 쌍 )에서

임의로 한 실험단위에 대해서는 처리방법 1 을 적용시키고 나머지 실험집단에는 처리방법 2 를 적용시켜서

두 쌍간의 처리효과를 관측하여 차이를 비교하는 방법이다 .

쌍대비교에 대한 t검정쌍대비교에 대한 t검정

예 > 아래의 숫자는 텔레비전 광고타입 (Type1과 Type2)을 보고 소비자가 그 상품을 소비하고자 하는

정도라 하자 .

이때 , 광고타입 1(Type1)과 광고타입 2(Type2)중 어느 Type이 효과가 있는가를 알아보자 .

70 78 80 72 72 62 76 70 76 58 76 66 72 52

78 53 64 72 92 80 74 74 68 72 83 74 64 60

20081101~19 변환 6시그마를 위한 기초통계 63

예제 풀이 공식예제 풀이 공식),2,1( nixyd iii

0:0: 10 DD HvsH

n

iiD

n

ii

D

D

nddsndd

sd

sdntPp

1

2

1

)1/()(,/

/ˆ

}/{

여기서

값

nstd Dn

D

/

:)( %95

1,025.0

신뢰한계신뢰구간의신뢰수준대한에

20081101~19 변환 6시그마를 위한 기초통계 64

20081101~19 변환 6시그마를 위한 기초통계 65

상관분석 상관분석

20081101~19 변환 6시그마를 위한 기초통계 66

상관분석 (Correlation) 상관분석 (Correlation)

□ 의미 : 두 변수가 1차 선형관계 존재 여부 및 강도를 측정

□ 용어 : 상관계수 (두 변수간의 밀접도 )

□ 상관계수의 정의 공식

22 )()(

))((

yyxx

yyxxr

ii

ii

□ 관련 부문

- 두 변수간의 선형 관계 분석 (회귀분석 ) : 결정계수

- 두 변수 이상의 연관성 분석 ( 다변량 분석 ) : 주성분분석 , 요인분석 등

20081101~19 변환 6시그마를 위한 기초통계 67

□ 산포도와 상관계수와의 관계

r=-1 r=-0.8 r=0

r=1 r=0.8 r=0

산점도와 상관계수와의 관계산점도와 상관계수와의 관계

20081101~19 변환 6시그마를 위한 기초통계 68

20081101~19 변환 6시그마를 위한 기초통계 69

분산분석 (ANOVA)분산분석 (ANOVA)

20081101~19 변환 6시그마를 위한 기초통계 70

testt testt

testt

31y32y

ly3

11y12y

ny1

21y

22y

my2

ANOVA

분산분석과 t검정분산분석과 t검정

20081101~19 변환 6시그마를 위한 기초통계 71

관심 있는 확률표본과 관련하여 다른 형태의 분산을 분석하여 여러 모집단 평균들의 동일성을 검정

주요용어 : 인자 (factor)/요인 /처리 (treatment)/설명변수 , 수준 (level), 반복 (replication), 반응변수

예 : 어떤 약품의 합성반응에서 합성 수율에 대한 가열온도의 영향을 조사하기 위해

가열온도로 70 80 90 ℃를 실험한다면

인자 : 가열온도 / 수준 : 3 개 (70 80 90) / 반응변수 : 합성수율

추가 인자로 납품업자를 고려 시 수준 A, B 가 존재한다면 처리 : 납품업자 by 가열온도 ( 6 가지 처리 )

각 처리마다 5회 반복실험을 한다면 반복 : 5

분산분석의 정의분산분석의 정의

20081101~19 변환 6시그마를 위한 기초통계 72

ijiijy

i

),0(~ 2 Nij

: 전체 평균

: ii번째 집단의 평균

가 정

1) 모집단은 정규분포를 따른다2) 모집단의 분산은 모두 같다3) 표본은 서로 독립이며 무작위로 추출한다

0:0 iH 0:1 iH vs

분산분석 모델분산분석 모델

20081101~19 변환 6시그마를 위한 기초통계 73

ijiijy

#Groupi

ii

ijiijy

)()( iiji

ijiij

y

y

처리효과 잔 차

처리효과

전체평균

분산분석 모델분산분석 모델

20081101~19 변환 6시그마를 위한 기초통계 74

4321

25

15

5

4 가지 학습방법 ( 처리 4 수준 ) , 6 번 반복 측정

예제 자료예제 자료

1 2 3 47 12 14 198 17 18 2515 13 19 2211 18 17 239 19 16 1810 15 18 20

20081101~19 변환 6시그마를 위한 기초통계 75

2

2 )()()( k

i

n

jiiij

k

i

n

jij

ii

YY

k

i

n

ji

k

i

n

jiij

ii

Y 22 )()(

k

i

n

ji

k

i

n

jiij

k

i

n

jij

iii

YYYYYY 222 )()()(

)()( iijiijiij YY

SST = SSW + SSB총 변동 그룹 내 변동 그룹 간 변동

변동 분해 결과변동 분해 결과

20081101~19 변환 6시그마를 위한 기초통계 76

SST총변동

MSB

MSW

k-1SSB

SSW

급간변동

급내변동

F제곱평균자유도제곱합변동요인

1i

i kn

1

1i

in

MSW

MSB

0:0 iH 0:1 iH vs

~MSW

MSBF knk i

F ,1

1

knk iF ,1

ANOVA table ANOVA table

20081101~19 변환 6시그마를 위한 기초통계 77

• 분산분석표에서 귀무가설을 기각하는 경우 어느 그룹간에 모평균 차이가 있는지 분석절차

• 실제로 분산분석결과와 관계없이 수행가능

Fisher’s least significant difference

• 반복수가 다른 경우

Newman-Keuls test • 반복수가 같은 경우

Tukey’s honestly significance difference

• 반복 수 동일 , 유의수준 0.1이상 이용

Tukey’s Studentized range test

• Tukey’s HSD 의 신중성 극복

Scheffe’s test • 반복 수 상이 , 유의수준 0.1이상 이용

Duncan’s test • 반복 수 동일 , 검출력 높으나 오류가능성 높음

다중비교다중비교

20081101~19 변환 6시그마를 위한 기초통계 78

20081101~19 변환 6시그마를 위한 기초통계 79

질적 자료분석질적 자료분석

20081101~19 변환 6시그마를 위한 기초통계 80

범주형 변수 (Categorical Variables)

예 : 성별 (gender) - 여 (0), 남 (1) 출신지역 - 서울 경기• (1), 강원 (2), 충청 (3), 호남 (4), 영남 (5) 교육수준 - 초등 (1), 중 (2), 고등 (3), 대학 (4)

분류 : 이항형 (binary) 예 - 성별 명목형 (nominal) 예 - 출신지역 순서형 (ordered) 예 - 교육수준

범주형 변수 (Categorical Variables)범주형 변수 (Categorical Variables)

20081101~19 변환 6시그마를 위한 기초통계 81

카이제곱 검증 (Chi-Square Test)카이제곱 검증 (Chi-Square Test)

열 1 열 2 열 3 합계

행 1 11n 12n 13n 1n

행 2 21n 22n 23n 2n

합계 1n 2n 3n N

행의 동질성 (Homogeneity) : 각 행의 구성비율이 동일 행과 열의 독립(Independence)

20081101~19 변환 6시그마를 위한 기초통계 82

카이제곱 검증카이제곱 검증

NnjP j /) ( 열

),( ji

NnnjpnEjiiij/) (

열

1) 행들이 동질적이라는 가설 하에서는 이므로 칸 의 기대빈도 (expected frequency) 는

으로 추정 .

2) 관측빈도 (observed frequency) 와 차이는

: Pearson 의 카이 제곱

3) 분할 표에서 Pearson 카이 제곱에 대한 준거 분포는 자유도

의 카이 제곱 분포.

ijn

i j ij

ijij

E

En 22 )(

JI

)1()1( JI

20081101~19 변환 6시그마를 위한 기초통계 83

자료출처자료출처

참고교재 : 통계학 원리와 방법 ( 자유아카데미 ), 만화로 쉽게 배우는 통계학 ( 성안당 )

자료 : SERI 게시자료 다운로드 . 이 창엽 , 2008. 08. 20, easy 기초통계강의 교재 (BB대상 ):1006kb

Documents

6 σ 를 위한 알기 쉬운 기초통계