49
통계적 표본조사론 소개 김호 서울대학교 보건대학원

통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

통계적 표본조사론 소개

김호

서울대학교 보건대학원

Page 2: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

2

표본의 대표성(1)

Page 3: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

3

표본의 대표성(2)

Page 4: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

4

표본의 대표성(2)

Page 5: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

5

표본의 대표성(2)

Page 6: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

기초개념

• 전수조사 혹은 총조사 (census) vs. 표본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지 않을 수도 있음

• 대상모집단(target population) and 추출모집단(sampling population): 일치하지 않을 수도 있음 (ex.전화 조사)

Page 7: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

기초개념

• 표본오차 (sampling error): 일부만을 조사하기 때문에 발생

• 비표본오차(nonsampling error) 혹은 비표집오차: 그 이외의 오차

– 대상모집단과 추출모집단의 차이

– 설문지 결함

– 무응답오차

– 기타 (조사원 불성실, 조사단위의 누락, 자료처리 과정에서의 오류 등)

Page 8: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

기초용어

• 원소(element): 기본 단위 (유권자, 제품)

• 모집단: 원소들의 모임

• 확률추출법(probability sampling) 추출단위의 확률계산가능

• 비확률추출법(nonprobability sampling) 추출단위의 확률을 모름

• 추출단위(sampling unit, 표집단위) (전화 있는 가구)

• 추출틀(sampling frame, 표집틀)

Page 9: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

표본조사의 특징

• 유한모집단 (N이 식에 포함, n과 다름), 표본추출틀이 존재, 자료들이 독립적으로 뽑히는 것이 아님(variance 추정식에 correlation이 포함됨)

• 변수가 많고 관심모수가 다양하다

• 추정치보다는 데이터 자체가 output인 경우가 많다.

Page 10: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

표본조사의 대표성

• 표본조사의 대표성을 확보하는 방법

– Purposive sampling (주관적인 표본추출)

– Random sampling

• Random sampling의 장점

– Random distribution을 이용해서 신뢰구간을 만들 수 있다.

– 모집단의 분포에 관계없이 성립 (중심극한 정리)

– 표본의 크기가 클 경우 대표성이 확보됨

Page 11: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

편이(bias)와 효율(efficiency)

• 모수 를 추정하는 추정치 가 있을 때

• Bias =

• Bias가 0인 경우 을 불편추정치(unbiased estimator) 라고 부른다

• 한 모수 를 추정하는 추정치가 두 개 가 있을 경우 두 추정치의 분산의 비율을 상대효율(relative efficiency)라고 한다

• RE

( ) ˆ( )

ˆ( ) ˆ( )E

( )1ˆ( , 2

ˆ )

1ˆ( , 2

ˆ ) 2

1

ˆ( )

ˆ( )

Var

Var

Page 12: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

추정치 의 분포

Bias=0

즉 불편추정량

ˆ( )E

Bias가 있음

추정치 의 분포 추정치 의 분포 1ˆ( ) 2

ˆ( )

1ˆ( ,RE 2

ˆ ) 2

1

ˆ( )1

ˆ( )

Var

Var

ˆ( )

Page 13: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

자료소개

변수명 변수설명 비고

ykiho_n 요양기호 같은 번호는 같은 기관

jumin_n 주X번호 각각

susul 수술여부 0: 미수술, 9:수술

start 요양개시일자

day 내원일수

money 총진료비

type 종별구분 0 : 종합전문병원, 1: 종합병원

Page 14: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

ykiho_n jumin_n susul start day money type1 1532 9 20031215 1 2427460 01 2056 0 20030724 9 3244980 01 2165 0 20031008 16 2080780 01 3115 0 20030710 10 2465320 01 3477 0 20030425 22 3617720 01 3514 9 20030409 3 3178460 01 4870 9 20030322 1 335150 01 5234 0 20031018 18 2909290 01 6212 0 20031021 11 1374890 01 8613 0 20030731 10 3479160 01 8741 0 20030221 15 3807270 01 9262 0 20030122 8 2005320 01 9262 0 20030215 3 860040 01 11291 9 20030930 22 6999700 01 12088 0 20030114 16 5155950 01 12092 9 20030901 21 7458950 01 12116 0 20031129 13 2070080 01 12193 9 20030929 16 4617370 01 12496 0 20030122 36 8345470 01 13486 0 20031104 16 2690370 01 13716 9 20030306 18 9826760 01 13994 9 20030516 23 10325690 0

N=21,916

Page 15: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

보내주신 excel 과 SAS 파일을 이용해서

libname kim ' C:\kim\XX';

proc print data=kim.ami_ho_re (obs=10);run;

proc contents data=kim.ami_ho_re ;run;

Page 16: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

OBS ykiho 1 11100010 2 11100010 3 11100010 4 11100010 5 11100010 6 11100010 7 11100010 8 11100010 9 11100010 10 11100010 OBS jumin_no 1 XX12 2 XX12 3 XX10 4 XX22 5 XX12 6 XX17 7 XX68 8 XX02 9 XX10 10 XX19 OBS susul 1 9 2 0 3 0 4 0 5 0 6 9 7 9 8 0 9 0 10 0

OBS start 1 20031215 2 20030724 3 20031008 4 20030710 5 20030425 6 20030409 7 20030322 8 20031018 9 20031021 10 20030731 OBS day money type jumin_n ykiho_n 1 1 2427460 0 1532 1 2 9 3244980 0 2056 1 3 16 2080780 0 2165 1 4 10 2465320 0 3115 1 5 22 3617720 0 3477 1 6 3 3178460 0 3514 1 7 1 335150 0 4870 1 8 18 2909290 0 5234 1 9 11 1374890 0 6212 1 10 10 3479160 0 8613 1

Page 17: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

CONTENTS 프로시저 데이터셋 이름 KIM.AMI_HO_RE 관측치 21916 멤버 유형 DATA 변수 9 엔진 V9 인덱스 0 생성일 2006년 12월 12일 화 오전 11시34분30초 관측치 길이 1312 마지막 수정일 2006년 12월 12일 화 오전 11시34분30초 삭제된 관측치 0 보호 압축여부 아니오 데이터셋 유형 정렬 아니오 라벨 데이터 표현 WINDOWS_32 엔코딩 Default 엔진/호스트 관련 정보 데이터셋 페이지 크기 16384 데이터셋 페이지 번호 1827 첫 번째 데이터 페이지 1 페이지 당 최대 관측치 수 12 첫 번째 데이터 페이지의 관측치 수 10 데이터셋 수리의 번호 0 파일 이름 C:\kim\yes\projects\XX 생성된 릴리즈 8.0202M0 생성된 호스트 WIN_PRO 변수와 속성 리스트(오름차순) # 변수 유형 길이 출력형식 입력형식 라벨 5 day 수치 8 11. 11. 내원일수 8 jumin_n 수치 8 2 jumin_no 문자 255 $255. $255. 주X번호 6 money 수치 8 11. 11. 청구요양총액 4 start 문자 255 $255. $255. 요양개시일자 3 susul 문자 255 $255. $255. 수술여부 7 type 문자 255 1 ykiho 문자 255 $255. $255. 요양기호 9 ykiho_n 수치 8

Page 18: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

excel 파일에서 셀서식을 일반에서 숫자 혹은 텍스트로 바꾼 후 저장(ami) 을 하고

PROC IMPORT OUT= WORK.ami

DATAFILE= "C:\kim\ami.xls"

DBMS=EXCEL REPLACE;

SHEET="AMI_HO$";

GETNAMES=YES;

MIXED=YES;

SCANTEXT=YES;

USEDATE=YES;

SCANTIME=YES;

RUN;

proc print data=ami(obs=10) ;

run;

proc contents data=ami ;run;

Page 19: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

OBS ykiho_n jumin_n susul start day money type

1 1 1532 9 20031215 1 2427460 0 2 1 2056 0 20030724 9 3244980 0 3 1 2165 0 20031008 16 2080780 0 4 1 3115 0 20030710 10 2465320 0 5 1 3477 0 20030425 22 3617720 0 6 1 3514 9 20030409 3 3178460 0 7 1 4870 9 20030322 1 335150 0 8 1 5234 0 20031018 18 2909290 0 9 1 6212 0 20031021 11 1374890 0 10 1 8613 0 20030731 10 3479160 0

Page 20: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

CONTENTS 프로시저 데이터셋 이름 WORK.AMI 관측치 21916 멤버 유형 DATA 변수 7 엔진 V9 인덱스 0 생성일 2007년 01월 04일 목 오후 09시27분49초 관측치 길이 48 마지막 수정일 2007년 01월 04일 목 오후 09시27분49초 삭제된 관측치 0 보호 압축여부 아니오 데이터셋 유형 정렬 아니오 라벨 데이터 표현 WINDOWS_32 엔코딩 euc-kr Korean (EUC) 엔진/호스트 관련 정보 데이터셋 페이지 크기 4096 데이터셋 페이지 번호 262 첫 번째 데이터 페이지 1 페이지 당 최대 관측치 수 84 첫 번째 데이터 페이지의 관측치 수 48 데이터셋 수리의 번호 0 파일 이름 C:\DOCUME~1\김호\LOCALS~1\Temp\SAS Temporary Files\_TD11096\ami.sas7bdat 생성된 릴리즈 9.0101M3 생성된 호스트 XP_HOME 변수와 속성 리스트(오름차순) # 변수 유형 길이 출력형식 입력형식 라벨 5 day 수치 8 day 2 jumin_n 수치 8 jumin_n 6 money 수치 8 money 4 start 문자 8 $8. $8. start 3 susul 문자 1 $1. $1. susul 7 type 문자 1 $1. $1. type 1 ykiho_n 수치 8 ykiho_n

Page 21: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

교훈

엑셀파일을 SAS파일로 바꿀 때는엑셀에서 셀서식을 일반(디폴트)으로 하지 말고 숫자, 텍스트, 혹은 날짜 형식으로 한 후 저장(ami) 을 하고 SAS에서 불러 온다

Page 22: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

단순임의 추출법(simple random sampling)

• N개의 추출단위가 있는 모집단에서 n개의 표본을 같은 확률로 추출하는 방법

2

2

( )

( )1

ˆ( )

E y

N nV y

N n

N n sV y

N n

모평균 의 95%신뢰구간

2

ˆ1.96 ( )

1.96

V y

N n s

N n

Error Bound (B)

( ) y B

Page 23: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

SAS를 이용한 단순임의 추출법(proc surveyselect)

proc surveyselect data=ami method=srs n=200

out=sample; ;run;

proc print data=sample;run;

The SURVEYSELECT Procedure

Selection Method Simple Random Sampling

Input Data Set AMI

Random Number Seed 180109000

Sample Size 200

Selection Probability 0.009126

Sampling Weight 109.58

Output Data Set SAMPLE

Page 24: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

OBS ykiho_n jumin_n susul start day money type

1 2 11974 0 20031001 11 4044300 0

2 4 1738 9 20030601 30 7058540 1

3 5 13152 9 20030401 11 7714300 0

4 5 17323 9 20031215 5 10621720 0

5 5 17467 0 20030119 3 618580 0

. . . . . . . . . . .

193 254 11902 9 20030512 8 3807560 0

194 254 12442 0 20031116 3 1107630 0

195 255 5207 9 20031012 5 3242880 1

196 257 5189 0 20030511 4 1338520 1

197 257 18403 0 20031213 7 1490130 1

198 267 7885 0 20030920 8 2016070 1

199 268 1681 0 20030303 5 451300 1

200 271 3873 0 20031229 5 341870 1

Page 25: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

SAS를 이용한 단순임의 추출 표본 평균계산 (proc surveymeans)

proc surveymeans data=sample total=21916;

var money ;

;run;

The SURVEYMEANS Procedure

Data Summary

Number of Observations 200

Statistics

Std Error

Variable Label N Mean of Mean 95% CL for Mean

------------------------------------------------------------------------------------------

money money 200 3544650 237998 3075329.52 4013971.28

------------------------------------------------------------------------------------------

Page 26: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

비율(proportion)의 추정

• 비율에 관심이 있는 경우에는

if 성질 만족

if 성질 불만족

인 확률변수를 만들면

= 전체표본에서 1의 비율

예제에서 수술비율(susul이 9인 경우)을 추정하려면

1

0iy

1 iyy

n 의갯수

표본수

Page 27: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

SAS를 이용한 단순임의 추출 표본 비율계산 (proc surveymeans)

data new ;

set sample ;

ss=(susul='9') ;run;

proc surveymeans data=new total=21916;

var ss; run;

The SURVEYMEANS Procedure

Data Summary

Number of Observations 200

Statistics

Std Error

Variable N Mean of Mean 95% CL for Mean

---------------------------------------------------------------------------------

ss 200 0.495000 0.035280 0.42542898 0.56457102

---------------------------------------------------------------------------------

Page 28: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지
Page 29: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

Get Motivated (표본수 계산)

Trt A Trt B

+ N11 52 N12 48 N1+ - N21 48 N22 52 N2+

N+1 N+2 N++

2

11 1 12 1 2 1 211 2

11

2

2

2

/,

1

52 100 100 / 2000.32, 0.05

100 100 100 100 / 200 199

n n n n n n n nv

v n n

p

Page 30: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

• 라고 하고, 를 다시 계산하면

• 두 예에서 비율은 정확히 같음에도 불구하고 통계적 유

의성은 상당히 다르다. ???

• 전통적 통계적 가설 검정의 유의성은 표본수에 크게 의

존한다.

• 통계적 유의성이 없었던 경우라도 표본수를 크게 하면

유의성을 볼 수 있다.

• 표본수(실험의 비용)와 통계적 유의성(실험의 효용성)의

균형을 맞추는 것이 요구됨

• 최소의 비용으로 효과를 증명하고 싶다.

100ij ijn n 2

2 2 2100 /100 32.00, 0.01p

Page 31: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

통계학에서의 표본수 계산

• 표본조사의 경우

- 목적 : 추정 (estimation)

- 도구 : 표본오차

- 예 : 여론조사

• 임상시험의 경우

- 목적 : 검정 (testing)

- 도구 : 제1종의 오류, 제2종의 오류

- 예 : 임상시험

Page 32: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

• 단순임의 추출(simple random sampling)에서

• N : 모집단의 크기, n :표본의 크기라면

1

2

2

22

2

ˆ /

1

1.96 ( ) 2 :1

, / 4( -1)

n

i

i

y y n

N nVar y

n N

N nVar y B

n N

Nn D B

N D

95% 신뢰구간 (표준오차)

Page 33: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

• 만약 가 0 혹은 1의 값을 가지게 되면,

는 비율이 되고,

이 경우 가 된다.

예1) N=2000, 95% 신뢰수준, B=0.05이라면 n은 ?

>> 사전정보가 없다면 p=q=0.5 대입

최소한 334명의 표본이 필요하다.

2 2/ 4 0.05 / 4 .000625

2000 0.5 0.5333.56

1999 .000625 0.5 0.5

D B

n

iy

y

( 1)

Npqn

N D pq

Page 34: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

예제. 인구 10,000,000인 도시에서 유병율이 약 20%로 예상되는 질병의 정확한 유병율을 95% 신뢰구간이 ± 2% 정도로

추정하고 싶다면 표본의 크기를 얼마로 하여야 하는가 ? 2 2/ 4 0.02 / 4 .0001

10,000,000 0.2 0.81599.74

(10,000,000 1) .0001 0.2 0.8

D B

n

예제. 인구 500,000인 지역에서 유병율이 약 20%로 예상되는 질병의 정확한 유병율을 95% 신뢰구간이 ± 2% 정도로 추정하고 싶다면 표본의 크기를 얼마로 하여야 하는가 ?

2 2/ 4 0.02 / 4 .0001

500,000 0.2 0.81594.90

(500,000 1) .0001 0.2 0.8

D B

n

Page 35: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

예제. 인구 10,000,000인 도시에서 유병율이 약 20%로 예상되는 질병의 정확한 유병율을 95% 신뢰구간이 ± 1% 정도로

추정하고 싶다면 표본의 크기를 얼마로 하여야 하는가 ? 2 2/ 4 0.01 / 4 .000025

10,000,000 0.2 0.86395.91

(10,000,000 1) .000025 0.2 0.8

D B

n

예제. 인구 10,00,000인 지역에서 유병율이 약 30%로 예상되는 질병의 정확한 유병율을 95% 신뢰구간이 ± 3% 정도로

추정하고 싶다면 표본의 크기를 얼마로 하여야 하는가 ?

2 2/ 4 0.03 / 4 .000225

10,00,000 0.3 0.7933.246

(10,000,000 1) .000225 0.3 0.7

D B

n

Page 36: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

층화추출법(stratified sampling)

• 모집단의 L개의 층으로 나누고 각 층에서 SRS를 실시함 (non-overlapping group)

• 각 층에서의 표본의 배분

– 등배분 (equal allocation)

– 비례배분 (proportional allocation)

– 최적배분 (optimal allocation) : 비용을 고려

Page 37: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

Strata를 고려하는 이유

1. Within strata에서 값들이 homogeneous 할 때 SRS보다 작은 분산을 준다

2. Strata를 고려하면 비용이 줄어들 수 있다

3. 각 subgroup별로의 추정치를 구하는데 관심이 있을 수 있다.

Page 38: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

SAS를 이용한 층화 추출법(proc surveyselect)

proc sort data=ami;by type ;

proc surveyselect data=ami method=srs n=(100,100)

out=sam2;

strata type ;run;

proc print data=sam2;run;

The SURVEYSELECT Procedure

Selection Method Simple Random Sampling

Strata Variable type

Input Data Set AMI

Random Number Seed 669093000

Number of Strata 2

Total Sample Size 200

Output Data Set SAM2

Page 39: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

Selection Sampling

OBS type ykiho_n jumin_n susul start day money Prob Weight

1 0 2 10250 0 20030806 4 836360 .008775009 113.96

2 0 5 1255 0 20030410 1 468630 .008775009 113.96

3 0 5 4960 9 20031218 7 5925390 .008775009 113.96

4 0 5 8021 0 20030511 3 619090 .008775009 113.96

5 0 5 8967 9 20030208 7 8339620 .008775009 113.96

6 0 5 12701 9 20031118 12 10170950 .008775009 113.96

7 0 5 14755 0 20030912 9 3742280 .008775009 113.96

. . . . . . . . . . .

194 1 255 18272 9 20030926 5 6490160 .009505703 105.2

195 1 257 12415 0 20030502 5 1056280 .009505703 105.2

196 1 257 12662 9 20030624 9 6743670 .009505703 105.2

197 1 258 1060 0 20030522 2 305660 .009505703 105.2

198 1 258 14865 0 20031101 3 259400 .009505703 105.2

199 1 267 7533 0 20030214 6 1024610 .009505703 105.2

200 1 272 6188 9 20031204 1 919950 .009505703 105.2

Page 40: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

SAS를 이용한 층화 추출법(proc surveyselect)

혹은

data ami2;

set ami;

type2=type+0 ;

run;

proc sort data=ami2;by type2;

data info ;

input type2 _NSIZE_ ;

cards;

0 100

1 100

;run;

proc surveyselect data=ami2 method=srs n=info out=sam3;

strata type2 ;run;

The SURVEYSELECT Procedure

Selection Method Simple Random Sampling

Strata Variable type2

Input Data Set AMI2

Random Number Seed 660281000

Sample Size Data Set INFO

Number of Strata 2

Total Sample Size 200

Output Data Set SAM3

Page 41: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

SAS를 이용한 층화추출 표본 평균계산 (proc surveymeans)

proc freq data=ami2;

tables type2 ;

run;

FREQ 프로시저

누적 누적

type2 빈도 백분율 빈도 백분율

-------------------------------------------------

0 11396 52.00 11396 52.00

1 10520 48.00 21916 100.00

Page 42: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

SAS를 이용한 층화추출 표본 평균계산 (proc surveymeans)

data pop_info;

input type2 _TOTAL_ ;

cards;

0 11396

1 10520

;run;

The SURVEYMEANS Procedure

Data Summary

Number of Strata 2

Number of Observations 200

Statistics

Std Error

Variable Label N Mean of Mean 95% CL for Mean

------------------------------------------------------------------------------------------

money money 200 3672743 233693 3211895.82 4133589.28

ss 200 0.465000 0.034638 0.40 0.53

------------------------------------------------------------------------------------------

proc surveymeans data=sam3

total=pop_info ;

var money ;

strata type2 ss;

run;

Page 43: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

계통추출법(systematic sampling)

• 전체 모집단을 일렬로 세워서 번호를 붙인 후 1과 k 사이에서 난수를 뽑고 (r) 그 후부터는 r, r+k, r+2k,… 를 뽑음

• 예) 10,000명의 학생에서 200명을 뽑는 경우, 추출간격은 50, 1과 50 사이에서 난수를 뽑아 (29) 다음과 같이 표본을 추출한다.

29, 29+50=79, 29+2*50=129, …,9979

Page 44: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

계통추출법의 성질 • 임의배열: 배열이 임의적인 경우 SRS와 성질이 같다.

• 순환배열: 배열에 주기(cycle)이 있는 경우에는 편이가 큰 표본이 뽑힐 수 있다.

• 직선추세 배열: 정열(sorting)이 되어 있는 경우에는 SRS보다 효율적이다. Surrogate variable 도 사용가능

• 자연적 배열: 행정단위 등으로 배열이 되어있는 경우에도 SRS보다는 효율이 좋은 경우가 많다.

• 조사의 편리성: sampling frame이 없는 경우에도 사용할 수 있다.

Page 45: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

집락추출법(cluster sampling)

• 뽑힌 집락에 있는 기본단위를 전수조사하는 경우 예) 뽑힌 가구에서 가계구성원 전원을 조사하는 경우, 가구는 집락이 된다.

• 집락추출법이 유용한 경우 – 추출틀이 마련될 수 없거나, 추출틀 작성에 많은 비용이 드는 경우

– 추출단위들이 밀집된 경우 조사비용을 많이 줄일 수 있다.

Page 46: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

층화추출법 집락추출법

Page 47: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

층(strata)과 집락(cluster)의 비교

• 집락들 간의 성질이 매우 다르다면 (집락내부의 성질은 매우 비슷하다) 어느 집락을 뽑느냐에 따라 조사의 결과가 매우 다를 것이므로 이런 경우 집락추출법은 좋은 방법이 아니다.

• 층들 간의 성질이 매우 비슷하다면 (층 내부의 성질은 매우 다르다) 모든 층에서 표본을 뽑을 필요가 별로 없다. 이런 경우 층화추출법은 좋은 방법이 아니다.

Page 48: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

층화추출법 X 집락추출법 X

Between cluster Variability 가 크다. Within 은 작다.

Within strata Variability 가 크다. Between 은 작다.

Page 49: 통계적 표본조사론 소개hosting03.snu.ac.kr/~hokim/sas/2011/sampling.pdf · 2016-11-27 · 본조사 (sampling survey) : 전수조사가 불가능하거나 혹은 더 정확하지

과제 학번의 끝자리가 3,4,5,6,7 로 끝나는 경우 각각 2003, 4,5,6,7 년도 사망자료를 이용해서 학번의 끝자리가 8,9,0,1,2 로 끝나는 경우 각각 2003, 4,5,6,7 년도 사망자료를 이용해서 1) 단순임의 추출로 1000명을 추출하여서 성별, 연령별

(10세 간격) 분포를 구하시오 2) 성별로 각각 500명 씩 층화추출을 하여서 남 여 각각

의 연령별 분포를 구하시오

SAS 프로그램과 output 을 해석과 함께 제시하시오