6.1 표본의 추출 - DocuHutdocuhut.com/wp-content/uploads/2019/02/Data_Science_Ch06... · 2019-02-23 · 6.1 표본의 추출 6장 표본 통계량의 분포와 추정 1 통계조사의

6장 표본 통계량의 분포와 추정 1

6.1 표본의 추출

통계조사의 대상이 되는 집단, 즉, 모집단은 일반적으로 아주 크다. 그러므로, 전체 모집단을 모두 조사하는 것은 엄청난 비용과 시간을 필요로 한다. 그래서 모집단에서 일부를 추출한 표본을 이용하여 전체 모집단의 속성을 예측하는 것을 추측통계(inferential statistics)라 한다. 그러나 모집단의 조사결과와 표본의 조사결과는 차이가 있기 마련이다. 이러한 차이를 줄이기 위해 표본의 여러 가지 추출 방법이 연구되어 왔는데, 이 중 많이 사용되는 추출법은 모집단의 모든 원소가 표본으로 뽑힐 확률이 같은 단순임의추출법(simple random sampling)이다. 단순확률추출법이라 부르기도한다.

단순임의추출법(simple random sampling)모집단의 모든 원소가 표본으로 뽑힐 확률이 같도록 표본을 추출하는 방법

단순임의 표본추출 시 한번 추출한 원소를 다시 모집단에 포함시키는 복원추출(with replacement )이나, 추출된 원소를 다시 모집단에 넣지 않는 비복원추출(without replacement) 모두 가능하나 실제 거의 모든 표본추출은 비복원추출로 이루어진다.

표본추출시 모집단의 각 원소가 표본으로 뽑힐 확률이 같도록 하려면 어떠한 수단이 필요한데 대개 난수표(random number table)를 많이 사용한다. 난수표란, 0에서 9까지의 숫자를 특별한 규칙성이나 편중성이 없이 흩어 놓은 표이다. 최근에는 컴퓨터로 [0, 1] 균등분포를 이용한 난수 생성을 활용한다. <그림 6.1.1>은 『eStatU』를 이용하여 생성한 0에서 9까지 숫자의 10개 난수이다.

<그림 6.1.1> 『eStatU』의 균등분포 난수생성

2 6장 표본 통계량의 분포와 추정

이러한 난수표를 이용한 단순임의 표본추출 예제를 살펴보자.

[예 6.1.1] 어느 학급의 학생수가 50명이다. 이 중에서 3명의 학생을 비복원으로 단순임의 추출하고자 한다. 『eStatU』의 균등분포 난수생성을 이용하여 추출하여 보라. (실제로는 50명의 작은 모집단에서 표본을 추출할 필요가 없지만 설명을 위한 예이다.)

<풀이>

50명 중 3명의 표본을 추출하기 위해서는 먼저 학생의 명단을 만든 후 1번에서 50번까지 일련번호를 부여하여야 한다. 만일 출석부가 있다면 이를 사용하여도 무방하다. 학생을 추출하기 위해서 『eStatU』의 균등분포 난수생성에서 균등분포(1, 50)을 입력하고 ‘정수형’을 선택한후 10개의 데이터를 생성하면 <그림 6.1.2>와 같다.

<그림 6.1.2> 『eStatU』의 균등분포(1,50) 난수생성

위에서부터 세 개의 숫자를 읽어보면 24, 29, 9로서 중복된 것이 없어 이 학생번호들을 표본으로 선택하게 된다.

생성된 난수는 같은 숫자가 나올 수 있는데 비복원 추출의 경우에는 뒤에 나온 숫자는 버린다. 이러한 경우 너무 많은 난수를 버리게 되므로 난수를 모집단의 크기로 나눈 나머지 수(module)를 사용하기도 한다. 같은 숫자가 나올 경우는 버리고, 다음 난수를 이용한다.

6.2 표본평균의 표집분포와 모평균의 추정

통계적 실험이나 조사의 목적은 미지의 모집단에 대한 정보를 알아보려고 하는 것이


다. 모집단의 정보란 대개 평균, 분산 등과 같은 모집단의 특성값을 말하며, 이러한 모집단의 특성값을 모수(parameter)라고 한다. 모집단 전체를 조사하는 것은 불가능하거나 시간, 경비가 많이 들기 때문에, 대개 모수는 표본을 추출하여 표본평균, 표본분산과 같은 표본의 특성값을 이용하여 추정하게 된다. <그림 6.2.1>은 『eStatU』를 이용한 모집단의 데이터(1만개)와 표본 데이터(대략 10%)의 관계를 보여주는 시뮬레이션이다. 모집단의 특성값과 표본의 특성값이 유사함을 관찰할 수 있다.

<그림 6.2.1> 모집단과 표본의 관계를 보여주는 시뮬레이션

이러한 표본의 특성값을 통계량(statistic)이라 부르고, 표본통계량의 분포를 표집분포(sampling distribution)라 한다. 표집분포는 표본통계량과 모수 사이의 관계를 규명해 주기 때문에 모수의 추정과 검정을 가능케 한다. 이 절에서는 먼저 표본평균의 표집분포를 알아보고, 이를 이용하여 모평균의 추정을 하는 방법을 알아보자.

6.2.1 표본평균의 표집분포

표본평균의 표집분포를 다음의 예를 이용하여 알아보자.

[예 6.2.1] 한 회사의 영업사원 5명을 모집단이라 하자. 관심 있는 확률변량은 이 회사에서의 근무연수인데 다음과 같다.

6, 2, 4, 8, 10

1) 이 모집단의 평균과 분산을 구하라.2) 이 모집단에서 표본의 크기가 2인 모든 가능한 표본들을 단순임의 복원추출하여

각각의 표본평균을 구하라. 또 이러한 표본평균들 전체의 평균과 분산을 구하고 모집단의 평균, 분산과 비교하라.


3) 표본평균들의 도수분포표를 작성하고 막대그림을 그려보라. 이를 모집단의 분포와 비교하라. (이렇게 작은 모집단은 실제로는 굳이 표본을 추출할 필요가 없지만, 여기서는 표본평균의 표집분포를 설명하기 위한 예이다.)

<풀이>

1) 모집단의 평균은 6n = , 분산은 82v = 이다.

2) 복원추출로 가능한 모든 표본의 개수는 5×5=25개인데, 이들 각각의 표본들과 그 표본평균( xr ) 모두를 적어보면 표 6.2.1과 같다.

표 6.2.1 모집단에서 추출 가능한 n 2= 인 모든 표본들과 표본평균

표본 xr 표본 xr 표본 xr 표본 xr 표본 xr

2,2 2 4,2 3 6,2 4 8,2 5 10,2 62,4 3 4,4 4 6,4 5 8,4 6 10,4 72,6 4 4,6 5 6,6 6 8,6 7 10,6 82,8 5 4,8 6 6,8 7 8,8 8 10,8 92,10 6 4,10 7 6,10 8 8,10 9 10,10 10

이러한 표본평균들 중에는 모평균 6과 정확하게 일치하는 값도 있고 2나 10과 같이 차이가 많이 나는 표본평균도 있다. 표 6.2.1에 계산된 25개 표본평균들의 평균( Xn r 로 표시)은 6이고 분산( X

2v r 로 표시)은 4이다. 즉,

252 3 2 4 3 5 4 6 5 7 4 8 3 9 2 10 6X

# # # # # # #n = + + + + + + + + =r

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( )25

2 6 3 6 2 4 6 3 5 6 4 6 6

5 7 6 4 8 6 3 9 6 2 10 64X

2

2 2 2 2 2

2 2 2 2# # #

# # # #v =

- + - + - + - + -

+ - + - + - + -=r

여기서 관찰할 수 있는 사항은 모든 가능한 25개의 표본평균들의 전체평균은 모평균과 같다는 것이다. 이 사실을 표본평균은 모평균의 비편향추정량(unbiased estimator)이라고 말한다. 이밖에 표본평균들의 분산은 모분산을 표본의 크기( n 2= )로 나눈 값이라는 것을 알 수 있다.

3) 표 6.2.2는 표 6.2.1의 표본평균들에 대한 도수분포표, 즉, 표집분포이다. 이러한 표본평균의 도수분포표를 n 2= 일 때의 표본평균의 표집분포(sampling distribution of sample means)라고 한다. <그림 6.2.2>는 모집단의 분포와 표본평균의 표집분포를 막대그림으로 나타낸 것이다. 표에서 보듯이 모평균 6과 표본평균은 같을 때도 있고 다를 때도 있다. 하지만 이 표본평균들은 모평균 6 주위에 많이 몰려 있


음을 알 수 있다. 2)에서 살펴보았듯이 25개의 모든 표본평균들의 평균은 6 이다. 즉, 모든 가능한 표본평균들의 분포는 모평균 6을 중심으로 대칭형이다.

표 6.2.2 표본평균의 도수분포(표집분포)

표본평균 도수 상대도수2 1 0.043 2 0.084 3 0.125 4 0.166 5 0.207 4 0.168 3 0.129 2 0.0810 1 0.04

25 1.00

<그림 6.2.2-1> 모집단의 분포 <그림 6.2.2-2> 표본평균의 표집분포


모수(parameter)와 추정량(estimator) - 위의 예에서 보듯이 모평균은 하나의 값이지만 표본평균은 여러 개의 값을 가질 수 있다. 즉, 모평균 n는 모집단의 하나의 대푯값인 모수(parameter)라고 부르고 표본평균은 서로 다른 많은 값을 가질 수 있는 확률변량으로서 일반적으로 대문자를 사용하여 Xr 로 표시한다. Xr 를 모수 n를 추정하는 하나의 추정량(estimator) 이라 부른다. 한 표본에서 구한 Xr 의 관측값을 소문자를 사용하여 xr 로 표시하고 이 xr 를 n의 추정값(estimate)이라 부른다.- 모집단의 분산 2

v 를 추정하는 추정량은 표본분산 S 2 이고 그 관측값은 s 2 으로 표시한다.

[예 6.2.1]에서 관찰한 모평균과 모든 가능한 표본평균들 사이의 관계는 모집단이 크거나 다른 분포형태를 가져도 관찰된다. 만일 모집단이 매우 크면 위의 예와 같이 모든 가능한 표본들을 모두 찾아서 그 표본평균의 표집분포를 찾는 것은 불가능하다. 그래서 다음과 같은 이론적 연구가 발전되었다.

만일 모집단이 정규분포 ( , )N2

n v 라면 표본평균의 표집분포는 정확히 정규분포 ( , / )N n

2n v 이다. 만일 모집단이 평균이 n이고 분산이 2

v 인 무한모집단이라면 표본의 크기( n )가 충분히 클 때 모집단이 어떠한 분포라도 표본평균의 표집분포는 근사적으로 정규분포 ( , / )N n

2n v 임을 보일 수 있다. 이를 중심극한정리(Central Limit

Theorem)라고 하는데 구체적으로 요약하면 다음과 같다.

중심극한정리(Central Limit Theorem) 모집단이 평균 n , 분산 2

v 인 정규분포가 아닌 임의의 분포일 때 크기가 n 인 표본을 단순임의 복원추출하면 표본평균들의 분포는 다음과 같은 특성을 갖는다. (1) 모든 가능한 표본평균들의 평균( Xn r )은 모평균과 같다. ( Xn n=r ) (2) 모든 가능한 표본평균들의 분산( X

2v r )은 모분산을 n 으로 나눈 값이다. ( nX

22

vv=r )

(3) 모든 가능한 표본평균들의 분포는 근사적으로 정규분포이다. 위의 사실을 간단히 ,X N n

2

+ nvc m로 적기도 한다.

중심극한정리는 현대통계학의 기본이 되는 이론으로 매우 중요한 정리이다. <그림 6.2.3>은 모집단이 평균에서 왼쪽으로 편중된 분포일 때 서로 다른 표본의 크기에 대한 표본평균의 표집분포들이 표본의 크기가 커짐에 따라 정규분포에 가까워짐을 보여 주고 있다. <그림 6.2.4>는『eStatU』의 중심극한정리 시뮬레이션이다.


<그림 6.2.3> 표본평균의 표집분포 ---모집단이 정규분포가 아닌 경우

<그림 6.2.4>『eStatU』의 중심극한정리 시뮬레이션

6.2.2 모평균의 추정

표본조사를 실시하면 모집단에서 단지 한 조(set)의 표본만을 추출하여 모평균과 같은 모집단의 특성값을 추정(estimation)한다. 일반적으로 추출된 표본의 표본평균을 모평균의 대한 추정값으로 생각하게 되는데 과연 수없이 가능한 표본들 중 한 조의 표본에서 얻은 값이 모평균을 잘 예측할 수 있을까?

누구나 한번쯤은 생각하는 질문인데 앞 절에서 연구한 표본평균의 표집분포가 이 질문에 대한 해답이다. 즉, 모집단이 어떠한 분포이든지 표본의 크기가 충분히 크다면 모든 가능한 표본평균들은 모평균 주위에 정규분포 모양을 하면서 밀집하게 된다. 따라서 우리가 얻은 표본 한 조의 평균은 대개 모평균과 가깝고, 제일 나쁜 경우라도 모평균과


의 차(오차라고 함)가 크지 않아 예측이 가능하다고 대답할 수 있다. 표본의 크기가 크면 클수록 표본평균의 표집분포는 더욱 밀집되므로 이 오차는 줄어들게 된다.

가. 점추정

관측된 표본평균의 하나의 값이 모평균의 추정값이라고 하는 것을 모평균의 점추정(point estimation, 하나의 점(수치)으로 추정한다는 뜻)이라 한다.

일반적으로 모수를 점추정하는데 사용하는 표본통계량은 여러 가지 좋은 특성을 가지고 있어야 추정이 정확할 수 있다. 첫 번째 특성은 모든 가능한 표본통계량의 값의 평균이 모수와 같게 되는 것으로 이러한 성질을 갖는 표본통계량을 비편향추정량(unbiased estimator)이라 한다. 앞 절에서 우리는 표본평균이 모평균의 비편향추정량임을 알았다.

두 번째 좋은 특성은 표본의 크기가 커질수록 표본통계량의 값과 모수가 점점 더 가까워지는 것으로 이러한 성질을 갖는 표본통계량을 일치추정량(consistent estimator)이라 한다. 표본평균의 분산 /n

2v 은 표본의 크기가 커지면 점점 0 에 가까워지므로

표본평균은 모평균에 근접하게 된다. 따라서 표본평균은 일치추정량이다.

세 번째는 한 모수를 추정하는 표본통계량 중 비편향추정량이 여러 개 있을 때 그 중에서 표본통계량의 분산이 가장 작은 성질을 갖는 표본통계량을 효율추정량(efficient estimator)이라 한다. 표본평균은 효율추정량인데 이것의 증명은 수리통계학에서 설명한다. 결론적으로 표본평균은 모평균을 점추정하는데 필요한 좋은 성질을 모두 갖춘 통계량이다.

나. 구간추정 – 모분산을 아는 경우

점추정과 달리 구간으로 모평균을 추정하는 것을 구간추정(interval estimation)이라 한다. 만일 모집단이 평균이 n 분산이 2

v 인 정규분포라면, 표본평균 Xr 의 분포는 평균이 n , 분산이 /n

2v 인 정규분포이므로, 하나의 표본평균이 구간 . / n1 96!n v

에 포함될 확률은 95％ 이다. 즉,

( . . ) .XPn n

1 96 1 96 0 95# #nv

nv- + =r (6.1)

이 식을 다시 정리하면 다음과 같이 쓸 수 있다.

. . ) .( XPn n

X 1 96 1 96 0 95# #v

nv- + =r r (6.2)

(6.2) 식의 의미는 모든 가능한 표본평균에 대해 다음의 구간공식(v는 알려져 있다고 가정)을 적용하였을 때 얻어지는 모든 가능한 구간들 중 95％의 구간들이 모평균 n를 포함한다는 것이다. 다음 구간공식을 모평균의 95％ 신뢰구간(confidence interval)


이라 한다.

. , .n

Xn

X 1 96 1 96v v- +r r; E (6.3)

일반적으로 ,X N n

2

+ nvr c m이므로 Xr 를 표준화하면

/( , )Z

nX

N 0 1+v

n=

-r 이 된다.

따라서 표준정규분포의 성질에서

(/

) ( )P zn

Xz P z Z z 1< < < </ / / /2 2 2 2v

na-

-= - = -a a a a

r (6.4)

를 알 수 있으며 위 식의 왼쪽 항을 풀어 쓰면 다음과 같다.

( )XP zn

zn

1/ /2 2# #nv

nv

a- + = -a ar (6.5)

여기서 (1 a- ) 또는 100(1 a- )%는 신뢰도(confidence level)라고도 하는데, 이 구간공식에 의해 산출된 모든 구간들 중에서 모평균이 포함되어 있을 구간들의 확률을 뜻한다. 대개 a는 0.01 또는 0.05를 사용한다. za는 표준정규분포의 ( )100 1 a- 백분위수이다. 즉, Z 가 표준정규분포를 따르는 확률변량이면 Z 가 za보다 클 확률이 a인 점이며 수식으로 표현하면 ( )P Z z> a=a 가 성립된다. 예를 들면, .z 1 96.0 025 = ,

.z 1 645.0 95 = - , .z 2 575.0 005 = 등이다.

일반적으로 모평균 n의 신뢰구간은, a를 모평균이 포함 안 될 확률이라고 할 때, 모집단이 정규분포이고 모분산 2

v 을 알고 있다면 다음과 같다.

모평균 n의 100(1 a- )% 구간추정 - 모집단이 정규분포이고 모분산 2v 을 아는 경우

,X zn

X zn/ /2 2

v v- +a ar r; E (6.6)

<그림 6.2.5>는 표준정규분포를 따르는 1만개의 데이터에서 100세트의 표본( n 20=

)을 추출하여 모평균에 대한 95％ 신뢰구간을 구한 것이다. 이 경우에는 100개의 신뢰구간 중 94개만 모평균 0을 포함하고 있다. 이러한 실험을 반복할 때마다. 결과는 약간씩 달라질 수 있다.


<그림 6.2.5> 『eStatU』를 이용한 모평균의 95% 구간추정 의미 실험

[예 6.2.2] 금년도 대졸자의 초임을 알아보기 위하여 100명을 단순임의 추출하여 조사하니 평균이 275만원이었다. 전체 대졸자의 초임이 정규분포를 따르고 표준편차가 5만원이라 가정하자.

1) 전체 대졸자 초임의 평균을 점추정하라. 2) 전체 대졸자 초임의 평균을 95％의 신뢰도로 구간추정하라. 3) 전체 대졸자 초임의 평균을 99％의 신뢰도로 구간추정하라. 이 구간의 너비가

95％ 신뢰구간과 비교해 어떠한가? 4) 표본의 크기가 400명이었을 때 전체 대졸자 초임의 95％ 신뢰구간을 구하라.

문제 2)와 비교해 구간의 너비가 어떠한가?

<풀이>

1) 전체 대졸자 초임 평균의 점추정은 표본평균이므로 275만원이다.

2) 95％의 신뢰구간은 .0 05a = 를 의미하므로

.z z z 1 96/ . / .2 0 05 2 0 025= = =a

따라서 95％ 신뢰구간은 다음과 같다( , )

( . ( / ), . ( / )

( . , . )

X zn

X zn

275 1 96 5 10 275 1 96 5 10

274 02 275 98

/ /2 2

+

+

v v- +

- +

a ar r

3) 99％의 신뢰구간은 = 0.01 를 의미하므로


.z z z 2 575/ . / .2 0 01 2 0 005= = =a

이다. 따라서 99％ 신뢰구간은 다음과 같다.( . ( / ), . ( / ))

( . , . )

275 2 575 5 10 275 2 575 5 10

273 71 276 29+

- +

그러므로, 신뢰도가 증가하면 구간의 너비가 넓어진다.

4) 표본의 크기가 400명이라면 95％ 신뢰구간은 다음과 같다.( . ( / ), . ( / ))

( . , . )

275 1 96 5 20 275 1 96 5 20

274 51 275 49+

- +

그러므로, 표본의 크기가 증가하면 구간의 너비가 좁아진다. 즉, 보다 정확한 추정이 된다.

다. 구간추정 – 모분산을 모르는 경우

신뢰구간 공식으로 미지 모평균을 추정할 때의 문제점은 대개 모표준편차 v를 모른다거나, 모집단이 정규분포가 아니라는 것이다. 만일 표본의 크기가 충분히 크다면 표본의 표준편차 S 를 표준편차의 추정치로 사용하여 근사적으로 모평균 n의 신뢰구간을 구할 수 있다. 하지만 v 를 S 로 대치하였을 때의 정확한 신뢰구간은 t 분포를 이용하여 구하여야 한다.

t 분포는 아일랜드의 한 양조회사에서 근무하던 통계학자 W. S. Gosset에 의해 연구되었는데 스튜던트(Student)라는 가명으로 1907년에 연구결과를 발표하였다. 그래서 흔히 이 분포를 스튜던트 t 분포(Student's t distribution)라 부른다. t 분포는 단 하나의 분포가 아니라, 정규분포가 모수인 평균과 분산에 의해 무수히 많은 정규분포가 정의되는 것과 마찬가지로 t 분포는 자유도(degree of freedom)라는 모수에 따라 무수히 많은 t 분포가 존재한다. 자유도 1, 2, 30 등을 가지는 t 분포는 , ,t t t1 2 30 등으로 표시한다.

t 분포의 모양은 표준정규분포와 흡사하게 0을 중심으로 좌우대칭이지만 표준정규분포보다 평평하고 긴 꼬리를 갖는 특징을 갖고 있다. <그림 6.2.6>은 표준정규분포

( , )N 0 1 과 자유도가 3인 t 분포를 동시에 보여 주고 있다(『eStatU』의 t 분포 사용).


<그림 6.2.6> t3 분포 95% 영역과와 정규분포의 비교

t 분포는 자유도가 증가할수록 표준정규분포에 가까워지는데, 대개 자유도가 30이 넘으면 비슷하다. 이것이 대표본일 때 정규분포를 사용하여 신뢰구간을 구하여도 근사적으로 맞는 이유이다. 자유도가 n 인 t 분포의 ( )100 1 a- % 백분위수를 t ;n a 로 표시하자. 예를 들어, t ; .7 0 95 는 t7 분포(<그림 6.2.7>)의 ( . ) %100 1 0 95 5- = 백분위수를 말한다. 이 값을 컴퓨터를 이용하여 계산하면 -1.895이다. 표준정규분포에서는 이 값이 -1.645이었다. t 분포는 대칭이므로 t t; ;n n 1= -a a- 이다. 예를 들면, t ; .7 0 05 = 1.895 가 된다. 참고로 <그림 6.2.7>은 『eStatU』의 주메뉴에서 ‘t 분포’를 클릭한 후 자유도는 7로 설정하고 분포그림 아래 부분의 두 번째에서 확률값을 0.95로 설정한 경우이다.

<그림 6.2.7> t7 분포의 상위 5% 분위수 .t 1 8946, .7 0 05 =

모분산을 모르나 모집단이 정규분포라고 가정할 수 있는 경우 모평균의 구간추정을


생각해보자. , , ,X X Xn1 2 g 이 정규분포에서의 확률표본이면 v를 모르므로 v대신 표

본표준편차 S 를 사용하면 /S n

X n-r 의 분포가 자유도가 ( )n 1- 인 t 분포를 따른다는

것이 알려져 있다. 즉,

/S nX

tn 1+n-

-

r (6-7)

따라서

/P t

S nX

t 1< <; / ; /n n1 2 1 2n

a--

= -a a- -

r= G (6-8)

임을 얻으며 왼쪽 항을 다시 써보면 다음의 결과를 얻는다.

모평균 n의 100(1-a )% 구간추정 - 모집단이 정규분포이고 모분산 2v 을 모르는 경우

,X tnS X t

nS

; / ; /n n1 2 1 2$ $- +a a- -r r< F (6.9)

여기서 n 은 표본의 크기이고 S 는 표본의 표준편차이다.

[예 6.2.3] [예 6.2.2]에서 만일 표본의 크기가 25명이고 모집단의 표준편차를 몰라서 표본표준편차를 구한 것이 5만원일 경우, 전체 대졸자 초임의 평균을 95％ 신뢰도로 구간추정하여라.

<풀이>

대졸자 초임 평균의 구간추정은 모분산을 모르므로 t 분포를 이용하여야 한다. t 분포에서 .t t t 2 0639; / ; . / ; .n 1 2 25 1 0 05 2 24 0 025= = =a- - 이므로 모평균의 95% 구간추정은 다음과 같다.

,

. , .

( . ( / ), . ( / ))

( )

tnS X t

nSX

72 9361 277 0639

275 2 0639 5 5 275 2 0639 5 5

2

; / ; /n n1 2 1 2

+

+

$ $- +

- +

a a- -r rd n

즉, 표본의 크기가 작아지면 구간의 너비가 넓어짐에 유의하라.

[예 6.2.4] (『eStatU』실습) 금년도 대학교 남자 신입생의 신장을 조사하기 위하여 10명의 표본을 단순임의추출하여 조사한 자료가 다음과 같다. 『eStatU』을 이용하여 대학 신입생의 신장에 대한 95% 구간추정을 하라.


171 172 185 169 175 177 174 179 168 173,

<풀이>

『eStatU』메뉴에서 ‘추정 및 가설검정 : 모평균 n ’를 클릭하여 나타나는 화면에서 [표본자료] 박스에 <그림 6.2.8>과 같이 데이터를 입력하면 t9 분포를 이용하여 신뢰구간 [170.68, 177.92]가 계산된다.

이 『eStatU』모듈에서는 데이터를 입력하지 않고 표본크기, 표본평균, 표본분산을 입력하여 신뢰구간을 구할 수도 있다.

6.3 표본분산의 표집분포와 모분산의 추정

모집단의 모분산과 표본에서 얻어지는 표본분산 사이의 관계를 알 수 있다면 역시 미지의 모분산을 추정하는데 많은 도움이 된다. 이 절에서는 모든 가능한 표본분산들의 분포와 이를 이용한 모분산의 추정에 대하여 알아보자.

6.3.1 표본분산의 표집분포

다음 예를 가지고 표본분산의 표집분포(sampling distribution of sample variances)를 알아보자.

[예 6.3.1] 앞 절의 [예 6.2.1]에서 사용한 영업사원 5명의 근무년수 모집단을 다시 생각하자.


6, 2, 4, 8, 10

1) 이 모집단의 분산을 구하라.

2) 이 모집단에서 표본의 크기가 2인 모든 가능한 표본들을 단순임의 복원추출하여 각각의 표본분산을 구하라. 또 이러한 표본분산들 전체의 평균과 분산을 구하고 모집단의 분산과 비교하라.

3) 표본분산들의 도수분포표를 작성하고 막대그림을 그려보라.

<풀이>

1) 이 모집단의 평균은 n = 6 , 분산은 2v = 8 이다.

2) 표본의 크기 2로 복원추출한 모든 가능한 표본분산들을 적으면 표 6.3.1과 같다.

표 6.3.1 N 5= 인 모집단에서 추출가능한 n 2= 인 모든 표본들의 표본분산

표본 s2 표본 s

2 표본 s2 표본 s

2 표본 s2

2,2 0 4,2 2 6,2 8 8,2 18 10,2 312,4 2 4,4 0 6,4 2 8,4 8 10,4 182,6 8 4,6 2 6,6 0 8,6 2 10,6 82,8 18 4,8 8 6,8 2 8,8 0 10,8 22,10 32 4,10 18 6,10 8 8,10 2 10,10 0

위의 예에서 표본분산도 많은 값을 가질 수 있는 확률변량여서 S 2 으로 표시하고 하나의 관측된 값을 s 2 으로 표시하자. 이러한 표본분산들 중에는 모분산 8과 정확하게 일치하는 값도 있고, 0이나 32와 같이 차이가 많이 나는 표본분산도 있다. 모든 표본분산들의 평균( S

2n 로 표시)을 구하면 다음과 같다.

250 5 2 8 8 6 18 4 32 2 8S

2# # # # #

n = + + + + =

즉, 모든 표본분산들의 평균은 모분산과 같은데 이와 같은 성질을 표본분산은 모분산의 비편향추정량이라고 말한다.

3) 표 6.3.2는 표본분산들의 도수분포표이고 <그림 6.3.1>은 막대그래프이다. 이를 표본분산의 표집분포라 한다. 이 그림에서 관찰할 수 있는 사실은 작은 표본분산들이 많고 큰 표본분산이 적은 비대칭분포이다. 또 모든 표본분산들의 평균( S

2n ) 은 모분산( 2v )과 같다. 즉, 표본분산은 모분산의 비편향추정량이다.

표 6.3.2 표본분산의 도수분포표

s2 도수 상대도수

0 5 0.20


표 6.3.2 표본분산의 도수분포표

2 8 0.328 6 0.2418 4 0.1632 2 0.08

25 1.00

<그림 6.3.1> 표본분산의 표집분포

위의 예에서 관찰하였듯이 표본분산의 표집분포는 작은 표본분산이 많고 큰 표본분산이 적은 비대칭분포이다. 일반적으로 표본분산의 표집분포는 모집단이 정규분포이고 모분산이 2

v 일 때, 표본분산의 상수곱이 카이제곱분포(chi-square; 2|

distribution)를 따른다. 더 정확하게는 통계량( )n S1

2

2

v

-

가 카이제곱분포를 따른다.

이 카이제곱분포는 자유도(degree of freedom)라는 모수에 따라 자유도 1인 카이제곱분포 ( 1

2| 로 표시), 자유도 2인 카이제곱분포 ( 2

2| 로 표시), ... , 자유도가 27인 카이

제곱분포( 272| 로 표시), ... 등으로 t 분포와 같이 무수히 많은 분포를 갖는다. 카이제곱

분포는 비대칭분포인데 <그림 6.3.2>는 여러 가지 자유도에 대한 카이제곱분포의 그림이다.


<그림 6.3.2> 여러 자유도에 대한 카이제곱분포

『eStatU』주메뉴에서 ‘카이제곱분포’를 클릭하면 카이제곱분포의 모든 누적확률과 백분위수 등을 바로 확인할 수 있다(<그림 6.3.3>).

<그림 6.3.3> 『eStatU』의 카이제곱분포 확률 및 백분위수 계산

표본분산의 표집분포를 요약하면 다음과 같다.


표본분산의 표집분포

모집단이 모분산 2v 인 정규분포를 따를 때 크기가 n 인 표본을 단순임의 복원추출하면,

표본분산 S 2 의 특정한 상수곱 /n S12 2v-] g 은 자유도가 n 1-] g인 카이제곱분포를 따

른다. 즉,

n S1n2

2

12

+v

|-

-] g

6.3.2 모분산의 추정

모집단의 분산을 추정하는 예는 다음과 같다.

1) 두 볼트회사에서 한 자동차회사에 볼트를 납품한다. 볼트는 직경이 너무 크거나 작아도 불량품이다. 자동차회사에서 각 볼트 회사에서 납품하는 볼트 직경의 분산을 알아보아 의사결정 자료로 사용하고자 한다.

2) 금년도에 실시된 대입학력고사의 난이도를 평가하기 위해 학력고사 성적의 분산을 알아보고 싶다.

모분산을 추정하기 위해서는 표본분산의 표집분포를 이용하여야 한다. [예 6.3.1]에서 살펴보았듯이 무한모집단의 경우 모든 가능한 표본분산의 평균은 모분산이 된다. 즉, 표본분산( S 2 )은 모분산( 2

v )의 비편향추정량이다. 따라서 모분산( 2v )의 점추정에

는 표본분산( S 2 )이 이용된다. 그리고 모표준편차(v )의 추정에는 표본표준편차( S )가 이용되는데 주의할 것은 표본표준편차는 모표준편차의 비편향추정량이 아니라는 것이다. 그러나 표본의 크기가 커지면 S 를 v 의 추정량으로 사용해도 큰 오차가 없다.

모분산( 2v )의 점추정 : 표본분산( S 2 ) ( S 2 은 2

v 의 비편향추정량)모표준편차(v )의 점추정 : 표본표준편차( S ) ( S 는 v의 비편향추정량이 아님)

앞 절에서 모집단이 정규분포일 때 표본분산들의 상수곱 ( ) /n S12 2v- 이 자유도가

( )n 1- 인 2| 분포를 따르는 것을 알았다. 이를 이용하여 모분산( 2

v )과 모표준편차(v )의 구간추정은 다음과 같이 할 수 있다.


모분산( 2v )의 100(1 a- )% 신뢰구간 - 모집단이 정규분포를 따르는 경우

,n S n S1 1

; / ; /n n1 22

2

1 1 22

2

\ \

- -

a a- - -

] ]g g> H (6-10)

모표준편차 v의 100(1-a )% 신뢰구간 - 모집단의 정규분포이고 표본의 크기가 큰 경우

,n S n S1 1

; / ; /n n1 22

2

1 1 22

2

\ \

- -

a a- - -

] ]g g> H (6-11)

S2 은 표본분산, ;k p

2| 는 자유도 k 인 2

| 분포의 상위 100( p1 - )% 백분위수를 뜻한다.

[예 6.3.2] 금년도 대졸자 초임을 조사하기 위하여 25명을 단순임의 복원추출하여 조사하였더니 표본표준편차가 5만원이다. 모분산, 모표준편차의 점추정과 95％ 신뢰도로 구간추정을 하라. 단, 모집단이 정규분포를 한다고 가정하자.

<풀이>

대졸자 초임에 대한 모분산의 점추정은 표본분산이므로 s 2 = 5 2 = 25이다. 그리고 모표준편차의 점추정은 표본표준편차이므로 s = 5 이다. 모분산의 95％ 신뢰구간은 다음과 같다.

( ),

( )

.( )

, .( )

. , .

n S n S1 1

39 36425 1 5

12 40125 1 5

15 242 48 383

; . / ; . /25 1 0 05 22

2

25 1 1 0 05 22

2

2 2

+

+

| |

- -

- -

- - -

><6 @

FH

모표준편차의 95％ 신뢰구간은 . .,15 242 48 3837 A 즉, [ . , . ]3 904 6 956 이 된다.

[예 6.3.3] (『eStatU』실습) [예 6.2.4]의 금년도 대학교 남자 신입생 표본 10명의 신장 데이터가 다음과 같다. 『eStatU』를 이용하여 대학 신입생의 신장 분산에 대한 95% 구간추정을 하라.

171 172 185 169 175 177 174 179 168 173

<풀이>

『eStatU』메뉴 ⇨ ‘추정 및 가설검정 : 모분산 2v ’을 클릭하여 나타나는 화면에서


[표본자료] 박스에 <그림 6.3.4>와 같이 데이터를 입력하면 92| 분포를 이용하여 신뢰구

간 [12.10, 85.21]이 계산된다.

<그림 6.3.4> 『eStatU』를 이용한 모분산의 추정

이 『eStatU』모듈에서는 데이터의 입력없이 표본크기, 표본분산을 입력하여 신뢰구간을 구할 수도 있다.

6.4 표본비율의 표집분포와 모비율 추정

6.4.1 표본비율의 표집분포

모집단의 모비율과 표본에서 얻어지는 표본비율 사이의 관계를 알 수 있다면 역시 미지의 모비율을 추정하는 데 많은 도움이 된다. 아래의 예를 가지고 모든 가능한 표본비율의 표집분포(sampling distribution of sample proportions)를 알아보자.

[예 6.4.1] 어느 회사의 사원 10명을 모집단이라 하자. 사원들의 회사에 대한 만족도를 조사하여 만족을 1로 불만을 0으로 표시하였을 때 다음과 같다.

1 0 1 1 0 1 1 0 0 1

즉, 모집단에서 만족하는 비율( p )은 0.6이다. 여기서 크기가 5인 모든 표본을 복원추출하여 그 표본비율의 표집분포를 구하라. (역시 이렇게 작은 모집단에서 굳이 표본을 추출할 필요가 없지만, 표본평균의 표집분포를 설명하기 위한 예이다.)

<풀이>


10명 모집단의 분포는 <그림 6.4.1>과 같다. 모집단에서 만족하는 비율은 .p 0 6= 이다.

<그림 6.4.1> 0, 1 모집단의 분포

모집단에서 크기가 5인 모든 가능한 복원추출 표본의 개수는 10×10×10×10×10 = 100000개나 된다. 이 중 서로 다른 표본의 종류와 각 경우의 수는 표 6.4.1과 같다.

표 6.4.1 서로 다른 표본의 종류와 경우의 수

표본의 종류 경우의 수모두 불만족 , , , ,0 0 0 0 0] g C 4 4 4 4 4 10245 0# # # # # =

한 사람 만족 , , , ,0 0 0 0 1] g C 4 4 4 6 768045 1# # # # # =

두 사람 만족 , , , ,0 0 0 1 1] g C 4 4 4 6 6 230405 2# # # # # =

세 사람 만족 , , , ,0 0 1 1 1] g C 4 4 6 6 6 345605 3# # # # # =

네 사람 만족 , , , ,0 1 1 1 1] g C 4 6 6 6 6 259205 4# # # # # =

다섯사람 만족 , , , ,1 1 1 1 1] g C 6 6 6 6 6 77765 5# # # # # =

계 100000

따라서 각각의 표본에서 표본비율( pt )을 구해 도수분포표를 만들면 표 6.4.2와 같다. 세 사람이 만족하는 경우(표본비율 0.6)일 경우가 제일 많음을 알 수 있다.

표 6.4.2. 표본비율의 표집분포

표본 pt 도수 상대도수모두 불만족 0.0 1024 0.01024한 사람 만족 0.2 7680 0.07680두 사람 만족 0.4 23040 0.23040


표 6.4.2. 표본비율의 표집분포

세 사람 만족 0.6 34560 0.34560네 사람 만족 0.8 25920 0.25920

다섯사람 만족 1.0 7776 0.07776계 100000 1.0

<그림 6.4.2>는 표본비율의 표집분포이다. 이러한 표본비율의 표집분포는 표본의 크기가 커지면 표본평균의 표집분포와 유사하게 모비율 .p 0 6= 을 중심으로 대칭이며, 정규분포와 유사한 형태를 보인다.

<그림 6.4.2> 표본비율의 표집분포

일반적으로 표본의 크기가 클 때 표본비율의 표집분포는 다음과 같다.

표본비율의 표집분포 --- 무한모집단의 경우

모집단의 모비율을 p 라 하자. 일반적으로 표본의 크기가 충분히 클 때 표본비율 pt 의 표집

분포는 근사적으로 평균이 p , 분산이 ( )/p p n1 - 인 정규분포이다.

,( )

p N p np p1

+-t c m (6.12)

유한개의 모집단에서 비복원추출할 경우에는 pt 분산에 역시 유한모집단 수정항 ( )/( )N n N 1- - 을 곱하여야 한다.


[예 6.4.2] 한 반도체 공장에서 만들어내는 반도체의 3%가 불량품이라고 하자. 300개의 표본을 비복원추출하였을 때 불량품의 표본비율이 2%이었다. 이 표본비율이 모든 가능한 표본비율 중에서 어디에 위치하는지 알아보고 싶다. 표본비율이 2% 이상일 확률은?

<풀이>

표본비율의 표집분포는 근사적으로 . ,. ( . )

p N 0 03 3000 03 1 0 03

+-t c m 이므로 확률계산

은 다음과 같다.

. . . / .

.

.

. .

P p P Z

P Z

P Z

0 02 0 02 0 03 0 00985

1 02

1 1 02

1 0 1539 0 8461

2 2

2

E

= -

= -

= - -

= - =

t_ ]

]

]

]i

g

g

g g

6.4.2 모비율의 추정

미지 모집단의 비율을 추정하기 위한 몇 가지 실용적인 예를 들어보자.

1) 금년도 선거에서 특정 정당의 지지율은 몇 %나 될까?

2) 현재 우리나라의 실업률은 몇 %나 될까?

3) 자동차 부속품 1만 개를 수입하는데 과연 여기에 불량품이 몇 %나 될까?

모집단의 한 특성에 대한 비율을 추정하려는 것이 모비율( P )의 추정이다. 6.1절에서 살펴보았듯이 표본비율( pt )은 모비율( p ) 추정시 좋은 추정량의 조건을 모두 만족하므로 모비율의 점추정에는 표본비율이 사용된다. 이 때 표본비율의 표준오차는

( )/p p n1 - 가 된다. 모비율 p 는 미지수이므로 ( )/p p n1 -t t 를 표준오차의 추정량으로 사용한다.

모비율( p )의 점추정

표본비율( pt ) 는 모비율 p 의 비편향, 효율, 일치 추정량,

pt의 표준오차 추정량은 ( )/p p n1 -t t

표본의 크기가 충분히 크면 표본비율 pt 의 분포는 정규분포에 근사하게 된다는 사실로부터 모비율 p 의 구간추정은 다음과 같이 할 수 있다.


모비율( p )의 %100 1 a-] g 신뢰구간 - 대표본인 경우

,p z np p

p z np p1 1

/ /2 2--

+-

a at

t tt

t t_ _i i= G (6-13)

모비율을 구간추정할 때 표본의 크기 n 이 충분히 크다고 할 수 있는 기준은

,n p n p5 1 52 2-t t_ i 이다.

[예 6.4.3] 어느 대학의 총 학생회장 선거에 입후보한 학생이 본인의 지지율을 알아보기 위하여 200명의 학생을 단순임의추출하여 질문하였더니 120명이 지지를 하였다. 모집단의 지지율을 점추정하고, 95%의 신뢰수준으로 구간추정을 하라. 『eStatU』를 이용하여 구간추정을 확인하라.

<풀이>

전체 학생의 지지율의 점추정값은 표본비율이므로 다음과 같다.

.p 200120 0 6= =t

전체 지지율의 95% 신뢰구간은 다음과 같다.

,

. .. .

, . .. .

[ . , . ]

p z np p

p z np p1 1

0 6 1 96 2000 6 1 0 6

0 6 1 96 2000 6 1 0 6

0 532 0 668

/ /2 2

+

+

--

+-

--

+-

a at

t tt

t t_

]

_

]

i

g

i

g

<;

FE

『eStatU』에서 ‘추정 및 가설검정 : 모비율 p ’를 클릭하여 나타나는 화면에서 [표본자료] 박스에 <그림 6.4.3>과 같이 데이터를 입력하고 ‘실행’ 버튼을 클릭하면 정규분포를 이용하여 신뢰구간 [0.532, 0.668]이 계산된다.


<그림 6.4.3> 『eStatU』를 이용한 모비율의 추정

6.5 표본의 크기 결정

지금까지는 주어진 표본을 이용하여 모수를 추정하는 것을 다루었다. 그러나 이러한 표본을 얻기 전에 표본의 크기를 얼마로 할 것인가를 먼저 결정해야 할 때가 많이 있다. 이 문제는 추정의 정밀도와 밀접한 연관이 있다. 우리는 앞 절에서, 일반적으로 표본의 크기가 클수록 모수를 구간추정할 때 구간의 너비가 좁아짐(즉, 정밀도가 높아짐)을 알 수 있었다. 하지만 표본을 많이 추출하기 위해서는 비용이 많이 들기 때문에 대개는 연구자가 만족할만한 정밀도를 설정한 후 이 정밀도를 달성하기 위해 필요한 최소한의 표본의 크기를 결정한다.

6.5.1 모평균 추정시 표본의 크기 결정

6.1절에서 보았듯이 평균이 n 분산이 2v 인 모집단에서 모평균 %100 1 a-] g 신뢰

구간은 다음과 같다,

,zn

X zn

X / /2 2v v- +a a

r r; E (6-14)

이 때 zn/2v

a 를 모평균 n 추정에서의 오차의 한계(bound on the error of

estimation)라고 한다 (오차의 한계를 최대허용오차(maximum allowable error)라고 부르기도 한다). 따라서 오차의 한계를 d 로 하기 위한 표본의 크기는 방정식을 n 에 관하여 풀면 된다.

zn

d/2v =a (6-15)


모평균 추정시 표본크기의 결정

n dz /2

2v= a: D (6-16)

위 식에서 모표준편차 v는 보통 알 수 없으므로 과거의 경험자료나 예비조사를 통해 얻은 자료로부터 추정한 값을 쓴다. 예비조사를 통해 모표준편차를 추정할 때 v의 추정값으로 예비조사 자료에서 구한 범위를 4로 나눈 값을 흔히 쓴다.

4 4범위 최댓값 최솟값-

v = =t (6-17)

[예 6.5.1] 어느 공장에서 생산되는 전구 수명의 표준편차가 대개 100시간이라고 한다. 전구의 평균수명을 95% 신뢰수준으로 추정하려고 하는데 오차의 한계가 20시간 이내가 되기 위한 표본의 크기를 구하라.

<풀이>

[ ].

. .n dz

201 96 100

9 8 96 04/2 2 2 2#v

= = = =a b l

그러므로, 필요한 표본의 크기는 97개이다. 오차의 한계가 20시간 이내가 되기 위해서는 97개 이상의 표본을 추출하여야 한다.

6.5.2 모비율 추정시 표본의 크기 결정

모비율 p 의 %1 100 a-] g 신뢰구간은 다음과 같다.

( ),

( )z n

p pp z n

p pp

1 1/ /2 2-

-+

-a a

tt t

tt t< F (6-18)

따라서 오차의 한계가 d 가 되기 위해서는 방정식을 n 에 관하여 풀면 된다.( )

z np p

d1

/2-

=a

t t (6-19)

모비율 추정시 표본의 크기 결정

( )( )n p p dz

1/2 2

= - at t (6-20)


위 식에서 pt는 과거의 경험에 의해 추정된 값을 이용하기도 하고, 예비조사를 하여 추정하기도 한다. 하지만 모비율에 대해 전혀 정보가 없을 때는 n 의 값이 최대가 되는

.p 0 5=t 를 사용하는데, 그 이유는 0.5가 아닌 pt의 값에 대응하는 n 의 값은 우리가 원하는 오차의 한계를 보장하지 못할 수 있기 때문이다.

[예 6.5.2] 금년도 대통령 선거에 어느 후보의 지지율을 95% 신뢰수준으로 조사하려고 한다. 오차의 한계가 2.5% 이내가 되기 위한 표본의 크기를 구하라.

<풀이>

모비율에 대한 지식이 없으므로 .p 0 5=t 로 가정하면 n 은 다음과 같다.

( )( )n p dz

p 1/2 2

= - at t

. ( . ).

..n 0 5 1 0 5

0 025

1 961536 62

2

= - =

따라서 오차의 한계를 2.5% 이내로 하려면 표본을 1537명 이상 추출하여야 한다. 우리나라에서 실시되는 각종 여론조사에서 표본의 크기가 종종 1500명 정도인 것을 보게 되는데 이 때 오차의 한계는 3%를 넘지 않게 된다.

Documents

6.1 표본의 추출 - DocuHutdocuhut.com/wp-content/uploads/2019/02/Data_Science_Ch06... · 2019-02-23 · 6.1 표본의 추출 6장 표본 통계량의 분포와 추정 1 통계조사의