R과 함께하는 통계학의 이해

R과 함께하는

통계학의 이해

빅북이라 명명된 이 책은 지식공유의 세계적인 흐름에 동참하고 지적인 업적들이 세상과 인류의 지식이 되도록 하며, 누구나 쉽게 접근하고 활용할 수 있는 환경을 만들고자 한다.

이 책의 저작권은 빅북(www.bigbook.or.kr)에 있으며 모든 용도로 활용할 수 있다.

다만 상업용 출판을 하고자 하는 경우에는 사전에 문서로 된 허락을 받아야 한다.

공유와 협력의 교과서만들기 운동본부

R과 함께하는

통계학의 이해최용석

부산대학교 자연과학대학 통계학과

R과 함께하는

통계학의 이해

함께 만들고 함께 나누는 공유의 지식!

인류의 지식은 개인의 것이기에 앞서 문화의 유산입니다. 우리는 물려받은 지식의 토대위에 지식

을 창조한 것이며 이는 다음 세대도 그러할 것입니다. 우리의 삶을 풍요롭게 하는 지식은 공기와

같이 공유되어야 하며 이를 통해 더 나은 지식창조가 가능하다고 믿습니다.

이제 지식은 상아탑을 넘어 시민사회의 참여가 필요합니다. 이는 많은 전문가들이 다양한 지식을

가지고 있으며 지식의 변화속도는 상상하기 어려울 정도로 빠르기 때문입니다. 고등교육기관과

시민들이 협력한다면 다양한 견해를 담은 새롭고 혁신적인 지식이 창조될 수 있을 것이며, 함께

나누고 공유한다면 지식은 인류의 삶에 더 큰 기여를 할 수 있을 것입니다.

우선적으로는 교육을 위한 지식들이 공유되어져야 하며 이는 모두에게 평등하게 제공되어야 합

니다. 그리하여 문화적인 유산인 지식이 인종과 성별 그리고 지위와 부의 차이에 의하지 아니하고

필요로 하는 모든 사람들에게 다가가 그들에게 보다 나은 삶이 마련되어야 합니다.

고등교육기관의 지식창조 활동 결과물들도 이를 배워야 할 학생들에게 효과적으로 공유될 필요

가 있으며, 우리는 이를 위한 노력을 경주할 것입니다. 이제 새롭고 수준 높은 지식을 바라는 우리

이웃들의 목마름을 채우기 위하여 작지만 먼 걸음을 시작합니다.

뜻 있는 많은 분들의 도움으로 먼 길이 외롭지 않기를 바랍니다.

공유와 협력의 교과서만들기 운동본부

| 머리말 | I N T R O D U C T I O N

통계학(Statistics)은 실하고 알려져 있지 않은 사실과 대상에 대한 통계정보를 기 위

해 이와 관련된 자 (data)를 수집하고, 그 자 를 요 정리하여 해석하며, 의사결정을 위한 결

론이나 일 성 등을 이 어내는 필요한 이론과 방법을 과학적으로 제시하여 주는 학문이다.

본 교 는 시중에 많은 통계학 입문 수준의 내용과 유사하지만 [보기]를 통하여 실제 문제를 이

해하고 이하는 과정을 보여주는 실히 하였다. 대부분 각 의 마지 절의 < -프로그램

실습>은 [보기]에서 제시된 통계계산의 편의성을 위해 마련되어 있다.

특히 이 책의 구성과 내용의 간략한 요 은 다음과 같다.

1장 통계학의 이해 우리 주변에서 먼저 통계가 어 게 활용되는 지를 보고 여론조사나 실

계획에 의한 자 의 수집과 자 의 구성요소인 개체(observation)와 변수(variable)에 대한 이

해, 그리고 이를 통한 자 의 종류를 소개한다.

2장 자료의 정리 및 요약 표본으로부 정보를 획 하기 위해 주어진 자 에 대해 효 적인 방

법으로 정리 및 요 하는 기법들을 소개한다. 정리 및 요 의 기법에는 표나 그림을 이용할 수도

있고, 수치적 정보를 이용할 수도 있다.

3장 이산확률변수 및 분포 변수의 특징을 이해하기 위해 이산형 변수를 이용하여 기

대 과 분산을 계산하는 방법을 히고, 더 어 이산 분포 중에 가 대표적인 이 분포

(binomial distribution)를 활용하는 방법을 다.

4장 연속확률변수 및 분포 연속 변수와 연속 변수의 분포를 나타내는 도함

수(probability density function)의 특징을 히고, 더 어 연속 분포 중에 가 대표적

인 정 분포(normal distribution)를 활용하는 방법을 다.

5장 표집분포와 중심극한정리 표본의 복 출을 통해 나타나는 표본평 이 가질 수 있는 들

의 특징을 하고, 표본평 의 기대 과 분산을 한다. 더 어 모집단의 분포와는

관하게 표본의 크기가 분히 큰 경우 표본평 의 분포는 정 분포를 따르게 된다는 중심

한정리에 대해 알아본다.

6장 추정 표본으로부 획 한 수치적 정보 즉, 통계량을 이용하여 실제 관심의 대상인 모수의

참 에 대해 알아가는 정의 방법을 다.

7장 가설 검정 : 한 집단의 비교 제기된 주 의 타당성을 정할 때 통계적 가설 정의 문제를

다 며 한 집단의 모평 과 모비 을 표본의 크기에 따른 대표본과 소표본에서 다 려 한다. 특

히, 기각역을 활용하 나 유의 에 의한 정방법을 소개한다.

8장 독립표본과 대응표본 : 두 집단의 비교 립된 두 집단에 의한 립표본 또는 동일한 한 집

단에 대해 두 번 복 측정한 대응표본을 비교하기 위해선 통계량은 각 집단 또는 두 번 측정한

표본의 평 또는 비 에 의한 정을 다 게 된다.

9장 분산분석 : 여러 집단의 비교 여러 집단 또는 여러 처리를 비교할 때 적용되는 분산분석

(analysis of variance, AN A)에 대해 알아보고 가 기초가 되는 일원 분산분석에 대해서

의하고자 한다.

10장 상관분석과 회귀분석 : 두 변수의 관계 여러 분야의 통계분석에서 두 개 은 그 이

상의 측정변수들의 관계가 중요한 경우가 많다. 이를 측정하기 위한 상관계수(correlation

coefficient)와 변수들 간의 관계를 나타내는 함수식을 아내고 이를 이용하여 예측 및 론을

하기 위한 회 분석(regression analysis)을 소개하고 있다.

11장 분할표 자료분석 : 범주들의 관계 관 된 자 가 주형 변수에 따라 정리된 분할표

(contingency table)에서 주간의 립성 정(test of independence)과 동질성 정(test

of homogeneity)인 이제 정을 소개하고 있다.

이 책을 성하는 도움을 준 신상민 사와 이보 선생, 그리고 은성, 준수, 선경 대학

원 지도학생들의 헌신적인 오류 지적에 고마움을 전합니다. 이 책은 빅북(Big Book) 운동의 일

환으로 <공유와 협력의 교과서 만들기 운동> 취지에 동참하여 제작되었고 특히, 이 기회를 제공

하신 (사)사회적기업연구원-교과서만들기 운동본부 조영복 대표 의 열정에 경을 표하며 변은

비 연구원의 실 적 도움에도 사를 드립니다.

2014년 6월

이 책이 모든 이에게 따뜻한 지식공유가 되기를 바랍니다.

저자 드림

| 목차 | C O N T E N T S

| 1장 | 통계학의 이해_13: : 1.1 통계학의 활용 15: : 1.2 자 의 수집 19: : 1.3 자 의 이해 21: : 1.4 연습문제 24

| 2장 | 자료의 정리 및 요약_27: : 2.1 주형 자 의 요 29: : 2.2 이산형 자 의 요 32: : 2.3 표와 그림을 이용한 연속형 자 의 요 33: : 2.4 수치를 이용한 연속형 자 의 요 38: : 2.5 상자그림 44: : 2.6 -프로그램 실습 47: : 2.7 연습문제 50

| 3장 | 이산확률변수 및 분포_53: : 3.1 사건의 55: : 3.2 변수 56: : 3.3 이산 변수의 분포함수 57: : 3.4 변수의 기대 과 표준편차 58: : 3.5 이 분포 66: : 3.6 -프로그램 실습 71: : 3.7 연습문제 72

| 4장 | 연속확률변수 및 분포_75: : 4.1 연속 변수의 분포함수 77: : 4.2 정 분포 80: : 4.3 정 분포의 계산 82: : 4.4 이 분포의 정 근사 85: : 4.5 -프로그램 실습 88: : 4.6 연습문제 90

| 5장 | 표집분포와 중심극한정리_93: : 5.1 표집분포 95: : 5.2 표본평 의 분포와 중심 한정리 98: : 5.3 -프로그램 실습 102: : 5.4 연습문제 104

| 6장 | 추정_107: : 6.1 통계적 론 109: : 6.2 모평 에 대한 점 정 110: : 6.3 모평 에 대한 구간 정 113: : 6.4 모비 에 대한 정 120: : 6.5 -프로그램 실습 123: : 6.6 연습문제 125

| 7장 | 가설 검정 : 한 집단의 비교_127: : 7.1 가설과 대립가설 129: : 7.2 대표본의 모평 정 130: : 7.3 단측 정과 양측 정 133: : 7.4 소표본의 모평 정 136: : 7.5 모비 의 정 138: : 7.6 오류와 유의 140: : 7.7 -프로그램 실습 145: : 7.8 연습문제 148

| 8장 | 독립표본과 대응표본 : 두 집단의 비교_151: : 8.1 두 집단의 비교 153: : 8.2 립표본의 비교 155: : 8.3 소표본에서 모분산이 다른 경우의 비교 165: : 8.4 대응표본 168: : 8.5 립표본의 모비 비교 172: : 8.6 -프로그램 실습 177: : 8.7 연습문제 180

| 9장 | 분산분석 : 여러 집단의 비교_185: : 9.1 여러 집단의 비교 187: : 9.2 일원 분산분석 188: : 9.3 -프로그램 실습 194: : 9.4 연습문제 196

| 10장 | 상관분석과 회귀분석 : 두 변수의 관계_201: : 10.1 상관분석 203: : 10.2 회 분석 209: : 10.3 최소제 법과 차 213: : 10.4 적합된 회 식의 타당성 218: : 10.5 -프로그램 실습 224: : 10.6 연습문제 230

| 11장 | 분할표 자료분석 : 범주들의 관계_235: : 11.1 분할표 237: : 11.2 이제 통계량 239: : 11.3 이제 정 243: : 11.4 -프로그램 실습 246: : 11.5 연습문제 248

★ 부록 Ⅰ 확률분포표 253★ 부록 Ⅱ R 설치 및 기본 사용법 257★ 부록 Ⅲ 연습문제 풀이 265★ 찾아보기 285

1.1 통계학의 활용1.2 자 의 수집1.3 자 의 이해

1.4 연습문제

1장통계학의 이해

R과 함께하는

통계학의 이해

1장통계학의이해

15

1.1 통계학의활용

통계학을이해하기위해선먼저우리주변에서통계가어떻게활용되는지를살펴보는것이중요하다.통계학을필요로하는분야는농업,생명과학,환경과학,산업연구,품질관리,시장조사등매우많다.우리가신문을읽거나,텔레비전을보거나,인터넷을사용할때다음과같이수치를활용한수많은통계정보를만나게된다.

실업률OECD 30개국가간비교를해보면한국의경우 2007년기준으로취업률이 63.9%로

OECD평균인66.7%보다낮은한편실업률또한3.2%로매우낮은수준을보인다.이처럼실업률과취업률이함께가장낮게나타난결과,일할의사나능력이없는것으로간주되는비경제활동인구비율이32.9%로OECD평균인27.7%보다상당히높게나타난다.또한국의장기실업자비율은0.6%로OECD국가가운데가장낮으며,OECD평균인29.1%에비교할때기적같은수치다.

농산물수요및소비자가격마늘의경우5월이후지금까지총7차례가격전망을했는데단한차례만실제가격과소

폭차이가발생한것으로나타났으며,최근11월중순부터12월초까지의예측에서도도매가격이1㎏당2,780원으로추정범위(2,720~3,000원)내이다.특히,주요농산물(마늘,양파,건고추,무,배추)의공급과수요동향,해외생산및수입동향,재고량,당월· 단· 중기가격전망에대한정보를공유하고있다.

물가안정3월물가안정은기상여건호전,보육료지원확대등으로농산물(1.5%→-2.7%)과개인서

비스(0.5%→-0.8%)가전월대비하락세로전환된데에따른것이라고통계청과기획재정부는설명했다.

지지도조사모후보지지도가K49%,2주만에반등L한것으로조사됐다.이번조사는여론조사전문기

R과함께하는통계학의이해

16

관A와인터넷신문B와함께지난12월29~31일3일간전국만19세이상휴대전화가입자2,500명을대상으로임의걸기(RDD)방식으로진행했다.표본은2013년11월말현재국가주민등록인구통계에 따라 비례할당 후 무작위로 추출했고, 표본오차는 95% 신뢰수준에±2.0%p다(응답률:5.2%).

의학진단과예측당뇨병을앓은경우알츠하이머병에걸릴위험이약65%까지높다고과학자들은주장했다.

시카고의러시의과대학연구소는5년동안800명을대상으로이러한위험의증가를발견했다.이시카고의연구자들은러시대학의종교단에참가한824명의수녀와신부그리고수사들을대상으로5년반동안연구하였다.이연구과정에서151명의사람들이알츠하이머에걸렸고그중에서31명은당뇨병환자들이었다.연구자들은계산결과당뇨병환자들이비당뇨병환자들에비해알츠하이머에걸릴위험이65%나높다는사실을밝혀냈다.

사회경제적지위와저체중아연관성통계청의1995년부터2004년까지전국의출생신고자료에등록된출산아580만1,545명

을분석한결과초등학교졸업학력의산모는대졸이상인산모보다저체중아를낳을가능성이1.77배나높은것으로나타났다.중졸산모도대졸이상보다저체중아출산가능성이1.46배정도높았다.부모의낮은사회· 경제적지위가자녀의나쁜건강상태로이어진것이다.저체중아는태어날때몸무게가2.5㎏미만인아기를가리킨다.아버지의학력도저체중아출생과관련이있었는데,초등학교졸업이하는대졸이상보다저체중아를얻을확률이1.69배높았으며,고졸아버지는1.1배,중졸은1.44배각각높았다.

시청률조사새해첫날인어제(2일)방송된드라마중시청률1위는KBS1일일드라마K사랑은노래를

타고L가차지했다.3일시청률조사기관에따르면전날방송된드라마중K사랑은노래를타고L는27.7%로1위에올랐다.전날26.9%보다0.8%로상승한수치다.전체드라마시청률2위이자,수목드라마시청률1위를기록중인SBSK별에서온그대L는24.6%로집계됐다.앞서방송분보다2.3%상승했다.KBS2K루비반지L는22.5%(3위)로,KBS2KTV소설은희L는16.9%(4위)로조사됐다.뒤이어SBSK두여자의방L(14.7%)이5위에랭크됐다.수목드라마MBCK미스코리아L는8.9%로전날방송(9.5%)보다다소하락했다.


17

통계학의정의와분류

통 계 학 : 불확실하고잘알려져있지않은사실과대상에대한통계정보를얻기위해이와관련된 자료(d ata)를 수집하고, 그 자료를 요약 정리하여 해석하며, 의사결정을위한결론이나일반성등을이끌어내는데필요한이론과방법을과학적으로제시하여주는학문이다.

기술통계학 : 자료를정리하여그림이나표로요약하거나자료들의수치값을요약한대표값이나자료의흩어진형태(분포)와변동의크기등을구하는분야.

교통진단빅데이터분석,처리기술을교통분야에접목하였다.부산시과거각종교통정보를활용하

여교통정체구간을시공간적길이로분류패턴화하였고주변도로의교통량등에영향을미치는변수를추가로분석결합해서현재이후의교통흐름을구간별,시간대별로예측하였다.앞으로날씨와사고여부정보까지반영한교통빅데이터예측정확도향상연구를추진할계획이다.

이상에서살펴본바와같이수치를활용한통계정보는사회경제적지위와저체중아연관성과같이현재관찰되는사회적현상일수도있고,물가안정을가져다준요인을찾아내기도하며,농산물수요와가격을예측하기도하여우리들이의문점을갖는다양한분야에대한해답을제시한다.더불어이러한해답이기존사실과비교해얼마나위배되며어느정도믿을수있는지확인해보는것도중요하다.우리는믿을수있는정보를통하여합리적이고과학적인방향으로의사결정을내리게된다.최근교통진단과같이사회여러분야에서축적된대용량자료로부터정보를추출하고이를토대로예측하거나대응하기위한빅테이터기술에대한국가적관심이높다.

따라서불확실하고잘알려져있지않은사실과대상에대한통계정보를얻기위해이와관련된자료(data)를수집하고,그자료를요약정리하여해석하며,의사결정을위한결론이나일반성등을이끌어내는데필요한이론과방법을과학적으로제시하여주는학문으로통계학을이해하면될것같다.


18

추측통계학 : 통계적모형과구간을설정하기도하고추측하기도하며어떤기존의사실에대하여가설을세우고이를검정하고예측하는분야.

통계학에는자료를수집하고,그자료를정리하여그림이나표로요약하거나자료들의수치값을요약한실업률,소비자물가지수,시청률,소득평균등과같이대표값이나자료의흩어진형태(분포)와변동의크기등을구하는방법을다루는기술통계학(descr i pti ve stati sti cs)이있다.이를통하여자료의전반적인형태와특징을파악할수있게된다.실제통계학이불확실하고잘알려져있지않은사실을발견해내고미래에도이런사실이지속될것인지를예측하고이들의믿을만한정도를평가하는데큰위력을발휘한다고생각한다.이를위해서일반적으로통계적모형과구간을설정하기도하고추측하며어떤기존의사실에대하여가설(hypothesi s)을세우고이를검정(test)하는추측통계학(i nferencestati sti cs)이현대통계학에서핵심이되고있다.


19

보기1.1

부산시가시전체노동력조사를대신하여남구와서구의각 5개구별대상으로노동력인구와이들중실업자의비율을알고자한다.

1.2 자료의수집

기술통계학과추측통계학을적용하기위한통계정보를얻기위해선자료를수집해야하는데사회현상의정보를얻기위한사회과학분야에서는표집조사(sampl i ng)와여론조사(survey)방법을 사용하고, 모의실험이나 측정을 통한 정보를 얻는 자연과학 분야에서는 실험계획(exper imental desi gn)방법을주로사용한다.예를들자면대통령후보에대한자질도나호감도를조사하기위해선지역,나이,교육수준등을고려한적절한표집방법을잘선택하여전체를잘대표할사람들을대상으로여론조사를실시해야한다.그리고환경의변화에따른혈압과수명을알아보기위해선동일한대상에대하여환경변화전과후를잘계획하여측정해야한다.

사회과학분야나자연과학분야나통계정보를얻기위한자료의수집에는두가지방법이있다.관심있는대상의전체를조사하는전수조사가있고일부만조사하는표본조사가있다.이는조사시간과비용을고려하여이루어진다.인기드라마에대한시청률조사인경우전국민을대상으로조사하기란불가능하다.이럴경우적절한표본의패널을선정하고이들을통하여드라마시청을한사람을집계하게된다.반면에전수조사인총인구조사(census)인경우전체대상의수가너무많아조사시간이오래걸리며조사원들의교육과관리의집중화와효율성도매우중요한요소이다.엄청난제작비용을지불해야하는인공위성이나로켓의성능실험을위해전수조사를한다는것은불가능한일이다.이와같이전체자료의수가적은경우를제외하면표본조사를통해통계조사가이루어지는것이바람직하다.

일반적으로통계조사의관심이되는모든대상들의집합을모집단(popul ati on)이라고부른다.특히,모집단의특성을나타내는수치를모수(parameter)라한다.시청률조사에서전국민을모집단으로하는시청률이모수에해당한다.표본(sampl e)은시청률조사를위해선정된패널에해당하며이표본의특성을나타내는수치를통계량(stati sti cs)이라하며표본을통해얻어진시청률이여기에해당한다.모집단과표본의이해를위해다음의보기를살펴보자.


20

- 모집단:부산시전체노동력인구와실업자- 모 수 :모집단의노동력있는인구수,실업자수,실업자의비율- 표 본 :남구와서구의각5개구별노동력인구와실업자- 통계량:표본의노동력있는인구수,실업자수,실업자의비율

보기1.2

A타이어공장의5개공정과정에서하루에생산되는사계절용타이어10,000개의평균주행거리를 알고자실험을실시하였다. 실제로각 공정과정에서 10개씩 50개 타이어를대상으로평균주행거리를계산하였다.

- 모집단:A타이어공장의5개공정과정에서하루에생산되는사계절용타이어10,000개- 모 수 :모집단의타이어의평균주행거리 - 표 본 :각공정과정에서10개씩50개타이어- 통계량:표본의타이어의평균주행거리

[보기1.1]과[보기1.2]를통하여1.1절에서언급한추측통계학에대한이해를추가적으로설명하자.각각의보기를통하여알고자하는통계정보는부산시노동력인구와이들중실업자의비율또는부산시전체노동력인구와실업자또는A타이어공장의5개공정과정에서하루에생산되는사계절용타이어10,000개의평균주행거리이다.이통계정보를모수라고볼수있다.이를전수조사를통하여비용이나시간적제약으로얻기어렵기때문에모집단으로부터추출된표본을통한통계량에의해서추측하게된다.이렇게모수를추측함으로써얻어낸통계량의신뢰성을살펴보는것또한당연히이루어져야할과제이다.[그림1.1]은지금까지살펴본통계학의정의와통계정보를얻기위한자료수집등통계자

료분석의단계를한눈에살펴보도록그림으로요약한것이다.

[그림1.1]통계자료분석의단계

모집단(모수)

통계조사⇨

실험계획

표본(통계량) ⇨

요약정리

(기술통계학)⇨

분석추론

(추측통계학)⇨ 의사결정


21

1.3 자료의이해

자료의수집을위해제일먼저이해되어야할부분은자료의구성요소인개체(observati on)와변수(var i abl e)이다.변수는자료의수집에서관심이되며측정해야할어떤특성을말하며설문지각문항의응답,성별,키,몸무게,온도,혈압,머리색깔,과목성적,철의강도,주행시간,단백질량,실업자수,사망자수,사고건수,주행거리,사고의정도등을들수있다.이들에의해서실제측정되는대상으로가장기본이되는단위를개체라하며50명의남녀,30마리의쥐,5개공정과정에서하루에생산되는사계절용타이어10,000개,80명의학생등이있다.대개변수에의한자료의측정값은변수값이된다.

[표1.1]의자료를살펴보면10명의고등학생을대상으로흡연,성별,키,몸무게,평소운동량을측정하였고이들중달리기를한사람과달리기를하지않은사람으로나누고이들의처음심장박동수와달리기를마친후모든학생의나중심장박동수를측정하였다.여기서10명의고등학생이개체가되고,심장박동수,흡연,성별,키,몸무게,평소운동량을변수라하며이들은다음과같이변수값을가진다.

달리기(1=달리기를한사람,2=달리기를하지않은사람),흡연(1=흡연자,2=비흡연자),성별(1=남자,2=여자),운동량(1=적음,2=보통,3=많음).

[표1.1]심장박동수자료

학생처음심장박동수

나중심장박동수

달리기 흡연 성별 키(cm)

몸무게(kg) 운동량

1 64 88 1 2 1 168 63.5 22 58 70 1 2 1 183 65.8 23 62 76 1 1 1 185 72.6 34 66 78 1 1 1 185 86.2 15 64 80 1 2 1 175 70.3 26 64 60 2 2 2 168 81.6 37 94 92 2 1 2 157 82.1 28 60 66 2 2 2 157 54.4 29 72 70 2 2 2 173 78.5 210 58 56 2 2 2 170 56.7 2


22

보기1.3

[표1.1]로부터양적자료인키의자료를150에서170사이를1=하,171에서180사이를2=중,181이상을3=대로변환하면다음의질적자료를얻는다.

양적자료: 168183185185175168157157173170 질적자료: 1 3 3 3 2 1 1 1 2 1

자료는측정변수의성질에 따라 일반적으로질적 자료(qual i tat i ve data)와 양적 자료(quanti tat i vedata)로나눌수있고이들두가지가혼합된경우가대부분이다.[표1.1]의경우질적자료는변수가달리기(1=달리기를한사람,2=달리기를하지않은사람),흡연(1=흡연자,2=비흡연자),성별(1=남자,2=여자),운동량(1=적음,2=보통,3=많음)에의해서측정된자료이다.즉,질적이란개체인측정대상이어느범주에들어가는지를나타내며이를범주형자료(categor i cal data)라고도한다.양적자료는변수가처음심장박동수,나중심장박동수,키(cm),몸무게(kg)와같이양을나타내는수치자료를말한다.

특히,양적자료에서키와몸무게와같이관측값들이셀수없는연속적인구간의값을취하는경우를연속형자료(conti nuous data)라하고,심장박동수와같이관측값들이셀수있는값을취하는경우를이산형자료(di scretedata)라한다.질적자료에서운동량의경우세가지범주(1=적음,2=보통,3=많음)가주어지며이들사이는순서상의미가있으므로순위형자료(odi nal data)또는서수척도자료(ordi nal scal i ngdata)라한다.반면에달리기(1=달리기를한사람,2=달리기를하지않은사람),흡연(1=흡연자,2=비흡연자),성별(1=남자, 2=여자)과 같은 질적 자료는 수치가 단지 구분하기 위한 것으로 이를 명목형 자료(nomi nal data)또는명목척도자료(nomi nal scal i ngdata)라한다.

양적자료와질적자료는서로변환이가능하지만질적자료에서양적자료로의변환은다소고급개념이요구되므로생략하기로하자.자료를요약하는초기단계에서양적자료의경우수치값을이용하므로평균과분산과같은통계적계산을위해사용되지만질적자료의경우는범주에따른자료의빈도수를이용하므로자료를요약정리하는데용이하다.


23

따라서자료는조사방법과측정변수에따라다양하게구분할수있지만크게는양적자료와질적자료로구분되고양적자료에는연속형과이산형으로나누고,질적자료에는순위형과명목형으로나눌수있음을살펴보았다.

자료의종류

자료

양적자료연속형자료(예:키)

이산형자료(예:입장인원수)

질적자료순위형자료(예:선호도)

명목형자료(예:성별)


24

1.4 연습문제

1.1 다음의자료를양적자료와질적자료로분류하여라.(1)판매된콘서트티켓수(2)체지방양(3)좋아하는야구팀(4)식료품을구입하기위해식료품코너에서있는시간(5)부산대학교에등록된학생수(6)가장많이본TV프로그램(7)치약의브랜드(8)가장가까운극장까지의거리(9)국내10대기업임원의나이

1.2 A피트니스센터는회원들이일주일에운동하는시간의평균을조사하기위하여전체회원들중50명을뽑아서조사하였다.이경우다음을정의하라.

(1)모집단(2)모수(3)표본(4)통계량

1.3 결혼상담사는결혼을지속하는고객들의비율을알기위하여자신이상담한고객들중100명을뽑아서조사하였다.이경우다음을정의하라.

(1)모집단(2)모수(3)표본(4)통계량


25

1.4 다음의자료를명목척도자료,서수척도자료,구간척도자료,비율척도자료로분류하여라.(1)레스토랑메인요리들의베이킹온도(2)24색크레파스세트안에든크레파스색깔(3)대형마트의월소득(4)웹사이트만족도조사:매우만족,보통,매우불만족(5)정치적견해:극좌파,좌파,우파,극우파(6)아날로그시계의눈금(7)21-65세여성의키(8)통계학과목수강생들의평점:A,B,C,D,F

1.5 한통계학과교수는통계학수강생들의한학기동안평균결석일수에관심이있다.통계학수강생들중10명을뽑아서조사한결과,평균결석일수는3.5일로나타났다.

(1)모집단은무엇인가?(2)표본은무엇인가?(3)통계량은얼마인가?

1.6 대구에위치한지역공원을이용하는주민들의나이,주당이용횟수,이용시간을알기위하여공원주변의집들중일부를선택하여조사하였다.다음의자료를연속형과이산형으로분류하여라.

(1)주민들의나이(2)주당이용횟수(3)이용시간

1.7 부산금정구보건소에방문한성인20명의키와몸무게를조사하여체질량지수(BMI )를계산하였다. 체질량지수가 20 미만은저체중, 20 이상~25 미만은정상체중, 25 이상~30미만은과체중,30이상~35미만은비만,35이상은고도비만으로자료를변환시켰다.변환하기전과후의자료형태는각각무엇인가?

2.1 주형 자 의 요2.2 이산형 자 의 요

2.3 표와 그림을 이용한 연속형 자 의 요2.4 수치를 이용한 연속형 자 의 요

2.5 상자그림2.6 -프로그램 실습

2.7 연습문제

2장자료의 정리 및 요약

R과 함께하는

통계학의 이해

2장자료의정리및요약

29

보기2.1

어느대학에서통계학수업을수강하는55명의학생들을대상으로혈액형을조사한결과는다음과같다.이자료를도수분포표로요약하라.

B A B A A B O A A A OB AB B AB AB A A O AB O AB O B B A A O A A AB BB O B B B A AB A A B OB B O B O B A A AB A A

혈액형이A인학생의수즉,도수는20이며이에대한상대도수는 (20/55=) 0.364이다.이와같이각각의혈액형별로도수와상대도수를파악하고도수분포표를나타내면다음과같다.

2.1 범주형자료의요약

일반적으로범주형자료에서는몇개의범주가반복해서나타나게되므로,각범주가나타나는횟수를요약함으로써범주형자료의내용을쉽게파악할수있을것이다.이처럼이절에서는범주형자료의내용을효과적으로파악하기위해표나그래프를이용하여자료를정리/요약하는기법을공부한다.

우선,범주형자료의요약에대해알아보자.범주형자료가가지는각각의관측값은몇개의범주중하나의값을가지게되므로,범주형자료를요약할때는각각의범주에속하는관측값의개수를파악하게된다.이를도수(frequency)라고한다.범주형자료에대해각각의범주와그에대응되는도수를나열한표를도수분포표(frequency tabl e)라고하며,이러한도수분포표를작성하는것은범주형자료에대한가장기본적인요약기법이다.도수분포표에는필요에따라추가적인정보를나타내기도하는데,도수를자료의전체개수로나눈비율인상대도수(rel at i ve frequency)를추가적으로기록한다.이러한상대도수는때때로백분율(%)로표현하기도한다.


30

혈액형 도수 상대도수A 20 0.364B 18 0.327O 10 0.182AB 7 0.127합계 55 1.000

보기2.2

[보기2.1]에제시되어있는55명의혈액형자료에대한원도표와막대도표로요약하라.

원도표를그리기위해서는표현할원조각의중심각을계산하여야한다. A형의경우상대도수가 0.364이므로 360°이므로 A형을 나타낼 조각의 중심각은 약 (360°Z 0.364m )131°이다. 이와같이계산하면 B형은 118°이고 O형은 65°, AB형은 46°가된다.이를이용하여원도표를그리면 [그림 2.1]의 (a)와같다.막대도표는막대의높이가해당범주의도수를나타내며,그결과는[그림2.1]의 (b )와같다.

어떠한자료든지해당자료를요약해서나타낼때는,단순한숫자나문자의나열보다는그림을이용하는것이전반적인개요를쉽게이해할수있다.범주형자료를요약할때사용할수있는효과적인그래프로는원도표(pi echar t)와막대도표(bar char t)가있다.

원도표는원을그린후,상대도수에비례하게중심각을나누어해당원을조각내서표현한그림이다.원도표를이용하면각범주또는몇개의범주가차지하는비율을파악하기용이해진다.그러나범주상의도수를비교하거나도수의차이를파악하기에는힘든경우가많다.이러한경우이용할수있는그림이막대도표이다.

막대도표는각범주에서도수의크기를막대의높이로표현한다.만약전체에서각범주가차지하는비율에관심이있으면도수대신상대도수를사용하기도한다.도수를이용하든상대도수를이용하든그림의모양은같다.이러한막대도표를이용하면각범주간의도수를비교하는데용이하다.


31

[그림2.1]의 (a)원도표를보면55명의학생중혈액형이A형과B형인학생의비율이높음을알수있다.그러나둘중어느혈액형이더많은지는구분하기힘들다.이런경우, [그림2.1]의 (b )막대도표를이용하면A형인학생의수가B형인학생의수보다많음을쉽게알수있다.

A

B

O

AB

A B O AB

05

1015

2025

(a)원도표 (b)막대도표

[그림2.1]혈액형자료에대한원도표와막대도표


32

2.2 이산형자료의요약

앞서언급한바와같이이산형자료(di scretedata)는관측값을측정할때세어서파악한자료를말한다.이러한이산형자료는관측값중중복되는값이많고적음에따라요약하는기법이다르다.일반적으로중복되는값이많으면2.1절에서소개한범주형자료의요약기법을 사용하고, 중복되는 값이 적으며 다음 절에서 소개하게 될 연속형 자료(conti nuousdata)의요약기법을사용한다.

예를들어,특정도시에서각가정의자녀수를조사한다고가정하자.이러한조사의관측값들은대부분0,1,2,3,4등의값들로기록될것이다.다시말해0에서4사이의값들이많이중복될것이다.이러한경우에는0에서4사이의각각의값들을하나의범주로간주하여도수분포표를작성하고막대도표나원도표를그려서요약할수있다.

그러나특정도시의야구장에매경기입장한관객의수를조사한다고가정하면,이러한조사의관측값들은거의대다수가서로다른값을가지게될것이다.이러한경우범주형자료의요약기법에따라도수분포표를작성하게되면중복되는값이없기때문에모든도수가1인도수분포표가만들어지게된다.이와같은경우에는해당자료를연속형자료로간주하여다음절에서소개되는연속형자료의요약기법을사용할수있다.


33

2.3 표와그림을이용한연속형자료의요약

연속형자료는연속적인척도에의해관측되는자료로반올림되어정수값으로표현되기도하지만,이산형자료와는달리실제값은실수값으로표현될수있다.이와같은이유로,연속형자료는관측값들중에서중복되는값이많지않을수도있다.이러한연속형자료를요약할때에는여타자료와는달리좀더세 한주의가필요하다.

도수분포표는기본적으로범주형자료의요약기법이다.따라서관측값들중에서중복되는값이많은경우즉,관측값의종류가적은경우에유용하게사용할수있다.그러나연속형자료는일반적으로관측값의종류가많기때문에최소값부터최대값까지모든관측값을포함하는범위를몇개의구간으로나누어각구간에포함되는관측값의개수를도수로표현하는방식으로도수분포표를작성하게된다.이때,나뉘어진각부분을계급(cl ass)이라하고각계급에포함되는값의범위를계급구간(cl assi nterval )이라한다.

연속형자료를위한도수분포표의계급구간설정방법을구체적으로설명하자면,우선주어진자료의최대값과최소값의차이를계산하여모든관측값을포함하는범위를파악한후,계급의개수로나누어계급구간의폭을결정한다.이때,계급의개수를결정할때에는특별한법칙이있는것은아니다.다만,계급의개수가너무적으면계급구간의폭이넓어져서해당구간의도수가커지게되므로너무많은정보를잃어버리게된다.반대로계급의개수가너무많으면계급구간의폭이좁아질것이다.이러한경우에는도수가나타내게되는어떠한경향도찾기힘들어지게된다.따라서계급의개수를정할때는자료의성향을파악하여도수의분포경향이잘드러날수있도록계급의개수를선택하여야한다.이와같은이유로연속형자료를도수분포표로표현할때에는많은시행착오를겪게된다.

다음으로계급의폭에따라모든관측값을포함하도록계급구간의경계점을설정한다.이경우,관측값이계급의경계점에놓이지않도록하는것이바람직하기때문에계급구간의경계점값은관측단위보다한단계아래의단위로잡기도한다.또한K첫번째계급구간의시작점과최소값까지의거리L와K마지막구간의종료점과최대값까지의거리L가비슷하게끔조절해주는것이좋다.그이유는첫번째계급구간의시작점에최소값이위치하게되면마지막계


34

보기2.3

다음의자료는어느대학에서임의로선정한남학생 55명의키를기록한것으로단위는센티미터(㎝)이다.이자료에대한도수분포표를작성하라.

170 178 171 168 173 178 171 174 170 170 175170 169 166 162 170 171 175 175 171 171 170172 179 164 170 181 178 180 177 166 169 168165 163 175 166 178 165 168 167 177 168 177174 174 176 179 169 173 167 170 173 170 162

우선주어진자료의최대값과최소값의차이는 181 162 19이다. 이자료에대해도수분포표를만들기위해계급의개수를5개로결정하게되면계급구간의폭은 19 5 3.8이다.이와같은경우계급구간의폭은해당값을올림하여4로하는것이좋다.다음으로첫번째계급구간의시작점과최소값까지의거리와마지막구간의종료점과최대값까지의 거리가 비슷하게끔 조절하면, 첫 번째 계급구간의 시작점을 161로 설정할 수 있다. 이경우계급구간의경계점값이관측단위와같아지게되므로좋지않다.즉,계급구간의경계점값은관측단위보다한단계아래의단위가될수있게끔첫번째계급구간의시작점을161.5로시작하는것이좋다.이와같은방법으로계급구간을설정하고도수분포표로나타내면다음과같다.

계급구간(㎝) 도수 상대도수161.5이상165.5미만 6 0.109165.5이상169.5미만 12 0.218169.5이상173.5미만 18 0.327173.5이상177.5미만 11 0.200177.5이상181.5미만 8 0.146합계 55 1.000

급구간에최대값이포함되지못하고한단계앞 의계급구간에최대값이위치할수도있기때문이다.


35

보기2.4

[보기2.3]의55명남학생들의키자료에대한히스토그램을그려라.

계급구간(㎝) 상대도수 높이161.5이상165.5미만 0.109 0.027165.5이상169.5미만 0.218 0.055169.5이상173.5미만 0.327 0.082173.5이상177.5미만 0.200 0.050177.5이상181.5미만 0.146 0.036

히스토그램을그리기위해서는막대의높이를계산하여야한다.따라서[보기2.3]에서작성한도수분포표는 계급구간의 폭이 4이므로, 이를 이용하여 각각의 계급에 해당하는 막대의 높이를계산하면다음과같다.

따라서히스토그램은다음과같이표현된다.

연속형자료에서도도수분포표를기초로하여각계급에대하여범주형자료에서의막대도표와유사한모향의그림을그릴수있는데,이러한그림을히스토그램(hi stogram)이라부른다.막대도표는막대의높이가도수혹은상대도수를나타내어막대의높이만으로각범주간의도수를비교할수있으나,히스토그램을이용하면연속형자료에대해각계급구간사이의도수를비교하는것외에도계급구간에따른도수변화의경향즉,자료의분포를쉽게알아낼수있다.

히스토그램은막대도표와는달리막대의넓이가상대도수를나타내게된다.따라서히스토그램의전체면적은항상1이된다.히스토그램에서막대의높이는상대도수를계급구간의폭으로나눔으로써구할수있는데,만약계급구간의폭이모두동일한경우에는상대도수를막대의높이로사용하여히스토그램을그리더라도같은모양으로표현된다.그러나계급구간의폭이일정하지않은경우에는서로다른모양으로표현되므로주의를기울여야한다.


36

160 165 170 175 180 185

0.00

0.02

0.04

0.06

0.08

160 165 170 175 180 185

0.00

0.02

0.04

0.06

0.08

(a)계급의수:3 (b )계급의수:5

155 160 165 170 175 180 185

0.00

0.02

0.04

0.06

0.08

0.10

0.12

160 165 170 175 180 185

0.00

0.05

0.10

0.15

0.20

(c)계급의수:8 (d )계급의수:20

[그림2.3]계급의개수에따른히스토그램의변화

도수분포표의작성과정에서계급의개수를결정할때,계급의개수가너무적으면너무많은정보를잃어버리게되고,반대로계급의개수가너무많으면도수가나타내게되는어떠한경향을찾기힘들어지게된다는것을언급한바있다.따라서계급의개수를정할때는자료의성향을파악하여도수의분포경향이잘드러날수있도록계급의개수를선택하여야하는데,도수분포표상에서의계급의개수는히스토그램상에서의막대의개수와일치한다.히스토그램의모양을생각하면서계급구간의폭과시작값을변화시켜가며계급의개수를결정하


37

는것이좋다.이러한작업은수차례의시행착오를겪어야하기에수작업으로진행하기는어려우므로통계소프트웨어를사용하여여러히스토그램을비교하게된다.

[그림2.3]은[보기2.3]의55명남학생들의키자료에대해계급의개수즉,막대의개수에따른히스토그램의모양변화를나타내고있다.그림을통해확인할수있듯이계급의개수가너무적으면특정계급구간에만도수가몰려전반적인분포의성향을파악하기힘들고,반대로계급의개수가너무많으면히스토그램의막대들이들쑥날쑥해짐으로서이또한전반적인분포의성향을파악하기힘들다.따라서[그림2.3]의그림중에서는계급의수를5개로하는경우가분포의모양을잘드러내고있다고할수있다.


38

2.4 수치를이용한연속형자료의요약

앞절에서는도표나그림을이용하여자료를요약함으로서관측값들의분포상태를시각적으로쉽고빠르게이해할수있는방법을익혔다.그러나이러한방법들은일관성과객관성이부족할뿐만아니라,통계적추론에서요구되는이론적근거를제시하는것이쉽지않다.따라서이절에서는연속형자료가어떤값을중심으로얼마만큼흩어져있는가를나타내는구체적인수치정보로요약하는방법을다루고자한다.

표본평균은중심위치의측도중에서가장많이사용되는방법으로관측값의총합을관측값의개수로나눈것이다.이러한표본평균을계산하는방법은다음과같다.

표본평균(samplemean)

개의표본자료를 z 이라할때,표본평균 는다음과같이계산한다.

z

이러한표본평균은6장이후부터다루게되는통계적추론과정에서광범위하게사용되며,통계적분석과정에서가장기초적인통계수치이다.그러나표본평균은모든관측값이반영되므로,극단적으로아주크거나작은값에영향을많이받아때로는잘못된중심위치를나타내기도한다.이러한경우사용할수있는것이중위수이다.

중위수는전체관측값을크기순으로정렬했을때,가운데위치하는값이다.따라서50%의관측값이중위수보다크거나같고,반대로50%의관측값이중위수보다작거나같게된다.즉,전체관측값을1/2로나누는경계값이중위수이다.이러한중위수를구하는방법은다음과같다.


39

보기2.5

89 78 91 86 76 84

어떤교과목을수강한 6명 학생들의중간고사성적은다음과같다. 학생들의성적에대한표본평균과중위수를구하라.

76 78 84 86 89 91

학생들의성적에대한표본평균은다음과같다.

다음으로중위수를구하기위해서는우선주어진자료를아래와같이크기순으로정렬하여야한다.

이때,관측값의개수는6개즉,짝수이므로중위수는가운데오는3번째4번째관측값의평균이된다.따라서(84 86) 2 85이다.

중위수(median)

관측값을크기순으로정렬한후,(ⅰ)관측값의개수( )가홀수라면,중위수는

번째관측값이다.

(ⅱ)관측값의개수( )가짝수라면,중위수는

번째관측값과 번째관측값의평균이다.


40

보기2.6

[보기 2.5]의학생들에새로운학생이추가되었다고하자.추가된학생의점수가 42점이라면평균과중위수는어떻게달라지는가?

이제학생들의수는7명이므로표본평균은다음과같아진다.

다음으로42점이추가된자료를크기순으로재정렬하면

42 76 78 84 86 89 91

과같고,관측값의개수가홀수이므로중위수는가운데위치한4번째관측값즉,84이다.

[보기2.5]을통해서보는바와같이대다수의관측값들이평범하고비슷한값들이라면표본평균과중위수는비슷한값을가지게된다.하지만[보기2.6]의경우에서와같이아주크거나작은값이자료속에포함되면평균은해당값에영향을받아[보기2.6]과같이때로는잘못된중심위치를나타내기도한다.하지만중위수는아주크거나작은값에영향을적게받는다.그러므로[보기2.6]의경우에는중심위치를중위수로표현하는것이올바르다.

이처럼올바른중심위치를파악하는것은해당자료의분포를파악하는데있어서중요한요소이다.그러나중심위치만으로는분포를파악하기에부족한점이많다.따라서중심위치와더불어해당중심위치를기점으로얼마만큼흩어져있는지도같이파악하여야만한다.

표본평균을중심으로각각의관측값들이얼마나흩어져있는지를파악하기위해서는두값의차이를계산하면된다.즉, 개의표본자료를 z 이라하고,이들의표본평균

을 라고하면 의값이각각의관측값이표본평균을중심으로흩어진정도를나타

내는측도가된다.이를편차(devi at i on)라고부른다.그러나이들편차의합은언제나0이되므로,편차의제곱합을구한후에관측값의개수에서1을뺀값으로나누게되면단하나의


41

수치로전체관측값들이평균을중심으로얼마나흩어져있는가를나타낼수있게된다.이러

한값을표본분산이라고부르고 으로표기한다.

표본분산(samplevariance)

개의표본자료를 z 이라하고, 이들의표본평균을 라고하면표본분산은다음과같다.

.

이러한표본분산의단위는언제나관측값의측정단위의제곱이되므로,계산된수치만으로는흩어짐의정도에대한크기를가늠하기가쉽지않다.따라서표본분산의양의제곱근을통해관측값의단위와일치시키게되는데,이를표본표준편차라고부르고 로표기한다.

표본표준편차(samplestandarddeviation)

개의표본자료 z 의분산을 이라하면,표본표준편차는다음과같다.


42

보기2.7

[보기2.5]의자료에대해표본분산과표본표준편차를구하라.

명학생들의중간고사평균성적( )은84점이므로,표본분산은다음의식에의해구할수있다.

z

따라서표본표준편차 는 m 이다.

전체관측값들을크기순으로정렬했을때,중위수는전체관측값을반즉,50%로나누는경계값이다. 이러한 개념을 확장하여 전체 관측값을 Z %로 나눌 수 있는 값을 제Z 백분위수라고한다.여기서 는위치비율을나타내며, = = 를만족한다.따라

서 개의관측값이주어져있다고할때,제 Z 백분위수보다작거나같은관측값의개수는 개이상이된다.이러한제 Z 백분위수를구하는방법을정리하면다음과같다.

제 Z 백분위수(percentile)

관측값을크기순으로정렬한후,관측값의개수( )에 를곱했을때,(ⅰ) 가정수이면,제 Z 백분위수는 번째관측값과 번째관측값의평균(ⅱ) 가정수가아니면,제 Z 백분위수는 ( 의정수부분에1을더한값)번째관측값과같이구할수있다.


43

보기2.8

[보기2.5]의자료에대해사분위범위와제50백분위수를구하라

76 78 84 86 89 91

우선6( )개의관측값을크기순으로정렬하면다음과같다.

사분위수도 백분위수의 한 종류이기에 사분위수도 앞서 설명한 백분위수를 구하는 방법에 의해구할수있다.즉,제 1사분위수의경우에는 이므로 의값은 1.5이고,제 3사분위수의 경우에는 이므로 의 값이 4.5이다. 따라서 제 1사분위수와 제 3사분위수는각각 2번째관측값과 5번째관측값인 78과 89가된다.마찬가지의방법으로제 50백분위수는

이므로 의값은 3이다.그러므로제 50백분위수는 3번째관측값(84)과 4번째관측값(86)의평균인85가된다.이값은[보기2.5]의결과에서중위수임을알수있다.

이러한백분위수들중에서제 25백분위수와제 50백분위수,제 75백분위수는사분위수(quart i l e)들이며,이들을각각제1사분위수( )와제2사분위수( ),제3사분위수( )

라고부른다.즉,사분위수는전체자료를사등분하는값이다.추가적으로제2사분위수는중위수이다.이때,제1사분위수와제3사분위수사이에는전체자료의50%를포함하게되며,이들의중심에는중위수가존재하게된다.따라서중위수를중심으로자료의흩어짐을파악하기위한측도로는제1사분위수와제3사분위수사이의거리를이용할수있는데,이를사분위범위라고하며,약어로 이라표기한다.이러한사분위범위는상위25%의관측값과하위25%의관측값을제외한중위수근처의50%관측값들에대한퍼진정도를나타낸다.따라서사분위범위는극단적으로크거나작은값에영향을받지않는측도이다.

사분위범위(inter-quartilerange)

제3사분위수 제1사분위수


44

2.5 상자그림

2.3절에서소개한히스토그램은자료가모여있는위치나자료의분포에관한대략적인정보를한눈에파악할수있는장점이있지만,구체적인수치정보를쉽게알아볼수없다는단점이있다.따라서최소값과제1사분위수,중위수,제3사분위수,최대값의다섯가지요약수치등을이용하여그림으로나타낼수있다.이러한그림을상자그림(boxpl ot)이라부른다.이러한상자그림은[그림2.4]와같이사분위수가중심이되어상자로표현되며,상자좌우로선을그려최소값과최대값을나타낸다.이렇듯상자좌우로선이그려지기때문에때때로상자그림은상자-수염그림(box-whi sker pl ot)이라고도불린다.

Z Z

이상값 범위내최소값

범위내최대값

[그림2.4]상자그림

상자그림을그리는방법은우선제1사분위수( )와제3사분위수( )의위치에하나의

네모난상자를표현하고,상자안중위수( )의위치에수직선을긋는다.다음으로사분위범위( )의1.5배를계산하고,상자양끝으로부터 Z 크기만큼의범위를펼쳐울타리의 경계값을 계산한다. 즉, 아래쪽 울타리(l ower fence, )의 경계값은

Z 이되고위쪽울타리(upper fence, )의경계값은 Z 이

된다.이울타리범위내에포함되는관측값중최소값과최대값의위치에수직선을긋고상자와연결한다.만약,울타리범위를벗어나는관측값들이존재하면해당값들을이상값이라부르며상자그림상에 (혹은*)로표시한다.


45

보기2.9

어떤특정도로를지나가는차량의교통소음을측정한값은아래와같다. 이자료에대한상자그림을그려라.

55.9 63.8 57.2 59.8 65.7 62.7 60.8 51.3 61.8 56.066.9 56.8 66.2 64.6 59.5 63.1 60.6 62.0 59.4 67.263.6 60.5 66.8 61.8 64.8 55.8 55.7 77.1 62.1 61.058.9 60.0 66.9 61.7 60.3 51.5 67.0 60.2 56.2 59.467.9 64.9 55.7 61.4 62.6 56.4 56.4 69.4 57.6 63.8

상자그림을그리기에앞서주어진자료를크기순으로정렬하면다음과같다.

51.3 51.5 55.7 55.7 55.8 55.9 56.0 56.2 56.4 56.456.8 57.2 57.6 58.9 59.4 59.4 59.5 59.8 60.0 60.260.3 60.5 60.6 60.8 61.0 61.4 61.7 61.8 61.8 62.062.1 62.6 62.7 63.1 63.6 63.8 63.8 64.6 64.8 64.965.7 66.2 66.8 66.9 66.9 67.0 67.2 67.9 69.4 77.1

관측값의 개수( )가 50이므로, 제 1사분위수( )는 Z 이기에 13

번째관측값인57.6이고,제3사분위수( )는 Z 이기에38번째관

측값인 64.6이다. 이들 값의 위치에 맞게 상자를 표현한다. 다음으로 중위수( )는Z 이므로25번째관측값(61.0)과26번째관측값(61.4)의평균이61.2

이므로,해당위치에수직선으로표현한다.

이제 울타리의 경계값을 계산할 차례이다. 사분위범위( )는 이므로, 아래

쪽 울타리( )의 경계값은 Z 이고 위쪽 울타리( )의 경계값은

Z 이다.이들경계값은상자그림상에표현하지않는다는점에유념하자.

다음으로 상자그림을 완성하기 위해 이상값의 존재 여부를 판단해보자. 자료 속의 최소값은51.3으로 (47.1, 75.1)의 울타리 안에 포함된다. 최소값을 해당 위치에 수직선으로 표현한다. 그러나자료의최대값은 77.1로 울타리안에포함되지않는다. 따라서 77.1은 이상값으로해당위치에 로표현한다.


46

50 55 60 65 70 75 80

[그림2.5]교통소음자료에대한상자그림

자료속에서2번째로큰값은69.4로이값은울타리안에포함된다.따라서69.4가울타리범위내의최대값이되며,해당위치에수직선을표현한후상자와연결해주면상자그림이완성된다.이러한방식으로그린상자그림은다음과같다.

상자그림의장점은분포의다양한특성이하나의그림에함축되어있다는것이다.다시말하자면,상자그림으로부터자료의중심위치및흩어진정도등의수치정보를알수있는것뿐만아니라,분포의대칭성과분포의집중정도,이상값의존재여부등도알수있다.


47

2.6 R-프로그램실습

[프로그램2.1]는[보기2.1]의혈액형자료에대한도수분포표,막대그래프와원도표를그리기위한R-프로그램이다.

[프로그램2.1] [보기2.1]의혈액형자료에대한도수분포표,막대그래프와원도표

b l ood = c("B","A","B","A","A","B","O","A","A","A","O","B","AB", "B","AB","AB","A","A","O","AB","O","A","B","O","B","B","A","A","O","A","A","AB","B","B","O","B","B","B","A","AB","A","A","B","O","B","B","O","B","O","B","A","A","AB","A","A")cn t= tab l e(b l ood)prop= prop.tab l e(cn t)cb i n d(cn t,prop)barp l ot(cn t)p i e(cn t)

[결과2.1] [프로그램2.1]의수행결과

cn tpropA200.3636364AB70.1272727B180.3272727O100.1818182

A AB B O

05

1015

20

A

AB

B

O

[프로그램2.2]는 [보기2.3]의남학생들의키에대한히스토그램을위한R-프로그램이다.


48

cut개체에입력된수치를수정하면[그림2.3]과같이계급의개수에따른히스토그램의변화를파악할수있다.

[프로그램2.2] [보기2.3]의남학생들키에대한히스토그램

h ei gh t= c(170,178,171,168,173,178,171,174,170,170,175,170,169,166,162,170,171,175,175,171,171,170,172,179,164,170,181,178,180,177,166,169,168,165,163,175,166,178,165,168,167,177,168,177,174,174,176,179,169,173,167,170,173,170,162)

cu t= c(161.5,165.5,169.5,173.5,177.5,181.5)h i st(h ei gh t,break s= cu t,probab i l i ty=T)


Histogram of height

height

Den

sity

165 170 175 180

0.00

0.02

0.04

0.06

0.08

[프로그램2.3]은[보기2.9]의교통소음자료에대해평균과분산,표준편차,최소값,최대


49

값,제1사분위수,중위수,제3사분위수를구하고상자그림을그리기위한그림이다.평균을구하기위한R-함수는mean이고,분산은var이며,표준편차는sd이다.그리고최소값과최대값,제1사분위수,중위수,제3사분위수는분위수(quanti l e)이므로R-함수도quanti l e를이용할수있다.

[프로그램2.3] [보기2.9]의교통소음자료에대한기술통계량및상자그림

noi se= c(55.9,63.8,57.2,59.8,65.7,62.7,60.8,51.3,61.8,56.0,66.9,56.8,66.2,64.6,59.5,63.1,60.6,62.0,59.4,67.2,63.6,60.5,66.8,61.8,64.8,55.8,55.7,77.1,62.1,61.0,58.9,60.0,66.9,61.7,60.3,51.5,67.0,60.2,56.2,59.4,67.9,64.9,55.7,61.4,62.6,56.4,56.4,69.4,57.6,63.8)

mean(noi se)var(noi se)sd(noi se)qu an t i l e(noi se,type=2)boxp l ot(noi se,h or i zon tal = T)


61.37422.849724.7801380%25%50%75%100%51.357.661.264.677.1

55 60 65 70 75


50

2.7 연습문제

2.1 통계학을수강하는학생들의생일이사계절중어디에해당하는지를조사한결과이다.

봄 봄 가을 여름 가을 가을 봄 가을 여름여름 가을 봄 여름 겨울 가을 여름 봄 겨울여름 가을 가을 가을 여름 겨울 봄 겨울 가을가을 봄 여름 봄 겨울 여름 겨울

(1)도수분포표를작성하라.(2)도수에대한막대도표를그려라.(3)원도표를그리기위해계산된가을에대한중심각은얼마인가?

2.2 다음의자료에대하여각각표본평균과중위수를계산하라.(1)수학시험성적:77,78,76,81,86,51,79,82,84,99(2)A아파트에거주하는가구원수:1,5,2,3,2,1,4,1,3

2.3 연습문제2.2의자료에대하여각각표본분산과표본표준편차를계산하라.

2.4 연습문제2.2의자료에대하여각각사분위범위를계산하라.

2.5 부산의35개영어학원에등록된학생수를조사한결과는다음과같다.

64 15 21 93 218 43 5957 28 20 54 52 58 27100 63 270 94 76 32 17592 73 183 65 137 177 7427 28 12 72 281 50 116

(1)계급의개수를5개로하면계급구간의폭은얼마가적당한가?(2)첫번째계급구간의시작점을11.5로하여도수분포표를작성하라.


51

2.6다음은아카데미시상식에서남우주연상을받은배우30명의나이를크기순으로정렬한것이다.

18 21 22 25 26 27 29 30 31 3336 37 41 42 42 47 52 55 57 5862 64 67 69 71 72 73 74 76 77

(1)제40백분위수를구하라,(2)제78백분위수를구하라.

2.7 통계와관련된세미나에교사100명이참석하였다.그중12명을대상으로통계에대한인식을세미나전과후에두번조사하였다.0보다큰수는교사의통계에대한인식이더긍정적으로변한것을의미한다.교사12명의통계에대한인식의변화는다음과같다.

3,8,-1,2,0,5,-3,1,-1,6,5,-2

(1)표본평균을계산하라.(2)표본표준편차를계산하라.(3)중위수를계산하라.

2.8 다음은미국캘리포니아주에거주하는일본계미국인27,873명의연령을정리한표이다.

계급구간(세) 도수0이상10미만 2,56810이상20미만 2,23020이상30미만 6,35530이상40미만 4,18140이상50미만 3,65150이상60미만 3,317

60이상 2,871합계 27,873


52

(1)각계급의상대도수를계산하라.(2)히스토그램을그리기위하여각계급에해당하는막대의높이를계산하라.(3)히스토그램을그려라.

2.9 다음은샌프란시스코지역의미식축구팀선수53명의체중(단위:파운드)을크기순으로정렬한것이다.

101 177 178 184 185 185 185 185 188 190200 205 205 206 210 210 210 212 212 215215 220 223 228 230 232 241 241 242 245247 250 250 259 260 260 265 265 270 272273 275 276 278 280 280 285 285 286 290290 295 302

(1)표본평균을계산하라.(2)중위수를계산하라.(3)제1사분위수와제3사분위수를계산하라.(4)중앙에위치한전체의50%를차지하는자료들의범위를구하여라.(5)상자그림을그리기위하여아래쪽과위쪽울타리의경계값을계산하라.(6)이상값의존재여부를판단하라.(7)상자그림을그려라.

3.1 사건의 3.2 변수

3.3 이산 변수의 분포함수

3.4 변수의 기대 과 표준편차3.5 이 분포

3.6 -프로그램 실습3.7 연습문제

3장이산확률변수 및 분포

R과 함께하는

통계학의 이해

3장이산확률변수및분포

55

3.1 사건의확률

확률(probabi l i ty)이란어떠한실험(exper i ment)의결과에대해확신하는정도를나타낸수치적척도(measure)이다.통계학에서는실험을출현가능한모든결과들중에서오직한가지결과만이나타나는행위를일컫는다.이때,특정실험에서나올수있는모든결과들의집합을표본공간(sampl espace)라고하며,일반적으로S로나타낸다.예를들어,3개의공정한동전을던지는행위는실험이라고할수있으며,이에대한표본공간은다음과같다.

S HHH THH HTH HHT TTH THT HTT TTT

여기서,H는각각의동전이앞면(head)이나온경우를의미하고T는뒷면(tai l )이나온경우를의미한다.우리는이러한표본공간의모든결과들에관심을가지기보다는특정한결과들에만관심을

가지는경우가많다.이처럼표본공간에속한결과들중에서어떤특성을갖는결과들의집합을사건(event)이라고하며,일반적으로A B z 로나타낸다.더불어사건A가발생할확률은 A 로나타내며,다음과같이정의된다.

A 사건A에속하는결과의수표본공간에속하는결과의수

확률은그정의에의해언제나0에서1사이의값만을가지게된다.그러므로어떤사건의확률이0이라함은해당사건이절대로일어날수없음을의미하고확률이1이라함은해당사건이항상일어남을의미한다.만약3개의공정한동전을던져앞면이1회나오는경우를사건A라정의하면,사건A는

A HTT THT TTH

가되며,따라서3개의공정한동전을던져앞면이1회나올확률은

A

과같이계산된다.


56

3.2 확률변수

3.1절에서는사건을이용한확률의정의를살펴보았다.그러나표본공간의크기가커질수록표본공간을정의하기는쉽지가않다. 이럴때 이용할수 있는것이확률변수(randomvar i abl e)이다.확률변수는표본공간에속하는각각의결과들에대해실수값을대응시켜주는함수를의미한다.예를들어확률변수 를3개의공정한동전을던졌을때앞면이나온횟수라고정의한다면,확률변수 는0(회),1(회),2(회),3(회)의4개의값을가질수있으며이에대응되는사건들은다음과같다.

확률변수 의값 의값에대응되는사건0 TTT1 HTT THT TTH2 HHT HTH THH3 HHH

즉,확률변수는각각의실험결과들을수치적으로표현하는방법이라할수있다.이때,일반적으로 확률변수는 z와 같이 대문자로 나타내고, 확률변수가 가지는 특정값은

z와같이소문자로나타낸다.

확률변수는가질수있는값에따라이산확률변수(di screterandomvar i abl e)와연속확률변수(conti nuousrandomvar i abl e)로구분한다.이산확률변수는확률변수가가질수있는값들을일일이지칭할수있는확률변수를의미한다.따라서이산확률변수는확률변수가가질수있는값들의수가설령무한개라하더라도셀수있다.이와는달리,연속확률변수는확률변수가특정구간의모든값을다가질수있기때문에가질수있는값들을일일이지칭할수없는확률변수를의미한다.이장에서는이산확률변수의특징및확률분포를다루고4장에서연속확률변수를다루고자한다.


57

3.3 이산확률변수의확률분포함수

3개의공정한동전을던졌을때앞면이나온횟수를확률변수 라하면,확률변수 는앞절에서확인한바와같이4개의값을가질수있으므로이산확률변수이며각각의값을가질때의확률은다음과같다.

0 1 2 3 합계1/8 3/8 3/8 1/8 1

이처럼확률변수가가지는값과그값을가질확률을정해주는규칙또는관계를확률분포(probabi l i tydi str i buti on)라고부른다.이러한확률분포는언제나나름대로일련의규칙을가지게되므로,함수를이용하여표현가능하다.이를확률분포함수(probabi l i ty di str i buti on functi on)라고한다.

일반적으로이산확률변수는가질수있는값들을일일이지칭할수있기때문에이산확률변수의확률분포함수 는

와같이,확률변수 가특정한값 를갖게되는확률을나타낸다.따라서이산확률변수의확률분포함수는다음의두가지성질을만족한다.

이산확률분포함수의성질

모든 값에대해 = =


58

보기3.1

어떤축구팀은한시즌총 38주중에매주1회혹은2회의경기일정이잡혀있다고한다. 1주일에1회의경기가있는비율은0.5, 2회의경기가있는비율은0.3이며,나머지는경기가없는휴식주간이라고한다.이팀은평균적으로매주몇경기를수행하여야하는가?

0 1 2 합계0.2 0.5 0.3 1

이팀이매주뛰어야하는경기수를확률변수 라고하면,확률변수 의확률분포는다음과같다.

확률변수 는3개의값만을가질수있으므로이산확률변수이며,따라서이팀이평균적으로매주수행해야하는경기수즉,경기수에대한기대값은다음과같이계산할수있다.

Z Z Z

그러므로이팀은평균적으로매주1.1회의경기를수행하여야한다.

3.4 확률변수의기대값과표준편차

2장에서우리는측정된관측값들의중심위치를파악하기위해표본평균을공부하였다.이와유사한개념으로확률변수도가질수있는값이많으므로그값들의중심위치를파악할필요가있다.이중확률변수가가질수있는값들에대한확률분포상의중심위치를그확률변수의기대값(expected val ue)이라고한다.일반적으로확률변수 의기대값은 로나타내며,이산확률변수의기대값은다음과같이계산할수있다.

(3.1)


59

이처럼기대값은종종평균을의미하게된다.그러나기대값이의미하는평균은2장에서배운표본평균과다르다.표본평균은단기적실험결과에대한평균을의미하는반면,기대값은장기적실험결과에대한평균을의미한다.예를들어2개의공정한동전을던지는실험을생각해보자.이실험을실제로10회반복한경우,각각의실험에서앞면이나온횟수를기록하면

실험번호 1 2 3 4 5 6 7 8 9 10앞면이나온횟수 0 1 1 2 0 1 1 0 1 2

와같을수있다.따라서총10회의실험에서2개의공정한동전에대해앞면이나온평균횟수(표본평균)는

와같다.이러한표본평균은10회의실험을할때마다다르게계산될수있다.하지만기대값은이처럼단10회의실험에대한평균을의미하지않는다.기대값은동일한실험을무수히반복했을때의평균을의미한다.공정한동전1개를10회던졌을때앞면이8번나왔다고해서동전을던지면앞면이나올확률이0.8이라고하지않는다.일반적으로공정한동전1개에대해앞면이나올확률을0.5라고하는것은해당동전을무수히많이던졌을때앞면이나오는비율이0.5라는것을의미한다.이처럼기대값도동일한실험을무수히반복했을때의평균즉,확률분포상의중심위치를의미한다.따라서공정한동전2개를던졌을때앞면이나온횟수를확률변수 라하면,확률변수 에대한확률분포는

0 1 21/4 2/4 1/4

와같으므로공정한동전2개를던진경우앞면이나온횟수에대한기대값은


60

보기3.2

공정한주사위 1개를던져윗면에나타난수에100원을곱한금액을돌려주는게임을한다고가정하자.이게임을하는경우한게임당평균적으로얼마의이득을취할수있는가?단,게임한판당200원의비용을지불해야한다.

1 2 3 4 5 6 합계1/6 1/6 1/6 1/6 1/6 1/6 1

공정한 주사위 1개를 던졌을 때 윗면에 나타난 수를 확률변수 라고 하면, 확률변수 의확률분포는다음과같다.

따라서확률변수 의기대값은

Z Z Z

와같이계산된다.이는공정한동전2개를던지면평균적으로1개의동전은앞면이나온다는것을의미한다.이러한기대값은어떠한실험을행할경우나올수있는모든결과들에대한평균이므로이는모집단전체에대한평균즉,모평균(popul at i onmean)과같다.일반적으로통계학에서는모평균을 로나타낸다.이러한기대값은다음과같은성질을만족한다.

기대값의성질

와 는상수이고 는임의의확률변수라할때,(ⅰ)(ⅱ)(ⅲ)(ⅳ) X X X


61

-100 0 100 200 300 400 합계1/6 1/6 1/6 1/6 1/6 1/6 1

Z Z Z Z Z Z

와같다.그러나우리의실제관심사항은한게임당취할수있는이득이므로,이를확률변수라둔다면확률변수 와확률변수 의관계는

Z

의관계를만족하며확률분포는다음과같다.

그러므로한게임당평균적으로취할수있는이득즉,확률변수 의기대값은

Z Z Z Z Z Z

과같이계산가능하다.이는기대값의성질을이용하여

Z Z Z

과같은방법으로도계산할수있다.

확률변수의기대값은중심위치즉,모평균을나타내므로,이러한기대값을중심으로확률변수가가질수있는값의흩어짐을파악하기위해서는분산과표준편차를이용할수있다.확률변수 의분산은 로나타내며,이산확률변수의분산은

(3.2)

와같이계산할수있다.물론확률변수 의표준편차는분산의양의제곱근이므로다음과같이계산할수있다.


62

보기3.3

[보기3.1]의축구팀이1주일에수행하여야하는경기수의분산과표준편차는얼마인가?

0 1 2 합계

이팀이매주뛰어야하는경기수를확률변수 라고하면,확률변수 의확률분포는

확률변수의분산을좀 더 수리적으로표현하자면, 식 (3.1)과 비교하였을때 대신에

이사용되었음을알수있다.여기서 이므로식(3.2)의표현은

(3.3)

와같다.즉,확률변수 가가질수있는값에서기대값을뺀후제곱한값들에대해다시기대값을계산한것이다.이때,기대값 는상수이므로식(3.3)은기대값의성질에의해다음과같이표현할수있다.

(3.4)

따라서때로는식(3.4)의계산방식이분산의계산에편의성을제공할수있다.


63

0.2 0.5 0.3 1

0 1 20.2 0.5 0.3

Z Z Z

0 1 4 합계0.2 0.5 0.3 1

와같고,확률변수 의기대값은1.1임을이미확인한바있다.식(3.2)의방식에따라확률변수의분산을계산하기위해서는다음과같은계산과정이필요하다.

따라서확률변수 의분산은다음과같이계산할수있다.

Z Z Z

다음으로 식 (3.4)의 방식에 따라 확률변수의 분산을 계산해 보자. 이를 위해서는

즉, 확률변수 에 대한 기대값을계산하여야한다. 확률변수 은 이 팀이 매주 뛰어야하는경기수의제곱이므로,확률변수가가질수있는값과확률분포는다음과같다.

여기서확률변수 의확률분포 은확률변수 의확률분포 와같음을알수

있다.따라서확률변수 의기대값은

Z Z Z

과같이계산할수있다.그러므로확률변수 의분산은다음과같이계산할수있다.


64

즉,식 (3.2)와식 (3.4)모두같은결과임을알수있다.더불어확률변수 의표준편차는분산의양의제곱근이므로다음과같다.

보기3.4

[보기3.2]의게임을하는경우한게임당취할수있는이득의분산과표준편차는각각얼마인가?

공정한주사위1개를던졌을때윗면에나타난수를확률변수 라고하고한게임당취할수있는이득을확률변수 라고하면,확률변수 의 의확률분포는

1 2 3 4 5 6합계

-100 0 100 200 300 4001/6 1/6 1/6 1/6 1/6 1/6 1

일반적으로확률변수의기대값이모평균을나타내듯이분산은모집단의분산즉,모분산을

나타내며기호로는 으로표현한다.이러한분산은다음과같은성질을만족한다.

분산의성질

와 는상수이고 는임의의확률변수라할때,

(ⅰ)(ⅱ)

(ⅲ)

(ⅳ) X


65

와같고,확률변수 와 의기대값은각각 3.5와 150임을확인한바있다.따라서한게임당취할수있는이득의분산즉,확률변수 의분산은

와같이식 (3.4)를이용하여직접적으로계산할수도있지만, 확률변수 와 의관계및분산의성질을이용하여

Z Z Z

와같은방법으로도계산가능하다.여기서,

Z Z Z Z Z Z

이므로확률변수 의분산은다음과같다.

m

따라서확률변수 의분산은

Z m Z

와같으며,확률변수 의표준편차는다음과같다.

m


66

3.5 이항분포

3.3절에서확률분포는언제나나름대로일련의규칙을가지게된다는것을언급한바있다.이미많은확률분포들은그규칙들이밝혀져이름이부여된것들이많다.이산형확률변수가가지는확률분포중에서일상생활에서가장활용도가높은확률분포는이항분포(bi nomi al di str i but i on)이다.따라서이번절에서는이항분포의특징과그활용방안을소개하고자한다.우선,이항분포를배우기에앞서우선적으로베르누이시행(Bernoul l i tr i al )에대해알아보자.베르누이시행이란단1회의실험을지칭하며,그특징은다음과같다.

베르누이시행의특징

각시행은성공(success , )과실패(fa i l , )의두가지결과만을갖는다. 각 시행에서 성공할 확률은 , 실패할 확률은 로 매 시행마다 동일하다. 각시행은상호독립으로각각의시행이다른시행의결과에영향을미치지않는다.

이러한베르누이시행을 번반복한경우성공횟수를확률변수 라하면,이확률변수의확률분포는이항분포를따르게된다.성공확률이 인베르누이시행을 번시행한경

우성공횟수를나타내는확률변수 의확률분포함수는

C , z

와같다.예를들어,공정한동전3개를던졌을때앞면이나온횟수를확률변수 라하면,확률변수 에대한확률분포는

0 1 2 3 합계1/8 3/8 3/8 1/8 1

와같음을3.2절에서이미확인한바있다.여기서공정한동전1개를던지는행위는성공(앞


67

면,H )과실패(뒷면,T)로나눌수있으며성공확률즉,앞면이나올확률이0.5로정해져있다.더불어동전1개를반복해서던지더라도매시행의성공확률은독립적이므로동전1개를던지는행위는베르누이시행이라고할수있다.따라서공정한동전3개를던지는실험은성공확률( )이0.5인베르누이시행을 번반복한경우이므로,앞면이나온횟수(성공횟수)를확률변수 라하면,확률변수 는이항분포를따르게된다.확률분포함수를앞면이1번나올확률로계산해보자.우선공정한동전3개를던져앞면이1번나오려면뒷면이2번나오는사건이동시에발생하여야한다. 따라서앞면이나올확률 와뒷면이나올확률

를이용하여기호화하면

Z Z

와같이표현가능하다.그런데이러한사건은3개의동전중에서1개의동전만앞면이나오는경우의수즉, C 가지의경우가있다.따라서공정한동전3개를던져앞면이1번나

올확률은이항분포의확률분포함수를이용하여

C Z Z

과같이계산할수있다.이처럼임의의이산형확률변수가이항분포를따른다는것을파악할수만있다면,그확률변수가가지는각각의값에대한확률을간편하게계산할수있다.

일반적으로임의의이산형확률변수 가 번시행에서성공확률이 인이항분포를따른다는표현은

∼Bin

와같이나타낸다.즉,공정한동전3개를던졌을때앞면이나온횟수를나타내는확률변수는시행횟수가 이고성공확률이 이므로


68

∼Bin

와같이표현한다.

만약주어진상황에서정의한확률변수가이항분포를따른다는것을파악할수만있다면,그확률변수에대한기대값과분산도손쉽게계산할수있다. 번의시행에서성공확률이인이항분포를따르는이산형확률변수 의기대값과분산은다음과같다.

이항분포의기대값과분산

성공횟수를나타내는확률변수 가 ∼Bin 일때,(ⅰ)(ⅱ)

예를들어,공정한동전100개를던졌을때앞면이나온횟수를확률변수 라고하면,확률변수 는시행횟수가 이고성공확률이 인이항분포를따르므로

∼Bin

와같이표현가능하며,이확률변수 의기대값과분산,표준편차는각각

Z ,

Z Z ,

와같이계산된다.따라서실제로공정한동전100개를던졌을때앞면이나온횟수를파악해보면50X 5회즉,45회부터55회사이가흔히나타나게됨을알수있다.


69

보기3.5

대도시의시민중 30%만이대중교통에만족한다고한다. 만약이도시의시민 20명을임의로선택했을때, 이들중 3명미만의시민이대중교통에만족할확률과 6명의시민이만족할확률을구하라.

대중교통에 만족하면 성공, 만족하지 않으면 실패라고 한다면 각각의 시민에 대한 성공확률즉,대중교통에만족할확률은 0.3이다.그리고임의로 20명을선택했으므로이들독립적선택을한다고가정할수있을것이다.따라서선택된 20명중대중교통에만족하는시민의수를확률변수 라고하면,이러한확률변수 는다음과같은이항분포를따르게된다.

∼Bin

1)이들중3명미만의시민이대중교통에만족할확률은

C Z Z C Z Z C Z Z

m

2)6명의시민이대중교통에만족할확률은

C Z Z

보기3.6

어떤바이러스질환은감염자와접촉을하게되면감염되며,건강한사람이감염자와한번접촉하였을때감염될확률은20%라고한다.감염자가임의의건강한사람5명과접촉했을때,5명모두감염될확률은얼마인가?그리고감염자수의기대값과분산,표준편차는얼마인가?

∼Bin

감염자와접촉한 5명의건강한사람중감염된사람의수를확률변수 라고하면,확률변수는다음과같은이항분포를따른다.


70

1)이들모두가감염되었을확률은

C Z Z m

2)감염자수의기대값과분산,표준편차는? Z

Z Z

m


71


[프로그램3.1]은[보기3.5]의대중교통에만족하는시민의수에대해이항분포를활용한R-프로그램을보여주고있다. R-프로그램의내장함수중 dbi nom과 pbi nom을이용하면이항분포에서의확률을쉽게계산할수있다.구문형식은

dbi nom(x, si ze, pr ob) pbi nom(x, si ze, pr ob, l ower . t ai l = TRUE)

이며,여기서x는확률변수 의특정값을의미하고,si ze는시행횟수( )를의미하며,prob는성공확률( )을의미한다.그리고pbi nom함수의 l ower.tai l은확률계산의방향을선택하는옵션으로그값을TRUE(또는T)로설정하면 = 가계산되고,FALSE(또는F)로하면 > 가계산된다.

[프로그램3.1] [보기3.5]대중교통에만족하는시민의수에대한확률

pb i nom(2,si ze=20,prob=0.3, l ower .tai l = T)db i nom(6,si ze=20,prob=0.3)


0.035483130.191639

만약,10명이상의시민이대중교통에만족할확률을구하고자한다면[프로그램3.2]와같이작성하면 된다.

[프로그램3.2] [보기3.5]대중교통에만족하는시민의수에대한확률

pb i nom(10,20,0.3, l ower .tai l = F)


0.01714482


72

3.7 연습문제

3.1 한벤처투자가가100만원을투자하기위하여선택할수있는3가지회사가있다.A회사는500만원의수익을낼확률이10%,100만원의수익을낼확률이30%,100만원을손해볼확률이60%이다.B회사는300만원의수익을낼확률이20%,100만원의수익을낼확률이40%,100만원을손해볼확률이40%이다.C회사는600만원의수익을낼확률이10%,아무런이익도손해도보지않을확률이70%,100만원을손해볼확률이20%이다.여기서각회사에투자하여얻을수있는이익을 라하자.

(1)각회사에대한 의확률분포를구하라.(2)각회사에대한 의기대값을구하라.가장높은기대수익을갖는투자는어느회사

인가?(3)가장안전한투자와가장위험한투자는어느회사인가?

3.2 부산에거주하는기혼성인2만명을대상으로자녀수를조사한결과는다음과같다.여기서자녀수를 라하자.

0 1 2 3 4 5 60.10 0.20 0.30 0.10 0.05 0.05

(1)자녀수가3명일확률을구하라.(2) 의기대값과표준편차를구하라.(3)자녀수가2-3명일가능성이큰가?4-6명일가능성이큰가?그이유는?

3.3색상이다른주사위6개를던져서1이나오는주사위의개수에관심이있다.(1)확률변수 를정의하라.(2) 가취할수있는값은?(3) 는어떤분포를가지는가?(4) 의기대값과표준편차를구하라.(5)6개의주사위가모두1이나올확률을구하라.


73

3.4 통계학학사학위를얻기위해걸리는기간은다음과같다.

3 4 5 6 70.05 0.40 0.30 0.15 0.10

(1)확률변수 를정의하라.(2) 에대하여확률분포함수 가존재하지않는것은무엇을의미하는가?(3)평균적으로통계학학사학위를얻기위해얼마나걸리는가?

3.5 롯데자이언츠야구팀이13년동안1,034경기중382경기를이겨승률이0.3694로주어져있다.다음달에12경기를가질예정이다.여기서 는다음달에이긴경기수이다.

(1)다음달에몇경기를이길것으로기대되는가?(2)6경기를이길확률을구하라.(3)최소5경기를이길확률을구하라.

3.6 펜싱선수의60%는주무기가포일(foi l )이다.펜싱선수25명을무작위로조사하였다.여기서주무기가포일이아닌선수의수에관심이있다.

(1)확률변수 를정의하라.(2) 는어떤분포를가지는가?(3)주무기가포일이아닌선수는몇명으로기대되는가?(4)25명모두주무기가포일이아닐수있는지수치적으로설명하라.

3.7 공정한주사위를사용하여다음의게임을한다고가정하자.1부터6까지숫자중하나를선택하여1만원을걸고,주사위를세번던진다.만일선택한숫자가한번도나오지않으면처음낸1만원을잃는다.만일선택한숫자가한번나오면처음낸1만원을되돌려받고1만원을추가로더받으며,선택한숫자가두번나오면처음낸1만원을되돌려받고2만원을추가로더받는다.마찬가지로선택한숫자가세번나오면처음낸1만원을되돌려받고3만원을추가로더받는다.여기서 는선택한숫자가나오는횟수이고, 는게임에서얻는금액이라하자.

(1) 는어떤분포를가지는가?(2) 가취할수있는값은?(3) 와 에대한확률분포표를작성하라.


74

(4) 와 에대한기대값을구하라.(5)다음두가지방법으로 의분산을구하여비교하라.ⅰ)확률분포표를이용ⅱ)이항분포의분산공식이용

3.8 서울의한비디오대여점에방문하는사람들은한번에한개이상의DVD를빌려간다.한손님당빌려가는DVD의개수에대한확률은다음과같다.

0 1 2 3 4 50.03 0.50 0.24 0.07 0.04

(1)한손님이DVD를3개빌려갈확률은?(2)한손님이DVD를적어도4개빌려갈확률은?(3)한손님이DVD를최대2개빌려갈확률은?(4)다음은부산의다른비디오대여점에방문하는사람들이빌려가는DVD의개수에대한확률이

다.두지역의비디오대여점중한사람당빌려가는DVD의개수가더많은곳은어느곳인가?

0 1 2 3 4 50.35 0.25 0.20 0.10 0.05 0.05

3.9 한벌의카드에서카드1장을선택하고,동전을던지는게임을한다.한벌의카드는52장이고,그중12장의카드는K페이스카드(Ki ng,Queen,Jack)L이다.동전은앞면과뒷면이나올확률이동일하다.만일페이스카드를선택하고동전앞면이나오면6만원을얻고,페이스카드를선택하고동전뒷면이나오면2만원을얻는다.그리고페이스카드를선택하지않으면동전의앞뒤와관계없이2만원을잃는다.이게임에서손익에대한기대값을구하고,돈을얻기위해이게임을하는것이옳은지를말하라.

3.10 한대학신문기자는올해학교축제에참여할것인가를알아보기위하여12명의학생을무작위로조사하기로하였다.지난해에따르면,학생의18%가학교축제에참여한것으로알려져있다.여기서학교축제에참여할학생의수를 라하자.

(1)12명중몇명의학생이축제에참여할것으로기대되는가?(2)최대4명의학생이축제에참여할확률을구하라.(3)적어도3명이상의학생이축제에참여할확률을구하라.

4.1 연속 변수의 분포함수

4.2 정 분포

4.3 정 분포의 계산

4.4 이 분포의 정 근사


4장연속확률변수 및 분포

R과 함께하는

통계학의 이해

4장연속확률변수및분포

77

4.1 연속확률변수의확률분포함수연속확률변수는확률변수가특정구간의모든값을다가질수있기때문에가질수있는

값들을일일이지칭할수없는확률변수를의미함을3.2절에서언급한바있다.따라서연속확률변수 의확률분포를표현하는데있어서 가가질수있는모든값( )을나열하며확률을대응시키기는어렵다.이경우에는확률변수 가가질수있는특정구간에서확률이어떻게분포하는가를나타낼수있는함수를이용하게된다.즉,연속확률변수 의확률분포는확률의 도를나타내는확률 도함수에의해결정된다.

확률밀도함수(p robab i l i tyd ens i tyfunc ti on)

다음을만족하는함수 를연속확률변수 의확률밀도함수라한다.(ⅰ)모든 에대해 >

(ⅱ) = =

(ⅲ) t= =tt

t

다음[그림4.1]을통해확률 도함수를구분해보자.[그림4.1](a)의경우에는[-1,1]의구간에대해 인직선이표현되어있다.따라서

= =

이된다.또한나머지구간에대해서는 이므로

t= =tt

t


78

의조건도만족하게된다.즉,[그림4.1]의(a)에표현된 = = 에대한 의직선은확률 도함수이다.

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

x

f(x)

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

x

f(x)

(a) (b)

[그림4.1]확률밀도함수의구분

[그림4.1] (b)의경우에는[-1,1]의구간에대해 의직선이표현되어있다.이경우해당구간에대해서는

= =

이되며,나머지구간에대해서는 이므로

t= =tt

t

의조건도만족하게된다.그러나 = = 의구간에대해서 = 이므로[그림4.1]의(b)에표현된 = = 에대한 의직선은확률 도함수가아니다.


79

[그림4.1]을토대로정리를해보면,연속확률변수 가특정한값 를갖게되는확률은0임을알수있다.그러므로어떤구간의확률을구할때는그구간의경계점이포함되는가포함되지않는가에영향을받지않는다.즉,임의의구간[ , ]에대한확률은

= = = =

가된다.

연속확률변수의기대값과분산은

와같이계산할수있다.이를이산확률변수의경우와비교해보면,이산확률변수의경우에는특정한값 를갖게되는확률을각각구할수있기때문에각각의값들을다더한것이고,연속확률변수의경우에는구간에대한확률로만표현할수있기때문에적분의계산방법을응용하는것일뿐기대값과분산에대한의미상의차이는없음을알수있다.따라서3.4절의기대값과분산의성질은연속확률변수에대해서도여전히성립된다.


80

4.2 정규분포

통계학의모든분야에서가장중요하게생각되는대표적인연속확률분포는정규분포(normal di str i buti on)이다.정규곡선이라불리는정규분포의확률 도함수는[그림4.2]의그래프와같이좌우대칭의종모양(bel l - shape)곡선으로,이는자연현상과산업현장등의여러연구분야에서얻어지는자료의분포형태를묘사한다.정규분포는가우스(Gauss,K.F.)가같은양을반복측정하는과정에서생긴오차들을연구하다발견하였기에,그의이름을따서종종가우스분포(Gaussi andi str i buti on)라고도하며,1733년에드므와브로(DeMoi vre)는정규곡선의수학적방정식을유도한바있다.

P

[그림4.2]정규곡선

[그림 4.2]의 종 모양의 확률 도함수를 가지는 연속형확률변수 를 정규확률변수(normal randomvar i abl e)라한다.정규확률변수의확률분포에대한수학적방정식은모집

단에대한평균 와분산 에의존한다.그래서기호로

∼

와같이나타낸다.


81

정규분포에서 와 이가지는의미를살펴보면, 는[그림4.2]에서와같이확률분포의

중심위치를나타내고 은정규곡선이퍼져있는정도를나타낸다.

P1 P2

[그림4.3] 와 에따른정규곡선비교

[그림4.3]에는두개의정규곡선이그려져있다.좌측푸른색의정규곡선은 을

나타내고,우측붉은색의정규곡선은 을나타낸다.이때, 이고 이

다.즉, 보다 가크기때문에붉은색의정규곡선의중심위치는푸른색의정규곡선보다우

측에위치하고있으며, 이 보다작기때문에붉은색의정규곡선보다푸른색의정규곡선이

좁고뾰족하게나타난다.


82

4.3 정규분포의확률계산

와 에따라다양한모양으로나타나는정규분포중에서평균이0이고분산이1인정규분포를표준정규분포(standardnormal di str i buti on)라한다.일반적으로표준정규분포를따르는확률변수는 로표현하는데, ∼ 이므로확률변수는 는 z 을

중심으로좌우대칭인정규분포를따르며,분산은 z 와같다.

정규분포의유용한특징중하나는정규분포를따르는확률변수에상수를이용한사칙연산

을하더라도여전히정규분포를따르게된다는것이다.다시말해,만약 ∼ 이라고하면확률변수 에상수를이용한사칙연산을적용한새로운확률변수는평균과분산만바뀔뿐여전히정규분포를따르게된다는것이다.이와같은성질을이용하여일반적인정규분포를따르는확률변수 에대한확률을표준정규분포를따르는확률변수 에대한확률로표현가능하게된다.이처럼확률변수 를평균이0이고분산이1인확률변수 로변환

하는과정을표준화변환이라고한다.확률변수 의기대값을 x ,분산을 x이라하면,확

률변수 에대한표준화변환의방법은

x

x

와같으며,표준화변수를 라하면 의기대값과분산은다음과같다.

x

x

xx

xx x

x

x

x x

x .

따라서 ∼ 이라고하면표준화변수 는평균이0이고분산이1인표준정규분포를따르게된다.


83

보기4.1

어떤회사에서제조되는전구의수명시간은정규분포를따른다고한다. 제조되는전구들에대한수명시간에대한평균은3,000시간이고표준편차는80시간이라할때,임의로선택한전구1개의수명시간이2,948시간에서3,080시간사이일확률을구하여라.

확률변수 는 이 회사에서 제조되는 전구의 수명시간이다. 이러한 확률변수 는 평균이

3,000시간, 표준편차가 80시간인 정규분포를 따른다고 하였으므로, ∼

이다.이에임의로선택한전구1개의수명시간이2,948시간에서3,080시간사이일확률은

와같이표현할수있다.이들구간을그림으로표현하면아래[그림4.4]와같이동일한형태임을알수있다.

(a) (b )

[그림4.4]정규분포와표준정규분포의확률

따라서구하고자하는확률의값은부록의표를이용하여다음과같이계산되어진다.


84


85

4.4 이항분포의정규근사

3장에서우리는이항분포는성공확률이 인베르누이시행을 번반복한경우성공횟수가가지는확률분포임을익힌바있다.이항분포의특징은 이증가함에따라분포의형태가점차대칭에가까워지고종모양을이루게된다.

0 1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8 9 10

0.00

0.05

0.10

0.15

0.20

0.25

0.30

(a) , (b ) ,

0 1 2 3 4 5 6 7 8 9 11 13 15 17 19

0.00

0.05

0.10

0.15

0.20

0 2 4 6 8 11 14 17 20 23 26 29 32 35 38

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

(c) , (d ) , [그림4.5]이항분포의확률히스토그램


86

보기4.2

확률변수 가 , 의이항분포를따른다고하자.이러한확률변수 가 82이상102미만일확률은얼마인가?.

우선 ∼Bin 이라고 했으므로, 확률변수 는 이산형 확률변수이다. 따라서가82이상102미만일확률은

[그림4.5]는 이고 인경우에대한이항분포의확률히스토그램이다.이그림을통해 이증가함에따라분포의형태가점차좌우대칭의종모양에가까워짐을확인할수있다.

이와같은경향은 이커짐에따라더욱확실하게드러나게되는데,실제로이항분포는이증가함에따라근사적으로정규분포를따르게된다.이때,정규분포의평균과분산은이항분포에서와일치하여야하므로다음과같다.

,

그런데여기서 이어느정도커져야이항분포를따르는확률변수가근사적으로정규분포를따르게될까?이에대한명확한답은존재하지않지만일반적으로 나 가모두10이상이면이항분포상에서의확률과근사정규분포상에서의확률적차이가아주적다고알려져있다.

이항분포의정규근사

확률변수 가 성공 횟수를 나타내는 이산형 확률변수이고 ∼Bin 일 때, 나가 모두 충분히클 경우(보통 10 이상)에확률변수 는 근사적으로다음의정규

분포를따르게된다.∼


87

= z

C Z Z z C Z Z

와같이계산하여야만정확한확률을계산할수있다.그러나이와같은계산을수작업으로진행하기에는많은계산량과시간을요구하게된다.

이러한 경우 조건만 충족된다면 이항분포의 정규근사를 통해 근사확률을 계산할 수 있다. 이경우 이고 이므로둘다 10이상이다.따라서확률변수 는평균

이고분산 인근사정규분포를따른다고할수있다.

이제 가 82 이상 102 미만일확률을계산하여야하는데, 이때주의하여야할 점이있다.이항분포는이산형확률분포로서 [그림 4.5]에서확인할수있듯이확률분포가계단형으로나타난다.그러나정규분포는연속형확률분포로확률밀도함수의형태가좌우대칭의종모양곡선으로나타난다.따라서이산형확률분포를따르는확률변수 에대해연속형확률분포로의근사를위한연속성수정(conti nu i ty c or rec t i on)을해야만한다. 연속성수정방법은이항분포에서 = = 일확률을정규분포에서 일확률로근사시키는것이다.즉,이항분포상에서

= = =

이므로,이에대해연속성수정을하게되면정규분포상에서는

의확률을계산하여야한다.그러므로다음과같이계산할수있다.


88


[프로그램4.1]은[보기4.1]의전구의수명시간에대해정규분포를활용한R-프로그램을보여주고있다.R-프로그램의내장함수중pnorm을이용하면정규분포에서의확률을쉽게계산할수있다.구문형식은

pnorom(x, mean = 0, sd = 1, l ower . t ai l = TRUE)

이며,여기서x는확률변수 의특정값을의미한다.그리고mean은평균( )을,sd는표준편차( )를의미하며,이들값을입력하지않으면표준정규분포에서의확률을계산해준다.그리고 l ower.tai l은확률계산의방향을선택하는옵션으로그값을TRUE(또는T)로설정하면 = 가 계산되고, FALSE(또는 F)로 하면 > 가 계산되며, 기본값은TRUE이므로TRUE(또는T)로설정시에는생략가능하다.

[프로그램4.1] [보기4.1]의전구의수명시간에대한확률

mu = 3000si gma= 80x1= 2948x2= 3080pnorm(x2,mean=mu ,sd= si gma)-pnorm(x1,mean=mu ,sd= si gma)

z1= (x1-mu )/si gmaz2= (x2-mu )/si gmapnorm(z2)-pnorm(z1)


0.58349860.5834986


89

[프로그램4.2]는[보기4.2]의이항분포의정규근사확률을활용한R-프로그램을보여주고 있다. pbi nom 함수를 이용하여 이항분포에서 직접적으로 계산한 확률(0.8945357)과pnorm함수를이용한정규근사확률(0.8940697)이거의비슷한값을가짐을확인할수있다.pbi nom함수의이용방법은3.6절을참고하기바란다.

[프로그램4.2] [보기4.2]의이항분포에서의확률과정규근사확률

n = 150p= 0.6pb i nom(101,n ,p)-pb i n om(81,n ,p)

mu = n *psi gma= sqr t(n *p*(1-p))pnorm(101.5,mu ,si gma)-pnorm(81.5,mu ,si gma)


0.89453570.8940697


90

4.6 연습문제

4.1 다음의그림이연속확률변수의확률 도함수라할수있는가?

(1)

x

f(x)

0 20

1/20

(2)

x

f(x)

0 3 8

2

(3)x

f(x)

0-3

-2/3

4.2 확률변수 가다음의정규분포를따른다고가정하자.표준화변수 가주어질경우,확률변수 의값은얼마인가?

(1) ∼ ,

(2) ∼ ,

(3) ∼ ,


91

4.3 외과수술을받은환자의회복기간은평균이5.3일,표준편차가2.1일인정규분포를따른다고한다.

(1)환자의회복기간이2일이상걸릴확률은얼마인가?(2)환자의회복기간이5일에서10일사이일확률은얼마인가?

4.4 I Q는평균이100이고표준편차가15인정규분포를따른다고할때,다음의물음에답하라.(1)IQ가120보다클확률은얼마인가?(2)멘사는IQ가상위2%인사람들의모임이라고하자. IQ가최소몇이상이어야멘사

회원이될수있는가?

4.5 초등학생의70%가스마트폰을소지하고있다고한다.임의로선택된초등학생200명중스마트폰을소지하고있는학생의수가125명이상155명이하일확률은얼마인가?

4.6 미국사람들이하루에소모하는지방칼로리의비율(단위:%)은평균36,표준편차10인정규분포를따른다고한다.

(1)임의로선택된사람의지방칼로리의소모비율이25일경우,표준화변수 는얼마인가?(2)임의로선택된사람의지방칼로리의소모비율이40이상일확률은얼마인가?(3)지방칼로리의소모비율이하위25%에포함되려면최대몇이하이어야하는가?

4.7 한야구선수가경기에서안타를칠확률이0.25라고알려져있다.이선수는올해총300타석을섰다고한다.

(1)안타를친횟수가50회미만일확률은얼마인가?(2)안타를친횟수가100회이상일확률은얼마인가?

4.8 앞면이나올확률이20%인구부러진동전을총100번던졌다고한다.(1)앞면이10번이하로나올확률은얼마인가?(2)앞면이13번초과24번미만으로나올확률은얼마인가?

5.1 표집분포5.2 표본평 의 분포와 중심 한정리


5장표집분포와 중심극한정리

R과 함께하는

통계학의 이해

5장표집분포와중심극한정리

95

5.1 표집분포

우리는모집단의특성중어떠한수치,예를들면,모평균이나모비율또는모분산등에관심이있는경우가많이있다.이러한모집단에대한수치적특성값을모수(parameter)라고하며,통계학에서주요관심대상이된다.모수의참값을알려면모집단전체를조사해야만한다.그러나모집단전체를조사한다는것은불가능하거나가능하더라도많은시간과비용을요하는경우가허다하다.이러한이유로우리는일반적으로모수의참값을정확하게알아낼수가없다.그렇기때문에우리는모집단으로부터적절한크기의표본을추출하게되고,해당표본으로부터획득한정보를이용하여모수에대한추론을하게된다.이러한표본으로부터획득한수치적정보를통계량(stat i st i c)이라고부른다.예를들어표본평균은표본의관측값에의해계산되어진수치적정보이므로통계량이다.이러한통계량들을활용할때유의하여야할점은다음과같다.

(ⅰ)표본은모집단의일부이므로,표본으로부터획득한통계량의값은모수의참값과일반적으로같지않다.(ⅱ)통계량의값은추출된표본에영향을받으므로,다른표본을추출하게되면그값이변한다.

예를들어,어느제조업체에서자사제품에대한고객들의만족도를알아보고자한다고가정하자.이경우실제알고자하는주요관심대상은해당제품을구매한전체고객들의평균만족도이다.즉,모집단은해당제품을구매한고객전체이며,모수는자사제품에대한고객전체의평균만족도( )이다.고객전체의평균만족도( )의참값은미지의상수이다.이값을알기위해고객전체를조사하는것은불가능하므로,임의로선정한100명의고객들을표본으

로선정하여5점만점의설문조사를실시하였고,조사결과평균이 3.75점이었다고하자.이렇게구한평균은표본평균이다.이값은궁극적으로알고자하는고객전체의평균만족도( )의참값과일치하지는않을것이다.또한,또다른100명의고객을표본으로선정하여재조사를실시한다면,이들100명의평균만족도값이이전조사결과의3.75점으로나올가능성은매우희박하다.그러나우리는재조사결과가3.75점과비슷한값을가질것이라고생각할수있다.즉,통계량의값은표본을추출할때마다어떠한값을중심으로약간의변동을가지게된다는것이다.이러한변동을파악할수만있다면현재의표본평균이실제모평균


96

보기5.1

하나의공정한주사위를던져윗면에나타난수가1이나2이면1점을, 3이나4이면3점을, 5나 6이면 5점을획득할수있는게임을생각해보자.주사위를두번던졌을때획득할수있는평균점수의확률분포를구하라.

1 3 51/3 1/3 1/3

우선첫번째주사위를던졌을때획득할수있는점수를확률변수 이라고하면,확률변수

가가질수있는값과확률분포는다음과같다.

다음으로두번째주사위를던졌을때획득할수있는점수를확률변수 라고하면,확률변

수 가가질수있는값과그때의확률분포는확률변수 의경우와같다.

이제,주사위를두번던졌을때획득할수있는평균점수를생각해보자.이경우의평균점수는확률변수 과 가가지는값의평균이다.즉,

이므로,표본평균의값을의미한다.따라서주사위를두번던졌을때획득할수있는평균점

수를확률변수 라고 하면, 확률변수 와 가 가지는값과 그에 대

응되는확률변수 가가질수있는값은다음과같이정리할수있다.

의참값과얼마나가까운지를알수있을것이다.통계량은그자체가하나의확률변수로서확률분포를가지게된다.이처럼통계량이가지는

확률분포를표집분포(sampl i ngdi str i but i on)라고한다.반복되는표본추출과정에서발생하는통계량의값이가지는변동은이표집분포에의해설명될수있다.표집분포는모집단의분포에영향을받기도하고,표본의크기 에도영향을받는다.다음보기를통해표본평균의확률분포를살펴보기로하자.


97

1 2 3 4 51/9 2/9 3/9 2/9 1/9

( , ) (1,1) (1,3) (1,5) (3,1) (3,3) (3,5) (5,1) (5,3) (5,5)1 2 3 2 3 4 3 4 5

따라서확률변수 가가질수있는값과그때의확률분포는다음과같다.

일반적으로크기가큰모집단으로부터임의추출된크기 의표본 z 은서로독립이고모두모집단의분포와같은분포를갖는것으로간주한다.이러한 z

을확률표본(randomsampl e)이라고부른다.위보기에서 과 의분포는모집단의분포와동일하다.즉, 과 는크기2의확률표본이다.그러나이러한확률표본으로부터구

한표본평균 의확률분포는위보기와[그림5.1]에서확인할수있듯이모집단의확률분포보다중심으로더몰리게된다.

1 3 5

0.0

0.1

0.2

0.3

0.4

1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

(a) 의확률분포 (b) 의확률분포

[그림5.1]확률밀도함수의구분


98

표본평균 의기대값

크기가 인확률표본 z 에대해

, , z

이고,

일때,표본평균 의기대값과분산,표준편차는다음과같다.

z

z

5.2 표본평균의분포와중심극한정리

평균이 이고분산이 인모집단으로부터크기가 인표본 z 을추출한경

우,표본평균 의기대값,분산과표준편차는다음과같다.

여기서표본평균이가지는분포의중심은언제나모집단의중심인모평균 와일치한다.그리고표본평균의값에대한변동을측정하는분산과표준편차는각각모집단의분산과표준편차에영향을받을뿐만아니라표본의크기에도영향을받는다.즉,표본의크기 이증가함에따라표본평균의분산과표준편차는감소하게되어표본평균의분포가모평균 를중심으로더욱집중됨을의미한다.


99

정규모집단으로부터의표본평균에대한확률분포

크기가 인확률표본 z 이

∼ , z

이면,표본평균 의확률분포는다음과같은정규분포를따르게된다.

∼ .

이제표본평균의기대값과분산에대한특성은알게되었는데,표본평균이가지는확률분포는어떠할까?우선,모집단의확률분포가정규분포라면표본평균의확률분포는다음과같은특성을지니게된다.

만약모집단의확률분포가정규분포가아닌경우에는,표본평균 의정확한확률분포는모집단의확률분포에따라다르게나타난다.그러나표본의크기 이큰경우에는표본평균

의확률분포가모집단의분포와무관하게중심극한정리에의해서근사적으로정규분포를따르게된다.

중심극한정리

평균이 이고분산이 인모집단으로부터추출한크기 의확률표본의표본평균 는표

본의크기가큰경우 (보통 30 이상), 근사적으로평균이 이고분산이 인정규분포를따르게된다.

중심극한정리는모집단의확률분포가연속형이거나이산형,혹은대칭이거나비대칭에상관없이표본의크기가충분히크다면표본평균의확률분포가근사적으로정규분포를따르게된다는것이다.


100

보기5.2

만 2세유아들의신장은평균이 87.6㎝이고표준편차가 3.3㎝인정규분포를따른다고한다.만약 6명의 2세 유아들에 대해 신장을 조사하였을 경우, 이들의 평균 신장이 86.6㎝에서89.4㎝사이일확률은얼마인가?

우선모집단은만 2세 유아들이고, 이들의신장을확률변수 라 하면, 확률변수 는 다음과같은정규분포를따른다고하였다.

∼

따라서 이들 모집단으로부터 추출한 6명의 유아들에 대한 평균 신장을 확률변수 라고 하

면,확률변수 의확률분포는모집단이정규분포를따르므로다음과같이정의된다.

∼

그러므로평균신장이86.6㎝에서89.4㎝사이일확률은

보기5.3

어떤열매의무게는평균이 0.5g이고 표준편차가 0.15g이라고한다. 100개의열매를임의로선택한경우,이들의평균무게가0.48g에서0.53g 사이일확률은얼마인가?

우선모집단은어떤특정열매들이고,이들의무게를확률변수 라하면,확률변수 는다음과같은특징을가지고있다.

,


101

이들모집단으로부터추출한 100개의열매들에대한평균무게를확률변수 라고하면,모집단의확률분포는모른다고하더라도표본의크기가충분히크므로중심극한정리에의해확률

변수 의확률분포는다음과같은정규분포로정의된다.

∼

그러므로평균무게가0.48g에서0.53g 사이일확률은


102


[프로그램5.1]은[보기5.2]의유아들의신장에대해정규분포를활용한R-프로그램을보여주고있다.R-프로그램의내장함수중pnorm을이용하면정규분포에서의확률을쉽게계산할수있으며,구문형식은4.5절을참고하기바란다.

[프로그램5.1] [보기5.2]의유아들의신장에대한확률

mu = 87.6si gma= 3.3n = 6x1= 86.6x2= 89.4pnorm(x2,mu ,si gma/sqr t(n))-pnorm(x1,mu ,si gma/sqr t(n ))

z1= (x1-mu )/(si gma/sqr t(n ))z2= (x2-mu )/(si gma/sqr t(n ))pnorm(z2)-pnorm(z1)


0.68027730.6802773

[프로그램5.2]는[보기5.3]의열매의무게에대해정규분포를활용한R-프로그램을보여주고있다.


103

[프로그램5.2] [보기5.3]의열매의무게에대한확률

mu = 0.5si gma= 0.15n = 100x1= 0.48x2= 0.53pnorm(x2,mu ,si gma/sqr t(n))-pnorm(x1,mu ,si gma/sqr t(n ))

z1= (x1-mu )/(si gma/sqr t(n ))z2= (x2-mu )/(si gma/sqr t(n ))pnorm(z2)-pnorm(z1)


0.88603860.8860386


104

5.4 연습문제

5.1 통계학과학생들의형제수를조사하였더니,1,2,3으로이루어져있었다.두명의학생을선택하였을때 , 를각각첫번째와두번째학생의형제수라고하면,표본평균

의확률분포를구하라.

5.2 연습문제5.1에서다음의물음에답하라.

(1)확률변수 의평균 와분산 을구하라.

(2)연습문제5.1에서구한표본평균 의확률분포표를이용하여 의기대값과분산을구하라.

(3)(2)에서구한값이 , 와같은지확인하라.

5.3 경상도지역의휘발유가격은평균이1,910원이고표준편차가220원이며,모집단의확률분포는알려져있지않다.경상도지역에위치한주유소60곳을임의로선택하여휘발유가격을조사하였다.주유소60곳의휘발유가격의평균은어떠한분포를따르는가?

5.4 연습문제5.3에서주유소60곳의휘발유가격의평균이1,850원에서1,950원사이에있을확률은얼마인가?

5.5 1부터10까지적힌숫자카드가있다.10장의카드중1장을뽑아숫자를확인하고넣은후,다시10장의카드중1장을뽑는것을반복하는게임을한다고하자.카드를뽑아나온수가홀수이면3점,짝수이면5점을획득한다.카드를3번반복하여뽑았을때획득할수있는평균점수의확률분포를구하라.

5.6 야구경기에서외야로날아간공의거리는정규분포를따르며평균이250피트,표준편차가50피트이다.외야로날아간공중19개를임의로선택하였다.

(1)19개공의날아간거리의평균과표준편차는얼마인가?(2)19개공의날아간거리의평균은어떠한분포를따르는가?(3)19개공의날아간거리가240피트보다작을확률은얼마인가?


105

5.7 한시골에서마을버스를기다리는시간은평균이30분이고표준편차가4분이며,모집단의확률분포는알려져있지않다.100명의승객을임의로선택하여버스를기다린시간을조사하였다.

(1)100명의승객이버스를기다린시간의평균은어떠한분포를따르는가?(2)100명의승객이버스를기다린시간의평균이29분에서31분사이에있을확률은얼마인가?

5.8 한커피전문점의하루매출은정규분포를따르며,평균이110만원이고표준편차가12만원이다.임의로선택된날부터일주일간매출을조사한결과,평균매출이120만원에서125만원사이에있을확률을구하라.

5.9 지난수학모의고사성적은평균이80점,표준편차가8점이라고한다.지난모의고사를응시한학생중40명을임의로선택하여점수를조사한결과,평균점수가83점이상일확률을구하라.

6.1 통계적 론

6.2 모평 에 대한 점 정

6.3 모평 에 대한 구간 정

6.4 모비 에 대한 정


6장추정

R과 함께하는

통계학의 이해

6장추정

109

6.1 통계적추론

통계적추론(stati st i cal i nference)은모집단의수치적특성을나타내는모수(parameter)에대한정보를얻어내기위한일련의과정을말한다.모수의값은모르는것이보통이다.따라서 이를 알아보기 위해선 모집단으로부터 추출된 표본으로부터 모수와 관련된 통계량(stat i st i c)들의값을계산하고이것을이용하여모집단의특성즉,모수를알아보는것이다.예를들자면,어떤회사에서생산되는전구의평균수명을 라하자.여기서모집단은해당회사에서생산되는모든전구를말하며,평균수명 는이모집단에대한모수중하나인전체평균을나타낸다.평균수명 의값을정확히알고자한다면모집단전체즉,생산되는전구전체에대해수명시간을측정하여야하지만전구전체를측정하는것은실제로불가능하다.따라서평균수명 를알기위해서는생산된전구중30개의표본을임의로수집하여,이들전구에대해서만실제수명시간을측정하는것이다.이들30개전구의평균을구해보았더니

1,950시간이었고하자.계산된평균수명1,950시간은통계량중하나인표본평균( )으로그값은모수인모평균 와비슷한값을가지게될것이다.이와같은방법으로통계량을이용하여모수에대한추론을진행하게된다.

통계적추론에는조사또는연구의목적에따라일반적으로추정(esti mati on)과가설검정(hypothesestest i ng)으로나눌수있다.모수의참값은미지의상수로서모집단전부를조사하지않고는정확히알아낼수없기에해당모수에대한추측값을얻되,그값의정 도를같이구하고자하는것을추정이라고한다.그리고표본의자료가모수의참값에대한조사자의추측을뒷받침하는지혹은반증하는지를결정하는것을가설검정이라고부른다.이장에서는추정에관한내용을다루고7장에서가설검정에관한내용을다루도록하겠다.


110

6.2 모평균에대한점추정

모수의추정에는점추정과구간추정이있다.점추정(poi nt est i mat i on)이란모수의참값과 유사할 것이라고 예상되는 하나의 값을 제시하는 것이며, 구간추정(i nter val est i mat i on)은모수의참값을포함할것으로예상되는적절한구간을제시하는것이다.이절에서는우선모평균에대한점추정에관하여알아보고자한다.

모수를추정하기위해모집단에서크기가 인표본을임의로추출할때이를 개의확률변수 z 으로표현한다.점추정이란추정하고자하는하나의모수에대하여이들

개의확률변수를이용하여하나의통계량을만들고,나아가주어진표본으로부터그실제값을계산하여하나의수치를제시하려고하는것이다.이와같은방법으로모수를추정하기위해만들어진통계량을추정량(est i mator)이라하고,주어진표본으로부터계산된추정량의실제값을추정치(esti mate)라고한다.예를들어모평균 를추정하고자할때,직관적으로가장타당한추정량은표본평균

z

이될것이다.여기서 는모평균 에대한추정량을의미한다.

이러한추정량은확률변수들로부터만들어진하나의확률변수이므로추출된표본의값에따라그값즉,추정치가달라질수있다.이런수치들의변동은추정량의정확도와관계가있는데,이정확도를측정하기위해추정량의표준편차를계산할필요가있다.이를표준오차

(standarder ror , )라고부른다.모평균 에대한가장적절한추정량은표본평균임을앞서언급한바있다.표본평균의경우표준오차는다음과같이구할수있다.

,

6장추정

111

보기6.1

2.6 1.9 1.8 1.6 1.4 2.2 1.2 1.6 1.6 1.51.4 1.6 2.3 1.5 1.1 1.6 2.0 1.5 1.7 1.51.6 2.1 2.8 1.0 1.2 1.2 1.8 1.7 0.8 1.52.0 2.2 1.5 1.6 2.2 2.1 3.1 1.7 1.7 1.2

어린소나무의성장을연구하기위하여1년생붉은소나무묘목40그루의크기를조사한자료가다음과같다.해당자료를이용하여전체1년생붉은소나무묘목의평균크기에대한추정치와표준오차는얼마인가?

여기서모집단은표본의40개묘목을포함한모든1년생붉은소나무묘목들이다.모집단의확

률분포는 알려져 있지 않고 묘목의 크기에 대한 모평균 나 모분산 과 같은 모수들 역시알려져있지않다.하지만제시된40개의관측값은모집단으로부터추출한확률표본이므로,모

여기서 는모집단의표준편차를의미한다.따라서표본평균 를이용하여모평균 를추정하고자할경우에는표본의크기 이클수록표준오차가작아져서보다정확한추정이가

능해짐을알수있다.그러나실제로 의값은 를모르는경우계산할수없다.는모집단의표준편차이므로하나의모수이기때문이다.이러한경우에는 를표본표준편차

를이용하여추정할수있다.

모평균에대한점추정

모 수 :모평균( )표 본 :평균이 이고표준편차가 인모집단에서임의로추출한 z

추정량 :표본평균( )

표준오차: , (표준오차의추정량: )


112

평균 에대하여다음과같이점추정을할수있을것이다.

먼저,모평균 를확률표본으로부터추정할때, 가장직관적인추정량은표본평균 이므로,모평균 에대한추정치는

Z z

이다. 다음으로 표준오차는 이지만, 를 모르기 때문에 표본표준편차

를이용하여추정하여야한다.표본분산 은

Z z m

이므로,표준오차의추정치는다음과같다.

m

6장추정

113

6.3 모평균에대한구간추정

하나의값으로미지의모수를추정하는점추정대신에모수의참값을포함할것으로기대되는구간을구하는것이더바람직할수있다.구간추정은추정량의확률분포를이용하여표본으로부터모수의참값을포함하리라고예상되는구간을구하여제시하는것이다.가장이상적인구간추정은표본을추출하고해당표본을이용하여모수의참값을확실하게포함하는구간을계산하는것이다.그러나모수의참값을확실하게포함하는구간을계산하는것은표본자료의다양성때문에실제로는불가능하다.따라서구간추정에서는제안된구간이모수의참값을포함할확률을명시하게되는데,이확률은대개90%,95%등을사용하게되고이를신뢰수준(l evel ofconf i dence)이라부른다.더불어이러한신뢰수준하에서추정된구간은신뢰구간(confi dencei nterval )이라부른다.

신뢰구간의개념을이해하기위하여우선모집단이정규분포를따르고모분산 이알려져

있는경우와 이알려져있지않은보다현실적인경우로나누어모평균 의신뢰구간을구하는문제를다루기로하자.우선,5장에서모집단이정규분포를따르면크기 의표본에대

한표본평균 의분포는평균 이고,표준편차는 인정규분포가됨을배웠다.따라

서신뢰수준 에서표본평균 의표준화변환식에대한확률식은다음과같이표현가능하다.

(6.1)

여기서, 는표준정규분포의상위 의확률을주는값으로,예를들면 인

경우 이된다.식(6.1)의괄호안의부등식을 에대해서정리하면

다음과같다.


114

보기6.2

평균이 이고표준편차가 인정규분포를따르는모집단으로부터크기 인확률

표본을추출하여표본평균을계산한결과 이었다.모평균 에대한95%신뢰구간을구하라.

모집단의확률분포가정규분포이므로,표본평균 의확률분포역시정규분포이다.더불어모

분산이 임을알고있다.따라서모평균 의95%신뢰구간은

와 같은 확률식으로 정의되며, 표본평균의 관측값 을 이용하면 모평균 의 95%신뢰구간은

Z Z

가된다.

따라서모집단이정규모집단이고모분산 을알고있을경우,다음의구간을모평균 의Z %신뢰구간이라한다.

지금까지모집단의분포가정규분포이고모분산 을아는경우,모평균 의신뢰구간에

대한기본적개념들을설명하였다.이젠모분산 을모르는보다현실적인상황에서의신뢰

구간을생각해보자.이경우에는모분산 의추정량인표본분산 을사용하여야한다.

따라서표본평균 의표준화변환식은

6장추정

115

평균이 이고분산이 인정규모집단으로부터추출된크기 의표본을 z

이라할때,이들에대한표본평균과표본분산을각각

,

이라정의하면,확률변수

는자유도(d eg ree of freed om, )가 인 -분포를따른다한다.

(6.2)

의형태로바뀌게된다.그런데여기서주의하여야할점은설령모집단이정규분포를따른다하더라도식(6.2)의변형된표준화변환식의확률변수의확률분포는표준정규분포와는달라진다.이런경우에그변화된확률분포를 -분포라고한다.

-분포(Student’s -distribution)

-분포는1908년에영국의고셋(W.S.Gosset)이라는사람의논문에서소개되었는데,이논문은스튜던트(Student)라는필명으로출간되었기에그필명을따서스튜던트의 -분포라고부르기도한다. -분포는표준정규분포와같이0을중심으로좌우대칭인종모양의확률분포이다.표준정규분포와다른점은양쪽꼬리부분에상대적으로많은확률이분포하여표준정규분포보다두꺼운꼬리를갖는다는것이다.


116

-6 -4 -2 0 2 4 6

0.0

0.1

0.2

0.3

0.4 N �0��1�

t�2�t�10�

[그림6.1] -분포와표준정규분포

-6 -4 -2 0 2 4 6

0.0

0.1

0.2

0.3

0.4 N �0��1�

t�5�

[그림6.2] -분포와표준정규분포에서의95%확률의구간

-분포의또다른특징은자유도가커지면커질수록점점표준정규분포와흡사해져간다는것이다.[그림6.1]에서확인할수있듯이자유도가2인 -분포보다자유도가10인 -분포가표준정규분포와많이유사한모양을가지게된다.이러한성질을반대로생각하면, -분포에서자유도가작으면작을수록신뢰수준 Z %에따른확률분포상의구간의길이는길어지게된다.[그림6.2]에는표준정규분포와자유도가5인 -분포상에서95%확률

6장추정

117

의구간이나타나있다.그림상에서확인할수있듯이자유도가5인 -분포상에서의구간의길이가정규분포상에서의구간의길이보다길다.부록의표를이용하면표준정규분포상에서의 95%확률구간은 (-1.96, 1.96)이지만자유도가 5인 -분포상에서는 (-2.571, 2.571)임을확인할수있다. -분포의자유도는 로계산되므로 -분포의자유도가작다는것은표본의크기 이작아짐을의미한다.

이러한특징을가지는 -분포를이용하여신뢰수준 에서표본평균 의표준화변환식에대한확률식은다음과같이표현가능하다.

(6.3)

여기서, 는 -분포의상위 의확률을주는값이다.식(6.3)의괄호안의부

등식을 에대해서정리하면

와같고,모평균 의 Z %신뢰구간은다음과같다.

(6.4)

우리는앞서[그림6.1]을통해 -분포의자유도가커지면표준정규분포와유사해져간다는것을익힌바있다.통상적으로 -분포의자유도가30이상이면표준정규분포와확률적차이가거의없다고말한다.따라서 -분포의자유도가30이상이면즉,표본의크기가30보다커지면식(6.4)의신뢰구간은 -분포를이용하는것과표준정규분포를이용하는것의차이가거의없기때문에


118

보기6.3

[보기 6.1]의 1년생 붉은 소나무 묘목의 크기는 정규분포를 따른다고 가정하자. 전체 1년생붉은소나무묘목의평균크기에대한90%신뢰구간을구하라.

우선모집단은정규분포를따른다고가정하였지만,모분산 에대한정보는주어져있지않다. 그러나 표본의 크기가 이므로 충분히 크다. 따라서 모평균 에 대한Z %신뢰구간은다음과같이계산가능하다.

와같이계산할수있다.

모평균 에대한 Z %신뢰구간

정규모집단으로부터추출한크기 의표본에대해

(ⅰ)모분산 이알려진경우

(ⅱ)모분산 을모르고표본의크기 이작은경우( = )

(ⅲ)모분산 을모르고표본의크기 이큰경우( )

6장추정

119

여기서 이므로 이다. 따라서 [보기 6.1]의 풀이로부터표본평균과표본표준편차

, m

을이용하면,모평균 에대한90%신뢰구간은다음과같다.

Z Z

보기6.4

175 190 215 198 184 207 210 193 196 180

식품의약품안전청에서는어떤생수의단위량당세균의수치를조사하고자한다.임의로선택한10개의생수병을검사한결과각생수병에대한단위량당세균의수는다음과같았다.

각 생수병의 단위량당 세균의 수는 정규분포를 따른다고 가정했을 때, 해당 생수의 단위량당평균세균수에대한95%신뢰구간을구하라.

우선모집단은정규분포를따른다고가정하였지만,모분산 에대한정보는주어져있지않다. 더불어 표본의 크기가 이므로 충분히 크지 못하다. 따라서 모평균 에 대한Z %신뢰구간은다음과같이계산가능하다.

,

현재 신뢰수준 이므로 이며, 표본에 대한 평균

과표준편차는각각 과 m 이다. 따라서모평균 에 대한 95% 신뢰구간은다음과같다.

Z Z m


120

6.4 모비율에대한추정

6.2절에서모평균 를추정하고자할때,직관적으로가장타당한추정량은표본평균임을언급한바있다.이와마찬가지로모비율에대해가장타당한추정량으로는표본비율을사용할수있다.예를들어,어느제조회사에서생산되는제품에대한불량률을알고자한다면실제로측정해야하는모집단은생산되는제품전체이다.이것은불가능하므로생산되는제품중임의로 개의제품을추출하고그중불량품의개수를파악하게된다.이러한상황은전체불량률이 인모집단으로부터상호독립적인 개의제품중불량품의개수를파악하는것이므로,추출한 개의제품중불량품의개수를확률변수 라하면확률변수 는이항분포(Bin )를따르게된다.더불어전체불량률즉,모비율 의추정량인표본비율은다음과같이정의할수있다.

따라서확률변수 가이항분포를따르므로표본비율 의기대값과분산,표준오차는다음과같다.

이경우,표준오차에있는 는추정하고자하는미지의모수이기때문에이를추정량인로대체하면표준오차를추정할수있다.

이제, 이충분히큰경우모비율 의구간추정을생각해보자.이경우 는근사적으로

6장추정

121

평균이 이고분산이 인정규분포를따른다.따라서 이충분히큰경우표본비

율 의확률분포는다음과같이정의할수있다.

∼

그러므로표본비율 의표준화된분포는

∼

이된다.따라서신뢰수준 에서표본비율 의표준화변환식에대한확률식은다음과같이표현가능하다.

(6.5)

그러나이때,식(6.5)의괄호안의부등식을 에대해서단순하게정리할수없으므로분

모즉,표본비율 의표준오차에대해 를 으로대체하여추정하여야한다.이와같은방법으로식(6.5)의괄호안의부등식을 에대해서정리하면

와같고,모비율 의 Z %신뢰구간은다음과같이구할수있다.


122

보기6.5

어느공정과정에서나오는제품중 100개를임의로추출하여조사한결과 6개가불량품이었다.이공정과정에서나오는제품전체의불량률에대한95%신뢰구간을구하라.

ZZ

ZZ

m

표본의 크기 은 충분히 크므로, 표본비율 은 근사적으로 정규분포를 따른다고 할수있다.따라서모비율 에대한 Z %신뢰구간은

와 같이 계산할 수 있다. 신뢰수준은 이므로 이며, 표본비율

이다.따라서모비율 에대한95%신뢰구간은다음과같다.

모비율 에대한 Z %신뢰구간

표본의크기 이충분히큰경우,모비율 에대한 Z %신뢰구간은다음과같다.

6장추정

123


[프로그램6.1]은 [보기6.4]의세균수에대한구간추정을위한R-프로그램이다. [보기6.4]는실제데이터가주어져있으므로R내장함수중의하나인t.test함수를이용할수있다.[결과6.1]에서95percentconf i dencei nterval을통해95%신뢰구간이(185.4012,204.1988)로 계산되었음을 확인할 수 있다. 만약, 90% 신뢰구간을 계산하고자 한다면conf.l evel =0.90으로수정하면된다.

[프로그램6.1] [보기6.4]세균수에대한구간추정

x= c(175,190,215,198,184,207,210,193,196,180)t.test(x,con f.l evel = 0.95)


OneSampl et-test

data:xt= 46.8857,d f= 9,p-val u e= 4.573e-12al ternat i veh ypoth esi s:tru emean i snotequ al to095percen tcon fi dencei n terval :185.4012204.1988sampl eest i mates:mean ofx194.8

[프로그램6.2]는[보기6.5]의불량률에대한구간추정을위한R-함수이다.x는성공횟수즉,불량품의개수를의미하고,n은전체표본의수,al pha는신뢰수준 에서의 를의미한다.


124

[프로그램6.2] [보기6.5]불량률에대한구간추정

prob.CI = fu ncti on (x,n ,al ph a){p.h at<-x/ner ror <-qnorm(1-al ph a/2)*sqr t(p.h at*(1-p.h at)/n )res<-c(p.h at-er ror ,p.h at+ er ror)names(res)<-c("Lower","Upper ")retu rn (res)

}prob.CI (6,100,0.05)


Lower Upper 0.013453430.10654657

6장추정

125

6.6 연습문제

6.1 코끼리의체중에대한모표준편차가 파운드라고알려져있다.임의로선택된코끼

리 50마리의 체중을 측정한 결과 표본평균은 파운드이고, 표본표준편차는파운드이다.모평균 에대한95%신뢰구간을구하라.

6.2 캘리포니아의성인506명을대상으로캘리포니아가직면한가장큰문제점을조사한결과,그중400명이K교육L이라고답했다.실제교육이가장큰문제라고생각하는캘리포니아의성인의비율에관심이있다.

(1)모비율의추정치와표준오차를구하라.(2)모비율 에대한90%신뢰구간을구하라.

6.3 유럽남성의평균체중에대한95%신뢰구간을구하기위하여스웨덴남성48명을대상으로조사한결과,표본평균은71kg,표본표준편차는2.8kg이었다.유럽남성의체중은정규분포를따른다고가정하자.

(1)모평균 에대한95%신뢰구간을구하라.(2)모분산이9kg이라고알려져있다면,모평균 에대한95%신뢰구간은어떻게달라

지는가?

6.4 한제약회사에서만드는정신안정제의약효가지속되는시간은정규분포를따른다.9명의환자에게이약을투여하고약효가지속되는시간을측정한결과는다음과같다.

2.7,2.8,3.0,2.3,2.3,2.2,2.8,2.1,2.4

(1)모평균의추정치와표준오차를구하라.(2)모평균 에대한95%신뢰구간을구하라.

6.5 연습문제6.4에서표본평균과표본표준편차는동일하고,표본의크기가49명으로늘어난다면,모평균 에대한95%신뢰구간은어떻게달라지는가?


126

6.6 연습문제6.4에서모분산이0.3시간으로알려져있다면,모평균 에대한95%신뢰구간은어떻게달라지는가?

6.7 마케팅회사에서주부200명을대상으로조사한결과,그중120명이물건을구매할때제조회사를가장중요시여긴다고답했다.실제물건을구매할때제조회사를가장중요시여기는주부의비율에관심이있다.모비율 에대한95%신뢰구간을구하라.

6.8 동일브랜드에서판매되고있는여행용가방16개의무게를측정하였다.여행용가방의무게는정규분포를따른다고가정하자.측정된여행용가방무게의표본평균은2kg이고,표본표준편차는0.12kg이다.모표준편차는0.1kg으로알려져있다.모평균 에대한90%신뢰구간을구하라.

6.9 부산대학교학생200명을대상으로조사한결과에따르면일주일동안영어공부를하는시간의표본평균은8.2시간,표본표준편차는2.2시간이었다.모표준편차는알려져있지않으며,모집단은정규분포를따른다고가정하자.모평균 에대한90%신뢰구간을구하라.

6.10 두발자전거를배운어린이14명을대상으로두발자전거를배우기까지걸린기간을조사하였다.조사결과,표본평균은6개월이고,표본표준편차는 3개월이었다.모집단은정규분포를따른다고가정하자.

(1)모평균 에대한90%신뢰구간을구하라.(2)모평균 에대한95%신뢰구간을구하라.(3)모평균 에대한99%신뢰구간을구하라.

7.1 가설과 대립가설

7.2 대표본의 모평 정

7.3 단측 정과 양측 정

7.4 소표본의 모평 정

7.5 모비 의 정

7.6 오류와 유의

7.7 -프로그램 실습

7.8 연습문제

7장가설 검정 : 한 집단의 비교

R과 함께하는

통계학의 이해

7장가설검정:한집단의비교

129

7.1 귀무가설과대립가설

어떤모수에관한주장이나추측등을표본자료에의하여증명하고자할때통계적가설검정의문제가제기된다.예를들자면[보기6.1]에서제기한소나무의품종개발의일환으로성장이좋다고알려진붉은소나무에관심이있는연구가있다고하자.다른소나무의키는평균 m로알려져있다.따라서품종개발자는붉은소나무의키의평균이다른소나무의키의평균 m보다는크다고믿고있다.이를증명하기위하여모든1년생붉은소나무묘목들로이루어진방대한크기의모집단으로부터40그루의표본자료[표6.1]을임의

추출한다음표본평균 를계산한다고하자.실제모평균 가 m보다크다는주장을통계적으로증명하기위해서이결과를어떻게이용해야하는지를살펴보자.

제기된주장의타당성을검정할때,통계학자들은귀무가설(nul l hypothesi s)과대립가설(al ternat i vehypothesi s)이란용어를사용한다.증명을필요로하는주장을대립가설

이라하고이가설과다른주장또는기존의주장을귀무가설 이라분류한다.예를들자

면붉은소나무의키의모평균 가 m보다크다고제기된주장은대립가설

이된다.귀무가설은이대립가설에반대되는두가지경우( 과 )에대하여세워진다.그러나연구자는이두가지를구분하지않고단순히K붉은소나무의키평균과다른소나무의키의평균에있어서차이가나지않는다L를귀무가설로하게된다.따라서다음과같은가설을세우게된다.


130

7.2 대표본의모평균검정

표본자료를이용하여모평균 가 m와같다는귀무가설 를기각할것인가

말것인가를결정해야한다.이를위한기준으로모평균 에대응하는임의로추출된40그루

의붉은소나무묘목의표본자료로부터계산된표본평균 를사용하는것이합리적으로여

겨진다.그러면K 가어떤값일때 를기각할것인가L라는의문을가지게될것이다.제기

된주장은 이므로 의값이클때 를기각하고제기된주장 이옳다고할수

있을것이다. 의값이클때를일반화한표현으로 를쓸수있는데,여기서 는귀

무가설 를기각하는기준값으로이를기각치(cr i t i cal val ue)라하며, 의구간은기각역(reject i onregi on또는cr i t i cal regi on)이라한다.실제로 는표본

의분포에따라결정된다.

여기서기각치 를구하는계산은몇단계를거치는번거로움이있다.일반적으로표본의크기 이30보다큰대표본의경우단지평균이 이고표준편차가 인모

집단의분포에관계없이 의분포는근사적으로평균이 이고표준편차가 인정규분

포를따른다는사실을알고있다. 를모를경우표본표준편차 를사용해도된다.따라서의표준화된통계량

또는 (7.1)

는근사적으로 분포를따르게된다.식 (7.1)의표준화된통계량 를검정통계량(test stat i st i c)이라 하며 를 검정통계량의 관측값이라 하면, 이를 이용하여 기각역

대신에 를정의할수있다.여기서기각치 는 의확률을정하면부록의표본정규분포표로부터구할수있다. 는유의수준(si gni f i cance l evel )이라하는데귀무가설 를잘못기각할확률로이확률을작게하는것이가장이상적이다.대개 를0.10,


131

보기7.1

[보기 6.1]의 붉은 소나무 묘목의 키에 대한 표본자료 [표 6.1]에서 이고 표본평균

와표준편차 이므로유의수준0.05에서

를검정하기위한기각역을구하고검정통계량의관측값을구한후기각역을만족하는지를알아보라.

1) 의 분포는근사적으로 이 되고 이를 표준화한 검정통계량은근사적으

로표준정규분포를따르며다음과같다.

h

2)유의수준 에서기각치는 이므로기각역은다음과같다.

0.05,또는0.01과같이미리정해진수준으로고정시키고기각역을결정하게되는것이다.예를들자면 이면 가된다.

가설검정과관련된용어들

귀무가설(nu l l h yp oth es i s , ) :기존의주장대립가설(a l te r na ti ve h yp oth es i s , ) :증명을필요로하는새로운주장기각치(c r i t i c a l va l u e) :귀무가설 를기각하는기준값기각역(c r i t i c a l reg i on) :기각치를기준으로귀무가설을기각할수있는범위검정통계량(tes t s ta t i s t i c ) :가설검정을위한모수의점추정량유의수준(s i g n i f i c ance l eve l , ) :귀무가설 를잘못기각할확률


132

3)표본평균이 이므로검정통계량의관측값은

이다.

4) 가기각역을만족하지못하므로귀무가설을기각할수없게된다.

5) 이 자료에따르면붉은소나무묘목의키의평균과다른소나무묘목의키의평균과같음 을알수있다.


133

보기7.2

닭 사료를 바꾸면 생산되는 계란의 콜레스테롤 양이 줄어든다는 연구가 있다. 이를 증명하기위하여 표본자료 38개의 콜레스테롤 관측치로부터 계산된 표본평균과 표본표준편차가 각각

과 이라면귀무가설과대립가설을세우고유의수준0.025에서검정하라.

7.3 단측검정과양측검정

지금까지[보기7.1]에서검정한 에서세워진대립가설의형태

와는반대로 이되면기각역 를사용하게된다.이들두가지형태의대

립가설을단측가설(one- si dedhypothesi s)이라부르는데,그이유는대립가설에서의모수의값들이귀무가설 에서주어진값 (=1.9)의한쪽에만놓였기때문이다.

따라서이대립가설들의검정을단측검정(one- si dedtest또는one- tai l edtest)이라부른다.이와대조적으로,어떤문제에서는귀무가설 , d 을검정하기도

한다.이런 d 형태의대립가설을양측가설(two- si dedhypothesi s)이라하며이

런가설의검정을양측검정(two- si dedtest)이라한다.이경우 가 로부터어느쪽으로건멀리떨어진값이면,즉, 가너무작거나너무크면 를기각한다.유의수준 인검

정을하기위하여기각할확률 #를양쪽꼬리에균등하게나누어기각역

= >

을정한다.이기각역은보다간략한기호로

>

로표현할수있다.따라서대립가설이단측이냐양측이냐에따라서기각역도단측기각역이냐양측기각역이냐가결정됨을알수있다.


134

1)계란의콜레스테롤양이줄어드는가에관심이있으므로귀무가설과대립가설은다음과같이세울수있다.

2) 이고관측값 를이용하면검정통계량의관측값은

3) 이고 기각치는 이므로 기각역은 대립가설의 형태를 따른

= 이된다.

4) 검정통계량의 관측값 는 기각역에 속하므로 유의수준 에서 귀무가 설은기각된다.

5) 이 자료는새로운사료를사용할때 평균콜레스테롤함유량이줄어든다는양계학자의주 장을강력히뒷받침하고있다.

보기7.3

[보기 7.1]에서 40그루의소나무묘목의키자료에대한대립가설 대신에모평

균키가 와다르다고하는대립가설 d 를유의수준0.05에서검정하여보라.

1) 대립가설 d 가 양측 검정이므로 유의수준을 에서 기각치는

이므로,기각역은다음과같다.

>

2)표본평균 와표준편차 이므로검정통계량의관측값은


135

이다.3)양측검정이므로절대값 이기각치1.96보다크기때문에기각역을만족하므로 유의수준 에서 을기각한다.

4)양측검정결과붉은소나무묘목과다른소나무묘목의키의평균이다름을확인할수있다.

지금까지의표본의크기 으로비교적크다고할수있는대표본에서모평균 의가설검정에대해서살펴보았다.일반적으로이런검정을대표본의모평균에대한유의수준에서 검정이라하며대립가설별로요약하자면다음과같다.

대표본의모평균에대한유의수준 에서 검정

귀무가설 대립가설 기각역 검정의형태< 단측검정; 단측검정< 양측검정


136

7.4 소표본의모평균검정

7.3절에서식(7.1)에의한귀무가설 에대한 검정은표본의크기가큰대표

본에서모집단의분포에무관하게적용된검정절차이다.이와는반대로표본 의

크기가작은소표본( ; )경우에도모집단의분포가정규분포 라는가정이있다면검정통계량만바꾸면 검정과전체적으로동일한절차로검정을할수있다.즉,소표본인경우귀무가설 에서검정통계량

(7.2)

는자유도 인 분포를따른다.따라서실제자료인표본을통한식(7.2)의검정통계량의관측값 에의한모평균에대한가설검정은다음과같이정리되며이를소표본의모평균에대한유의수준 에서 검정이라한다.

소표본의모평균에대한유의수준 에서 검정



137

보기7.4

어느도시위생국에서는어떤생수의단위량당세균의평균숫자가안전수준인200이내인지를 조사하고자 한다. 한 조사원이 10개의 표본자료를 검사한 결과 세균의 수는 다음과 같고정규분포를따른다.

175, 190, 215, 198, 184,207, 210, 193, 196, 180

귀무가설과대립가설을세우고이를유의수준 에서검정하여보라.

1) 를이생수단위량당세균의평균숫자라고하자.이생수가안전수준이라면 이 고 조사원은 이 가설을 뒷받침하는 강력한 증거를 찾고자 한다. 그러므로 귀무가설과 대 립가설은다음과같다.

2)표본의크기가 인소표본이며정규분포를 따르므로 t-검정을실시할수있다. 표 본자료로부터표본평균,표준편차,검정통계량의관측값을계산하면다음과같다.

3) 대립가설이 단측인 의 형태에 따른 유의수준 에서 자유도

인기각치는- 이고기각역은 = 이된다.

4) 검정통계량의관측치 는 보다크므로기각역 = 을만족하 지 않는다. 이는유의수준 에서귀무가설 이 기각되지않음을말 한다.

5)10개의표본자료는모평균이안전수준이내에있다는증거가되지못한다.


138

7.5 모비율의검정

새로개발된공법의불량률과부산시노동력인구중실업자비율에대한검정은모비율에대한가설검정에해당한다.소표본의경우는개념적으로앞서정리해온모평균의가설검정의절차와달리복잡하므로생략하고대표본인경우만다루기로한다.

모비율 인 모집단으로부터 모비율과 관련된 특성의 경우의 수를 라 하면 귀무가설

에서모비율의추정량 은 이클때근사적으로다음과같이정규분포를따른다.

h (7.3)

따라서식(7.3)으로부터표준화된검정통계량은식(7.4)의근사적으로표준정규분포를따른다.

j (7.4)

표본을통한대표본의모비율 에대한식(7.4)의검정통계량의관측값 에의한유의수준에서 검정은모평균 에대한 검정과유사한방법으로다음과같다.

대표본의모비율에대한유의수준 에서 검정



139

보기7.5

5년전의인구조사에따르면어떤도시의세대중20%가빈곤층으로밝혀졌다.이비율이변하였는지를보기위하여, 400세대를임의추출하여조사한결과 70세대가빈곤층이었다.이표본자료에의하면현재이도시의빈곤층비율이5년전과달라졌다고할수있는지를살펴보라.

1)모비율 를현재이도시의빈곤층비율이라하면 가 5년전빈곤층비율 0.20과다른 지에대한증거를찾고있으므로,가설은다음과같다.

d .

2) 표본의 크기 은 충분히 크므로 대표본에 해당하며 모비율 의 추정치는

이고 에서검정통계량의관측값은다음과같다.

Z

3) 대립가설이 양측인 d 이므로 유의수준 에서 기각치는

이고기각역은 > 이다.

4) 검정통계량관측값 의절대값 은기각역을만족하지못하므로귀무가설 를기각하지못한다.

5)검정의결과현재빈곤층의비율이5년전과달라졌다고는할수없다.


140

7.6 오류와유의확률

지금까지살펴본통계적가설검정의결과는유의수준 에서모평균 와모비율 에관한귀무가설 를기각하거나기각하지않거나둘중의한가지였다.이럴경우특히모평균 나

모비율 를직접관측할수없어표본을통해추정된추정량을통하여귀무가설과대립가설의옳고그름을판단해야하므로오류를범할수있다.[표7.1]에는가설검정에서실제사실과이를검정하기위한표본에의해결정한것에따라발생하는네가지경우를요약하고있다.

[표7.1]가설검정의결과

실제사실

표본에의한결정

기각 채택

참 잘못결정(제1종오류) 옳은결정

참 옳은결정 잘못결정(제2종오류)

[표7.1]에서와같이만약에실제사실로 가참임에도표본자료에의한검정결과 를

기각한다면그것이잘못된결정이며제1종오류(typeI er ror)를범하게된다.반대로 이

참인경우 를채택하게되면제2종오류(typeI I er ror)를범하게된다.특히제1종오류

를범할확률을유의수준이라하고 로나타내고제2종오류를범할확률을 로나타낸다.

7.2절에서귀무가설 를기각하는기준값이되는기각치 에대하여설명한바있다.특

히, [보기 7.2]의 계란의 콜레스테롤 함유량 문제의 경우 모평균 에 대한 귀무가설

에대하여대립가설이단측인 이므로기각역의형태는 =

이었다. 이 기각역은 귀무가설이 옳다는 가정 아래 이를 기각하는 구간이며 그 반대는

가된다.따라서제1종오류를범할확률인유의수준 와제2종오류를범할확률을


141

를각각구해보면다음과같다.

=

물론,확률 는 이참인범위의실제 값에따라서달라진다.[그림7.1]의

첫번째그림에서음영부분은기각치 를기준으로 가참인 인경우

제1종오류를범할확률 를나타내고,두번째그림에서음영부분은 이참인

경우중 일때제2종오류를범할확률 를나타낸다.

[그림7.1]제1종오류와제2종오류의확률 와

[그림7.1]에의하면두가지종류의오류를범할확률 와 가동시에최소가되도록기각치 를결정하는것은명백히불가능하다. 값을왼쪽으로움직이면 는작아지지만 가커지고, 값을오른쪽으로움직이면그반대의현상이일어난다.이러한문제점과더불어가설검정에서기존의사실이옳음에도이를기각하는제1종오류가제2종오류보다더심각한오류라는사실때문에 를0.10,0.05,또는0.01과같이미리정해진수준으로고정시키고


142

기각역을결정하게되는것이다.

[보기 7.2]의 새로운 사료에 의한 계란의 콜레스테롤 양에 관한 귀무가설과 대립가설의 검정은 유의수준 에서 행해졌다. 기각치가

으로검정통계량의관측값 가기각역 = 에속하였기

때문에 를기각하였다.그리고유의수준 보다큰보편적인유의수준 을

사용하면당연히귀무가설을기각한다.이번에는 보다작은유의수준 을선택하더라도기각치가 과기각역 = 으로인해같은검정결과를

가져온다.그러나이번에는훨씬작은유의수준 에서는기각치가

로검정통계량의관측값 가기각역 = 을벗어나게되어귀무가설을기각하지못하게된다.이와같이유의수준에따라검정의결과가달라지며여러상황에서적절한유의수준을정하기는것이쉽지않다.

기왕이면검정통계량의관측값 를기각치로하고귀무가설을기각할확률

=

을이용하는것도좋은방법이되며실제이확률은검정통계량의관측값 를이용하여 을기각할수있는최소유의수준이된다.이를관측값 의유의확률(si gni f i cance

probabi l i ty)또는 -값(p- val ue)이라부른다.아주작은 -값=0.0059는 를기각하는

강력한기준이되고따라서검정결과는통계적으로아주유의하게된다.일반적으로 -값은가참일때검정통계량이실제표본을통한검정통계량의관측값과같거나더지나친값을

취할확률이다.

가설검정에서미리정한유의수준 와관련된검정통계량의분포와관측치를활용한기각치와기각역을활용하는것대신검정통계량의관측값의유의확률인 -값을구하고가설검정의상황에따라정한유의수준 보다작으면귀무가설 를기각하게되는검정방법을고

려할수있다.


143

보기7.6

[보기 7.3]의 붉은 소나무 묘목의 키에 대한 표본자료 에 대한

검정과[보기7.5]의현재이도시의빈곤층모비율 에대한 가5년전빈곤층비율0.20과다른지에대한가설 d 에대한검정을유의수준

에서기각역을이용한검정을하고있다.이번에는 -값을계산하여그결과를해석하라.

따라서대표본의모평균과모비율의검정에대해선검정통계량의관측값 에의해대립가설의형태에따라각각구한유의확률 < , ; , < = <

= ; 인 -값에의해서도검정을하게된다.소표본의모평균의검정에서는검정통계량의 관측값 에 의해서 -값으로 대립가설의 형태에 따라 구한 < ,

; , < = < = ; 을고려하게된다.

-값( -value)의정의와활용

- 가참일때검정통계량이실제표본을통한검정통계량의관측값과같거나더지나친값(크거나작은값)을취할확률이다.- -값 Q귀무가설을기각한다.

그러나검정통계량의관측값분포표에서정확하게주어져있지않아유의확률 -값을근사적으로구할수는있지만정확하게계산되지는못한다.그러므로7장을포함하여8장등본저서의본문중여러보기에서는기각치와기각역을이용한검정방법을다루며다만7.8절과같이각장의마지막절인[R-프로그램실습]에서는수행결과 -값을제공하므로이를활용한검정을보충하여설명하기로하자.

[보기7.6]에서는[보기7.3]과[보기7.5]를이용하여유의확률 -값의계산에대한예와검정방법을보여주고있다


144

1)40그루소나무묘목의키의자료에서검정통계량의관측치가 이고양측대립가 설 이므로유의확률( -값)은

> = >

Z >

Z

이다.이 -값=0.0138이 보다작아서 가기각된다.

2) [보기 7.5]의 경우 검정통계량의 관측치가 이고 양측 대립가설 d 이므로유의확률( -값)은

> = >

Z >

Z

이다. -값=0.2112 이므로 를기각할수있는증거는매우약하다.


145


[프로그램7.1]은표본의크기가큰대표본의경우인[보기7.1]의붉은소나무묘목의키의모평균에대한가설 검정을위한z.test()함수를활용한R-프

로그램이다.이함수를사용하기위해서는프로그램에서자료x=c(2.6,1.9,...,1.2),모평

균1.9,표본분산 이필요하다.실제프로그램에서<z=z.test(x,1.9, 0.2256)>에 해당한다. R-프로그램에서는 <pval ue=1-pnorm(z)>를 통하여 대립가설

에대해기각치를활용한검정을제공하는대신에 값을제공할수있다.

[결과7.1]의<-2.463384>는검정통계량의관측값 에해당하며<0.9931184>가 값으로확률값 < 에해당한다.유의수준 보다도훨씬크므로귀무가설 을기각하지못한다.

[프로그램7.1] [보기7.1]대표본의모평균에대한 검정

z.test= fu nct i on (x,mu ,var){zeta= (mean(x)-mu )/(sqr t(var/l ength (x)))retu rn (zeta)}x= c(2.6,1.9,1.8,1.6,1.4,2.2,1.2,1.6,1.6,1.5,1.4,1.6,2.3,1.5,1.1,1.6,2.0,1.5,1.7,1.5,1.6,2.1,2.8,1.0,1.2,1.2,1.8,1.7,0.8,1.5,2.0,2.2,1.5,1.6,2.2,2.1,3.1,1.7,1.7,1.2)z= z.test(x,1.9,0.2256)zpval u e=1-pnorm(z)pval u e


-2.4633840.9931184


146

[프로그램7.2]는소표본의모평균에대한 검정을위한t.test()함수를활용한R-프로그램이다.실제이프로그램은[보기7.4]에서생수단위량당세균의평균숫자를모평균이라하고이에대한 의검정을보여주고있다.특히,t.test()함수

에서지정하는옵션<x>는입력자료<x=c(175,190,...,180)>이고<mu=200>은귀무가설의모평균그리고<al ternati ve="l ess">는단측대립가설 에따른옵션이다.참고

로또다른단측대립가설 이면<al ternati ve="greater">를지정하고양측

대립가설 이면<al ternati ve="two.si ded">를지정하면된다.이옵션은R-

프로그램에서제공하는모든가설검정에서대립가설의형태에따라동일하게사용된다.결과에대한해석은[보기7.4]와[보기7.6]의 값계산을참고하면되나[결과7.2]의

<t = -1.2516>는검정통계량의관측값이고자유도가 <df = 9>임을나타내고있다.특히,<p- val ue=0.1211>는 값으로유의수준 보다도큰경우를나타내며귀무가설

을기각하지못함을보여준다.

[프로그램7.2] [보기7.4]소표본의모평균에대한 검정

x= c(175,190,215,198,184,207,210,193,196,180)t.test(x,mu=200,al ternat i ve= "l ess")


OneSampl et-test

data:xt= -1.2516,d f= 9,p-val u e= 0.1211al ternat i veh ypoth esi s:tru emean i sl essth an 20095percen tcon fi dencei n terval :-I n f202.4162sampl eest i mates:mean ofx194.8

[프로그램7.3]은[보기7.5]에서도시의빈곤층모비율이5년비율0.20과다른지에대한가설 d 에대한prop.test()함수를활용한 -검정을보여주고


147

있다.특히,prop.test()함수에서지정하는옵션으로<70>은조사결과빈곤세대수,<400>은 총 조사 세대수, <p=0.2>는 귀무가설 의 모비율 값이다.

<al ternati ve="two.si ded">는양측대립가설 d 에대한옵션이며이미[프로그

램7.2]에서설명한바있다.끝으로옵션<correct=FALSE>는Yates'의연속보정없이식

(7.4)의근사적으로표준정규분포를따르는검정통계량 의제곱통계량 은자유도

1인 -분포가된다는수리적인사실을이용하며실제로[보기7.5]에서검정통계량의관측값

의제곱인 이[결과7.3]에서<X-squared=1.5625>에해당한다.<p-val ue=0.2113>은 보다크므로 를기각할수있는증거는매우약함을보여주고있다.

[프로그램7.3] [보기7.5]대표본의모비율에대한검정

prop.test(70,400,p=0.2,al ternati ve= "two.si ded ",cor rect= FALSE)


1-sampl epropor t i on stestwi th ou tcon t i n u i tycor rect i on

data:70ou tof400,nu l l p robab i l i ty0.2X-squ ared = 1.5625,d f= 1,p-val u e= 0.2113al ternat i veh ypoth esi s:tru epi snotequ al to0.295percen tcon fi dencei n terval :0.14090420.2152788sampl eest i mates:p 0.175

참고로Yates'의연속보정은카이제곱검정통계량을계산할때다음의공식

을이용하게하며prop.test()함수에서<cor rect=TRUE>를지정하면된다.


148

7.8 연습문제

7.1 다음과같은여러가지의주장이제시되었다.각경우에귀무가설( )과대립가설( )을

나타내고,검정의형태가단측인지양측인지말하라.(1)은퇴전일하는평균기간은34년과차이가있다.(2)고등학교3학년학생중음주를하는학생은29%와차이가있다.(3)대학교졸업자의평균초기연봉은아무리많아도3,000만원에못미친다.(4)여성들의유방암발생가능성은11%이상이다.(5)대통령선거의투표율이아무리높아도80%를넘지못한다.(6)유럽인들의올해휴가기간은작년평균휴가기간인6주와차이가있다.(7)사립대학교의평균등록금은735만원보다많다.(8)도시에서떨어져사는것을선호하는미국인은절반이아니다.

7.2 연습문제7.1의(1)~(4)에서제1종오류와제2종오류를범하는상황은어떠한경우인지말하라.

7.3 부산대학교의통계학과학생들은평균적으로7시간보다적게잔다고알려져있다.이를확인하기위하여실제부산대학교통계학과학생들중22명의조사하였더니평균은6.24시간,표준편차는1.93시간으로나타났다.

(1)귀무가설 와대립가설 을서술하라.

(2)이검정은어떤분포를사용하는가?(3)검정통계량을구하여라.(4)유의수준5%에서어떠한결론을내릴수있는가?(5)실제귀무가설이참일때,(4)의결정은옳은결정인가?만일잘못된결정이라면어떠

한종류의오류를범했는가?

7.4 한신문기사에따르면,중국에서의남녀출생비율은100:114(여자=46.7%)라고한다.그러나이비율이잘못되었다고주장하기위하여중국에서최근출생한아기150명을조사한결과,남자가90명이고여자가60명이었다.


149


(2)검정통계량을구하여라.(3)유의수준5%에서어떠한결론을내릴수있는가?

7.5 공인간호사의평균연봉은69,110달러라고알려져있다.캘리포니아의공인간호사들의평균연봉은69,110달러보다높을것이라고생각하고,이를확인하기위하여캘리포니아의공인간호사41명을조사하였다.조사결과,평균은71,121달러,표준편차는7,489달러로나타났다.유의수준5%에서검정하여라.

7.6 연습문제7.5의검정은유의수준 에서기각역을이용한검정을하고있다.이번에는 -값을계산하여그결과를해석하라.

7.7 부산대학교교내신문에따르면부산대학교학사학위를얻는데평균적으로4.5년이걸린다고한다.이를확인하기위하여49명의학생을조사하였더니평균이5.1년,표준편차가1.2년이었다.실제로학사학위를얻는데걸리는기간이4.5년과차이가있다고할수있는지유의수준1%에서검정하여라.

7.8 K성인남성의평균IQ는107이고,브라운송어의평균IQ는4이다.그런데왜그들은브라운송어를잡지못하는가?L라는신문광고문구가있다.이문구를본한물고기심리학자는브라운송어의평균IQ가4보다높을것으로예상하여,브라운송어12마리를잡아서실험하였다.측정된브라운송어의IQ는다음과같다.

5,4,7,3,6,4,5,3,6,3,8,5(1)유의수준5%에서기각역을이용하여검정하여라.(2) -값을계산하여유의수준5%와1%에서각각검정하여라.

7.9 연습문제7.8의검정에서대립가설 : 대신에브라운송어의평균IQ가4와다르

다고하는대립가설 : d 를검정하여라.

(1)유의수준5%에서기각역을이용하여검정하여라.(2)유의수준5%에서 -값을이용하여검정하여라.


150

7.10 한조사에따르면작년청소년의흡연율은14%였다고한다.올해청소년의흡연율을확인하기위하여조사한결과,70명중9명이흡연하는것으로나타났다.청소년의흡연율이14%로유지되고있는지,아니면감소하였는지를유의수준5%에서검정하여라.

8.1 두 집단의 비교8.2 립표본의 비교

8.3 소표본에서 모분산이 다른 경우의 비교8.4 대응표본

8.5 립표본의 모비 비교8.6 -프로그램 실습

8.7 연습문제

8장독립표본과 대응표본 : 두 집단의 비교

R과 함께하는

통계학의 이해

8장독립표본과대응표본:두집단의비교

153

8.1 두집단의비교

통계적으로두집단간의차이를이해하기위해비교연구(comparat i vestudy)를하게된다.예를들어연구자들이체중감소에효과가있는새로운운동처방프로그램에관심이있다고하자.이경우기존의운동처방프로그램을적용한그룹과새로운운동처방프로그램을적용한두그룹에대한체중감소를비교하게된다.또다른예로아스피린이심장발작을예방한다는효과에관심이있다고하자.지난몇년간,신문이나잡지에두그룹에대한다양한아스피린연구가보고되었다.이경우일반적으로아스피린을복용한그룹과위약(pl acebo)을복용한그룹으로나누어여러해동안두그룹의심장발작비율을비교하게된다.추가적으로비교연구로다양한다이어트와운동프로그램을서로비교하거나,정치인들에게투표하는사람들의고소득및저소득그룹빈도수에따른비율에관심을가지는경우이다.두그룹을비교하기 위해서 필요한 자료의 수집 방법으로 1장에서 언급한 바 있지만 실험계획(exper i mentdesi gn)과표본조사나여론조사에의해서이루어진다.운동처방프로그램이나심장발작연구와같은자료는철저한실험계획에의해서얻어지며정치인의유권자에대한소득이나지지도에대한자료는여론조사를통해얻어진다.

어느 방법이든지 두 그룹은 서로가 관련이 없는 두 모집단으로부터 얻어진 독립표본(i ndependentsampl e)이거나아니면한모집단으로부터얻어진대상에대하여두번반복측정하여얻어진두표본인대응표본(matchedpai r ssampl e)이된다.예를들자면기존의운동처방프로그램을적용한그룹과새로운운동처방프로그램을적용한그룹이나아스피린을복용한그룹과위약을복용한그룹으로나누어여러해동안두그룹의심장발작비율을조사하는경우의두그룹은서로에게영향을끼칠수없는독립표본이된다.물론실험하기전두그룹의신체적조건(혈압,몸무게)은유사하도록확보되어야함은당연하다.그러나실험에따라두그룹의유사한신체적조건을보장하기어려울경우대안으로동일한대상에대하여시간을두고측정하는대응표본을얻게된다.이경우먼저실시하는운동처방프로그램이나복용하는약의효과가남아있지않도록주의해야한다.


154

독립표본과대응표본

독립표본:서로가관련이없는두모집단으로부터각각얻어진두표본대응표본 : 한 모집단으로부터얻어진동일한각 대상에대하여두 번 반복 측정하여얻어진

두표본

앞서살펴본바와같이실험계획에의하여비교하고자하는두그룹을사전에나누거나동일한대상에대하여표본을얻기도하지만처음부터두그룹이독립적으로구성이되어있는경우가있다.두나라의평균소득을비교하고자할때각나라에서모든국민의소득이두모집단을이루며이로부터조건에따라표본을추출하면이는독립표본이된다.

수집된자료인표본을통해두집단을비교하기위해선통계량은각집단의평균또는비율을가지고하게되며이들통계량은두모집단의특성을나타내는모수를비교하는것대신에이용된다.특히7장에서설명한바와같이모집단의모수로모평균 과모비율 를사용하며두집단을비교하기위해서는다음과같은가설이필요하다.

대응표본의귀무가설

한모집단의두번측정된모평균의차이는없다.R

독립표본의귀무가설

두모집단의평균(모평균)은차이가없다. R

두모집단의비율(모비율)은차이가없다.R


155

8.2 독립표본의비교

두독립표본의비교를위하여이들이독립적으로표집된두모집단을 와 라했을때이들과관련된모수,표본의크기,표본,통계량과같은정보는다음과같이요약할수있다.

모집단

모수(모평균과모분산) , ,

표본의크기

표본

통계량(평균과분산)

일반적으로표본은크기에따라30보다작으면소표본이고30보다크면대표본으로나누어진다. 소표본의 경우 두 모집단의 가정이 모평균과 모분산을 가진 정규분포인

∼ 와 ∼ 가만족되어야하며이로부터얻어진두독립표본의평균들

도다음과같이정규분포를만족한다.

∼ , ∼ (8.1)

대표본의경우에는두모집단에대한모평균과모분산에대한가정만있고정규분포가정이

없는 ∼ 와 ∼ 일지라도두독립표본의평균들은중심극한정리(central

l i mi ttheorem)에의해서근사적으로정규분포를만족하게된다.


156

따라서표본의크기에따라소표본과대표본으로나누어지고이들이표집된모집단에대한기본가정도다르며이에따라두독립표본을비교하는검정통계량도달라진다.다만비교하고자하는귀무가설과검정절차는동일하다는점이다.

우선8.1절에서독립표본에대하여언급한다음의귀무가설

두모집단의평균(모평균)은차이가없다.R

에서보고자하는모평균의차이 에대하여사용하는검정통계량의바탕이되는통계

량은두독립표본의평균의차 를이용하며이것의평균과분산은다음과같다.

∼ (8.2)

이된다.이를바탕으로검정통계량을소표본과대표본에따라구성하여보자.

소표본의경우에는두독립표본이정규분포를반드시만족하여식(8.1)이성립하고만약에

으로두모분산이동일하다는가정이성립하면식(8.2)는

∼ (8.3)

가된다.식(8.3)으로부터 를표준화하면통계량

∼ (8.4)


157

이된다.일반적으로식(8.4)에서모분산 은잘알려져있지않고모르는경우표본분산

과 에의해서추정하여합동표본분산(pool edsampl evar i ance)

을사용하게되며식(8.4)의표준정규분포는성립하지않게된다.따라서이경우다음과같은통계량

∼

를 얻는데 이는 자유도 인 -분포를 따른다. 따라서 귀무가설

하에검정통계량은다음과같다.

. (8.5)

검정방법은7장에서언급한바와같이유의수준 가주어지면자유도가 인 -

분포표로부터대립가설의형태에따라단측이면 ,양측이면 를기각치로하며이는식

(8.5)의통계량의관측값 가다음의기각역을만족하면귀무가설 을기각

한다.


158

보기8.1

연령이 7세에서 11세남녀어린이가하루중운동을하는데보내는평균시간이같다고알려져있다.그러나새로운연구결과평균시간이서로다르다고하여모분산이같고정규분포를따르는모집단으로부터남자 9명과여자 16명을추출하여조사하였더니다음과같았다.이를토대로유의수준 에서남녀집단간의평균시간의차에대한검정을해보라.

모집단 표본의크기 평균시간 표준편차남자 16 3.2여자 9 2

1)남녀집단의모평균을각각 과 라하면다음과같은가설을세울수있다.

,

2)표본의크기 16과 9가 30보다작아소표본에해당하고모분산이동일하며정규분포를따

소표본에서독립표본의두모평균에대한 검정

귀무가설 대립가설 기각역<

;

d <

물론식(8.4)의검정통계량의관측값 에의해대립가설의형태에따라각각구한 -값인< , ; , < = < = ; 에의해서유의수준

보다작으면귀무가설을기각하는검정이가능하다.다만7장에서언급한바와같이분포표를이용하여정확하게이확률값을구하기가쉽지않다.본문중보기에서이들 -값대신에기각역을이용한검정을다루고자한다.다만8.6절에는R-프로그램을활용한검정에서는기각역에의한것보다 -값에의한검정을제공하고있으므로참고하기바란다.


159

르므로합동표본분산.

을계산한다.따라서검정통계량의관측값은다음과같다.

3) 대립가설이 양측인 이므로 유의수준 5%에서 자유도

인 기각치는 이므로 따라서 기각역은

< 이다.

4) 검정통계량의 관측값 의 절대값이 기각역을 만족하므로 귀무가설

을기각하게된다.

5) 이 연구에따르자면남녀간에하루중운동을하는데보내는평균시간은차이가있다고할수있다.

보기8.2

젖소용사료 와 의우유생산량이같다는연구결과가있다. 이를입증하기위하여정규분포를 따르며 분산이 동일한 두 모집단으로부터 각각 추출한 13마리에는 사료 를 공급하고나머지12마리에는사료 를공급하였다.3주일후젖소의우유생산량검사를해본결과다음의자료를얻었다.알려진연구결과와는달리사료 의우유생산량이사료 의생산량보다더많다고할수있는지를유의수준 에서검정하라.

모집단 자료크기 평균 표준편차사료사료


160

1)사료 와 의우유생산량의모평균을각각 과 라하면다음과같은가설을세울수있다.

, 2) 표본의 크기가 13과 12로 소표본에해당하고모분산이동일하며정규분포를따르므로합

동표본분산에의한

을계산한다.따라서검정통계량의관측값은다음과같다.

3) 대립가설이 단측인 이므로 유의수준 5%에서 자유도

인기각치는 이고기각역은 < 이다.

4)검정통계량의관측값 이기각역을벗어나므로귀무가설 을기각하지못한다.

5)사료 의우유생산량이사료 의생산량보다더많다고할수없다.

대표본의경우에는두독립표본이정규분포를만족하지않더라도근사적으로식(8.1)을만족

하게되고모분산이동일하다는가정을필요치는않으며두독립표본의평균의차 는근사적으로정규분포를다음과같이따른다.

h (8.6)

식(8.6)에서두분산을아는경우에는 를표준화하면근사적으로표준정규분포를따르는통계량


161

h(8.7)

를얻게된다.만약에식(8.6)에서두모분산을모르는경우각분산의추정량인표본분산

과 를사용해도대표본이기때문에다음이성립한다.

h(8.8)

따라서귀무가설 하에식(8.7)과식(8.8)로부터검정통계량은다음과같다.

또는(8.9)

검정방법은유의수준 가주어지면표준정규분포표로부터대립가설의형태에따라단측이면 ,양측이면 를기각치로각각사용한다.다시말해서식(8.8)의통계량의관측값

에의해서대립가설에따라기각치와의관계가다음과같은기각역을만족하면귀무가설

을기각한다.


162

보기8.3

두 기업 중 노동조합의활동이활발한기업이 그렇지않은 기업보다근로자의평균임금이더높다는보고가있다.이를검정하기위하여노동조합이활발한기업으로부터50명과노동조합이 활발하지 않은 기업으로부터 30명을 임의로 선발하여 임금을 조사한 결과 다음의 자료를얻었다.알려진보고결과와같이근로자들의평균임금이노동조합이활발한기업 가노동조합이활발하지않은기업 보다더높다고할수있는지를유의수준 에서검정하라.

모집단 표본의크기 평균임금(원) 표준편차기업 50 225,200 9,800기업 30 218,700 10,800

1) 기업 와 의 근로자임금의모평균을각각 과 라 하면다음과같은가설을세울수있다.

,

2)표본의크기50과30은대표본에해당하며검정통계량의관측값다음과같다.

대표본에서독립표본의두모평균에대한 검정


;

d <

물론식(8.8)의검정통계량의관측값 에의해대립가설의형태에따라각각구한 -값인< , ; , < = < = ; 에 의해서도 검정이

가능하다.이를활용한검정은8.6절의[프로그램8.1]과[결과8.1]을참고바란다.


163

3) 대립가설 에서 유의수준 5%의 기각치는 로 기각역은

< 이다. 검정통계량의 관측값 이 기각역을 만족하므로 귀무가설

을기각하게된다.

4)근로자들의평균임금은노동조합이활발한기업 가노동조합이활발하지않은기업 보다더높다고할수있다.

지금까지독립표본모평균차의검정절차를소표본과대표본에따라요약정리한것이[표8.1]이다.


164

[표8.1]소표본과대표본에따른독립표본모평균차의검정절차

표본의크기 소표본( , ; ) 대표본( , )모집단의

정규성가정 ∼ , ∼ ∼ , ∼

모르는모분산가정 d

검정통계량

,

:합동표본분산

,

, :표본분산

대립가설과기각역

(유의수준 )

, < ,

, ; ,

, < .

, < ,

, ; ,

, < .

값< ,; ,

<

< ,; , <

검정방법검정통계량의관측값이기각역을만족하든지 값 이면귀무가설

을기각한다.


165

8.3 소표본에서모분산이다른경우의비교

두독립표본을비교하는가설과검정에서표본의크기가30보다큰대표본의경우에는이

들이추출된두모집단 ∼ 와 ∼ 에대해정규분포가정이없고두분산

이같다는가정이없어도별문제가없다.다만표본의크기가30보다작은소표본의경우8.2절에서살펴본것처럼반드시다음의가정이요구된다.

- 두모집단이정규분포 ∼ 와 ∼ 를따른다.

- 두모집단의모분산은 으로동일하며알려져있지않다.

- 두모집단으로부터추출된표본은서로독립이다.

여기서제기하는문제는두모분산이같다는 에대한가정이성립하지않은

경우합동표본분산을사용하는식(8.5)의자유도 인 -분포를따르는검정

통계량을사용할수없다는점이다.대신에대표본에서사용하는검정통계량을사용하되이는다음과같이근사적으로 -분포를따른다.

h

여기서웰치(Wel ch)의수정된자유도는

(8.10)


166

보기8.4

새롭게개발된농약이과실의수확량을높인다는연구가있다.실제로과수원에서9그루나무에기존의농약을사용하였고, 나머지 9그루나무에새농약을사용하여수확한과실의수확량에대한다음의자료를얻었다.연구결과와같이새로운농약 가기존의농약 보다과실의평균수확량을더많이낸다고할수있는지를유의수준 에서검정하라.

모집단 표본의크기 평균수확량 표준편차농약 9 249 19농약 9 233 45

1)새농약 와기존의농약 의수확량의모평균을각각 과 라하면다음과같은가설을세울수있다.

,

2)두표본의크기9는소표본에해당하며두표준편차의비가 로두모평균이같다고보기어렵다.따라서수정된자유도

계산으로부터자유도는 이고검정통계량의관측값다음과같다.

이다.만약에표본으로부터계산된식(8.10)의자유도값이정수가되지않으면반올림한후소수값을제외하고정수값만사용해도된다.계산상더편리하게 과 중작은값

을자유도로정하는방법도있다.실제로표본으로부터두표본표준편차 과 의상대적크

기가 = = 일때두모분산이같다는 가정을할수있다.


167

3)대립가설이단측인 에대해유의수준1%에서자유도 인기각

치 이므로기각역은 < 이다.검정통계량의관측값 가기각

역을만족하므로귀무가설 을기각한다.

4)새로개발된농약 가기존농약 의농작물평균수확량보다더많이낸다고할수있다.

만약에[보기8.4]의풀이2)에서수정된자유도계산대신에두표본의크기로부터

과 중작은값을자유도로정하는방법에따르면두표본의크기가9로같으므로자유

도는8이된다.이때기각치는 이며검정의결과는동일하다.


168

8.4 대응표본

8.3절에서는남녀어린이하루중운동을하는데보내는평균시간,젖소용두사료의우유생산량,두기업중노동조합의활동이활발한기업과활발하지않은기업근로자의평균임금,새롭게개발된농약과기존농약의과실수확량과같이두그룹은서로에게영향을끼칠수없는독립표본이된다.물론실험하기전두그룹의여러조건(남녀어린이의연령,평소젖소의우유생산량,회사의규모,과실나무의상태)이유사하도록확보되어야함은당연하다.

그러나실험에따라두그룹의유사한조건을보장하기어렵거나충분한대상을확보하지못하는경우대안으로동일한대상에대하여시간을두고측정하는대응표본을얻게된다.이경우먼저실시하는실험의효과가남아있지않도록주의해야한다.다행이무좀과같은피부치료제의경우에는무좀환자의한쪽발에는새로운약을다른한쪽발에는기존의약을바르고결과를관찰하거나,두종류의자동차타이어수명을비교하고자할때한자동차에두종류타이어를한꺼번에부착하여주행실험한다면이러한문제는쉽게해결된다.

일반적으로 개의실험대상에대하여두번처리한것을각각처리1과처리2로하고 번째대상에대한각처리를 와 라하면두처리간의차이 , 는표

본평균 와표본분산 를갖는새로운표본인대응표본을이루며다음과같이요약할수

있다.

처리대상

1 2 z z

처리1 z z

처리2 z z

차 z z

통계량

새로운자료 z 의

표본평균 , 표본분산


169

여기서두처리간의차에의해구해진새로운자료 z 은모평균 와알려

져있지않은모분산 를따른다고하자.특히,소표본의경우에는 z 가정규

분포 를 따르며 이 경우 두 처리 간의 차이의 모평균 에 대한 귀무가설

에대한검정통계량은7.4절의한모집단모평균에대한검정통계량과비슷하게

자유도 인 -분포를따르는다음의통계량에바탕을둔다.

∼ (8.11)

귀무가설 하에검정통계량은다음과같다.

(8.12)

검정방법은대립가설의형태에따른기각역과 값을활용하는일반적인방법을따르므로생략한다.

만약에표본의크기가대표본이면식(8.11)의통계량은 -분포대신에표준정규분포를따르게된다.다만귀무가설 을검정하기위한검정통계량의형태는식(8.12)와

동일하며자유도가무한대t인 -분포를사용해도표준정규분포와비교할때검정의결과는별차이가없다.


170

보기8.5

두 아웃도어 회사의 등산화 밑창의 마모 정도를 비교하기 위하여 10명의 학생들을 대상으로회사제품을왼발에착용하였고오른발에는 회사제품을각각착용하게하여마모를측정

한결과다음의자료를얻었다. 회사제품의등산화의마모율이 회사제품과차이가있다고할수있는지를유의수준 에서검정하라.

모집단 처리대상제품(왼발)제품(오른발)차

1)제품 와제품 의마모율차이의모평균 에대한귀무가설과대립가설은다음과같다.

, d

2)대응표본의크기10은소표본에해당하며따라서표본평균과표본분산의

,

계산으로부터귀무가설 하에검정통계량의관측값은다음과같다.

3)대립가설이양측인 d 에대해유의수준5%에서자유도 에서

기각치 에 의해서 기각역은 < 이다. 검정통계량의 관측값의

가기각역을만족하므로귀무가설 을기각한다.

4)등산화제품 와제품 의마모율은차이가있다고볼수있다.


171

보기8.6

어느 TV방송국에서봄철프로그램개편전과후 TV시청률의차이를보기위해시청률조사기관에 의뢰하여 400세대를 대상으로하루 동안의시청시간을조사한다음의 자료를받았다. 개편 전의 시청시간을 와 개편 후의 시청시간 의 차를 라 하면 자료의결과는다음과같다.개편후의시청시간 가개편전의시청시간 보다늘었는지를유의수준 에서검정하라.

모집단 표본의크기 차평균 표준편차개편전 400 - 0.21 2.23개편후

1)개편전시청시간 와개편후시청시간 의차 의모평균 에대한귀무가설과대립가설을다음과같이세울수있다.

,

2)표본평균과표본분산

,

으로부터귀무가설 하에검정통계량의관측값은다음과같다.

3) 대립가설 에대해유의수준 1%에서대응표본의크기가 400으로대표본에

해당하므로 자유도 t에서 기각치 에 의해 기각역은

; 이다. 따라서 검정통계량의 관측값 이 기각역을 벗어나므로 귀무가설 을기각하지못한다.

4)봄철프로그램개편후의시청시간이늘었다는주장을받아들일수없다.


172

8.5 독립표본의모비율비교

지금까지독립표본과대응표본의모평균 에대한비교를설명하였다.이절에서는독립표본에서모평균대신모비율 를비교하는가설검정을다루고자한다.8.1절에서설명한바와같이 아스피린이 심장발작을 예방한다는 효과에 대해 아스피린을 복용한 그룹과 위약(pl acebo)을복용한그룹으로나누어여러해동안두그룹의심장발작비율을비교하거나,부산시에서남구와서구의노동력인구와이들중실업자의비율,그리고제안된정책에대하여남녀간의의견차에대한비율을비교를하고자한다.

먼저모비율 과 인두모집단으로부터추출된크기가 과 인두독립표본으로부터

와 를성공의횟수라하자.궁극적인두그룹의모비율에대한비교를위해선다음과같은귀무가설이요구된다.

두모집단의비율(모비율)은차이가없다.R

두독립표본의크기가 과 가큰대표본인경우모비율 과 의추정량은근사적으로

정규분포를따른다.

h , h (8.13)

두모집단의비율(모비율)의차에대한귀무가설 을위한검정통계량의바

탕이되는통계량은 의추정치 가되며이는식(8.13)으로부터근사적으로정

규분포

h


173

를따르며이를표준화하면다음과같이근사적으로표준정규분포를따른다.

h (8.14)

식(8.14)에서귀무가설 하에모비율 과 는 를만족하고

이를잘모르나두독립표본이대표본이므로이들의합동추정치

＝

를사용할수있으며이것에의해서다음과같은검정통계량을이용할수있다.

(8.15)

검정방법은유의수준 가주어지면표준정규분포표로부터대립가설의형태에따라단측이면 ,양측이면 를기각치로각각사용한다.다시말해서식(8.15)의통계량의관측값

에의해서대립가설에따라기각치와의관계가다음과같은기각역을만족하면귀무가설 을기각한다.


174

보기8.7

독감예방백신을 60세에서 65세노인들에게접종을하였다.남성노인 113명가운데 34명이항체가생겼고여성노인 139명가운데 54명이항체가생겼다.항체의생성비율이남성노인보다여성노인쪽이더높다고할수있는지를유의수준 5%에서검정하고 값에의한결과와비교하라.

모집단 표본의크기 항체생성남자 113 =34여자 139 =54

1)남성노인과여성노인의항체생성모비율을각각 과 하면다음과같은가설을세울수있다.

,

2) 두 독립표본의크기 113과 139는매우큰 값으로대표본에해당하며합동추

정치 으로부터검정통계량의관측값은다음과같이계산된다.

독립표본의두모비율에대한유의수준 에서 검정


;

<

더불어식(8.15)의검정통계량의관측값 에의해대립가설의형태에따라각각구한 -값인 < , ; , < = < = ; 에의해서도검정이가능하다.이를활용한검정은8.6절의[프로그램8.3]과[결과8.3]을참고바란다.


175

Z

3) 대립가설 에 대하여 유의수준 에서 기각치는

로기각역은 ; 이다.검정통계량의관측값 는기각역을

벗어나므로귀무가설 을기각하지못하게된다.

4)여성노인의항체생성률이남성노인의항체생성률보다높다고할수없다.

보기8.8

부산광역시남구와해운대구에거주하는주민의자기주택보유율이다른지를보기위해남구에서540명과해운대구에서432명을대상으로자기집소유에대한설문조사를하였다.이결과 두 거주지의 자기주택보유율이 다른지를 유의수준 5%에서 검정하고 값에 의한 결과와비교하라.

모집단 표본의크기 자기집소유남구 540 =362

해운대구 432 =281

1)남성노인과여성노인의항체생성모비율을각각 과 하면다음과같은가설을세울수있다.

,

2) 두 독립표본의크기 113과 139는매우큰 값으로대표본에해당하며합동추

정치 으로부터검정통계량의관측값은다음과같이계산된다.


176

Z

3) 대립가설 에 대하여 유의수준 에서 기각치는

로 기각역은 ; 이다. 검정통계량의 관측값 는

기각역을벗어나므로귀무가설 을기각하지못하게된다.

4)여성노인의항체생성률이남성노인의항체생성률보다높다고할수없다.


177


[프로그램8.1]은독립표본의두모평균검정의예로[보기8.2]에서젖소용사료 와의우유생산량이같다는연구가설 , 을검정하기위한

t.test()함수를활용한R-프로그램이다.이함수를사용하기위해서독립된두표본의자료<x=c(44,44,...,41),y=c(35,47,...,39)>가필요하다.함수에서옵션으로두표본의분산이같다는가정을위해<var .equal =T>옵션을사용하며7장에서언급한바와같이대립가설의형태인양측과단측에따라<al t(ernati ve)="two.si ded",“ l ess","greater ">를설정한다.참고로8.3절의소표본에서모분산이다른경우웰치(Wel ch)의수정된자유도를사용하는검정은<var .equal =F>옵션을사용하면된다.검정방법으로기각역을활용하는것대신에유의확률인 값을제시하고있다.여기서< 값= < =0.1973>은유의수준 에비해크므로젖소용사료 와 의우유생산량이같다는연구가설

을기각하지못한다.

[프로그램8.1] [보기8.2]젖소용사료의우유생산량독립표본비교

x= c(44,44,56,46,47,38,58,53,49,35,46,30,41)y= c(35,47,55,29,40,39,32,41,42,57,51,39)t.test(x,y ,var .equ al =T,al t= "greater ")


TwoSampl et-test

data:xand yt= 0.8676,d f= 23,p-val u e= 0.1973al ternat i veh ypoth esi s:tru ed i fferencei n meansi sgreater th an 0

[프로그램8.2]는[보기8.5]대응표본의모평균차검정에서두아웃도어회사의등산화밑창의마모정도를비교하기위해서귀무가설과대립가설 , d 을검

정하기위한t.test()함수를활용한R-프로그램이다.독립표본의모평균검정을위한[프로


178

그램 8.1]과 그 형식이 동일하며 다만 대응표본의 모평균 차 검정을 위한 옵션으로<pai red=T>를사용하고있다.양측대립가설에대해선<al t(ernati ve)= "two.si ded">가필요하지만이는디폴트옵션이다.[결과8.2]에대한해석은[보기8.5]를참고하겠지만특히,< -값= >는유의수준 보다매우작아귀무가설 을기각하게

된다.

[프로그램8.2] [보기8.5]등산화밑창마모율대응표본비교

x= c(14.0,8.8,11.2,14.2,11.8,6.4,9.8,11.3,9.3,13.6)y= c(13.2,8.2,10.9,14.3,10.7,6.6,9.5,10.8,8.8,13.3)t.test(x,y ,pai red=T)


Pai red t-testdata:xand yt= 3.3489,d f= 9,p-val u e= 0.008539al ternat i veh ypoth esi s:tru ed i fferencei n meansi snotequ al to0

[프로그램8.3]은독립표본모비율의차검정을위한[보기8.7]남성노인과여성노인의항체생성모비율에대한가설 , 을검정하기위한R-프

로그램에서제공하는prop.test()함수는카이제곱통계량에바탕을둔검정을제공하므로8.5절의 내용과 보기에서 살펴본 가설 검정을 충실히 따르기 위해서 [프로그램 8.3]은z.prop 함수를 만들어 사용하고 있다. 특히, [결과 8.3]에는 검정통계량의 관측값<-1.450804>와 < 값= = >이 나타나 있고 이는 유의수준0.05보다매우크므로귀무가설 을기각하지못하게된다.


179

[프로그램8.3] [보기8.7]독감백신남성과여성의항체율비교

z.prop= fu nct i on (x1,x2,n1,n2){numerator = (x1/n1)-(x2/n2)p.common = (x1+ x2)/(n1+ n2)denomi nator = sqr t(p.common *(1-p.common)*(1/n1+ 1/n2))z.prop.r i s= numerator /denomi nator retu rn (z.prop.r i s)}n1<-113n2<-139x<-34y<-54z= z.prop(x,y,n1,n2)zpval u e=1-pnorm(z)pval u e


-1.4508040.9265828


180

8.7 연습문제

8.1 다음중가장적절한가설검정방법을선택하여라.a.소표본에서모분산이동일한경우의독립표본b.대표본에서독립표본c.소표본에서모분산이다른경우의독립표본d.대응표본e.독립표본의모비율(1)한고등학교의특성화교육과정중영문에세이과정의평균성적은남학생보다여학생

이더높다고알려져있다.정규분포를따르며모분산이동일하다는가정아래임의로선발한남학생25명의평균은76점이고표준편차는4점이며,여학생29명의평균은82점이고표준편차는3점이다.

(2)미국의숲100곳중56곳이침엽수로이루어져있었고,멕시코의숲80곳중40곳이침엽수로이루어져있었다.미국이멕시코보다침엽수가더많다고할수있는가?

(3)10대들은성인보다평균적으로잠을더많이잔다고알려져있다.이를확인하기위하여10대16명과성인12명을대상으로연구한결과,10대의평균수면시간은8.9시간이고표준편차는1.2시간이었으며,성인의평균수면시간은6.9시간이고표준편차는0.5시간이었다.

(4)다이어트프로그램의효과를알아보기위하여49명은운동요법을,36명은식이요법을시행하였다.모집단의표준편차는각각2kg과3kg이다.운동요법이식이요법보다더많은체중감소효과를나타내는지를알고자한다.

(5)A학원에서토익수업을수강하는12명의학생을대상으로수강전토익점수와수강후토익점수를조사하였다.토익수업을수강한후,토익점수가증가했는지를알아보고자한다.

8.2 새로운에이즈예방약의효과를알아보기위하여실험군인HI V양성환자224명에게약을처방하였더니그중45명의환자가4년후에에이즈로발전하였다.반면에대조군인HI V양성환자224명에게는약을처방하지않았으며그중68명이4년후에에이즈로발전하였다.이약이4년후에에이즈로발전하는환자의비율을줄였는지아니면실험군과대조군의차이가없는지를검정하고자한다.


181



8.3 투수2명의투구속도를비교하고자한다.투수들이각각14개의공을던진결과투수X의평균은86mph이고표준편차는3mph이며,투수Y의평균은91mph이고표준편차는7mph이다.야구팀감독은투수Y의투구속도가투수X보다더빠르다고믿어도되는지알고자한다.


(2)자유도를구하여라.(3)검정통계량을구하여라.(4)유의수준5%에서어떠한결론을내릴수있는가?

8.4 두음료중어떤것이설탕이더첨가되었는지확인하기위하여모분산이같고정규분포를따르는모집단으로부터음료A13개와음료B6개를추출하여음료의성분을분석하였다.음료A에포함된설탕의양의평균은36g이고표준편차는0.6g이며,음료B에포함된설탕의양의평균은38g이고표준편차는0.8g이다.음료B가음료A보다설탕이더첨가되었다고할수있는지알고자한다.



8.5 미국의한의료센터에서작성한보고서에따르면1900년도에태어난백인의평균기대수명은47.6세이고흑인의평균기대수명은33.0세라고한다.특정지역을선택하여1900년도에태어난백인124명과흑인82명의수명을조사하였다.백인의평균수명은45.3세이고표준편차는12.7세이며,흑인의평균수명은34.1세이고표준편차는15.6세로나타났다.백인과흑인의평균수명이같은지를검정하여라.

(1)이검정은평균에대한가설검정인가,비율에대한가설검정인가?(2)이검정은단측검정인가,양측검정인가?(3)귀무가설 와대립가설 을서술하라.


182

(4)이검정은어떤분포를사용하는가?(5)검정통계량을구하여라.(6)유의수준5%에서어떠한결론을내릴수있는가?

8.6 지역암센터들은유방암이발병한여성의수가2012년보다2013년에더많아졌다고말한다. 2012년과 2013년을 비교한 결과는 다음과 같고, 이들의 차 에 대한 평균은-174.615이고표준편차는3.467이다.

지역 2012 2013 지역 2012 2013

서울 15540 15710 제주 3160 3300

부산 7090 7430 세종 4680 5070

울산 3570 3580 창원 3320 3630

대전 6970 7310 전주 2630 2690

대구 6190 6280 청주 2150 2280

인천 15050 14980 포항 1990 2080

광주 3450 3720



8.7 마이크로소프트회사는연령대별윈도우XP사용의차이를알아보기위해조사를실시하였다.임의로선택된조사참가자들을다음과같이두연령대그룹으로나누었다.먼저16세이상29세이하는628명중7%가윈도우XP를사용하고있었으며,30세이상은2,309명중11%가윈도우XP를사용하고있었다.두연령대그룹의윈도우XP사용은차이가있는가?




183

8.8 두금속의녹는온도를비교하기위하여정규분포를따르며모분산이동일하다는가정아래두금속을각각15개씩추출하여실험하였다.금속A의녹는온도의평균은800℉이고표준편차는95℉이며,금속B의녹는온도의평균은900℉이고표준편차는105℉이다.


(2)검정통계량을구하여라.(3)유의수준1%에서어떠한결론을내릴수있는가?(4)유의수준을5%로수정하면결론은어떻게달라지는가?

8.9 2년제대학에등록한학생의수보다4년제대학에등록한학생의수가더많다고알려져있다. 2년제대학35곳을조사한결과,평균등록학생수는5,068명이고표준편차는4,777명이다.4년제대학35곳을조사한결과,평균등록학생수는5,466명이고표준편차는8,191명이다.유의수준5%에서검정하여라.



8.10 맞벌이부부의결혼만족도에관한연구의설문문항중K나는육아분담에대하여만족한다L라는문항이있다.보기는1은매우만족,2는만족,3은보통,4는불만족,5는매우불만족으로이루어져있다.부부10쌍의응답결과가다음과같을때,남편과아내의응답에차이가있는지를검정하여라.

남편 2 2 1 1 2 1 3 1 2 3

아내 4 1 1 4 5 2 1 5 2 5


(2)검정통계량을구하여라.(3)유의수준5%에서어떠한결론을내릴수있는가?(4)유의수준을10%로수정하면결론은어떻게달라지는가?


184

8.11 새로운혈압약이혈압을낮추는데효과적인지알아보고자6명의환자를대상으로혈압을측정하고새로운약을복용하게하였다.12주후,동일한6명의환자의혈압을다시측정하였다.단,이연구에서는수축기혈압만을비교하였다.

환자 A B C D E F

복용전 161 162 165 162 166 171

복용후 158 159 166 160 167 169



9.1 여러 집단의 비교9.2 일원 분산분석


9장분산분석 : 여러집단의 비교

R과 함께하는

통계학의 이해

9장분산분석:여러집단의비교

187

9.1 여러집단의비교

두집단또는두처리간의비교는8장의독립표본과대응표본의검정에서다루었다.이장에서는여러집단또는여러처리를비교할때적용되는분산분석(anal ysi s of var i ance, ANOVA)에대해알아보고자한다.예를들어대기오염이어린이의신체발육에영향을미치는지를알아보기위해공업단지내의지역을대기오염의정도에따라4등급으로나누고그곳에거주하는어린이의성장을비교하여보는것이다.또다른예로스포츠센터의4가지수영강습법(강의및비디오,강의,비디오,강의및비디오없이)의효과를비교하는것이다.이를경우여러처리방법들을비교할때한번에두개씩짝을지어두처리간의비교처럼하는것은올바른방법이아니다.일반적으로 개의처리에의해서구해진독립표본에대하여처리평균간차이의유의성을비교평가하는방법으로1920년대피셔(R.A.Fi sher)가제안한방법이분산분석이다.8장의두집단의모평균비교를넘어세집단이상의 개집단의모평균비교를위해다음과같은가설을가정하게된다.

z

특히, 여러 처리에 의해 독립표본이 잘 얻어지기 위해서는 철저하게 계획되고 확률화(randomi zat i on)원칙을따르는실험계획(exper i mental desi gn)이이루어져야한다.실험계획에는일원,이원,라틴방격,요인등다양하다.이장에서는가장기초가되는일원계획(one-waydesi gn)인일원분산분석에대해서논의하고자한다.

처리(treatment)또는요인(factor)

처리(또는요인)란,실험계획에서대상에대해실시할실험의조건,방법또는특성을말한다.


188

9.2 일원분산분석

[표9.1]은일원분산분석을위해얻어진 개처리에의한독립표본의구조이다.일원분산분석을완전확률화계획(compl etel yrandomi zeddesi gn)라고도하는데이는 개의독립표본이 개의처리(treatment)에대한반응을나타내는여러개모집단으로부터독립적인표본추출에의해서얻어졌다고보기때문이다.

[표9.1]일원분산분석을적용할 개처리의독립표본의구조

처리 1 2 z

자료

{

{

z

z

z

{

평균

총평균 z

관찰값의 총합 z

일원 분산분석에서는 전체 z 개 실험 또는 조사 대상으로부터

개가임의로표본추출되어처리1에적용되고,나머지남아있는 개대상으로

부터 개가임의로추출되어처리2에적용된다.같은방법으로반복하여최종남은

개가처리 에서적용된다.따라서연구자는일원분산분석에서는비교하고자하는

개의처리를적용할각각크기가 , , ..., 인독립표본을얻게된다.

[표9.1]에서처리 에대한 번째자료값을 ( )로나타내면

에대한식(9.1)의수학적모형을세울수있다.


189

, z , z (9.1)

여기서 는 번째처리에대한효과(effect)이며평균반응값을나타내고오차항 는

서로독립이며정규분포 을따른다.

이젠 개의처리간의비교는이들의 개의효과 , z 를비교하는것으로다음

과같은귀무가설과대립가설을검정하는것이다.

z , 모든 가다같은것은아니다.

이를위해선실제로[표9.1]의아래쪽에요약되어있는처리들의표본평균

, ,...,

이서로얼마나통계적으로다른지를분산분석(ANOVA)를통하여살펴보는것이다.

분산분석을위한전반적인공식은다음과같은기본적인분해로출발한다.

이분해의양변을제곱하면다음과같다.

그런데 z 에대해합하면위식의우변맨끝항은 이므로다

음과같이분해된다.


190

전체제곱합 처리제곱합 오차제곱합

전체제곱합(total sumofsquares,TSS)는다음과같이정의된다.

(9.2)

처리제곱합(sumof squares for the treatment)과오차제곱합(sumof squares for theer ror)은

(9.3)

(9.4)

로정의된다.

식(9.3)과식(9.4)의제곱합은모분산 으로나누면각각자유도가 과 인카

이제곱 분포를 따른다고 알려져 있다. 그리고 이들 제곱합을 각각의 자유도로 나눈 값와 를제곱평균(mean square)이라한다.특히,

식(9.4)의오차제곱합은 의추정값으로사용되며또한유의한차를나타내기위해서는처

리제곱평균이얼마나커야하는가에대한표준적측도로이용된다.

끝으로귀무가설 z 하에검정통계량


191

(9.5)

는 자유도 인 -분포를 따르며 유의수준 %에서 귀무가설

z 를검정을하기위한기각역은다음과같다.

< (9.6)

여기서 는식 (9.5)의검정통계량의관측값이고기각치 는분자자유도

과분모자유도 인 -분포의상위 %를나타낸다.

[표9.2]는지금까지설명한일원분산분석에대한계산을요약하고있는분산분석표이다.

[표9.2]일원분산분석표

요인(Sou rce)

자유도(df)

제곱합(SumofSqu ares)

평균제곱합(Mean Squ are)

분산비(Fval u e)

처리(Model )오차(E rror)전체(Total )

실제표본자료를통하여[표9.2]의분산분석표를얻기위해계산기를가지고계산하기란복잡한일이다.이를9.3절에서R-프로그램의anova()함수를활용하여[보기9.1]과[보기9.2]의일원분산분석을위한[프로그램9.1]과[프로그램9.2]가주어져있다.이들의수행결과인[결과9.1]과[결과9.2]에서는분산분석표를제공하고분산비에의한식(9.6)의기각역에따른검정대신에검정통계량의관측값 의유의확률인 < 값을제공하고있다.따라서다음의보기에서도자세한계산과정은생략하고분산분석표를이용하여그결과를해석하는데초점을맞추기로한다.


192

보기9.1

사료 A B C D55.0 61.0 169.0 42.049.0 112.0 137.0 97.042.0 30.0 169.0 81.021.0 89.0 85.0 95.052.0 63.0 154.0 92.0

평균 43.8 71.0 142.8 81.4

네종류의가축사료에의한병아리의체중증가를알아보려한다. 임의로추출된다섯마리씩되어있는병아리 4개그룹에서로다른사료한가지만주어일정기간후체중증가량을측정한표본자료가다음과같이주어져있다.유의수준0.05에서사료의효과에대한검정을시행하라.

1)4종류의사료A, B , C , D는처리가 =4개임을말하며사료의효과가같다는다음의귀무가설을세울수있다.

2) 을 -검정하기위한일원분산분석표는다음과같다.

요인자유도제곱합평균제곱합분산비

처리326235874512.105오차1611559722.4

전체1937794

3) 분산분석표로부터 검정통계량 관측값 =12.105는 자유도 (3, 16)을 따르며 유의수준 0.05에서기각치 = 3.24보다크므로귀무가설은기각되고사료의효과에는

차이가있다는결론을짓게된다.

4) 분산분석의결과사료의효과에차이가있으므로평균을보면사료 C에의한병아리의평균체중증가가가장높음을알수있다.


193

보기9.2

강습법 시간(초)

강의및비디오촬영강의비디오촬영강의및비디오촬영없이

21.420.121.119.621.819.017.819.319.118.818.319.018.920.319.119.620.020.119.918.418.017.920.219.5

스포츠센터의수영강습생중수준이비슷한 24명을임의추출하여 42수준으로나눈후네가지 방법을 적용하여 강습하였다. 강습법에 차이가 있는지, 어느 것이 효과적인지에 관심이있다. 1개월의과정이끝난후이들수료자들에게 25m를접영으로수영하게하여걸린시간을기록한자료는다음과같다.

요인자유도제곱합평균제곱합분산비

처리311.423.815.31오차2014.350.72

전체2325.77

1) 네 가지 수영 강습법 A, B , C , D는 처리가 =4개임을 말하며 강습법의 효과가 같다는다음의귀무가설을세울수있다.

2) 을 -검정하기위한일원분산분석표는다음과같다.

3) 분산분석표로부터 검정통계량 관측값 은 자유도 (3, 20)을 따르며 유의수준0.05에서기각치 =3.10보다크므로기각역을만족한다.

4)분산분석의결과귀무가설은기각되고수영강습법의효과에는차이가있다고볼수있다.


194


[프로그램9.1]은[보기9.1]의네종류의사료에의한병아리체중증가의일원분산분석에대한aov()함수를활용한R-프로그램을보여주고있다.결과에대한해석은[보기9.1]을참고로하면되나특히,R-프로그램에서는기각치를활용한검정을제공하는대신에 값을제공하고있다.[결과9.1]에서<Pr(>F)>에대한<0.000218>이 값으로이는확률값

< 에해당한다.그리고<***>는유의수준 보다도작은경우를나타내고있다.다른유의확률에대한것의표시도결과아래쪽에<Si gni f. codes: 0K***L0.001K**L0.01K*L0.05K.L0.1K>에잘나타나있다.

[프로그램9.1] [보기9.1]네종류의사료에의한병아리체중증가의일원분산분석

wt= c(55,49,42,21,52,61,112,30,89,63,169,137,169,85,154,42,97,81,95,92)feed = c(rep("A",5),rep("B",5),rep("C",5),rep("D",5))ch i ck en = data.frame(wt,feed)ch i ck enresu l ts= aov(wt~ feed ,data= ch i ck en)anova(resu l ts)


Anal ysi sofVar i an ceTab l e

Response:wtDfSumSqMean SqFval u ePr(>F)feed 3262358745.012.1050.000218***Resi du al s1611559722.4---Si gn i f.codes:0‘ ***’ 0.001‘ **’ 0.01‘ *’ 0.05‘ .’ 0.1‘

[프로그램9.2]는[보기9.2]의접영에대한네가지수영강습법에의한1개월뒤수영기록에 대한 일원 분산분석을 위한 R-프로그램으로 [프로그램 9.1]과 유사하다. 다만


195

<summary(unstack(swim))>에의해서네가지수영강습법A,B,C,D별로요약통계량이[결과9.2]의위쪽에제공되고있다.이는강습법의효과가같다는귀무가설이기각될경우어느강습법의효과가그나마나은지에대한정보를제공하게된다.[결과9.2]에따르면< 값0.007437>은 보다훨씬작으므로귀무가설을기각하게되며네가지강습법에대한요약통계량중줄이그어진평균을보면실제로강습법B에의한평균수영기록<18.72>이제일좋음을짐작할수있다.

[프로그램9.2] [보기9.2]네가지수영강습법에의한기록에대한일원분산분석

t i me= c(21.4,20.1,21.1,19.6,21.8,19.0,17.8,19.3,19.1,18.8,18.3,19.0,18.9,20.3,19.1,19.6,20.0,20.1,19.9,18.4,18.0,17.9,20.2,19.5)l ectu re= c(rep("A",6),rep("B",6),rep("C",6),rep("D",6))swim= data.frame(ti me, l ectu re)summary(u nstack (swi m))resu l ts= aov(t i me~ l ectu re,data= swim)anova(resu l ts)


ABCD Mi n .:19.00Mi n .:17.80Mi n .:18.90Mi n .:17.901stQu .:19.731stQu .:18.431stQu .:19.231stQu .:18.10Med i an :20.60Med i an :18.90Med i an :19.80Med i an :18.95Mean :20.50Mean :18.72Mean :19.67Mean :18.983rd Qu .:21.323rd Qu .:19.073rd Qu .:20.073rd Qu .:19.80Max.:21.80Max.:19.30Max.:20.30Max.:20.20

Anal ysi sofVar i an ceTab l e

Response:t i meDfSumSqMean SqFval u ePr(>F)l ectu re311.4233.80785.3070.007437**Resi du al s2014.3500.7175---Si gn i f.codes:0‘ ***’ 0.001‘ **’ 0.01‘ *’ 0.05‘ .’ 0.1‘


196

9.4 연습문제

9.1 3명의학생에게영양실험을위한실험용쥐5마리가주어졌다.실험전쥐들의무게를측정하였으며단위는g이다.영희는제조법A,철수는제조법B,준수는제조법C로만든음식을각각자신의쥐에게먹였다.일정기간이지난후,쥐들의무게를다시측정하였으며실험전보다실제증가한무게를기록한결과는아래표와같다.

A B C43.5 47.0 51.239.4 40.5 40.941.3 38.9 37.946.0 46.3 45.038.2 44.2 48.6


(2)분자자유도와분모자유도를계산하라.(3)이검정은어떤분포를사용하는가?(4)처리제곱합(SSt)과오차제곱합(SSE)을계산하라.(5)검정통계량을구하여라.(6)유의수준10%에서어떠한결론을내릴수있는가?


197

9.2 다음은4가지종류의잡지의페이지수를기록한표이다.(1)유의수준5%에서4가지종류의잡지의평균페이지수가같은지를검정하여라.(2)다른종류들과가장차이가큰패션잡지를제외하고,나머지3가지종류의잡지의

평균페이지수가같은지를유의수준5%에서검정하여라.

종류 패션 요리 음악 과학172 87 82 104286 94 153 136163 123 87 98205 106 103 207197 101 96 146

평균 204.6 102.2 104.2 138.2

9.3 다음은5개의농구팀에서각선수들이얼마나높이점프할수있는지(단위:인치)를조사한결과이다.제시된분산분석표의빈칸을채우시오.

A팀 B팀 C팀 D팀 E팀36 32 48 38 4142 35 50 44 3951 38 39 46 40

분산분석표:요인 자유도 제곱합 평균제곱합 분산비처리 ㉠ 195.6 ㉣㉤오차 ㉡㉢ 23.7전체 14 432.9


198

9.4 다음은4개지역사람들의한달외식횟수가같은지를알고자조사한결과이다.분산분석표를작성하여라.

서울 대구 부산 울산6 4 7 88 1 3 32 5 5 54 2 4 16 6 7

9.5 수업방식이다른통계학분반의기말고사성적의평균이같은지를알고자한다.다음은각수업방식별로몇분반을임의로선택하여기말고사성적을정리한표이다.유의수준5%에서검정하라.

온라인수업혼합수업

(온라인+면대면)면대면수업

72 83 8084 73 7877 84 8480 81 8181 86

7982

9.6 전국에있는여자고등학생들의100m달리기평균기록이같은지를알고자한다.5개지역의여자고등학생들을임의로조사한결과는다음과같다.분산분석표를작성하고,유의수준1%에서검정하라.

강원도 전라도 충청도 경기도 경상도19.3 19.9 19.4 19.2 20.119.1 19.5 19.5 19.6 20.219.4 19.4 19.6 19.5 19.6

19.5 19.2 19.1 19.4 19.8


199

유형 가루눈 인공눈 딱딱한눈1210 2107 28461080 1149 16381537 862 2019941 1870 1178

1528 22331382

평균 1192 1483 1982.8

KBS MBC SBS45 15 7212 43 3718 68 5638 50 6023 31 5135 22

9.7 3가지유형의눈상태에따라스키장의하루평균방문자수가같은지를알아보고자한다.(1)분산분석표를작성하라.(2)유의수준5%에서어떠한결론을내릴수있는가?(3)유의수준을10%로수정하면결론은어떻게달라지는가?

9.8 시청자들이자신이좋아하는뉴스채널을보는평균시간(단위:분)이같은지를알고자한다.다음은이를조사한결과를정리한표이다.유의수준5%에서검정하라.

10.1 상관분석

10.2 회 분석

10.3 최소제 법과 차

10.4 적합된 회 식의 타당성10.5 -프로그램 실습

10.6 연습문제

10장상관분석과 회귀분석 : 두 변수의 관계

R과 함께하는

통계학의 이해

10장상관분석과회귀분석:두변수의관계

203

보기10.1

중학교1학년학생들에대하여 IQ와수학성적의관계를알아보기위해15명의학생을임의추출하여다음의자료를얻었다.

학생 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

IQ 110 130 125 120 115 120 125 130 150 140 100 110 115 120 135

수학성적 75 90 80 80 70 75 90 95 90 85 60 65 75 75 90

이에대한산점도를그리시오.

10.1 상관분석

여러분야의통계분석에서두개혹은그이상의측정변수들의관계가중요한경우가많다.예를들자면공장에서제품을생산할때생산비용과생산량의관계,농사실험에서쌀의수확량과비료의투여량의관계,기술작업의수행에서기술습득속도와훈련의지속시간의관계,공정온도와제품의강도의관계가있다.따라서이들측정변수간의관계에대한정도를나타내는방법과서로간의관계에대한함수식의표현이가능한지가주된관심이다.

먼저변수의관계를알아보는데가장먼저할일은두변수 와 에의해서 개의대상을측정한자료쌍 z 을이차원평면상에점으로나타낸그

림을그리는것이다.이를산점도라고부르며,이그림을통하여변수들의관련성을미리살펴볼수있다.

산점도(散點圖,scatterdiagram

두 변수 와 에 의해서 개의 대상을 측정한 자료쌍

z 을이차원평면상에점으로나타낸그림.


204

주어진자료에대한산점도는 [그림10.1]과같다.이를보면학생들의 IQ가높을수록수학성적이높음을알수있다.

100 110 120 130 140 150

5060

7080

9010

0

IQ

!"#$

[그림10.1] IQ와수학성적의산점도

일반적으로산점도에서자료쌍들이직선의형태인선형에가까우면두변수가매우 접한관계를가지고있다는증거가된다.이와같이두변수사이의선형관계를산점도로부터대략적으로알수있으나식(10.1)과같이이를하나의수치값인통계량으로나타낸것이칼피어슨(Kar l Pearson)이제안한상관계수(correl at i on coeff i ci ent)이다.이와관련된통계적분석을상관분석(cor rel a- t i onanal ysi s)이라한다.

(10.1)

식(10.1)의통계량 , , 는[보기10.1]의자료와같이두변수 와 에의해서


205

측정된 개의자료쌍이 z 일때다음과같이계산된다.두변수

의자료쌍에서평균을 와 라하면이들로부터편차들은 ..., 와 ,...,

이고이들서로간의곱의합은다음과같다.

(10.2)

그리고각변수들의편차들의제곱합으로부터

(10.3)

(10.4)

를계산한다.실제로식(10.2),식(10.3),식(10.4)의통계량을 로나누게되면각각변수 와 의(표본)공분산,변수 의(표본)분산그리고변수 의(표본)분산이됨을알수있다.식(10.1)의상관계수 은다음의성질을가지고있으며[그림10.2]에서세종류의상관에관한산점도를보여주고있다.

상관계수의성질

(1) ; ; (2) : 의 값이증가함에따라 의 값도이에비례하여증가하는경향이있고이를

양의상관이라한다.(3) : 의값이증가함에따라 의값은이에반비례하여감소하는경향이있으며음

의상관이라한다.(4) :상관이없는무상관이다.


206

보기10.2

학생 1 110 75 12100 5625 8252 130 90 16900 8100 117003 125 80 15625 6400 100004 120 80 14400 6400 96005 115 70 13225 4900 80506 120 75 14400 5625 90007 125 90 15625 8100 112508 130 95 16900 9025 123509 150 90 22500 8100 1350010 140 85 19600 7225 1190011 100 60 10000 3600 600012 110 65 12100 4225 715013 115 75 13225 5625 862514 120 75 14400 5625 900015 135 90 18225 8100 12150

[보기 10.1]로부터중학교 1학년학생들의 IQ와수학성적자료에대한상관계수를다음의표를활용하여구해보라.여기서측정변수로 =IQ, =수학성적이라하자.

1) =229225 - (1845×1845)/15=2290.00

(1) (2) (3)

[그림10.2]산점도: (1)양의상관(2)음의상관(3)무상관


207

=96675 - (1195×1195)/15=1473.34

=148525 - (1845×1195)/15=1540.00

2)상관계수는 가된다.이는두변수 IQ와수학성적

간의높은양의상관이있음을나타낸다.

상관계수는두변수의관계가선형에얼마나가까운지를나타내는수치적척도이므로두변수의관계가[그림10.3]의곡선형태이거나,[그림10.4]처럼서로다른두집단에대한자료쌍이혼합되어있는경우에는적합하지못하다.즉,[그림10.4]의전체자료에대한상관계수가0.897로매우높은양의상관을보이므로상관계수는산점도와함께탐색적으로사용되어야한다.

[그림10.3]곡선형태의산점도


208

0 2 4 6 8 10

02

46

810

A % &

B % &

상관계수( )=0.845

[그림10.4]혼합집단의산점도와상관계수

특히,[그림10.4]의경우전체자료의상관계수는0.845로높게나오지만집단A와B각각의상관계수는0에가까워두집단내에서의두변수는상관관계가없는경우가된다.때로는서로다른자료가잘못혼합된경우에도이와같은현상이발생하므로반드시산점도를살피고이상유무를확인하여야한다.또한원인과결과의관계를생각하지않고단순히두변수값들사이의상관계수를구하는것은잘못된결과를가져오기도한다.예를들어,어느지역의매년자료를조사하였더니범죄율은계속높아가고,껌의판매량은줄어들었다면이둘은음의상관을보인다고여겨범죄율을낮추기위해서껌을씹도록권장하게하는정책을수립하는것은그럴듯하게보인다.반대로술의소비량과성직자들의수입간에상관계수값이1에가깝다고하여둘사이에높은상관관계가있다고할수는없다.이들두변수는다른원인에의하여나타난결과들로두변수사이에실제로는관계가그다지없을것이다.이러한상관관계를허위상관(spur i ouscor rel at i on)이라고부른다.


209

10.2 희귀분석

이절에서는10.1절에서살펴본두변수사이의선형관계를함수식으로나타내는통계적방법인회귀분석을생각해보기로하자.

회귀분석(regressi onanal ysi s)은변수들간의관계를나타내는함수식을찾아내고이를이용하여예측및추론을하기위한분야이다.회귀(regressi on)란말은영국의수학자이며생물학자인프란시스갤턴(Franci sGal ton:1822-1911)이아버지와아들의키에대한관계를연구하면서처음으로사용한용어이다.갤턴은키가매우큰부모의아들은평균보다는큰값을가지지만 아버지의 키보다는 작은 경향이 있다고 결론 내렸다. 이 결과는 <Regressi on TowardMedi ocr i tyi nHeredi taryStature>라는제목으로1885년에발표되었다.여기서,<regressi ontowardmedi ocr i ty(평범으로회귀)>란아들의키는평균값에가까워지려는경향이있다는것을의미한다.오늘날회귀란단어는변수들사이의관계를나타내는뜻으로사용된다.

회귀분석의목적을명확하게하기위해몇가지예를들고자한다.아버지의키와자녀의키사이의관계식,또는IQ와성적사이의관계식을알아보는것이다.이때아버지의키는자녀의키에 영향을 주게 되므로 설명변수(expl anatory var i abl e) 또는 독립변수(i ndependent var i abl e)가 되고 자녀의 키는 영향을 받는 반응변수(response var i abl e) 또는 종속변수(dependentvar i abl e)가된다.마찬가지로IQ는설명변수가되고성적은반응변수가될것이다.일반적으로설명변수는 로반응변수는 로나타낸다.

회귀분석에는단하나의설명변수만을고려한단순회귀분석(simpl eregressi onanal ysi s)과여러개의설명변수들을고려한다중회귀분석(mul ti pl eregressi onanal ysi s)이있다.이절에서는설명변수가하나이고설명변수와반응변수가선형적인관계를가지는단순회귀만을다루기로한다.


210

100 110 120 130 140 150

5060

7080

9010

0

IQ

!"#$

H

y = E0 + E1x + H

[그림10.5]산점도와단순회귀모형식

회귀분석의첫단계에서는[그림10.5]와같은산점도를그려보는것이다.산점도를그려보면두변수사이의관계식의형태를대략짐작할수있다.뿐만아니라상관계수로두변수사이의관계가얼마나직선에가까운지를알아볼수있다.이는10.1절에서설명한바있다.두변수 와 의직선인선형관계를나타내는모형식은기울기(sl ope) 과 축에대한절편

(i ntercept) 로표현된다.덧붙여[그림10.5]에서보듯이모든자료쌍이정확히하나의직

선위에있는것이아니므로오차항(error term) 이모형식에추가되어다음과같은모형식을세울수있다.

(10.5)

여기서 는설명변수, 를반응변수라하며오차항 는평균이 이고분산이 인표준정

규분포 를따르는확률변수이다.특히,식(10.5)의모형식을단순회귀모형(simpl e


211

regressi on model )이라고 부르며 이와 같이 오차항을 포함하는 모형을 통계적 모형(stat i st i cal model )이라한다.단순회귀모형의기울기 과절편 는 개의자료쌍을통

하여최소제곱법(methodof l east square)에의해서추정한다.최소제곱법은10.3절에서자세히설명하도록한다.

단순회귀모형(simpleregressionmodel)

:반응변수(종속변수):설명변수(독립변수)

:오차항으로평균이 이고분산이 인정규분포를따르는확률변수

두변수 와 에의한 개의측정된자료쌍 z 으로부터최

소제곱법에의해서구해진식(10.5)의절편과기울기 와 의최소제곱추정량은다음과

같다.

(10.6)

. (10.7)

여기서K∧L표시는추정량을나타내며모자를쓴모양이므로KhatL이라읽는다.실제로식

(10.6)과식(10.7)의추정량의계산은상관계수를구하는식(10.1)-식(10.4)으로부터쉽게이루어진다.따라서식(10.6)과식(10.7)의최소제곱추정량에의해서식(10.5)의단순회귀모형의추정모형식은

(10.8)

이되며이를적합된회귀식(fi ttedregressi onequati on)이라한다.


212

보기10.3

[보기 10.1]의 =IQ와 =수학성적에서 IQ가 수학성적에 미치는영향을 알아보고자한다.[그림10.1]의산점도를참고하여모형을선택한후적합된회귀식을구하라.

1) [그림 10.1]의 산점도를 보면 두 변수의 관계가 직선 형태에 가까우므로 단순회귀모형를선택한다.

2) [보기10.2]의상관계수를구하는계산과정으로부터기울기와절편의추정치를구하면

,

Z

3)적합된회귀식은

4) IQ가108인학생의수학성적의추정치는다음과같다.

- 3.049+ 0.672Z108=69.53점

적합된회귀식(fittedregressionequation)

:기울기 의최소제곱추정량

:절편 의최소제곱추정량

[보기10.1]- [보기10.3]의산점도를그리거나상관계수,적합된회귀식을구하는계산과정을위한R-프로그램은10.5절에마련해두었으니참고하기바란다.


213

10.3 최소제곱법과잔차

단순회귀모형 에서기울기 와절편 은미지의모수로 개

자료쌍 z 을이용하여이들을추정하는문제는산점도에직선을

그려할수도있다.그러나모든자료쌍을동시에지나는직선을구할수는없다.임의의직선가[그림10.6]에서처럼산점도에그려진다고가정하자.설명변수 에서관측

된값 와이직선에의해예측되는값 의차이를오차 라한

다.따라서이차이를가장작게하는직선이이상적인단순회귀모형의추정식이될것이다.그러나모든자료쌍에서오차 의값을최소화할수없기때문에총체적으로작게하는방법

인최소제곱법을이용하게된다.우선임의의직선 로부터관찰된점까지의총

체적인차이를나타내는측도로다음을생각할수있다.

(10.9)

100 110 120 130 140 150

5060

7080

9010

0

IQ

!"#$

yi

Hi

E0 + E1x i

y = E0 + E1x + H

[그림10.6]각관측치와직선간의차이


214

식(10.9)에서 의크기는임의의직선 를결정하는두모수인 와 에의존하

며 를수학적으로편미분하여최소화시키는 와 을결정한다.이를 과 으로쓰고,각각을

모수 와 의최소제곱추정량(leastsquaresestimator)이라하며실제로식(10.6)과식(10.7)에

주어져있다.이들에의한단순회귀방정식의추정식인적합된회귀식은식(10.8)의 로

주어진다.10.2절의[보기10.3]에서이미적합된회귀식을구하는계산의예를살펴보았다.

이미설명했듯이적합된회귀선은 이최소화된다는의미에서자료에

가장잘적합된다.적합된관측치 와관측치 의편차를잔차(resi dual )라

부르고 , 로나타내자.잔차의성질은양수일수도있고,

음수일수도있는데그합인 은언제나0이다.

잔차제곱합(resi dual sumofsquares) 은10.2절에서정의한단순회귀모형의오차항

의분포 에서모르는분산 의추정치를제공한다.잔차제곱합은오차에기인한제

곱합이라하여오차제곱합(sumofsquaresduetoerror)이라고도부르며다음과같다.

(10.10)

다음으로식(10.10)으로부터 의추정량인 을평균제곱오차(mean squared er ror)

라하며다음과같이정의된다.

(10.11)

참고로식(10.10)의잔차제곱합 의편리한계산공식은식(10.1)의상관계수를구할때이용한통계량 , , 에의해다음과같이요약된다.


215

보기10.4

새로운약품을개발하는단계에서약의 지속효과에영향을주는약의 복용량이어떻게다른지알고싶다. 10명의환자를대상으로실험한약의복용량( )과 약의지속효과기간( )에 대한자료가다음과같이주어져있다.단순회귀모형을가정하고최소제곱법을적용한적합된회귀식과잔차제곱합,잔차의분산을추정하여보자.

환자 1 2 3 4 5 6 7 8 9 10약의복용량 3 3 4 5 6 6 7 8 8 9약의지속효과 9 5 12 9 14 16 22 18 24 22

1)약의복용량( )과약의지속효과기간( )에대한산점도에따르면약의지속효과기간 가약의

복용량 에따라대체로증가하는것으로보여단순회귀모형 을가

정할수있다.

0 2 4 6 8 10 12

05

1015

2025

' ( )

*+,-


216

2)다음의절차에따라적합된회귀식을계산할수있다.

환자 12345678910

3345667889

95129141622182422

991625363649646481

812514481196256484324576484

271548458496154144192198

7.157.159.8912.6315.3715.3718.1120.8520.8523.59

1.85-2.152.11

-3.63-1.370.633.89-2.853.15-1.59

합계 59 151 389 2651 1003 0.04

통계량인 , , , , 그리고 를계산한다.

,

Z

3) 와 의최소제곱추정량과적합된회귀식을구한다.

,


217

Z ,

적합된 회귀식으로부터 약의 복용량 의 값에 따른 추정된 약의 지속효과 시간 의 값이 절차2)의표에계산되어있다.

4)잔차와잔차제곱합을계산한다.

잔차 는 절차 2)의 표 마지막 열에 계산되어 있고

이들잔차제곱합은

z 이다. 이는

다음의계산과일치함을알수있다.

5)잔차의분산 추정은다음의평균제곱오차이다.


218

10.4 적합된회귀식의타당성

가정한단순회귀모형 을최소제곱법에의해서추정하여얻어진적

합된회귀선 의타당성을위해우리는반응변수에서의얼마나많은변동이적

합된회귀선에의해설명되는지를제공하는척도가요구된다.특히반응변수의관측치 는다

음과같이두요소의구성으로볼수있다.

관측된 선형관계에의해설명되는부분

선형관계로부터의잔차

모든자료쌍들이정확하게직선위에놓이는이상적인상황이라면잔차 는

모두0이다.이는 가완전하게 에선형종속되는것이며잔차제곱합인

(10.12)

는선형성으로부터의불일치의전체척도로생각할수있다. 의총변동은 의일부가되는제곱합

에반영된다.이를총제곱합(total sum of squares)이라하며 로표기한다. 와


219

의차이는

으로 주어지며 이는 총변동 중 회귀식에 의해서 설명된 변동으로 회귀제곱합(sum of squaresduetoregressi on)이라하며 로표기한다.따라서 의총변동 는다음과같이분해된다.

(10.13)

총제곱합 회귀제곱합 잔차제곱합

식(10.3)의분해를보면모든자료쌍들이추정된회귀식위에놓인이상적인상황에서는는0이다.따라서총변동 중에서 가차지하는변동이작거나반대로 이

차지하는변동이크면적합된회귀식의타당도는높다고할수있다.그러므로적합된회귀식의타당도는총변동 중에서회귀식에의해서설명되는변동 이차지하는비

(10.14)

에의해서측정할수있으며이를결정계수(coeff i ci entofdetermi nat i on)라한다.그리고

식(10.14)의결정계수는식(10.1)에서정의한상관계수의제곱 과일치함을알수있다.실제상관계수값의범위가 ; ; 이므로결정계수의값은항상0과1사이에있게된다.결정계수의값이1에가까울수록자료쌍들이적합된회귀식주위에 집해있음을의미하며회귀식이잘추정되었고타당하다고할수있다.


220

보기10.5

[보기10.4]의10명의환자에대한약의복용량( )과지속효과시간( )에대한자료의

상관계수를구하여적합된회귀선 의타당도를구하여보라.

1)세가지제곱합 , , 으로부터상관계수는

이다.

2)결정계수는상관계수의제곱인 이다.이는10명의약의지속효과기간 가갖는총변동에서 를약의복용량 를사용한단순회귀모형으로설명할수있음을나타낸다.

결정계수 와상관계수 의관계

= =

결정계수외에적합된회귀식의타당도를설명하는또다른측도로제곱합의분해를이용한분산분석(ANOVA:anal ysi sofvar i ance)표를생각할수있다.


221

[표10.1]단순회귀모형의타당성검정을위한분산분석표

요인(Sou rc e)

자유도(d f)

제곱합(SS)

평균제곱(MS)

값( va l ue)

모형(Mod e l ) 1

잔차(Er ror )전체

(Tota l )

[표10.1]의분산분석표에서 는적합된회귀직선에의해서설명되는부분과잔차에의해서설명되는부분 과비교하는값이다.이값이크면적합된회귀선

이유의함을나타내며통계적으로다음의귀무가설을검정하면된다.

즉,단순회귀모형 에서설명변수 의크기에따라반응변수 가

변하는지변하지않는지에관심이있다.이는기울기 이0인지아닌지를알아보는것과관련

이있다.만약에 라면설명변수 는반응변수 를설명하는데의미가없다.즉,단순회

귀모형이적합하지못함을의미한다.단순회귀모형에서는기울기 를검정하는것과모

형이적합한지를검정하는것이동일하다는점이다.

실제[표10.1]의분산분석표에서 의관측값 이유의수준 에서기각치에의한다음의기각역을만족하면귀무가설 를기각하게된다.

이는가정된단순회귀모형이적합하고따라서적합된회귀식이유의함을나타낸다.10.5절의R-프로그램에는summary(l sm)과anova()함수로부터검정통계량의관측값의유의확


222

보기10.6

[보기 10.5]의 10명의환자에대한약의복용량( )과지속효과( )에대한자료의적합된회

귀식 의유의성검정을위한분산분석표를작성하고해석하라.

1) [보기 10.5]의결정계수계산에서 , , 이므로총

제곱합과회귀제곱합은다음과같이계산된다.

, =

이로부터오차제곱합은변동의분해공식 에의해서

임을알수있다.2)단순회귀모형의타당성검정을위한분산분석표

률인 값= < 을제공되어이값이유의수준 보다작아도앞의결론을얻게된다.

단순회귀모형의타당성검정

에서 의검정:

Q귀무가설을기각하여단순회귀모형이적합함을나타낸다.

여기서, 는 의관측값이다.


223

요인(Sou rc e)

자유도(d f)

제곱합(SS)

평균제곱(MS)

값( va l ue)

모형(Mod e l ) 1 307.25 307.25 38.62

잔차(E r ror ) 8 63.65 7.96

전체(Tota l ) 9 970.90

3) 분산분석표의 F값의 관측값 38.62이 유의수준 0.05에서 기각치 에

의한기각역을만족하므로귀무가설 를 기각하게된다. 따라서적합된회귀

직선은유의하다.


224


[프로그램10.1]은IQ와수학성적에대한[보기10.1]과[보기10.2]의산점도와상관계수를제공하는R-프로그램이다.산점도는pl ot()함수를상관계수는cor()함수를사용한다.그수행결과는[결과10.1]에주어져있다.

[프로그램10.1] [보기10.1]- [보기10.2]의 IQ와수학성적에대한산점도와상관계수

IQ= c(110, 130, 125, 120, 115, 120, 125, 130, 150, 140, 100, 110, 115, 120,135)Math= c(75,90,80,80,70,75,90,95,90,85,60,65,75,75,90)p l ot(IQ,Math ,pch=16)cor(IQ,Math )


100 110 120 130 140 150

6065

7075

8085

9095

IQ

Mat

h

0.8384023


225

[프로그램10.2]는 IQ와수학성적의적합된회귀식을위한 와 의최소제곱추정량을

위한lm()함수와적합된회귀선을원래산점도에같이나타내기위해abl i ne()함수를이용하는R-프로그램이다.[결과10.2]의1)산점도에그결과가나타나있다.[결과10.2]의2)적합된회귀모형의<Coeff i ci ents>에서실제로적합된회귀식을위한 와 의최소제

곱추정량을제공한다.(I ntercept)와x에서각각 와 을얻게되며

이구하고자하는적합된회귀식이다.특히,모형의적합성을위한귀무가설 를

검정하기위한검정통계량이[결과10.2]의맨아래<F- stat i st i c:30.76on1and13DF, p- val ue:9.447e-05>에주어져있다. 값=0.000094447로유의수준5%보다매우작아귀무가설을기각하기에충분하며IQ와수학성적간의단순회귀모형이적합함을보여준다.

[프로그램10.2] [보기10.3]의단순회귀분석

IQ= c(110, 130, 125, 120, 115, 120, 125, 130, 150, 140, 100, 110, 115, 120,135)Math= c(75,90,80,80,70,75,90,95,90,85,60,65,75,75,90)x= IQy=Mathl sm= lm(y~ x)summary(l sm)p l ot(IQ, Math , col = “ b l u e", pch =16, mai n= "Scatter D i agram and Fi tted Regressi on Li n e")ab l i n e(coef(l sm),col = "red")


226


1)산점도

100 110 120 130 140 150

6065

7075

8085

9095

IQ

Mat

h

2)적합된회귀식Cal l :l m(formu l a= y~ x)

Coeffi ci en ts:E st i mateStd .E r ror tval u ePr(>|t|)(I n tercept)-3.049514.9894-0.2030.842x0.67250.12135.5469.45e-05***---Si gn i f.codes:0‘ ***’ 0.001‘ **’ 0.01‘ *’ 0.05‘ .’ 0.1‘ ’ 1

Resi du al standard er ror:5.803on 13degreesoffreedomMu l t i p l eR-squ ared:0.7029,Ad ju sted R-squ ared:0.6801F-stat i st i c:30.76on 1and 13DF,p-val u e:9.447e-05


227

[프로그램10.3]은약의복용량( )와약의지속효과기간( )의산점도와단순회귀모형을적합하는[보기10.4]와모형의적합성을보여주는결정계수를얻기위한[보기10.5]를위한R-프로그램이다. [결과 10.3]의 <Coeff i ci ents>의 (I ntercept)와 x에서 각각 추정치가

와 이므로 따라서 적합된 회귀식은

이 된다. 다음으로 [결과 10.3]의 <Resi dual standard

er ror>에서잔차의분산 추정량인평균제곱오차

의 를 얻을 수 있다. 끝으로 <Mul t i pl e R- squared>에서

0.8284은적합된회귀모형의타당성을나타내는척도인결정계수 를나타낸다.즉,적합된회귀식이총변동에서82.84%를설명한다고보게된다.더군다나,모형의적합성을위한귀무가설 를검정하기위한검정통계량이[결과10.3]의맨아래<F- stat i st i c:

38.62on1and8DF,p- val ue:0.0002555>에주어져있다. 값=0.0002555이유의수준5%보다매우작아귀무가설을기각하며약의복용량( )와약의지속효과기간( )의단순회귀모형이적합합을보여준다.

[프로그램10.3] [보기10.4]- [보기10.5]약의복용량과약의지속효과기간의단순회귀분석,결정계수및모형의타당성검정

x= c(3,3,4,5,6,6,7,8,8,9)y= c(9,5,12,9,14,16,22,18,24,22)p l ot(x,y,col = "b l u e",pch =16)l sm= lm(y~ x)summary(l sm)p l ot(x,y,col = "red ",pch =16,mai n= "Scatter D i agramand Fi tted Regressi on Li n e")ab l i n e(coef(l sm),col = "b l u e")


228


1)산점도

3 4 5 6 7 8 9

510

1520

Scatter Diagram and Fitted Regression Line

x

y

2)Cal l :l m(formu l a= y~ x)

Coeffi ci en ts:E st i mateStd .E r ror tval u ePr(>|t|)(I n tercept)-1.07092.7509-0.3890.707219x2.74080.44116.2140.000255***---Si gn i f.codes:0‘ ***’ 0.001‘ **’ 0.01‘ *’ 0.05‘ .’ 0.1‘ ’ 1

Resi du al standard er ror:2.821on 8degreesoffreedomMu l t i p l eR-squ ared:0.8284,Ad ju sted R-squ ared:0.8069F-stat i st i c:38.62on 1and 8DF,p-val u e:0.0002555


229

[프로그램10.4]는약의복용량( )와약의지속효과기간( )의회귀분석모형의타당성을검정하기위한분산분석표를얻기위해anova()함수를활용하는R-프로그램이다.이는[프로그램10.3]을활용해도충분하며[결과10.4]에대한해석은[결과10.3]을참고하기바란다.

[프로그램10.4] [보기10.4]약의복용량과약의지속효과기간의회귀분석모형에대한타당성

x= c(3,3,4,5,6,6,7,8,8,9)y= c(9,5,12,9,14,16,22,18,24,22)l sm= lm(y~ x)anova(l sm)


1)Anal ysi sofVar i an ceTab l e

Response:yDfSumSqMean SqFval u ePr(>F)x1307.247307.24738.6150.0002555***Resi du al s863.6537.957---Si gn i f.codes:0‘ ***’ 0.001‘ **’ 0.01‘ *’ 0.05‘ .’ 0.1‘ ’ 1


230

10.6 연습문제

10.1 임의로선택된10명의국가대표선수들을대상으로자신이받은후원금의횟수와액수(단위:억)의관계를알아보고자다음의자료를얻었다.

선수 1 2 3 4 5 6 7 8 9 10

횟수 1 3 2 1 5 5 4 3 1 4

액수 2 8 7 4 13 12 9 9 3 10

(1)산점도를그려라.(2)상관계수를구하라.(3)(2)에서구한상관계수로볼때,후원금의횟수와액수는어떠한관계가있는가?

10.2 연습문제10.1에서후원금의횟수에따른후원금의액수를알아보기위한회귀식을구하고,적합된회귀식의결정계수를구하라.

10.3 다음은특정연도에태어난사람들의기대수명을나타낸표이다.태어난연도에따른기대수명을알아보고자한다.

태어난연도 기대수명

1930 59.7

1940 62.9

1950 70.2

1965 69.7

1973 71.4

1982 74.5

1987 75

1992 75.7

2010 78.7


231

이때 태어난 연도를 , 기대수명을 라 하면 , ,

로계산되어진다.

(1)회귀식을구하라.(2)적합된회귀식으로부터2014년에태어난사람의기대수명을예측하라.

10.4 한잡지에음식점9곳의할인쿠폰이실려있다.페이지에따른할인가격(단위:천원)을알아보고자한다.

페이지 4 14 25 32 43 57 72 85 90

할인가격 16 19 15 17 19 15 16 15 17

(1)산점도를그려라.(2)상관계수를구하라.어떠한관계가있는가?(3)회귀식을구하라.(4)잔차제곱합,회귀제곱합,총제곱합을구하라.(5)결정계수를구하라.(6)분산분석표를작성하고,(3)에서적합된회귀식을검정하라.

10.5 한전자상가에서TV광고를한다.TV의사이즈(단위:인치)별판매가격(단위:천원)은다음의표와같다.

사이즈 9 20 27 31 35 40 60

가격 147 197 297 447 1177 2177 2497

(1)TV의사이즈에따른판매가격을알아보기위한회귀식을구하라.(2)(1)에서적합된회귀식을검정하라.(3)50인치TV의판매가격을예측하라.

10.6 다음은1990년에미국남성들의키(단위:cm)를측정한자료이다.


232

나이 0 2 3 5 7 10 14

키 50.8 83.8 91.4 106.6 119.3 137.1 157.5

(1)미국남성들의만나이에따른키를알아보기위한회귀식을구하라.(2)만나이가1세와11세일때키를예측하라.(3)만나이가62세일때키를예측하라.이결과가타당한가?

10.7 다음은연간10만명당사망운전자수를연령별로정리한표이다.

연령 17.5 22 29.5 44.5 64.5 80

사망자수 38 36 24 20 18 28

(1)연령에따른사망운전자수를알아보기위한회귀식을구하라.(2)상관계수와결정계수를구하라.

10.8 자동차의무게와연비의관계를알아보기위해자동차12대를대상으로무게(단위:파운드)와연비(단위:mi /g)를측정한표이다.산점도를그리고,상관계수를구하라.

무게 연비2715 242570 282610 292750 383000 253410 223640 203700 263880 213900 184060 18

4710 15


233

10.9 연습문제10.8의자료를이용하여다음물음에답하라.(1)자동차의무게에따른연비를알아보기위한회귀식을구하라.(2)(1)에서적합된회귀식의결정계수를구하라.(3)분산분석표를작성하고,(1)에서적합된회귀식을검정하라

11.1 분할표11.2 이제 통계량

11.3 이제 정

11.4 -프로그램 실습

11.5 연습문제

11장분할표 자료분석 : 범주들의 관계

R과 함께하는

통계학의 이해

11장분할표자료분석:범주들의관계

237

11.1 분할표

1.3절의자료의이해에서자료는측정변수의성질에따라일반적으로질적자료와양적자료로나눌수있고특히,질적자료는[표1.1]에서와같이달리기(1=달리기한사람,2=달리기를하지않은사람),흡연(1=흡연자,2=비흡연자),성별(1=남자,2=여자),운동량(1=적음,2=보통,3=많음)과같이몇개의범주를가진변수에의해서측정된것이며질적이란개체인측정대상이어느범주에들어가는지를나타내는것을의미한다.일반적으로여러사람이나제품을대상으로이루어진통계조사에서다음과같은몇가지경우를생각할수있겠다.1)사람들의종교를가톨릭,신교도,불교,기타로분류하는경우2)직업에대한만족도를매우만족,보통만족,불만족으로관찰한경우3)공장에서제조되는냉장고를그성능에따라매우양호,양호,약간결함,불량으로관한경우4)교육수준에따른당의선호도를관찰한경우

여기서종교,만족도,성능,교육수준,선호도는대상이어느범주에속하는지를분류하는질적변수이며이를범주형변수라한다.몇개의범주를가진이들범주형변수에의해서관찰된대상을분류하여보면각범주에따른도수를가지는표(tabl e)를얻게된다.다음의[보기11.1]과[보기11.2]를통하여범주형변수에의해서이루어진표를살펴보자.


238

보기11.2

두가지식이요법A와B의효과를비교하기위해150명의환자를대상으로임의추출된80명에게는식이요법A를나머지70명에게는식이요법B를적용하였다.얼마간의시간이흐른뒤에식이요법과각환자의건강상태인2개의범주형변수에따라자료를표로정리하였다.식이요법은범주A와B로,환자의건강상태는양호,보통,불량으로세범주로구성되어있다.

식이요법환자의건강상태

합계양호 보통 불량

A 37 24 19 80

B 17 33 20 70

합 계 54 57 39 150

[보기11.1]과[보기11.2]에서와같이관찰된자료가범주형변수에따라표로정리되어있을때이를분할표(cont i ngency tabl e)라부른다.특히,2개의범주형변수에의한분할표를2원(two-way)분할표라하며이외에도3원분할표이상의다원(mul t i -way)분할표도있다.그리고분할표에서행에있는범주를행범주,열에있는범주를열범주라한다.만약에분할표의행과열의수가각각 과 일때이러한표를 Z 분할표라한다.따라서이들분할표는 Z 개의칸(cel l )을갖게된다.[보기11.1]의표는3×2분할표이고,[보기11.2]의표는2×3분할표로둘다6칸을가지고있다.

분할표(conti ng encytab l e)

관찰된 자료가 범주형 변수에 따라 표(tab l e)로 정리된 것이다. 특히, 2개의 범주형 변수에의한 분할표를 2원(two-way)분할표라 하며 이외에도 3원분할표 이상의 다원(mu l t i - way)분할표도있다.


239

11.2 카이제곱통계량

[보기11.1]과[보기11.2]의분할표를통하여알고자하는점을요약하자면다음과같다.

①나이에따라약의종류에따른선호도가관계가있는가?②두식이요법간에차이가있는가?

이들질문은통계적가설검정의문제로해결할수있으며간단한개념적으로설명하기로하자.먼저①과②의질문에대한통계적귀무가설로[정리11.1]과같이고려할수있으며이는분할표의범주에대한독립성과동질성을검정하는두종류의가설검정으로연결된다.일반적으로[정리11.1]의귀무가설에언급되는내용이적합한지를알아보는척도로피어슨

(Kar l Pearson:1857-1936)이처음제안한카이제곱통계량( stat i st i c)이있다.

분할표에대한두종류의귀무가설

① :먹는약의종류의선호도와나이는관련이없다(독립적이다).

② :두식이요법은차이가없다(동질적이다).

실제[보기11.1]과[보기11.2]의분할표를통하여카이제곱통계량을구하는절차를설명하여보자.분할표에서각범주에속하는칸의도수는실제로관찰된값으로칸관찰도수라하며 번째행과 번째열의칸 의관찰도수를 , 라하자.특

히, 번째행합계를 , 번째열합계를 로표시하고총합계

는 라하자.관찰도수 에대응하여[정리11.1]의귀무가설하에서

칸 의기대도수 는다음과같이각각구할수있다.

총합계번째 행합계Z 번째 열합계 Z

(11.1)


240

보기11.3

[보기11.1]의고객들의나이와먹는약의종류라는2개의범주형변수의분할표로부터관찰도수와괄호속의기대도수를같이정리하였다.여기서기대도수와카이제곱통계량을구하여보라.

나 이먹는약의종류

합계캡술형 정제형

20세이상30세미만 38 79 117

30세이상50세미만 87 118 205

50세이상 78 89 167

합 계 203 286 489

1)분할표에따르면총합계는 이고첫번째행범주와열범주에서20세이상30세미만의캡슐형약의칸(1,1)의관찰도수는38이고이에따른행과열의합계는다음과같다.

첫번째행합계:

첫번째열합계:

이때칸 (1,1)의기대도수는다음과같다.

Z Z

따라서각칸의관찰도수와기대도수와비교하여그차이를양적으로평가하는것이분할표에서주된관심이다.이를위한유용한통계량이식(11.2)의피어슨의카이제곱통계량이다.

기대도수관찰도수 기대도수 (11.2)


241

다음으로첫번째행범주와두번째열범주의경우칸(1,2)의기대도수와나머지칸 (2, 1), (2, 2), (3, 1), (3, 2)의기대도수는다음과같다.

Z,

Z,

Z,

Z,

Z

2)

보기11.4

식이요법환자의건강상태

합계양호 보통 불량

A 37 24 19 80

B 17 33 20 70

합 계 54 57 39 150

[보기 11.2]에서두가지식이요법과환자의건강상태라는 2개의범주형변수에따른분할표로부터괄호속의기대도수와카이제곱통계량을구하여보라.

1)분할표에서총합계는 이고식이요법A와환자의건강상태가양호인첫번째행범주와열범주에서칸(1,1)의관찰도수는37이고이에따른행과열의합계는다음과같다.

첫번째행합계:

첫번째열합계:


242

이때칸 (1,1)의기대도수는다음과같다.

Z Z

다음으로식이요법A와환자의건강상태가보통인칸(1,2)의기대도수와나머지칸 (1, 3), (2, 1), (2, 2), (2, 3)의기대도수는다음과같다.

Z,

Z,

Z,

Z,

Z

2)


243

11.3 카이제곱검정

11.2절에서계산된카이제곱통계량 을이용하여[정리11.1]의귀무가설에언급되는내

용이적합한지를알아보는절차는카이제곱검정($ - test)이라는통계적기법에의해서이루어진다.특히 [정리11.1]의귀무가설①과②에대한카이제곱검정을각각독립성검정(testofi ndependence)과동질성검정(testofhomogenei ty)이라한다.그이유는[정리11.1]의귀무가설<① :먹는약의종류의선호도와나이는관련이없다>는행범주와열범

주의관련성을따지므로귀무가설의내용상<관련이없다>는<서로독립이다>라고말하는데근거하고있다.이런맥락에서귀무가설<② :두식이요법은차이가없다>는행범주간의

차이를따지므로<차이가없다>는<서로동질이다>라고말할수있다.어느검정이든지귀무

가설의기각은분할표로부터계산된카이제곱통계량 의값이매우크면귀무가설을기각하게된다.

여기서카이제곱통계량 의값이어느정도이면통계적으로크다고할수있는지를알

아보기위해선카이제곱통계량 의분포와이에관련된카이제곱검정법에대해서알아보아야한다.

일반적으로 Z 분할표로부터계산된카이제곱통계량 은귀무가설이옳다는가정하

에각칸기대도수가대략5이상이고총합계가큰경우에근사적으로 -분포를따르고자유도(degreeof freedom:df)는 Z =(행범주의수-1) (열범주의수-1)이

된다. [그림 11.1]에는 자유도가 10인 -분포를 보이고 있는 데 유의수준 의 기각치

(cr i t i cal val ue) 도표시되어있다.이는부록의통계분포표로부터쉽게구해진다.


244

0

[그림11.1]자유도가10인 -분포

따라서유의수준 에서카이제곱통계량 의관측값 가기각치 에의한기각역

< (11.3)

을만족하면통계적으로유의하게귀무가설을기각하는카이제곱검정법을생각할수있다.결론적으로[보기11.1]과[보기11.2]의분할표에대한[정리11.1]의귀무가설은[보기11.3]

과[보기11.4]에서계산된카이제곱통계량 의관측값 가식(11.3)의기각역에의한카이제곱검정법에따라유의수준0.05에서다음과같이요약된다.


245

보기11.5

[보기11.3]과 [보기11.4]에대해카이제곱통계량에의한검정을시행하시오.

1)나이별약의종류에따른선호도조사: - 자유도: (3- 1)(2- 1)=2

- 유의수준0.05에서검정통계량의관측값 이기각치

에의한기각역을만족하지하지않으므로,귀무가설 를기각할수없다.따 라서나이와약의종류의선호도는관련이없다.

2)식이요법에따른환자의건강상태: - 자유도: (2- 1)(3- 1)=2

- 유의수준0.05에서검정통계량의관측값 이기각치

에 의한기각역을만족하므로, 귀무가설 를기각할수있다. 이는식이요법 간에효과의차이가있음을말한다.

추가로R-프로그램에서는검정방법으로검정통계량의관측값 과기각치 에의해

검정하는것대신에유의확률 값 을제공하여이값이유의수준 보다작으면귀무가설을기각하는검정방법을택하고있다.이는11.4절에서사용의예를볼수있다.

Z 분할표의행과열의독립성과동질성검정

- 기대도수관찰도수 기대도수

,

- 자유도:

- < Q귀무가설< :서로독립(서로동질)>을

유의수준 에서기각한다.


246

11.4 R-프로그램

[프로그램11.1]은[보기11.1]의고객들의나이와먹는약의종류간에독립성검정을위한ch i sq.test()함수를활용한R-프로그램을보여주고있다.[결과11.1]에서<X-squared=5.8608>는카이제곱통계량으로자유도가<df=2>임을나타내고있다.결과에대한해석은[보기11.5]를참고로하면되나특히,R-프로그램에서는기각치와기각역을활용한검정을제공하는 대신에 값을 제공하고 있다. <p- val ue = 0.05338>은 값으로 이는

< 에해당한다.그리고유의수준 보다도큰경우를나타내고있어귀무가설< :먹는약의종류의선호도와나이는관련이없다>를기각하지못함을보여주고

있다.

[프로그램11.1] [보기11.1]고객들의나이와약의종류에대한독립성검정

row1= c(38,79)row2= c(87,118)row3= c(78,89)data.tab l e= rb i n d(row1,row2,row3)ch i sq.test(data.tab l e)


Pearson 'sCh i -squ ared test

data:data.tab l eX-squ ared = 5.8608,d f= 2,p-val u e= 0.05338

[프로그램11.2]은[보기11.2]의두가지식이요법과환자의건강상태의분할표에서두식이요법간의동질성검정을위한ch i sq.test()함수를활용한R-프로그램을보여주고있다.결과에대한해석은[보기11.5]를참고로하면되나[결과11.2]의<X- squared=8.224,

df=2,p- val ue=0.01638>는자유도가 인카이제곱통계량의관측값을나타내며<p- val ue=0.01638>는 값으로유의수준 보다도작은경우를나


247

타내어귀무가설< :두식이요법간에는차이가없다>를기각함을보여준다.

[프로그램11.2] [보기11.2]두식이요법간의동질성검정

r ow1= c(37, 24, 19) r ow2= c(17, 33, 20) dat a. t abl e = r bi nd(row1, r ow2) chi sq. t est (dat a. t abl e)


Pearson 'sCh i -squ ared test

data:data.tab l eX-squ ared = 8.224,d f= 2,p-val u e= 0.01638


248

11.5 연습문제

11.1 철도청에서는철도이용객들의여행거리와구입한좌석등급사이에관계가있는지를알고자한다.승객200명을대상으로조사를실시한결과는아래의표와같다.

여행거리좌석등급

합계입석/자유석 일반석 특석

1~100km 21 14 6 41

101~200km 18 16 8 42

201~300km 16 17 15 48

301~400km 12 14 21 47

401~500km 6 6 10 22

합계 73 67 60 200

(1)귀무가설 을서술하라.

(2)이검정은독립성검정인가,동질성검정인가?(3)자유도를계산하라.(4)각칸의기대도수를구하여라.(5)검정통계량을구하여라.(6)유의수준5%에서어떠한결론을내릴수있는가?


249

11.2 30대600명을대상으로그들의연봉과학력이관계가있는지알기위하여조사한결과이다.괄호속의값은기대도수를정리한것이다.유의수준5%에서독립성검정을하여라.

연봉학력

합계중졸이하 고졸 대졸 대학원졸

3천만원미만 15(4.6) 25(9.2) 10(13.8) 5(27.5) 55

3~4천만원 20(13.3) 40(26.7) 70(40.0) 30(80.0) 160

4~5천만원 10(10.4) 20(20.8) 40(31.3) 55(62.5) 125

5~6천만원 5(7.9) 10(15.8) 20(23.8) 60(47.5) 95

6천만원이상 0(13.8) 5(27.5) 10(41.3) 150(82.5) 165

합계 50 100 150 300 600

11.3 개인병원의사100명과종합병원의사150명에게주당근무시간을조사하였다.개인병원의사와종합병원의사의근무시간은동일한지를알고자한다.

의사근무시간

합계20-30 30-40 40-50 50-60

개인병원 16 40 38 6 100

종합병원 8 44 59 39 150

합계 24 84 97 45 250

(1)귀무가설 을서술하라.

(2)각칸의기대도수를구하여라.(3)검정통계량을구하여라.(4)유의수준5%에서어떠한결론을내릴수있는가?(5)유의수준을1%로수정하면결론은어떻게달라지는가?


250

11.4 자동차생산회사는가족구성원의수와자동차의크기사이에관계가있는지알고자한다.자동차소유자800명을대상으로조사한결과를정리한표는다음과같으며,괄호()속의값은기대도수를정리한것이다.

가족수자동차크기

합계소형 중형 대형 트럭

1명 20(13.0) 35(26.8) 40(45.5) 35(44.7) 130

2명 20(22.0) 50(45.4) 70(77.0) 80(75.6) 220

3-4명 20(26.0) 50(53.6) 100(91.0) 90(89.4) 260

5명이상 20(19.0) 30(39.2) 70(66.5) 70(65.3) 190

합계 80 165 280 275 800

(1)유의수준5%에서독립성검정을하여라.(2)유의수준을10%로수정하면결론은어떻게달라지는가?

11.5 남성과여성의아침식사메뉴의차이를알아보고자한다.아침식사를판매하는유명한가게에서무작위로선택된남성과여성이주문한아침식사는다음과같다.괄호()속의기대도수를구하고,유의수준10%에서동질성검정을하여라.

성별아침식사메뉴

합계토스트 팬케이크 와플 오믈렛

남성 47( ) 35( ) 28( ) 53( ) 163

여성 65( ) 59( ) 55( ) 60( ) 239

합계 112 94 83 113 402

11.6 여행사들은신부의연령에따라인기있는신혼여행장소가달라질수있다고주장한다.이를확인하기위하여최근결혼한신부280명을대상으로신혼여행을보낸장소를조사하였다.조사결과,20-29세는하와이와푸껫이각각15명,몰디브가10명,유럽이20명이었다.30-39세는4곳모두25명씩이고,40-49세는하와이와푸껫이각각25명,몰디브와유럽이각각15명이었다.50세이상은하와이가20명,푸껫이10명,몰디브와유럽이각각5명이었다.


251

(1)조사결과에따른자료의분할표를작성하라.(2)각칸의기대도수를구하여라.(3)유의수준5%에서독립성검정을하여라.

11.7 다음은2005년부터2010년까지6년간유럽연합과미국의평균에너지사용량을나타낸표이다.괄호()속의값은기대도수를정리한것이다.연도에따른두지역의에너지사용량은같다고할수있는지유의수준5%에서검정하여라.

연도지역

합계유럽연합 미국

2010 3413(3361.0) 7164(7216.0) 10557

2009 3302(3291.7) 7057(7067.3) 10359

2008 3505(3493.2) 7488(7499.8) 10993

2007 3537(3589.2) 7758(7705.8) 11295

2006 3595(3588.2) 7697(7703.8) 11292

2005 3613(3641.6) 7847(7818.4) 11460

합계 45011 20965 65976

11.8 한심리학자는경제학전공과사회과학전공의성격유형에차이가있는지를알고자한다.자료에대한분할표는다음과같으며,괄호()속의값은기대도수를정리한것이다.유의수준5%에서동질성검정을하여라.

전공성격유형

합계개방적 성실함 외향적 쾌활함 신경적

경제학 41(47.6) 52(53.5) 46(45.9) 61(59.3) 58(51.8) 258

사회과학 72(65.4) 75(73.5) 63(63.1) 80(81.7) 65(71.2) 355

합계 113 127 109 141 123 613

부록Ⅰ확률분포표

R과 함께하는

통계학의 이해


255


유의수준(si gni f i cancel evel )에서각분포의기각치를찾기위한확률분포표는다음의사이트를참고하면된다.

■ 정규분포표http://www.i t l .ni st.gov/di v898/handbook/eda/secti on3/eda3671.htm- : ∼- 예:유의수준5%에서기각치 는정규분포표에서0.05에제일가까운0.44950에

해당하는행의1.6과열의0.04를더한1.64가된다.

■ t-분포표http://www.i t l .ni st.gov/di v898/handbook/eda/secti on3/eda3672.htm- :자유도 ,유의수준

- 예 : 유의수준 5%에서 자유도 23인 기각치 은 t-분포표에서

에해당한다.

■ 카이제곱분포표http://www.i t l .ni st.gov/di v898/handbook/eda/secti on3/eda3674.htm

- :자유도 ,유의수준

- 예 : 유의수준 5%에서 자유도 2인 기각치 는 카이제곱 분포표에서

에해당한다.

■ F-분포표http://www.i t l .ni st.gov/di v898/handbook/eda/secti on3/eda3673.htm- :자유도 , ,유의수준

- 예 : 유의수준 5%에서 자유도 (3, 20)인 기각치 은 F-분포표에서

에해당한다.

부록ⅡR 설치 및 기본 사용법

R과 함께하는

통계학의 이해

부록ⅡR설치및기본사용법

259

1. R의설치

(1)인터넷에서[http://www.r- project.org/]로접속한다.(2)화면왼쪽의메뉴에서[Downl oad,Packages]의[CRAN]을클릭한다.

(3)제시된목록에서[Korea]를찾아[http://cran.nexr .com/] 또는[http://bi ostat.cau.ac.kr/CRAN/]중하나를클릭한다.


260

(4)다음의화면에서[Downl oadRfor Wi ndows]를클릭한다.

(5)다음의화면에서[base]를클릭한다.

(6)다음의화면에서[Downl oadR3.1.0for Wi ndows]를클릭하고,R3.1.0버전의설치파일인[R-3.1.0-wi n.exe]를다운로드하여설치하면된다.


261

2. R의기본사용법

R을실행하면다음과같이[RConsol e]창이기본적으로열린다.

[RConsol e]창에명령문을입력하고[Enter]를누르면다음과같이명령문이실행되어그결과가출력된다.


262

명령문을입력하는또다른방법은[파일]- [새스크립트]를클릭하면열리는[R편집기]를활용하는것이다.다음의화면에서오른편이[R편집기]창이다.

먼저[R편집기]에명령문을입력한다음,실행하고자하는명령문을드래그하여선택한다.

그다음도구모음의실행버튼( )을클릭하거나,[F5]또는[Ctr l +R]을누르면선택된명령문이실행되어[RConsol e]창에그결과가출력된다.


263

[R편집기]에입력된명령문은수정및편집이쉽게가능하고텍스트파일로저장할수있어[RConsol e]창보다편리하다.[R편집기]에입력된명령문을다음에다시사용하기위해서는[파일]-[다른이름으로저장]에서저장하면된다.다음과같이저장위치를지정한다음,파일이름을[파일명.txt]로입력하고파일유형은[Al l f i l es(*.*)]를선택한다.

이렇게저장된파일은메모장에서바로열어볼수도있으며,[파일]- [스크립트열기]에서다음에다시열어사용할수있다.


264

부록Ⅲ연습문제 풀이

R과 함께하는

통계학의 이해

부록Ⅲ연습문제풀이

267

1. 통계학의이해

1.1 (1)양적(2)양적(3)질적(4)양적(5)양적(6)질적(7)질적(8)양적(9)양적

1.4 (1)구간(2)명목(3)비율(4)서수(5)명목(6)구간(7)비율(8)서수

1.2 (1) A피트니스센터에등록된전체회원들

(2) 등록된 전체 회원들이일주일에운동하는시간의평균

(3)등록된전체회원들중조사에참여한회원50명

(4)조사에참여한회원50명이일주일에운동하는시간의평균

1.5 (1)모든통계학수강생들(2)통계학수강생들중조사에참여

한학생10명(3)3.5일

1.6 (1)연속형(2)이산형(3)연속형

1.3 (1)결혼상담사가상담한모든고객들

(2)상담한모든고객들중결혼을지속하는고객들의비율

(3)상담한모든고객들중조사에참여한고객100명

(4)조사에참여한고객100명중결혼을지속하는고객들의비율

1.7 변환전:양적-연속형-비율척도변환후:질적-명목형또는순서형


268

2. 자료의정리및요약

2.1 (1)

계절 도수 상대도수봄 8 0.235여름 9 0.265가을 11 0.324겨울 6 0.176합계 34 1.000

(2)

(3)117

2.2 (1)79.3,80(2)2.44,2

2.3 (1)142.68,11.94(2)2.03,1.42

2.4 (1)7(2)2

2.5 (1)54


269

(2)

계급구간(명) 도수 상대도수11.5이상65.5미만 19 0.54365.5이상119.5미만 9 0.257119.5이상173.5미만 1 0.029173.5이상227.5미만 4 0.114227.5이상281.5미만 2 0.057

합계 35 1.000

2.6 (1)39(2)69

2.7 (1)1.92(2)3.5(3)1.5

2.8 (1)

계급구간(세) 상대도수0이상10미만 0.18910이상20미만 0.08020이상30미만 0.22830이상40미만 0.15040이상50미만 0.13150이상60미만 0.119

60이상 0.103

(2)

계급구간(세) 높이0이상10미만 0.01910이상20미만 0.00820이상30미만 0.02330이상40미만 0.01540이상50미만 0.01350이상60미만 0.012

60이상 0.010


270

(3)

2.9 (1)234.96(2)241(3)206,272(4)66(5)107,371(6)101(7)


271

3. 이산확률변수및분포

3.1 (1)A회사:

500만원 100만원 -100만원0.1 0.3 0.6

B회사:

300만원 100만원 -100만원0.2 0.4 0.4

C회사:

600만원 0원 -100만원0.1 0.7 0.2

(2)20만원,60만원,40만원,B회사(3)C회사,A회사

3.2 (1)0.2(2)2.35,1.52(3)2-3명일가능성이크다.

3.3 (1)1이나오는주사위의개수(2)0,1,2,3,4,5,6(3) ∼Bin

(4)1, (5)0.00002

3.4 (1)통계학학사학위를얻기위해걸리는기간(2)통계학학사학위를얻기위해서최소한3년이상걸린다.(3)4.85년


272

3.5(1)4.43경기(2)0.1476(3)0.4734

3.6 (1)주무기가포일이아닌선수의수(2) ∼Bin (3)10명

(4) Z

3.7 (1) ∼Bin(2)-1,1,2,3(만원)(3)

(만원)또는

0 -1 0.57871 1 0.34722 2 0.06943 3 0.0046

(4)0.5,-789원(5)0.42,동일함

3.8 (1)0.12(2)0.11(3)0.77(4)1.82,1.4,서울이더많다.

3.9 -614원,옳지않다.

3.10 (1)2.16명(2)0.9511(3)0.3702


273

4. 연속확률변수및분포

4.1 (1)○ (2)×(3)× 4.6 (1)-1.1(2)0.3446(3)29.25이상

4.2 (1)20(2)5.75(3)6.54.7 (1)0.0003(2)0.0005

4.3 (1)0.9418(2)0.35824.8 (1)0.0087(2)0.759

4.4 (1)0.0918(2)130.825이상

4.5 0.9791

5. 표집분포와중심극한정리

5.1 1 1.5 2 2.5 3 3.5 41/16 2/16 3/16 4/16 3/16 2/16 1/16

5.2 (1) ,

(2) ,(3)같다.

5.3∼

5.4 0.9033

5.5 3 3.7 4.3 51/8 3/8 3/8 1/8


274

5.6 (1)250,11.47

(2) ∼(3)0.1922

5.7(1) ∼ (2)0.9876

5.8 0.0129

6. 추정

6.1 (239.84,248.16) 6.6 (2.315,2.707)

6.2 (1)0.791,0.018(2)(0.761,0.821)

6.7 (0.532,0.668)

6.8 (1.959,2.041)

6.3 (1)(70.21,71.79)(2)(70.15,71.85)

6.9 (7.944,8.456)

6.10 (1)(4.580,7.420)(2)(4.268,7.732)(3)(3.585,8.415)

6.4 (1)2.511,0.318(2)(2.267,2.755)

6.5 (2.422,2.600)


275

7. 추정

7.1 (1) : , : d ,양측

(3) : , : ,단측

(5) : , : ,단측

(7) : , : ,단측

(2) : , : d ,양측

(4) : , : ,단측

(6) : , : d ,양측

(8) : , : d ,양측

7.2 (1)제1종오류:은퇴전일하는평균기간이34년일때,34년이아니라고결론내리는경우,제2종오류:은퇴전일하는평균기간이34년이아닐때,34년이라고결론내리는경우

(2)제1종오류:고등학교3학년학생중음주를하는학생이29%일때,29%가아니라고결론내리는경우,제2종오류:고등학교3학년학생중음주를하는학생이29%가아닐때,29%라고결론내리는경우

(3)제1종오류:대학교졸업자의평균초기연봉이3,000만원보다많거나같을때,3,000만원보다적다고결론내리는경우,제2종오류:대학교졸업자의평균초기연봉이3,000만원보다적을때,3,000만원보다많거나같다고결론내리는경우

(4)제1종오류:여성들의유방암발생가능성이11%보다작거나같을때, 11%이상이라고결론내리는경우,제2종오류:여성들의유방암발생가능성이11%이상일때,11%보다작거나같다고결론내리는경우

7.3 (1) : , :

(2) ∼ (3)(4) 기각(5)제1종오류

7.7 , 기각

7.8 (1) , 기각

(2) , 기각, 채택

7.4 (1) : , : d

(2) (3) 채택7.9 (1) , 채택

(2) , 채택

7.5 , 기각7.10 , 채택

7.6 , 기각


276

8. 가설검정

8.1 (1)a(2)e(3)c(4)b(5)d

8.7 (1) : ,

: d

(2) (3) 기각8.2 (1) : ,

:

(2) (3) 기각 8.8 (1) : ,

: d

(2) (3) 채택

(4) 기각

8.3 (1) : ,

:

(2) (3)(4) 기각 8.9 (1) : ,

:

(2) (3) 채택8.4 (1) : ,

:

(2) (3) 기각 8.10 (1) : ,

: d

(2) (3) 채택

(4) 기각

8.5 (1)평균(2)양측(3) : ,

: d

(4)정규분포(5)(6) 기각

8.6 (1) : , :

(2) (3) 기각

8.11 (1) : , :

(2) (3) 채택


277

9. 분산분석

9.1 (1) : , :모든 가다같은것은아니다.

(2) ,(3)F-분포(4) ,(5) (6) 채택

9.2 (1) , 기각

(2) , 기각

9.3 ㉠:4㉡:10㉢:237.3㉣:48.9㉤:2.06

9.4 요인 자유도 제곱합 평균제곱합 분산비처리 3 13.032 4.344 0.885오차 15 73.600 4.907전체 18 86.632

9.5 , 채택

9.6

요인 자유도 제곱합 평균제곱합 분산비처리 4 0.903 0.226 4.220오차 15 0.803 0.054전체 19 1.706

, 채택


278

9.7 (1)

요인 자유도 제곱합 평균제곱합 분산비처리 2 1468909 734454.6 3.126오차 12 2819077 234923.1전체 14 4287986

(2) 채택

(3) 기각

9.8 , 기각


279

10. 상관분석과회귀분석10.1 (1)

(2)(3)높은양의상관

10.2 ,

10.3 (1)(2)80.88세


280

10.4 (1)

(2) , 약한음의상관

(3)(4) , ,

(5)(6) , 채택

10.5 (1)(2) , 기각

(3)1992.61(천원)

10.6 (1)(2)72.18cm,143.13cm(3)504.98cm,타당하지않다.


281

10.9 (1)

(2)(3) , 기각

10.7 (1)

(2) ,

10.8


282

11. 분할표자료분석

11.1 (1) :철도이용객들의여행거리와구입한좌석등급은관계가없다(독립적이다).

(2)독립성검정(3)(4)각칸의기대도수는괄호()속의값과같다.

여행거리 좌석등급 합계입석/자유석 일반석 특석1~100km 21(15.0) 14(13.7) 6(12.3) 41101~200km 18(15.3) 16(14.1) 8(12.6) 42201~300km 16(17.5) 17(16.1) 15(14.4) 48301~400km 12(17.2) 14(15.7) 21(14.1) 47401~500km 6(8.0) 6(7.4) 10(6.6) 22

합계 73 67 60 200

(5) (6) 기각

11.2 , 기각

11.3 (1) :개인병원의사와종합병원의사의근무시간은차이가없다(동질적이다).

(2)각칸의기대도수는괄호()속의값과같다.

의사 근무시간 합계20-30 30-40 40-50 50-60개인병원 16(9.6) 40(33.6) 38(38.8) 6(18.0) 100종합병원 8(14.4) 44(50.4) 59(58.2) 39(27.0) 150합계 24 84 97 45 250

(3) (4) 기각

(5) 기각


283

11.4 (1) , 채택(2) 기각

11.5 , 채택

11.6 (1)

연령 신혼여행장소 합계하와이 푸켓 몰디브 유럽20-29세 15 15 10 20 6030-39세 25 25 25 25 10040-49세 25 25 15 15 8050세이상 20 10 5 5 40합계 85 75 55 65 280

(2)각칸의기대도수는괄호()속의값과같다.

연령 신혼여행장소 합계하와이 푸켓 몰디브 유럽20-29세 15(18.2) 15(16.1) 10(11.8) 20(13.9) 6030-39세 25(30.4) 25(26.8) 25(19.6) 25(23.2) 10040-49세 25(24.3) 25(21.4) 15(15.7) 15(18.6) 8050세이상 20(12.1) 10(10.7) 5(7.9) 5(9.3) 40합계 85 75 55 65 280

(3) , 채택

11.7 , 채택

11.8 , 채택

아보기

색인

R과 함께하는

통계학의 이해

찾아보기

287

ㄱ가설검정109개체235검정통계량243결정계수219계급266계급구간266공분산205구간추정110귀무가설129기각역130기댓값58기대도수237기술통계학17기울기210

ㄷ단순회귀모형210단측검정133대립가설133대응표본151도수153도수분포표29독립66독립변수209독립성검정241독립표본151동질성검정241

ㅁ막대도표30명목척도자료22명목형자료23모비율95모수95

모집단95모평균95

ㅂ백분위수42범주형자료284베르누이시행66변수66분산68분산분석표191분포196분할표233

ㅅ사건55사분위수43산점도203상관계수204상대도수266상자그림44서수척도자료22설명변수209순위형자료22신뢰구간113신뢰수준113

ㅇ양적자료235양측검정133연속성수정87연속형자료22연속확률변수56오차제곱합190오차항210완전확률화계획188


288

원도표30유의수준130유의확률140이산형자료22이산확률변수53이항분포66

ㅈ자유도115잔차213절편213점추정110정규곡선80정규분포80정규확률변수80제1종오류140제2종오류140종속변수209중심극한정리270중위수38질적자료235

ㅊ처리274처리제곱합190처리평균187총제곱합218최소제곱법211최소제곱추정량211추정량211추정치212추측통계학18

ㅋ카이제곱통계량178

ㅌ통계량178통계적모형211통계적추론38

ㅍ편차40평균41평균제곱 191평균제곱오차214표본16표본공간55표본분산112표본평균113표본표준편차119표준오차120표준정규분포131표준편차133표준화138표집분포270

ㅎ합동표본분산157확률158확률 도함수77확률변수77확률분포80회귀분석200히스토그램35

찾아보기

289

Aal ternati vehypothesi s123anal ysi sofvar i ance,ANOVA187

Bbar char t30Bernoul l i tr i al 66bi nomi al di str i but i on66boxpl ot 44

Ccategor i cal data22central l i mi ttheorem155cl ass33cl assi nterval 33coeff i ci entofdetermi nati on219compl etel yrandomi zeddesi gn188conf i dencei nterval 113conti ngencytabl e236conti nui tycor rect i on87conti nuousdata22conti nuousrandomvar i abl e56cor rel at i oncoeff i ci ent204

Ddegreeoffreedom241dependentvar i abl e209descr i pt i vestat i st i cs18devi at i on40di scretedata22di screterandomvar i abl e56

Eer ror term210Est i mate226est i mator 110event55expectedval ue58expl anatoryvar i abl e209

Ffrequency29frequencytabl e29

Hh i stogram35hypothesestest i ng109

Ii ndependence241i ndependentsampl e153i ndependentvar i abl e209i nferencestat i st i cs18i nter- quar t i l erange43i ntercept210i nterval est i mati on110

Ll eastsquaresest i mator 214l evel ofconfi dence113

Mmatchedpai rssampl e153


290

mean177meansquare190meansquareder ror 214medi an39methodofl eastsquare211

Nnomi nal data22normal di str i but i on80,82normal randomvar i abl e80nul l hypothesi s129

Oobservati on21ordi nal scal i ngdata22

Pparameter 95percenti l e42pi echar t30poi ntest i mat i on110pool edsampl evar i ance157popul at i on19popul at i onmean60probabi l i ty77probabi l i tydi str i but i on57

Qqual i tat i vedata22quant i tat i vedata22quar t i l e43

Rrandomvar i abl e56regressi onanal ysi s209reject i onregi on130rel at i vefrequency29Resi dual 194

Ssampl e19sampl emean38sampl espace55sampl estandarddevi at i on41sampl evar i ance157sampl i ngdi str i but i on96scatter di agram203si gni f i cancel evel 253si gni f i canceprobabi l i ty142si mpl eregressi onmodel 211sl ope210standarder ror 226standardnormal di str i but i on82stat i st i c95stat i st i cal i nference109stat i st i cal model 211sumofsquaresfor theer ror 190sumofsquaresforthetreatment190

Ttest241testofhomogenei ty241testofi ndependence241teststat i st i c130total sumofsquares190treatment190

Vvar i abl e 209var i ance220

291

최용석

1992년부산대학교통계학과교수가된후로현재부산대학교자연과학대학학장과통계학과교수로다변량통계학, 형상분석, 통계조사, 통계상담, 범주형자료분석에관심이많다. 1984년도에부산대학교계산통계학과를졸업하고, 1986년과 1991년에 고려대학교통계학과석사와 박사학위를취득하였다. 1996년영국애버딘대학수리과학부통계전공 Pos t-Doc .을하였다. 2003년에는영국리즈대학방문교수, 2012년에는미국아이오와주립대학 PPSI 연구소방문교수를하였다.호는일풍(一風:한 줄기 바람)으로 풍광이 수려한 부산 용호동 섶자리(최초 염전지) 근처에 산다. 개인 블로그(b l og .d aum.net/mus i gma)에 개인적 취미 생활인 詩와 그림이 있다. 저자의 논문, 저서 그리고제자등보다자세한소개는홈페이지(yschoi .p usan.ac .k r)를참고할수있겠다.

[빅북] R과 함께하는 통계학의 이해

발행일 2014년 8월 31일

저작권자 빅북운동본부

대표자 조영복

작성자 최용석

주소 부산광역시 금정구 구서2동 248-10 현대빌딩 2F

문의처 051-510-2570 홈페이지 http://bigbook.or.kr/

발행처 교보문고 퍼플

출판등록 2012년 09월 07일 제3-2012-167호

주소 서울시 종로구 종로1가 1번지

대표전화 1544-1900

홈페이지 www.kyobobook.co.kr

편집디자인 좋은땅출판사

홈페이지 www.g-world.co.kr

대표전화 02-374-8616

ISBN 978-89-24-01457-0 (93310)

ⓒ 빅북운동본부 2014

Documents

R과 함께하는 통계학의 이해