167
Make Analysis Fast and Easy Contents 특강 Rex를 활용한 통계 기초 이보라 (렉스소프트 연구부장) Rex 소개 Rex를 활용한 자료탐색 Rex를 활용한 두 군의 평균 비교

Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

M a k e A n a l y s i s F a s t a n d E a s y

Contents

특강

Rex를 활용한 통계 기초 이보라 (렉스소프트 연구부장)

• Rex 소개

• Rex를 활용한 자료탐색

• Rex를 활용한 두 군의 평균 비교

Page 2: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

M a k e A n a l y s i s F a s t a n d E a s y

01

02

03

Rex 소개

Rex를 활용한 자료탐색

Rex를 활용한 두 군의 평균 비교

Page 3: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

M a k e A n a l y s i s F a s t a n d E a s y

01 Rex 소개

Page 4: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

01 Rex 소개

통계분석 소프트웨어 비교

특징 STATA SPSS SAS R

학습난이도 중 하 상 상

사용 방법 클릭/

프로그래밍 클릭/

프로그래밍 프로그래밍 프로그래밍

데이터 처리 다양성 중 하 상 상

분석 기능 다양성 중 하 상 상

그래픽스 다양성 상 하 중 상

설치 비용 중 고가 고가 무료

4

Page 5: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

5

01 Rex 소개

R의 장단점

A key benefit of R is that it provides near instant availability of new and experimental methods created

by its user base — without waiting for the development/release cycle of commercial software. SAS

recognizes the value of R to our customer base…”

- Michael Gilliland, Product Marketing Manager SAS Institute

R의 장점

R 패키지 수 > 10,000

Page 6: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

R의 단점

– 프로그램 버그 존재

– 체계적인 관리 필요

– 통계, 전산에 대한 기본 지식 필요

6

01 Rex 소개

R의 장단점

Page 7: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

Rex

– 다운로드: http://rexsoft.org

– 엑셀 인터페이스를 이용한 손쉬운 데이터 정리

– Point-and-click 방식을 활용한 손쉬운 데이

터 분석

– R을 활용한 분석 모듈 구성

– 국내 통계 및 전산 전문가 참여 및 개발

01 Rex 소개

Rex란?

[ Rexsoft 홈페이지 ]

7

Page 8: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

Rex 개발 언어

– Microsoft Visual Studio 2015

– Microsoft Visual Basic .NET

– Microsoft Visual Studio Tools for Office

01 Rex 소개

Rex 설치

최소 컴퓨터 사양

– Windows 7 이상

– 32bit 혹은 64bit

– Microsoft Office 2013 이상

– R 3.4.0 이상

R 설치 순서

1 2 3 R

설치 R 패키지

설치

Rex 설치

1. R 설치: R v3.4.0 이상

2. R 패키지 설치

– R 관리자권한으로 실행

– source("http://goo.gl/ZNEFj1")

3. Rex 설치

8

Page 9: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

01 Rex 소개

Rex 설치

• R v3.4.0 이상 설치 필요 (R 미러싸이트: http://healthstat.snu.ac.kr/CRAN )

• 기존에 설치 되어있는 R의 버전이 3.4.0 미만인 경우

• 기존 R을 제거 → 컴퓨터 재부팅 → R v3.4.0 이상 재설치

• 새로운 버전의 R을 설치한 뒤에, 오래된 버전의 R을 설치하거나 지우는 경우

Rex가 어느 경로에 R이 설치되어 있는지 찾지 못하여,

레지스트리로 인한 에러가 발생할 수 있음 (이는 REx의 버그가 아니라 R의 버그임).

반드시 오래된 버전 R을 먼저 지운 뒤에 새로운 버전의 R을 설치해야 함.

Rex 설치 순서

1 2 3

R 설치

R 패키지 설치

Rex 설치

9

Page 10: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

01 Rex 소개

Rex 설치

1. R 실행하기

• 관리자 권한으로 실행해야 함

(R을 한번 클릭 후 마우스 오른쪽 버튼을 클릭하면

오른쪽과 같은 메뉴가 나타남).

• 64비트, 32비트 버전 R이 모두 설치되어 있는 경우 64비트 용 R을 실행.

이 경우 오른쪽과 같이 두 개의 아이콘이 모두 있으며 x64를 실행함.

한 개의 아이콘만 있는 경우는 해당 아이콘을 실행.

Rex 설치 순서

1 2 3

R 설치

R 패키지 설치

Rex 설치

10

Page 11: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

01 Rex 소개

Rex 설치

2. R 패키지 설치

• R 실행 후 왼쪽 그림과 같은 R console 창에 다음 명령어 실행

source("http://goo.gl/ZNEFj1")

• 다음 메시지가 보이면 R 패키지 설치가 잘 끝났음을 의미

!!! Installing R packages required for Rex was COMPLETED !!!

주의사항

• 한꺼번에 300여개의 R 패키지를 다운받아 설치함. 때문에 인터넷이 원활한 곳에서 설치해야 함.

• 설치 중간, 에러가 나는 경우

명령어 source(http://goo.gl/ZNEFj1) 를 패키지 설치가 끝날 때까지 반복해서 재실행하면 됨.

Rex 설치 순서

1 2 3

R 설치

R 패키지 설치

Rex 설치

11

Page 12: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

01 Rex 소개

Rex 설치

설치하는 R 패키지 리스트

Rex 설치 순서

1 2 3

R 설치

R 패키지 설치

Rex 설치

abind, acepack, ade4, AER, agricolae, AICcmodavg, AlgDesign, assertthat, backports, base, base64enc, BH, bindr, bindrcpp, biotools, bitops,boot, bootstrap, broom, ca, car, carData, caret, caTools, checkmate, chron, class, classInt, cli, cluster, coda, codetools, coin, colorspace, colourpicker, combinat, compiler, cowplot, crayon, crosstalk, curl, CVST, data.table, datasets, dbscan, ddalpha, Deducer, deldir, dendextend, DEoptimR, DescTools, devtools, dichromat, digest, dimRed, diptest, discSurv, DistributionUtils, dplyr, DRR, e1071, effects, ellipse, estimability, evaluate, exactRankTests, expm, factoextra, FactoMineR, fishmethods, flashClust, flexmix, FNN, forcats, foreach, forecast, foreign, Formula, fpc, fracdiff, functional, gdata, GeneralizedHyperbolic, Ggally, ggExtra, ggfortify, ggplot2, ggpubr, ggrepel, ggsci, ggsignif, git2r, glue, gmodels, gnm, gower, GPArotation, gplots, graphics, grDevices, grid, gridExtra, gtable, gtools, haven, highr, Hmisc, hms, htmlTable, htmltools, htmlwidgets, httpuv, httr, inum, ipred, iterators, JavaGD, JGR, jsonlite, kernlab, KernSmooth, klaR, Kmsurv, knitr, ks, labeling, labelled, laeken, lattice, latticeExtra, lava, lazyeval, leaps, LearnBayes, libcoin, lme4, lmtest, lsr, lubridate, magrittr, manipulate, manipulateWidget, maptools, markdown, MASS, Matrix, MatrixModels, mclust, memoise, methods, mgcv, mice, mime, miniUI, minqa, misc3d, Mkmisc, mnormt, ModelMetrics, modeltools, moments, multcomp, multicool, munsell, mvtnorm, nlme, nloptr, nnet, numDeriv, OceanView, oii, openssl, pander, parallel, party, partykit, pbapply, pbkrtest, philentropy, pillar, pkgconfig, plogr, plot3D, plot3Drgl, plsdepot, plyr, polspline, prabclus, prettyunits, prodlim, progress, pscl psy, psych, purr, quadprog, quantmod, quantreg, questionr, qvcalc, R2HTML, R6, randomForest, rapportools, raster, RColorBrewer, Rcpp, RcppArmadillo, RcppEigen, RcppRoll, readr, recipes, relimp, reshape, reshape2, ResourceSelection, rgl, rJava, rlang, rms, robustbase, ROCR, rpanel, rpart, Rserve, Rsolnp, rstudioapi, rugarch, Runit, sandwich, scales, scatterplot3d, sfsmisc, shape, shiny, shinyjs, SkewHyperbolic, sourcetools, sp, SparseM, spatial, SpatialEpi, spd, spData, spde, splines, SQUAREM, stats, stats4, stringi, stringr, strucchange, survey, survival, tcltk, testit, TH.data, tibble, tidyr, tidyselect, timeDate. tkrplot, tools, tree, trimcluster, truncnorm, tseries, TTR, unmarked, utf8, utils, vcd, vcdExtra, VGAM, VIM, viridis, viridisLite, whisker, withr, xtable, xts, yaml, zoo

12

Page 13: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

01 Rex 소개

Rex 설치

3. Rex 설치하기

• 엑셀 종료 필수 (단, R은 실행하고 있어도 무방)

• Rex 설치 파일 압축을 풀면 아래와 같이 세 개의 파일이 나타남.

이 중, setup 파일을 관리자 권한으로 실행.

Rex 설치 순서

1 2 3

R 설치

R 패키지 설치

Rex 설치

13

Page 14: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

01 Rex 소개

Rex 설치

3. Rex 설치하기

• setup 파일을 실행하면 다음과 같은 창이 나타나면 설치메뉴를 클릭하면 됨.

• Rex 재설치 혹은 업데이트 하는 경우 다음의 순서로 진행해야 함: R 패키지 설치 → Rex 설치

Rex 설치 순서

1 2 3

R 설치

R 패키지 설치

Rex 설치

14

Page 15: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

설치 실패 1

– 「‘type’ 속성 값을 구문 분석할 수 없습니다 .」

라는 에러 메시지가 출력되며 설치에 실패하는

경우

[해결방법]

– 에러 메세지에 출력된 경로의

VSTOInstaller.exe.Config 파일 삭제

15

01 Rex 소개

Rex 에러와 대처방법

설치 실패 2

– 「일반 설치 관리자 오류로 인해 다음 Microsoft

Office 솔루션을 설치할 수 없습니다.

Rex.vsto.」라는 에러 메시지가 출력되며 설치

에 실패하는 경우

[해결방안]

– Rex 설치파일 (setup.exe)을 관리자 권한으로

실행하여 설치

– 해결되지 않을 경우 재부팅 후 위 방법 재시도

– 재부팅 후에도 설치가 되지 않을 경우,

다음 링크로부터 닷넷 프레임워크 4.5 설치 후

위 방법 재시도

https://www.microsoft.com/ko-

kr/download/details.aspx?id=30653

Page 16: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

설치 실패 3

– 「신뢰할 수 없는 인증서 메시지」 가 출력되며

설치에 실패하는 경우

[해결방법]

① 에러메세지 경로의 VSTOInstaller.exe.Config 파일 삭제

② Rex 설치파일 (setup.exe) 마우스 우클릭 → 속성 → 디지털 서명

③ 자세히 → 인증서 보기 → 인증서 설치

④ 현재 사용자 → 모든 인증서를 다음 저장소에 저장

⑤ 찾아보기 → 신뢰할 수 있는 루트 인증기관 선택 → 마침

⑥ 이후 재설치

16

01 Rex 소개

Rex 에러와 대처방법

Page 17: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

R과 연결 실패

– 설치는 잘 되었으나, 「R과 연결될 수 없습니다.」 라는 에러 메지시가 출력되는 경우

[해결방법]

① R 관리자 권한으로 실행

② R console 창에서 source(http://goo.gl/ZNEFj1) 수행 후 재시도

만약 해결되지 않을 경우 백신 프로그램의 차단 문제

① 라이브러리 경로 : C:\Program Files\R\<R 버전>\library\에서 Rserve 디렉토리를 찾아서 삭제

② R을 관리자권한으로 실행한 후 R console 창에서 source(http://goo.gl/ZNEFj1) 재시도

③ 백신 홈페이지에 접속하여 화이트리스트로 Rserve를 등록해야 함.

17

01 Rex 소개

Rex 에러와 대처방법

Page 18: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

엑셀에서 Rex 메뉴가 이탈하는 경우

– 엑셀의 메뉴바에 Rex 메뉴탭이 생성되지 않는 경우

[해결방법 (일회성)]

– 엑셀의 다음 메뉴를 순서대로 클릭함

파일 옵션 → 추가기능 → COM 추가기능 → 이동 → REx 추가

– 위 방법은 엑셀을 실행하여 REx를 실행하기를 원할 때마다 반복해야 하는 단점이 있음.

18

01 Rex 소개

Rex 에러와 대처방법

1

2

3

5

4

Page 19: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

엑셀에서 Rex 메뉴가 이탈하는 경우

– 엑셀의 메뉴바에 Rex 메뉴탭이 생성되지 않는 경우

[해결방법 (영구적)]

– 다음 순서대로 진행

Rex 제거 → 컴퓨터 재부팅 → Rex 설치

– 위 방법으로 해결되지 않을 경우 다음 순서대로 진행

엑셀 제거 → Rex 제거 → 컴퓨터 재부팅 → 엑셀 설치 → Rex 설치

19

01 Rex 소개

Rex 에러와 대처방법

Page 20: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

Rex가 잘 설치된 경우

– 엑셀 실행 시, 다음과 같은 문구가 출력됨

「추가 기능 로드 중 Rex」

– 엑셀의 메뉴바에 REx라는 탭이 생성됨

01 Rex 소개

Rex 사용하기

Rex 연결

– 연결 메뉴를 클릭하여, R과 연결되어야 분석 메

뉴들이 활성화됨

– R과 연결된 경우 팝업 메시지

클릭

20

Page 21: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

데이터 구성

1. 각 변수의 이름

– 첫 행은 각 변수의 이름으로 구성되어야 함.

– 첫 행이 공백으로 되어 있는 경우,

해당 변수의 관측값은 분석에서 제외됨.

– 변수 명은 반드시 영문으로 시작해야 하며,

숫자는 영문 뒤에 따라올 수 있음.

또한 특수문자는 변수명에 사용할 수 없음.

2. 결측값

– 공백, NA

– #NUM!, #VALUE!

21

01 Rex 소개

Rex 데이터 준비하기

[ 변수 이름 ]

[ 결측값 ]

Page 22: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

22

01 Rex 소개

Rex 데이터 준비하기

• 엑셀 데이터를 R의 object로 변환하여 저장할 수 있음.

• 저장된 R object의 이름은 rexdata이며 R을 실행하여 확인 가능함.

R 데이터로 저장

클릭

Page 23: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

확률분포

– Rex는 13개의 연속형 확률분포, 5개의 이산형 확률분포를 지원함

23

01 Rex 소개

Rex 기능 소개

정규분포 t 분포 카이제곱분포 지수분포 F 분포

베타분포 코쉬분포 균등분포

로그정규분포 감마분포 와이블분포

로지스틱분포 굼벨분포

이항분포 포아송분포 기하분포

초기하분포

음이항분포

Page 24: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

랜덤샘플링

– 확률분포로부터 랜덤샘플링 수행할 수 있음.

– 샘플링 순서 : 엑셀에서 블록 지정 ▶ 분포 선택 ▶ 모수 설정 및 실행

24

01 Rex 소개

Rex 기능 소개

[ 정규분포 랜덤샘플링 예 ]

Page 25: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

다양한 분석 모듈

25

01 Rex 소개

Rex 기능 소개

기술 통계

그룹비교 회귀분석 상관 분석

범주형 자료분석

분류 분석

차원 축소

시계열 분석

생존분석 비모수분석

데이터요약

평균비교

일표본 t검정

선형 회귀분석

이변량상관

분할표 분석

비지도학습

K-평균 군집

요인 분석

시계열 자료탐색

생명표

위치 문제

1-표본

독립표본t

검정 가중선형회귀분석

편상관 로그선형분

석 계층적 군

집 대응일치

분석 지수

평활법 Kaplan-Meie

r 2-독립

표본

대응표본t

검정 편최소 제곱

거리 측도

DBSCAN 주성분 분석

ARIMA 모형

Cox 비례위험모형

2-대응 표본

일원배치분산분석

이분형 로지스틱

PAM 군집 GARCH

모형

k-독립 표본

다변량

분산분석 다항

로지스틱

지도학습

의사결정나무

k-대응 표본

비율비교

일표본 비율검정

포아송 회귀분석

판별분석 분포문제

1-표본

이표본

비율검정 2-단계 최

소제곱

K최근접이웃기법

2-표본

분산비교

등분산 검정

반복측정회귀분석

SVM 런검정

다변량

회귀분석

Page 26: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

그래픽스

– 12가지 종류의 그래픽스 제공

– 그래프 제목, x/y축의 이름, 눈금 값, 범례 등 세밀

한 조정 가능

– 간단한 통계분석 결과를 그래프에 표시 가능

– 다양한 그래프를 조합하여 구성 가능

– 다양한 이미지 저장 형식 (png, tiff, jpeg등) 지원

26

01 Rex 소개

Rex 기능 소개

Index plot

Dot plot Histogram plot Density plot

Box plot

QQ plot Scatter plot Scattermatrix plot

XY plot

Mean plot Bar plot Pie plot

Page 27: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

27

01 Rex 소개

Rex를 활용한 분석 예

기술통계량

– 예시 데이터 : examdata.xlsx의 birth 데이터시트

Page 28: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

28

01 Rex 소개

Rex를 활용한 분석 예

기술통계량

html로 결과 저장 가능 결과창의 그림 및 표를 복사하려면 먼저 html로 저장된 파일을 이용할 것

바로가기 가능 각 분석 제목 추가 및 편집 가능

Page 29: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

Rex 배포버전

– 2018.01.01 Rex v1.0 배포

– 2018.04.01 Rex v2.0 배포

– 2018.11.01 Rex v3.0 배포

– 2019.01.01 Rex-E 1.0 배포

29

01 Rex 소개

Rex 개발 일정

Page 30: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

통계분석

1. 생존분석: Cox 비례위험모형

– Proportional Hazard (비례위험) 가정 검

정통계량 추가

– Martingale residual plot 추가

– 기타 에러 수정

30

01 Rex 소개

Rex ver2.0 추가기능

그래픽스

– 공통: 집단 변수 설정 시 기본 색상 변경

– 공통: 그래프 제목 / 축 제목 / 축 좌표 글자 크기 조

– 산점도 행렬: 히스토그램/밀도추정 그림 색상 변경

오류 수정 및 그림 투명도 변경. 집단변수 설정시

박스그림을 수준별로 제공

– 색인그림: index 글자크기 조정

– 박스그림: 평균 표기 기능 및 dotplot/jitter 그림

추가

– 평균그림: upper error bar 기능 추가

– 막대그림: 데이터가 없는 수준 막대 너비가 일정하

도록 수정

– 원형표: 빈도수 표기 에러 수정 및 글자크기 조정

Page 31: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

통계분석

1. 분류분석

지도학습 의사결정나무, 판별분석,

K최근접이웃기법, 서포트벡터머신

2. 회귀분석

편최소제곱, 2단계최소제곱, 다변량선형회귀,

반복측정회귀

3. 차원축소

요인분석, 대응일치분석, 주성분분석

31

01 Rex 소개

Rex ver3.0 추가기능

그래픽스

1. 해상도/폰트 크기 설정

2. 그래프를 조합 기능 추가

– Histogram + Boxplot

– Dendrogram + Heatmap

3. 보조 y축 추가, 연속형 변수의 값을 색상이나

크기로 표현

4. 간단한 통계 분석 결과 그래프에 반영

5. 다양한 파일 확장자 제공

Page 32: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

M a k e A n a l y s i s F a s t a n d E a s y

02 Rex를 활용한 자료탐색

32

Page 33: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

통계학 (Statistics)

– 수치자료를 수집, 정리, 기술, 분석하고, 그 결과를 해석하는 규칙과 절차를 연구하는 학문

모집단과 표본

– 모집단 (population) : 대상이 되는 모든 개체의 집단

– 표본 (sample) : 모집단에서 조사대상으로 추출된 일부

모수와 통계량

– 모수 (parameter) : 모집단의 특성을 수치로 나타낸 것

– 통계량 (statistic) : 표본의 특성을 수치로 나타낸 것

02 Rex를 활용한 자료탐색

통계학

모집단 (population)

표본 (sample)

모집단의 특성 : 모수

표본의 특성 : 통계량

Page 34: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

02 Rex를 활용한 자료탐색

통계학

기술통계학 추론통계학

• 수집한 자료의 특성을 적절히 묘사 하기 위해 자료의 정리, 요약, 계산, 기술하는 방법과 관련된 통계학

• 모집단에서 추출한 표본을 분석 하여 모집단의 특성을 유추하고 일반화하는 통계학

• 2015년 상반기 건강검진을 받은 사람들의 신체측정수치

• 2015년 상반기 건강검진을 받은 사람들 중 성별 비교

• 빈도, 백분율 • 평균, 표준편차 • 그래프, 상관계수

• T-검정, 분산분석 • 회귀분석 등 • 모수적 / 비모수적 방법으로 분류

방법

VS

정의

Page 35: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

데이터의 정의

– 어떠한 과학적 결론을 내리는 데 있어서 근거가 될 수 있는 모든 사실을 통칭

– 숫자, 문자, 화상, 소리 등의 여러 가지 형태로 표현 가능

– 통계적 자료분석에서는 일반적으로 어떤 사실을 숫자로 표현한 자료인 수치자료를 대상

02 Rex를 활용한 자료탐색

자료의 유형

자료(Data)

범주형(이산형) 자료 (Categorical Data)

연속형 자료 (Continuous Data)

명목자료 (Nominal Data)

순서자료 (Ordinal Data)

구간자료 (Interval Data)

비율자료 (Ratio Data)

정성적 자료 (Qualitative or Nonmetric Data)

정량적 자료 (Quantitative or Metric Data)

* James P. Stevens, 1946

Page 36: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

명목자료

– 측정대상의 특성을 분류하거나 확인할 목적으로

숫자를 부여하는 자료

– 측정대상을 집단으로 분류하는 방법으로 동일한

집단에 속한 대상을 동일한 값을 갖도록 분류

– 명목자료는 가감승제 등 일체의 수학적인 계산이

불가능

– 서로 간에 자료의 값을 바꾸어도 무방

36

02 Rex를 활용한 자료탐색

자료의 유형

순서자료

– 측정대상간의 순서관계를 나타내는 자료

– 특성의 많고 적은 또는 서열에 따라 측정대상들

에 수치 부여

– 수치를 부여할 경우 일반적으로 긍정적인 의견

에 높은 수치를 부여하며, 부정적인 의견에 낮은

수치부여

예시 자료값

성별 남자 = 1, 여자 = 2

직업 회사원 = 1, 공무원 = 2, 자영업 = 3, 학생 = 4, 무직 = 5

수학적 의미 A=B 또는 A≠B

예시 자료값

건강상태 나쁨 = 1, 보통 = 2, 양호 = 3

지지도 적극찬성 = 2, 약간찬성 = 1, 모르겠음 = 0, 약간반대 = -1, 적극반대 = -2

수학적 의미 A>B, A=B, A<B

Page 37: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

구간자료

– 측정대상이 갖고 있는 속성의 양적인 정도의 차이

에 따라 등간격으로 수치 부여

– 해당 속성이 전혀 없는 상태인 절대적 원점

(absolute zero)이 존재하지 않으며 비율이 없는

자료. 예를 들어 섭씨와 화씨온도는 서로 다른 임

의의 ‘0’점을 가지고 있지만, 실제로 ‘0’라는 양을

의미하거나 온도가 없다는 것을 의미하지 않음

37

02 Rex를 활용한 자료탐색

자료의 유형

비율자료

– 비율자료는 구간자료가 갖는 특성에 추가로 절

대적 원점(absolute zero)이 존재

– 비율계산이 가능한 자료

– 명목자료 < 순서자료 < 구간자료 < 비율자료 순

으로 자료가 갖고 있는 정보의 수준이 높아지며,

보다 정밀한 분석방법이 적용 가능

예시 자료값

온도(섭씨) 0 ⁰C 50 ⁰C 100 ⁰C

온도(화씨) 32 ⁰F 122 ⁰F 212 ⁰F

수학적 의미 (A-B)+(B-C)=A-C성립

예시 자료값

체중 50kg, 100kg

가격 100원, 500원, 1000원

수학적 의미 A=KB, B=LC이면 A=KLC (단, K, L ≠ 0)

Page 38: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

02 Rex를 활용한 자료탐색

샘플링의 개념

38

Page 39: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

전수조사 혹은 총조사 (census) vs.

표본조사 (sampling survey)

– 전수조사가 불가능하거나 혹은 더 정확하지 않

을 수도 있음 (Census is not always more

accurate.)

39

02 Rex를 활용한 자료탐색

샘플링의 개념

대상모집단(target population)

and 추출모집단(sampling

population)

– 두 모집단이 다른 경우 통계 분석의 결과를 신뢰

할 수 없음.

Page 40: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

표본오차 (sampling error)

– 모집단으로부터 표본을 추출할 때 생기는 자연

발생적인 변동

40

02 Rex를 활용한 자료탐색

샘플링의 개념

비표본오차 (non-sampling

error)

– 표본오차 이외의 오차, 대상모집단과 추출모집

단의 차이를 나타냄.

– 설문지 결함

– 무응답오차

– 기타 (조사원 불성실, 조사단위의 누락, 자료처

리 과정에서의 오류 등), 등

Page 41: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

모집단 (population)

– 연구의 궁극적 목표

– 각각의 구성 인자로 이루어진 집단

– 유한, 혹은 무한

41

02 Rex를 활용한 자료탐색

모집단과 표본

표본 (sample)

– 모집단을 전수조사하는 것이 적당하지 않다면

표본을 뽑아야 함

– 표본을 과학적으로 추출하는 것이 매우 중요함

2( , )N

1, , nY YL

1

1 n

i

i

Y Yn

2 2

1

1( )

1

n

i

i

S Y Yn

Page 42: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

모수 (parameter)

– 가정한 모형 혹은 분포의 통계적인 속성을 나타내는 상수

42

02 Rex를 활용한 자료탐색

모집단과 표본

y = a + b x

Page 43: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

기술통계량의 예

02 Rex를 활용한 자료탐색

기술통계량

평균(mean)

기술통계량 (요약값)

중심경향값 (대표값)

산포도 (분산도)

분포도

중위수(median)

최빈값(mode)

표준편차(std dev.)

분산(variance)

범위(range)

사분위범위(IQR)

왜도(skewness)

첨도(kurtosis)

분포의 중심

분포의 퍼짐 정도

분포의 모양

Page 44: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

표본평균 (sample mean)

– 𝑋1, 𝑋2, ⋯ , 𝑋𝑛 이 확률표본일 때 표본평균은 𝑋

로 표시하며, 다음과 같이 정의됨

𝑋 =1

𝑛 𝑋𝑖

𝑛

𝑖=1

– 장점 : 수학적으로 다루기 편하고 계산이 쉬움

– 단점 : 극단값(extreme value)에 대하여 민감

하기 때문에 몇 개의 극단값만 있어도 표본의

– 크기가 작을 경우 대표값으로서 기능 상실

44

02 Rex를 활용한 자료탐색

자료의 요약 : 중심경향값

중위수 (median)

– 자료의 순서통계량을 𝑋(𝑖) (𝑖 = 1, 2,⋯ , 𝑛) 로

표현하면 𝑋(1) < 𝑋(2) < ⋯ < 𝑋(𝑛) 이고, 이 때

중위수 𝑀은 다음과 같이 정의됨

𝑀 =

𝑋 𝑛+12

, 𝑛이 홀수일 때

𝑋 𝑛2+ 𝑋

(𝑛2+1)

2, 𝑛이 짝수일 때

– 극단값에 민감하지 않은 특성을 가짐

[예] 어느 마을의 일곱 가구의 월소득(단위 : 만원)

[ 48, 49, 51, 52, 54, 56, 1500 ]

▶ 평균 : 258.6

▶ 중위수 : 52

Page 45: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

최빈값 (mode)

– 빈도가 가장 많은 관측값

– 최빈값은 대표값으로 단독으로 사용하기에는 부족하므로, 대체적으로 평균이나 중위수의 보조용으로 사용

– 최빈값은 존재하지 않을 수도 있고 존재한다 하더라도 유일하지 않을 수 있음

45

02 Rex를 활용한 자료탐색

자료의 요약 : 중심경향값

[예] [ 2, 3, 5, 8, 7, 9 ] ▶ 최빈값 없음

[예] [ 2, 3, 6, 6, 6, 6, 7, 8, 9, 9, 9, 9 ] ▶ 최빈값 (6과 9) 이 유일하지 않은 경우

[예] [ 1, 3, 7, 8, 8, 8, 9, 10, 10 ] ▶ 최빈값 (8) 이 하나인 경우

Page 46: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

산포 (variation)

– (표본)분산과 (표본)표준편차: 분산과 표준편차

는 분포의 퍼짐정도를 나타내며 다음과 같이 정

의됨

𝑆2 = 1

𝑛−1 (𝑋𝑖−𝑋 )

2 , 𝑛𝑖=1 𝑆 = 1

𝑛−1 (𝑋𝑖−𝑋 )

2𝑛𝑖=1

– 범위(range): 가장 단순한 분산도로 다른 분산

도의 보조용으로 쓰이며 관측값의 최대값에서

최소값을 뺀 값

– 사분위범위(interquartile range): 상위25%,

하위25%의 관측값을 제외하고 구한 범위 값

46

02 Rex를 활용한 자료탐색

자료의 요약 : 산포도

변동계수 (Coefficient of Variation)

– 𝐶𝑉 = 𝑆

𝑋

– 서로 다른 그룹 사이에 변동을 비교하는 경우에

사용함.

– 예를 들어, 다음 두 그룹의 표준편차는 동일하다.

그러나 평균을 고려했을 때 변동이 유사하다고

볼 수 없다

집단 1 집단 2

연령(세) 25세 11세

평균체중 145파운드 80파운드

표준편차 10파운드 10파운드

변동계수 10/145*100 = 6.9 (%)

10/80*100 =12.5 (%)

Page 47: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

왜도 (skewness)

– 분포의 비대칭의 정도를 표현

– 𝑆𝑘 = 𝑛

(𝑛−1)(𝑛−2)

(𝑋𝑖−𝑋 )

𝑆3𝑛𝑖=1 (𝑆 ∶ 표본표준편차)

1) 𝑆𝑘 < 0 : 음수(negative skew), 왼쪽으로 긴 꼬리(skewed left)

2) 𝑆𝑘 = 0 : 좌우대칭

3) 𝑆𝑘 > 0 : 양수(positive skew), 오른쪽으로 긴 꼬리(skewed right)

47

02 Rex를 활용한 자료탐색

자료의 요약 : 분포도

SK < 0 SK = 0 SK > 0

SK < 0 SK > 0

Page 48: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

첨도 (kurtosis)

– 분포의 비대칭의 정도를 표현

– 𝐾𝑠 = 𝑛(𝑛+1)

(𝑛−1)(𝑛−2)(𝑛−3)

(𝑋𝑖−𝑋 )4

𝑆4 −

3(𝑛−1)2

(𝑛−2)(𝑛−3)

𝑛𝑖=1 (𝑆 ∶ 표본표준편차)

1) 𝐾𝑠 < 0 : 정규분포보다 납작

2) 𝐾𝑠 = 0 : 정규분포와 뾰족함이 동일

3) 𝐾𝑠 > 0 : 정규분포보다 뾰족

48

02 Rex를 활용한 자료탐색

자료의 요약 : 분포도

0SK

0SK

0SK

Page 49: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

(표본) 분위수

– 백분위수: 총값의 백분율이 해당 값보다 작거

나 같은 측정치. 예를 들어 90%백분위수 데이

터 값의 90%에 위치하는 값을 의미함.

– 사분위수: 데이터 테이블 또는 데이터 테이블

의 일부를 거의 균등한 관찰값 수를 포함하는 4

개의 그룹으로 나눈 값. 1사분위수: 25%, 2사

분위수:50%, 3사분위수:75%, 4 사분위

수:100%.

– [예] 관측값이 24, 25, 26, 27, 30, 32, 40,

44, 50, 52, 55, 57일 때, 사분위수는?

▶ 1사분위수: 26.5

▶ 2사분위수: 36

▶ 3사분위수: 51

49

02 Rex를 활용한 자료탐색

자료의 요약 : 분포도

QQ그림

– 분위수-분위수 그림 (quantile-quantile plot)

– 데이터의 분포를 확인하는데 주로 확인됨.

– 표본분위수 (y축) vs 모분위수 (x축)

– [예] 정규분포를 활용하여 분위수-분위수 그림

을 그렸을 때

Page 50: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

examdata.xlsx에서 시트명 ‘birth’ 데이터에서 출생체중, 제태주수, 산모나이에

대한 기술통계량을 계산하시오.

– 출생체중 : bweight

– 제태주수 : gest_wks

– 산모나이 : matage

50

02 Rex를 활용한 자료탐색

자료 탐색하기

N.observed

N.missing

Mean Median

Min Max Q1 Q3 Range Sum SD Variance

Skewness

se(Skew)

Kurtosis

se(Kurtosis)

CV

bweight

500 0 3136.8840

3188.500

628.00

4553.00

2862.00

3551.25

3925.00

1568442.00

637.4515

406344.3953

-0.986

0.1092

1.9934

0.2180

0.2032

gestwks

500 10 38.7219

39.125

24.69 43.16 37.94 40.09 18.47 18973.71

2.3142

5.3554

-2.1769

0.1103

7.4207

0.2202

0.0598

matage

500 0 34.0280

34.000

23.00 43.00 31.00 37.00 20.00 17014.00

3.8979

15.1936

-0.2331

0.1092

-0.5230

0.2180

0.1145

Page 51: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

examdata.xlsx에서 시트명 ‘birth’ 데이터에서 출생체중, 제태주수, 산모나이에

대한 줄기-잎 그림 (stem-leaf plot)을 그려보세요.

– 출생체중 : bweight

– 제태주수 : gest_wks

– 산모나이 : matage

51

02 Rex를 활용한 자료탐색

자료 탐색하기

Page 52: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

examdata.xlsx에서 시트명 ‘birth’ 데이터에서 출생체중, 제태주수, 산모나이에

대한 분위수-분위수 그림을 그려보세요.

– 출생체중 : bweight

– 제태주수 : gest_wks

– 산모나이 : matage

52

02 Rex를 활용한 자료탐색

자료 탐색하기

Page 53: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

examdata.xlsx에서 시트명 ‘ concentration’ 데이터에서 관측값의 기술통계량

을 계산하고, 막대그림과 QQ그림을 통해 분포를 확인하시오.

53

02 Rex를 활용한 자료탐색

자료 탐색하기

N.observed

N.missing

Mean

Median

Min Max

Q1 Q3 Range

Sum

SD Variance

Skewness

se(Skew)

Kurtosis)

se(Kur)

CV

concentration

25 0 1.7304

1.12 0.28 6.94 0.67 2.27 6.66 43.26 1.5312

2.3446

1.7800

0.4637

3.4785

0.9017

0.8849

Page 54: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

examdata.xlsx에서 시트명 ‘ concentration’ 데이터에서 관측값의 로그변환값

에 대한 기술통계량과 막대그림, QQ그림을 작성하시오.

54

02 Rex를 활용한 자료탐색

자료 탐색하기

N.observed

N.missing

Mean

Median

Min Max

Q1 Q3 Range

Sum

SD Variance

Skewness

se(Skew)

Kurtosis)

se(Kur)

CV

Log(con)

25 0 0.0916

0.06 -0.55 0.84 -0.17 0.36 1.39 2.29 0.3721

0.1385

0.0114

0.4637

-0.8027

0.9017

4.0627

Page 55: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

색인그림이란?

– 연속형 변수의 값을 데이터 관측 순서대로 보여주는 그래프

55

02 Rex를 활용한 자료탐색

색인그림 (Index Plot)

입력 UI 결과 그래프

Page 56: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

색인그림 옵션

– 스타일: 점, 혹은 선으로 데이터를 표현함

56

02 Rex를 활용한 자료탐색

색인그림 (Index Plot)

입력 UI 결과 그래프

Page 57: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

색인그림 옵션

– 점: 스타일을 포인트로 정했을 때, 점의 유형을 결정

57

02 Rex를 활용한 자료탐색

색인그림 (Index Plot)

입력 UI 결과 그래프

Page 58: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

색인그림 옵션

– 색상: 그래프의 점, 선의 색깔을 변경

58

02 Rex를 활용한 자료탐색

색인그림 (Index Plot)

입력 UI 결과 그래프

Page 59: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

색인그림 옵션

– 선: 선 모양 및 굵기 조절

59

02 Rex를 활용한 자료탐색

색인그림 (Index Plot)

입력 UI 결과 그래프

Page 60: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

색인그림 옵션

– 포인트정보확인: 상위 n개 관측값의 index를 표시

60

02 Rex를 활용한 자료탐색

색인그림 (Index Plot)

입력 UI 결과 그래프

Page 61: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

색인그림 옵션

– 그림이름표: 그래프 제목, X축/Y축 이름표 변경

61

02 Rex를 활용한 자료탐색

색인그림 (Index Plot)

입력 UI 결과 그래프

Page 62: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

색인그림 옵션

– 그림크기: 그림의 크기/글자크기(해상도)조절

62

02 Rex를 활용한 자료탐색

색인그림 (Index Plot)

입력 UI 결과 그래프

Page 63: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 출생순서에 따른 제태주수(gestwks)의 변화를 확인하고

자 한다. 다음 조건 하에서 적절한 그림을 그리시오.

– 색인그림 이용

– 삼각형 모양의 점(▲) 표기 / 점크기 : 2 / 점색상 : 오렌지

– 상위 3개의 index 표기 / 글자크기는 10

– 그래프 제목 : 출생순서에 따른 제태주수 분포

– x축 이름 : 출생순서

– y축 이름 : 제태주수 (week)

63

02 Rex를 활용한 자료탐색

색인그림 (Index Plot)

Page 64: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

점그림이란?

– 분포를 확인하기 위해 각 구간 별로 관측값을 점으로 쌓아 올린 그래프

64

02 Rex를 활용한 자료탐색

점그림 (Dot Plot)

입력 UI 결과 그래프

Page 65: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

점그림 옵션

– 구간의 수: 구간의 수 조정

65

02 Rex를 활용한 자료탐색

점그림 (Dot Plot)

입력 UI 결과 그래프

Page 66: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

점그림 옵션

– 집단변수: 집단변수 수준 별로 구분하여 그래프 생성. 기본값은 집단분할임

66

02 Rex를 활용한 자료탐색

점그림 (Dot Plot)

입력 UI 결과 그래프

Page 67: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

점그림 옵션

– 범례: 범례의 위치 설정

67

02 Rex를 활용한 자료탐색

점그림 (Dot Plot)

입력 UI 결과 그래프

Page 68: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

점그림 옵션

– 색상: 점의 색깔 조정. 집단변수 설정 시 변수의 수준이 콤보 박스에 나타남

68

02 Rex를 활용한 자료탐색

점그림 (Dot Plot)

입력 UI 결과 그래프

Page 69: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

구간 내의 데이터 개수가 늘어나면, 점들이 그래프 밖으로 벗어나는데, 이때 방법은?

– A1. 그래프의 세로 크기를 늘린다.

– A2. 구간의 수를 크게 한다.

69

02 Rex를 활용한 자료탐색

점그림 (Dot Plot)

Page 70: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 성별에 따른 제태주수(gestwks)의 분포를 확인하고자 한

다. 다음 조건 하에서 적절한 그림을 그리시오.

– 점그림 이용

– 변수 : gestwks / 집단변수 : sex

– 구간의 수 : 60

– 집단별 분할

– 그래프제목 : 성별 제태주수 분포

– x축 이름표 : 제태주수 (week)

– 그림크기 : 가로크기 600px / 세로크기 800px / 해상도 : 300 dpi

– 점색상 : 남자(sex=1) 하늘색, 여자(sex=2) 분홍색

70

02 Rex를 활용한 자료탐색

점그림 (Dot Plot)

Page 71: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

히스토그램이란?

– 데이터의 분포를 확인할 수 있는 히스토그램을 그릴 수 있음

71

02 Rex를 활용한 자료탐색

히스토그램 (Histogram)

입력 UI 결과 그래프

Page 72: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

히스토그램 옵션

– 그림 선택기능: 구간의 수(구간의 수 조정), 축 크기조정 (빈도수 및 밀도 선택)

72

02 Rex를 활용한 자료탐색

히스토그램 (Histogram)

입력 UI 결과 그래프

Page 73: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

히스토그램 옵션

– 집단기준: 집단변수가 설정된 경우 수준별로 그래프를 분할하여 그림

73

02 Rex를 활용한 자료탐색

히스토그램 (Histogram)

입력 UI 결과 그래프

Page 74: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 성별에 따른 제태주수(gestwks)의 분포를 확인하고자 한

다. 다음 조건 하에서 적절한 그림을 그리시오.

– 히스토그램 이용

– 변수 : gestwks / 집단변수 : sex

– 구간의 수 : 지정 안함 (자동계산)

– 병렬적으로 / 축 크기 : 빈도수 기준

– 그래프제목 : 성별 제태주수 분포

– x축 이름표 : 제태주수 (week)

– y축 이름표 : 빈도 (명수)

– 범례 위치 : 오른쪽

– 그림크기 : 가로크기 600px / 세로크기 800px / 해상도 : 150 dpi

– 점색상 : 남자(sex=1) 하늘색, 여자(sex=2) 분홍색

74

02 Rex를 활용한 자료탐색

히스토그램 (Histogram)

Page 75: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

밀도추정그림이란?

– 데이터의 분포를 확인할 수 있는 히스토그램을 그릴 수 있음

75

02 Rex를 활용한 자료탐색

밀도추정그림 (Density Estimation Plot)

입력 UI 결과 그래프

Page 76: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

밀도추정그림 옵션

– Kernel: 밀도추정에 사용되는 kernel함수 결정

76

02 Rex를 활용한 자료탐색

밀도추정그림 (Density Estimation Plot)

입력 UI 결과 그래프

Page 77: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

밀도추정그림 옵션

– 대역폭: 밀도추정에 사용되는 kernel함수 결정

77

02 Rex를 활용한 자료탐색

밀도추정그림 (Density Estimation Plot)

입력 UI 결과 그래프

Page 78: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

밀도추정그림 옵션

– 색상: 밀도함수의 아래 면적을 채움. 선 색상에 알파 채널 값을 적용

78

02 Rex를 활용한 자료탐색

밀도추정그림 (Density Estimation Plot)

입력 UI 결과 그래프

Page 79: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

밀도추정그림 옵션

– 집단기준: 집단변수가 설정된 경우 수준별로 그래프를 분할하여 그림

79

02 Rex를 활용한 자료탐색

밀도추정그림 (Density Estimation Plot)

입력 UI 결과 그래프

Page 80: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 성별에 따른 제태주수(gestwks)의 분포를 확인하고자 한

다. 다음 조건 하에서 적절한 그림을 그리시오.

– 밀도추정그림 이용

– 변수 : gestwks / 집단변수 : sex

– 커널 : 가우시안 / 대역폭 : nrd0 / 밀도기준

– 개별적으로

– 그래프제목 : 성별 제태주수 분포

– x축 이름표 : 제태주수 (week)

– y축 이름표 : 확률밀도

– 범례 위치 : 아래

– 그림크기 : 가로크기 600px / 세로크기 600px / 해상도 : 150 dpi

– 색상 : 남자(sex=1) 하늘색, 여자(sex=2) 분홍색 / 투명도 : 0.5

80

02 Rex를 활용한 자료탐색

밀도추정그림 (Density Estimation Plot)

Page 81: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

박스그림이란?

– 데이터의 범위와 중앙값 (median), 이상치 (outlier)를 쉽게 확인 가능

81

02 Rex를 활용한 자료탐색

박스그림 (Box Plot)

Q3 (3rd quantile)

Median

Q1 (1st quantile)

IQR = Q3 – Q1

1.5 × IQR or Min

Outliers

1.5 × IQR or Max

Page 82: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

박스그림이란?

– 데이터의 범위와 중앙값 (median), 이상치 (outlier)를 쉽게 확인 가능

82

02 Rex를 활용한 자료탐색

박스그림 (Box Plot)

입력 UI 결과 그래프

Page 83: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

박스그림 옵션

– 집단기준: 집단 변수가 선언된 경우 변수의 수준별로 구분하여 그림

83

02 Rex를 활용한 자료탐색

박스그림 (Box Plot)

입력 UI 결과 그래프

Page 84: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

박스그림 옵션

– 데이터표기: 관측값을 박스그림에 표기함.

84

02 Rex를 활용한 자료탐색

박스그림 (Box Plot)

입력 UI 결과 그래프

Page 85: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

박스그림 옵션

– 평균 표기: 평균의 위치를 점으로 표기

85

02 Rex를 활용한 자료탐색

박스그림 (Box Plot)

입력 UI 결과 그래프

Page 86: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 성별에 따른 제태주수(gestwks)의 분포를 확인하고자 한

다. 다음 조건 하에서 적절한 그림을 그리시오.

– 박스그림 이용

– 변수 : gestwks / 집단변수 : sex

– 가로방향 / jitter로 데이터 표기 / 평균표기 안함

– 그래프제목 : 성별 제태주수 분포

– x축 이름표 : 제태주수 (week)

– y축 이름표 : 성별

– 범례 위치 : 없음

– 그림크기 : 가로크기 600px / 세로크기 600px

– 색상 : 남자(sex=1) 하늘색, 여자(sex=2) 분홍색

86

02 Rex를 활용한 자료탐색

박스그림 (Box Plot)

Page 87: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

QQ그림이란?

– 데이터의 분포(예를 들어 정규분포)를 따르는지 확인하는데 활용

87

02 Rex를 활용한 자료탐색

QQ그림 (QQ Plot)

입력 UI 결과 그래프

Page 88: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

QQ그림 옵션

– 분포: 5가지 분포 설정 및 해당 분포의 모수 설정 가능

88

02 Rex를 활용한 자료탐색

QQ그림 (QQ Plot)

입력 UI 결과 그래프

Page 89: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

QQ그림 옵션

– 예를 들어 다음과 같이 자유도가 4인 카이제곱을 따르는지 확인 가능

89

02 Rex를 활용한 자료탐색

QQ그림 (QQ Plot)

입력 UI 결과 그래프

Page 90: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 제태주수(gestwks)가 정규성을 따르는지 확인하고자 한

다. 다음 조건 하에서 적절한 그림을 그리시오.

– QQ그림 이용

– 변수 : gestwks

– 정규성 선택

– 사분위 직선 선택

– 선을 2번째 dash line으로 변경

– 그래프제목 : 제태주수의 QQ그림

– y축 이름표 : 제태주수 (week)

90

02 Rex를 활용한 자료탐색

QQ그림 (QQ Plot)

Page 91: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

산점도란?

– X축의 변수와 Y축 변수 사이의 연관성을 확인하는데 활용하는 그래프

91

02 Rex를 활용한 자료탐색

산점도 (Scatter Plot)

입력 UI 결과 그래프

Page 92: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

산점도 옵션

– 점구분하기 옵션: jitter 옵션은 해당 축의 관측값에 랜덤값을 더함

92

02 Rex를 활용한 자료탐색

산점도 (Scatter Plot)

입력 UI 결과 그래프

Page 93: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

산점도 옵션

– Marginal plot: 산점도의 위쪽, 오른쪽에 각 변수의 히스토그램 등 추가 가능

93

02 Rex를 활용한 자료탐색

산점도 (Scatter Plot)

입력 UI 결과 그래프

Page 94: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

산점도 옵션

– 보조선 옵션 및 점/직선 추가 옵션: 최소제곱선 등 보조선, 점/직선 추가 옵션

94

02 Rex를 활용한 자료탐색

산점도 (Scatter Plot)

입력 UI 결과 그래프

Page 95: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

산점도 옵션

– 집단변수 추가시: 집단변수의 수준별로 다른 색, 다른 점으로 표현 가능.

95

02 Rex를 활용한 자료탐색

산점도 (Scatter Plot)

입력 UI 결과 그래프

Page 96: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 성별에 따른 제태주수(gestwks)와 출생체중(bweight)

의 상관관계를 확인하고자 한다. 다음 조건 하에서 적절한 그림을 그리시오.

– 산점도 그림 이용

– x변수 : gestwks / y변수 : bweight / 집단변수 : sex

– 점구분하기 : y축 (jitter 0.25%)

– marginal plot : histogram (구간수 30)

– 보조선 : 최소제곱선 / 집단기준으로 선 그리기

– 그래프제목 : 성별에 따른 출생체중과 제태주수의 관계

– x축 이름표 : 제태주수 (week)

– y축 이름표 : 출생체중 (g)

– 범례 위치 : 아래

– 그림크기 : 가로크기 600px / 세로크기 600px

96

02 Rex를 활용한 자료탐색

산점도 (Scatter Plot)

Page 97: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

산점도행렬이란?

– X축의 변수와 Y축 변수 사이의 연관성을 확인하는데 활용하는 그래프

97

02 Rex를 활용한 자료탐색

산점도행렬 (Scatter Plot Matrix)

입력 UI 결과 그래프

Page 98: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

산점도행렬 옵션

– 보조선옵션: 보조선 추가 & 대각선에서옵션: 대각선 위치에 그래프 추가

98

02 Rex를 활용한 자료탐색

산점도행렬 (Scatter Plot Matrix)

입력 UI 결과 그래프

Page 99: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 성별에 따른 제태주수(gestwks), 산모나이(matage),

출생체중(bweight)의 상관관계를 확인하고자 한다. 다음 조건 하에서 적절한 그림

을 그리시오.

– 산점도 행렬 이용

– x변수 : gestwks, matage bweight / 집단변수 : sex

– 점구분하기 : y축 (jitter 0.25%)

– 대각선 : histogram (구간수 30)

– 보조선 : 평활선 / 집단기준으로 선 그리기

– 범례 위치 : 오른쪽

– 그림크기 : 가로크기 600px / 세로크기 600px

99

02 Rex를 활용한 자료탐색

산점도행렬 (Scatter Plot Matrix)

Page 100: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

XY그림이란?

– X축의 변수와 Y축 변수 사이의 연관성을 확인하는데 활용하는 그래프

100

02 Rex를 활용한 자료탐색

XY그림 (XY Plot)

입력 UI 결과 그래프

Page 101: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

XY그림 옵션

– Axis scale: 보조선 추가 & 대각선에서 옵션: 대각선 위치에 그래프 추가

101

02 Rex를 활용한 자료탐색

XY그림 (XY Plot)

입력 UI 결과 그래프

Page 102: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

XY그림 옵션

– 유형옵션, 배열옵션: 집단변수 설정 시 수준별그래프의 배열 및 유형을 결정

102

02 Rex를 활용한 자료탐색

XY그림 (XY Plot)

입력 UI 결과 그래프

Page 103: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 성별에 따른 출생체중(bweight)과 제태주수(gestwks),

산모나이(matage) 사이의 상관관계를 확인하고자 한다. 다음 조건 하에서 적절한

그림을 그리시오.

– XY그림 이용

– x변수 : gestwks, matage/ y변수: bweight

– 집단변수 : sex

– 점구분하기 : x, y축 (jitter 0.25%)

– 그래프제목 : 출생체중과의 관계

– X축이름표 : 변수 / Y축이름표 : 출생체중(g)

– 범례 위치 : 아래

– 그림크기 : 가로크기 600px / 세로크기 600px

103

02 Rex를 활용한 자료탐색

XY그림 (XY Plot)

Page 104: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

평균그림이란?

– 평균값과 그에 대한 여러 종류의 오차 막대를 나타내는 그림

104

02 Rex를 활용한 자료탐색

평균그림 (Mean Plot)

입력 UI 결과 그래프

Page 105: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

평균그림 옵션

– 스타일: 점 혹은 막대로 유형을 결정

105

02 Rex를 활용한 자료탐색

평균그림 (Mean Plot)

입력 UI 결과 그래프

Page 106: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

평균그림 옵션

– 오차막대 옵션: 신뢰구간 추가

106

02 Rex를 활용한 자료탐색

평균그림 (Mean Plot)

입력 UI 결과 그래프

Page 107: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

평균그림 옵션

– 점연결하기 옵션: 점을 선으로 연결하는 옵션

107

02 Rex를 활용한 자료탐색

평균그림 (Mean Plot)

입력 UI 결과 그래프

Page 108: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 성별에 따라 산모나이(matage)가 증가함에 따라, 출생체

중의 변화가 다른지 확인하고자 한다. 다음 조건 하에서 적절한 그림을 그리시오.

– 평균그림 이용

– x변수 : matage/ y변수: bweight

– 집단변수 : sex

– 스타일 :점 / 오차막대 : 신뢰구간 (95%)

– 점 연결하기

– 그래프제목 : 산모나이와 출생체중의 관계

– X축이름표 : 산모나이(세) / Y축이름표 : 출생체중(g)

– 범례 위치 : 아래

– 그림크기 : 가로크기 600px / 세로크기 600px

108

02 Rex를 활용한 자료탐색

평균그림 (Mean Plot)

Page 109: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

막대그림이란?

– 데이터에 존재하는 변수의 수준 별 빈도를 나타내는 그림

109

02 Rex를 활용한 자료탐색

막대그림 (Bar Plot)

입력 UI 결과 그래프

Page 110: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

막대그림 옵션

– 집단기준: 집단변수 설정 시 수준별로 그래프를 따로 표시함.

110

02 Rex를 활용한 자료탐색

막대그림 (Bar Plot)

입력 UI 결과 그래프

Page 111: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 성별에 따라 저출생(lowbw) 여부에 차이가 있는지 확인

하고자 한다. 다음 조건 하에서 적절한 그림을 그리시오.

– 막대그림 이용

– 변수 : lowbw / 집단변수 : sex

– 병렬적으로 / 세로

– 그래프제목 : 성별에 따른 저출생여부

– X축이름표 : 저출생여부 / Y축이름표 : 빈도(명)

– 범례 위치 : 오른쪽

– 그림크기 : 가로크기 600px / 세로크기 600px

111

02 Rex를 활용한 자료탐색

막대그림 (Bar Plot)

Page 112: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

원형표란?

– 데이터에 존재하는 변수의 수준 별 빈도를 원형으로 나타내는 그림

112

02 Rex를 활용한 자료탐색

원형표 (Pie Chart)

입력 UI 결과 그래프

Page 113: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

birth 데이터를 이용하여 성별 분포를 확인하고자 한다. 다음 조건 하에서 적절한 그

림을 그리시오.

– 원형표 이용

– 변수 : sex

– 텍스트표기 : 빈도(퍼센트)

– 그래프제목 : 성별 분포

– 범례 위치 : 아래

– 그림크기 : 가로크기 600px / 세로크기 600px

113

02 Rex를 활용한 자료탐색

원형표 (Pie Chart)

Page 114: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

M a k e A n a l y s i s F a s t a n d E a s y

03 Rex를 활용한 두 군의 평균 비교

Page 115: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

추정(estimation)의 의미

– 관심 있는 미지의 수값(=모수, parameter)을 주어진 자료로부터 추출하는 것

– 점추정(point estimation): 모수를 한 값으로 추정하는 것

모평균 ← 표본평균

모바율 ← 표본바율

– 구간추정(interval estimation): 모수가 포함될 구간을 추정

95% 신뢰구간

03 Rex를 활용한 두 군의 평균비교

추정

Page 116: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

점추정

– 모수 : 𝜇

– 데이터 : 𝑋1, 𝑋2, … , 𝑋𝑛 ~ 𝑖𝑖𝑑 𝜇, 𝜎2

(𝜎2: known)

– 점추정량 : 𝜇 = 𝑋

– 표준오차(standard error; SE)

𝑆𝐸 𝜇 = 𝑣𝑎𝑟(𝜇 ) = 𝑣𝑎𝑟(𝑋 ) =𝜎

𝑛

– 만약 𝜎가 unknown 인 경우, 𝜎 = 𝑆.

(단, 𝑆: 표본표준편차)

116

03 Rex를 활용한 두 군의 평균비교

모평균에 대한 추정

구간추정

– 모수 : 𝜇

– 데이터 : 𝑋1, 𝑋2, … , 𝑋𝑛 ~ 𝑖𝑖𝑑 𝜇, 𝜎2

(𝜎2: known)

– 100(1 − 𝛼) 신뢰구간 : 𝑋 ± 𝑐 × 𝑆𝐸 𝑋 , 𝑐: 상수

– 만약 𝑛 이 작고(𝑛 < 30), 모집단은 정규분포를

따르는 경우

𝑋 ± 𝑡𝛼/2 𝑛 − 1 × 𝑆𝐸 𝑋

𝑡𝛼/2 𝑛 − 1 :자유도가 n-1인 분포에서 상위누적확률

𝛼/2에 해당하는 값

– 만약 𝑛 이 충분히 큰 경우 (𝑛 > 30), 중

심극한정리에 의하여

𝑋 ± 𝑧𝛼/2 × 𝑆𝐸 𝑋

Page 117: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

신뢰구간

– 신뢰구간의 폭: 2 × 𝑧𝛼/2 𝑆𝐸 𝑋

• 표본의 크기 𝑛이 증가할 수록, 신뢰구간의 폭이 좁아짐.

• 신뢰수준 𝛼이 클수록 𝑧𝛼/2이 감소하여 신뢰구간의 폭이 좁아짐.

– 100 1 − 𝛼 % 오차의 한계: 𝑧𝛼/2 𝑆𝐸 𝑋

• 표본의 크기 𝑛이 증가할 수록, 오차의 한계 감소

– 100 1 − 𝛼 % 오차의 한계를 𝑑 이하로 하는 표본의 크기:

𝑧𝛼/2 𝑆𝐸 𝑋 ≤ 𝑑 ⟺ 𝑛 ≥ 𝑧𝛼/2𝜎

𝑑

2

117

03 Rex를 활용한 두 군의 평균비교

모평균에 대한 추정

Page 118: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

모수의 구간추정

– 모수가 포함될 구간을 추정

– 100(1-𝛼)% 신뢰구간(confidence interval:

CI)

– Pr[𝐿<𝜃<𝑈]=1−𝛼

– 𝐿과 𝑈는 주어진 자료로부터 추정

– 방법

– (추정량) ± (추정량 분포의 상위 누적확률 𝛼/2

에 해당하는 값) × (추정량의 표준오차)

03 Rex를 활용한 두 군의 평균비교

추정

신뢰구간의 의미

– 95% 신뢰구간의 해석 : “100개의 data set으

로부터 100개의 서로 다른 신뢰구간을 구했을

때 이 중에 95개 정도는 미지의 모수를 포함한

다”

Page 119: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

자유도가 2인 t분포와 정규분포에서 각각 100개의 데이터를 생성하고, 정규분포 데

이터에 대한 분위수-분위수 그림을 그리시오. 또한 정규분포 데이터에서 평균에 대

한 신뢰구간을 구하시오.

– t분포와 정규분포에서 데이터 생성 : 샘플링

– 정규분포 데이터에 대한 분위수-분위수 그림 : 기술통계량

– 정규분포 데이터의 평균에 신뢰구간을 구하시오 : 일표본 t-검정

119

03 Rex를 활용한 두 군의 평균비교

모평균에 대한 추정

Page 120: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

입 력

120

03 Rex를 활용한 두 군의 평균비교

모평균에 대한 추정

Rex ► 정규분포 / T분포 ► 정규분포샘플링

Page 121: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

입 력

121

03 Rex를 활용한 두 군의 평균비교

모평균에 대한 추정

Rex ► 기술통계량

Page 122: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

출 력

122

03 Rex를 활용한 두 군의 평균비교

모평균에 대한 추정

` N.observed

N.missing

Mean

Median

Min Max Q1 Q3 Range

Sum SD Variance

Skewness

se(Skew)

Kurtosis

se(Kurto)

CV

normal

100 0 -0.0095

-0.0157

-2.8624

2.3796

-0.5784

0.5738

5.2420

-0.9450

0.9093

0.8268

-0.0459

0.2414

0.4452

0.4783

-96.2168

t 100 0 -0.0733

0.0140

-10.4217

8.1958

-0.7355

0.9333

18.6175

-7.3331

2.2518

5.0706

-0.6498

0.2414

6.7959

0.4783

-30.7072

Page 123: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

출 력

123

03 Rex를 활용한 두 군의 평균비교

모평균에 대한 추정

• Rex ► 그룹비교 ► 평균비교 ► 일표본T검정

Page 124: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

출 력

124

03 Rex를 활용한 두 군의 평균비교

모평균에 대한 추정

W P-value

normal 0.9938 0.9303

Estimate T.value DF P.value Lower bound of 95% CI

Upper bound of 95% CI

normal -0.0095 -0.1039 99 0.9174 -0.1899 0.171

Shapiro-Wilk 검정

t-검정 결과

Page 125: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정 (Hypothesis testing)

1. 자료분석을 하는 이유?

표본이 모집단에 대해 새로운 특정 가설에 반하는 증거를

얼마나 제공하고 있는지 평가하는 것

2. 기술통계를 통해서도 가설을 지지 또는 반대하는지 경향 파악 가능

그러나 이러한 경향이 실제 연관성을 반영하는 것인지,

단순한 자료의 변동(variation)에 의한 우연한 결과인지 알 수 없음

⇒ 통계적인 절차를 통해 가설을 채택할지 기각할지 결정

125

03 Rex를 활용한 두 군의 평균비교

가설 검정

Page 126: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

126

03 Rex를 활용한 두 군의 평균비교

통계분석 Flow chart

질문 형태

관계 분석 비교 분석 진단 관련

연속변수 범주변수

> 두 군 두 군

상관분석 회귀분석

독립 독립 대응 대응 순서

> 두 군 두 군

독립 대응 독립 순서

Pearson’s r

Linear reg. Logistic reg. Poisson reg. Cox PH reg.

T-test

Paired t-test

ANOVA

RM-ANOVA

Jonckheere test

χ2 test Fisher’s exact test

McNemar test

χ2 test Fisher’s exact test

Linear by linear test

중도절단

독립

Log-rank test

진단력 평가 일치도 평가

Sensitivity Specificity Predictive value ROC curve AUC

Kappa Weighted Kappa ICC CCC

Page 127: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 절차

• 귀무가설 vs. 대립가설

귀무가설 (H0) : 효과가 없다 (차이가 없다) ex) H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

대립가설 (H1) : 효과가 있다 (차이가 있다) ex) H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

• 양측검정 vs. 단측검정

양측검정 (two-sided test) : 차이의 방향성을 명시 안함

단측검정 (one-sided test) : 차이의 방향성을 명시 ex) H1 : 고혈압환자의 흡연량이 정상인보다 많다

127

03 Rex를 활용한 두 군의 평균비교

가설 검정

귀무가설 대립가설

설정 자료 수집

검정 통계량 계산

p-value 도출

귀무가설 채택 /기각

Page 128: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 예시

– H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

– H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

128

03 Rex를 활용한 두 군의 평균비교

가설 검정

고혈압환자의 흡연량 – 정상인의 흡연량 0

Page 129: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 예시

– H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

– H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

129

03 Rex를 활용한 두 군의 평균비교

가설 검정

고혈압환자의 흡연량 – 정상인의 흡연량 0

내 데이터의 평균

Page 130: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 예시

– H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

– H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

130

03 Rex를 활용한 두 군의 평균비교

가설 검정

고혈압환자의 흡연량 – 정상인의 흡연량 0

내 데이터의 평균

귀무가설이 참일 때, 내 데이터 또는 그보다 극단적인 결과가 나올 확률

Page 131: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 예시

– H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

– H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

131

03 Rex를 활용한 두 군의 평균비교

가설 검정

고혈압환자의 흡연량 – 정상인의 흡연량 0

내 데이터의 평균

귀무가설이 참일 때, 내 데이터 또는 그보다 극단적인 결과가 나올 확률

매우 낮은 확률의 일이 내 데이터로 나타났네

Page 132: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 예시

– H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

– H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

132

03 Rex를 활용한 두 군의 평균비교

가설 검정

고혈압환자의 흡연량 – 정상인의 흡연량 0

내 데이터의 평균

귀무가설이 참일 때, 내 데이터 또는 그보다 극단적인 결과가 나올 확률

매우 낮은 확률의 일이 내 데이터로 나타났네

아무래도 귀무가설이 참이 아닌가 본데

Page 133: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 예시

– H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

– H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

133

03 Rex를 활용한 두 군의 평균비교

가설 검정

고혈압환자의 흡연량 – 정상인의 흡연량 0

내 데이터의 평균

귀무가설이 참일 때, 내 데이터 또는 그보다 극단적인 결과가 나올 확률

매우 낮은 확률의 일이 내 데이터로 나타났네

아무래도 귀무가설이 참이 아닌가 본데

귀무가설 기각!

Page 134: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 예시

– H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

– H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

134

03 Rex를 활용한 두 군의 평균비교

가설 검정

고혈압환자의 흡연량 – 정상인의 흡연량 0

내 데이터의 평균

귀무가설이 참일 때, 내 데이터 또는 그보다 극단적인 결과가 나올 확률

매우 낮은 확률의 일이 내 데이터로 나타났네

아무래도 귀무가설이 참이 아닌가 본데

귀무가설 기각!

어느 정도 낮아야 귀무가설을 기각할까?

Page 135: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 예시

– H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

– H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

135

03 Rex를 활용한 두 군의 평균비교

가설 검정

고혈압환자의 흡연량 – 정상인의 흡연량 0

내 데이터의 평균

귀무가설이 참일 때, 내 데이터 또는 그보다 극단적인 결과가 나올 확률

매우 낮은 확률의 일이 내 데이터로 나타났네

아무래도 귀무가설이 참이 아닌가 본데

귀무가설 기각!

어느 정도 낮아야 귀무가설을 기각할까?

유의수준 5% (α=0.05)

Page 136: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 예시

– H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

– H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

136

03 Rex를 활용한 두 군의 평균비교

가설 검정

고혈압환자의 흡연량 – 정상인의 흡연량 0

내 데이터의 평균

귀무가설이 참일 때, 내 데이터 또는 그보다 극단적인 결과가 나올 확률

매우 낮은 확률의 일이 내 데이터로 나타났네

아무래도 귀무가설이 참이 아닌가 본데

귀무가설 기각!

어느 정도 낮아야 귀무가설을 기각할까?

유의수준 5% (α=0.05)

=P-value

Page 137: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 예시

– H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

– H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

137

03 Rex를 활용한 두 군의 평균비교

가설 검정

고혈압환자의 흡연량 – 정상인의 흡연량 0

내 데이터의 평균

귀무가설이 참일 때, 내 데이터 또는 그보다 극단적인 결과가 나올 확률

그런데, 변수마다 평균과 표준편차가 달라서

확률밀도함수가 매번 다름

→ 확률을 계산하기가 어렵다

→ 기존에 알고 있는 분포로 변환하자

Page 138: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 예시

– H0 : 고혈압환자와 정상인의 흡연량은 차이가 없다

– H1 : 고혈압환자와 정상인의 흡연량은 차이가 있다

138

03 Rex를 활용한 두 군의 평균비교

가설 검정

고혈압환자의 흡연량 – 정상인의 흡연량 0

내 데이터의 평균

귀무가설이 참일 때, 내 데이터 또는 그보다 극단적인 결과가 나올 확률

그런데, 변수마다 평균과 표준편차가 달라서

확률밀도함수가 매번 다름

→ 확률을 계산하기가 어렵다

→ 기존에 알고 있는 분포로 변환하자

검정통계량

Page 139: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 절차

• 비모수적 검정

자료가 어떤 분포를 따르는지 가정을 할 수 없을 경우 사용하는 가설 검정

자료에 대한 순위(rank)를 사용하여 가설검정을 하는 형태 / 분포 무관 방법

• 비모수적 검정을 사용하는 경우

표본수가 작을 때 (자료의 분포형태를 가늠하기 어려우므로)

자료분포가 요구하는 가정을 따르지 않을 때 (정규성 가정, 등분산성 가정 등)

• 비모수적 검정의 단점

모수적인 검정보다 검정력(차이를 발견해내는 힘)이 떨어진다

연구자가 실제 관심있는 효과에 대한 추정치는 제공하지 않는다 (통계적 의사결정만 하기 위한 방법)

139

03 Rex를 활용한 두 군의 평균비교

가설 검정

귀무가설 대립가설

설정 자료 수집

검정 통계량 계산

p-value 도출

귀무가설 채택 /기각

자료가 어떤 분포를 따르는지 분포에 대한 가정 필요

Page 140: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

140

03 Rex를 활용한 두 군의 평균비교

통계분석 Flow chart

질문 형태

관계 분석 비교 분석 진단 관련

연속변수 범주변수

> 두 군 두 군

상관분석 회귀분석

독립 독립 대응 대응 순서

> 두 군 두 군

독립 대응 독립 순서

Pearson’s r

Linear reg. Logistic reg. Poisson reg. Cox PH reg.

T-test

Paired t-test

ANOVA

RM-ANOVA

Jonckheere test

χ2 test Fisher’s exact test

McNemar test

χ2 test Fisher’s exact test

Linear by linear test

중도절단

독립

Log-rank test

진단력 평가 일치도 평가

Sensitivity Specificity Predictive value ROC curve AUC

Kappa Weighted Kappa ICC CCC

(Spearman’s ρ)

(Mann- Whitney U test)

(Wilcoxon signed rank test)

(Kruskal- Wallis test)

(Friedman test)

Page 141: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 절차

• P-value와 유의수준

P-value : 귀무가설이 참일 때, 표본의 결과나 그보다 더 극단적인 결과가 얻어질 확률

유의수준 (α) : 표본의 결과가 어느 정도 낮은 확률을 가져야 귀무가설이 참이라는 가정을 기각할 것인

지 결정수준 / 보통 0.05 (5%)로 설정

141

03 Rex를 활용한 두 군의 평균비교

가설 검정

귀무가설 대립가설

설정 자료 수집

검정 통계량 계산

p-value 도출

귀무가설 채택 /기각

Page 142: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가설검정의 절차

• 제1종 오류와 제2종 오류

142

03 Rex를 활용한 두 군의 평균비교

가설 검정

귀무가설 대립가설

설정 자료 수집

검정 통계량 계산

p-value 도출

귀무가설 채택 /기각

일반적으로 α=0.05로 설정 검정력 (1-β)

- 여러 번 상황에서 판정하다 보면 그릇된 판정을

내릴 가능성이 높아짐

⇒ 즉, 검정 횟수가 늘어나면 어딘가에서

우연하게도 차이를 잡아낼 수 있음

⇒ 다중 검정 시, 보정 필요

Page 143: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

03 Rex를 활용한 두 군의 평균비교

Rex 평균 비교 기능

검정 목적

일표본 T검정 한 변수의 모평균에 대한 검정

독립표본 T검정 두 그룹의 모평균 간의 차이에 대한 검정

짝진표본T검정 대응표본의 모평균 간의 차이에 대한 검정

일변량분산분석 3개 이상의 그룹의 모평균 간의 차이에 대한 검정

다변량분산분석 2개 이상의 종속변수에 대해 그룹 간 평균 차이에 대한 검정

Page 144: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

일표본 T검정 이론

– 데이터 : 𝑋1, 𝑋2, … , 𝑋𝑛 ~ 𝑖𝑖𝑑 𝜇, 𝜎2 , 𝜎2: known

– 가설: 𝐻0: 𝜇 = 𝜇0 𝑣𝑠 𝐻𝐴: 𝜇 < 𝜇0; 𝜇 > 𝜇0; 𝜇 ≠ 𝜇0

– 검정통계량

𝑻 =𝑿 − 𝝁𝟎

𝒔/ 𝒏

– Null distribution: 𝑛 이 크거나(𝑛 < 30), 모집단은 정규분포를 따르는 경우, 검정통계량 T는 t분포를 따름.

즉, 𝑇~𝑡(𝑑𝑓 = 𝑛 − 1).

– 유의확률(P-value)

P − value =

𝑃 𝑇 ≤ 𝑡 𝐻0), 𝐻𝐴: 𝜇 < 𝜇0 ; 왼쪽 검정𝑃 𝑇 ≥ 𝑡 𝐻0), 𝐻𝐴: 𝜇 > 𝜇0 ; 오른쪽 검정𝑃 𝑇 ≤ − 𝑡 or 𝑇 ≥ 𝑡 𝐻0), 𝐻𝐴: 𝜇 ≠ 𝜇0 ; 양쪽 검정

144

03 Rex를 활용한 두 군의 평균비교

일표본 T검정

Page 145: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

내측측부인대와 전방십자인대 환자들은 보통 부상 후 첫번째 MRI 촬영까지15일정

도 걸린다고 알려져 있다. 이를 확인하기 위해, 2000년 12월에서부터 2010년 12

월까지 급성 ACL이었거나 등급 3의 MCL이었던 20명의 환자들에 대한 데이터를

수집하였다. 부상에서부터 첫번째 MRI 촬영까지 걸린 시간은 15일인지에 대한 일

표본 T검정을 수행하시오. (데이터 : MRI)

145

03 Rex를 활용한 두 군의 평균비교

일표본 T검정

환자 시간(일) 환자 시간(일) 환자 시간(일) 환자 시간(일)

1 14 6 0 11 28 16 14

2 10 7 10 12 24 17 9

3 18 8 4 13 24 18 20

4 26 9 8 14 2 19 10

6 12 10 21 15 3 20 15

Page 146: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

입 력

146

03 Rex를 활용한 두 군의 평균비교

일표본 T검정

Rex ► 그룹비교 ► 평균비교 ► 일표본T검정

Page 147: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

출 력

147

03 Rex를 활용한 두 군의 평균비교

일표본 T검정

Shapiro-Wilk 검정

Number of non-missing observations

Mean Std

time 20 13.6 8.3123

W P-value

time 0.962 0.5855

Summary

p>0.05, 정규성을 만족한다고 판단

Page 148: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

출 력

148

03 Rex를 활용한 두 군의 평균비교

일표본 T검정

t-검정 결과

Estimate T.value DF P.value Lower bound of 95% CI

Upper bound of 95% CI

time 13.6 -0.7532 19 0.4606 9.7097 17.4903

p>0.05, 정규성 가정 하에서 부상 후 첫 MRI 촬영까지 평균 15일이 소요되지 않는다고 할 수 없다.

Page 149: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

일표본 T검정의 비모수검정

– 데이터 : 𝑋1, 𝑋2, … , 𝑋𝑛 ~ 𝑖𝑖𝑑 𝜇, 𝜎2

– 가설: 𝐻0: 중위수 = 𝑚 𝑣𝑠 𝐻𝐴: 중위수 < 𝑚,중위수 > 𝑚, or 중위수 ≠ 𝑚

– 검정통계량

𝑇 = rank |𝑋𝑖 −𝑚|

𝑖:𝑋𝑖>𝑚

– 유의확률(P-value)

P − value =

𝑃 𝑇 ≥ 𝑀 − 𝑡 𝐻0), 𝐻𝐴:중위수 < 𝑚 ; 왼쪽 검정𝑃 𝑇 ≥ 𝑡 𝐻0), 𝐻𝐴:중위수 > 𝑚 ; 오른쪽 검정𝑃 𝑇 ≥ max (𝑡,𝑀 − 𝑡) 𝐻0),𝐻𝐴:중위수 ≠ 𝑚 ; 양쪽 검정

149

03 Rex를 활용한 두 군의 평균비교

부호순위 검정

Page 150: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

Concentration의 평균이 1인지 일표본 T검정을 수행한 결과이다. 분석결과에 문

제가 없는지 확인하시오. 만약 문제가 있다면 적절한 분석을 수행하고 결과를 해석

하시오 [concentration.csv]

150

03 Rex를 활용한 두 군의 평균비교

부호순위 검정

W P-value

concentration 0.8113 0.0004

Estimate T.value DF P.value Lower bound of 95% CI

Upper bound of 95% CI

concentration 1.7304 2.3851 24 0.0253 1.0984 2.3624

Shapiro-Wilk 검정

t-검정 결과

p>0.05, 정규성을 따르지 않는다고 판단

p=0.025, 정규성 가정이 만족되지 않으므로 결과를 신뢰하기 어려움

Page 151: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

입 력

151

03 Rex를 활용한 두 군의 평균비교

부호순위 검정

Rex ► 비모수분석 ► 위치문제 ► 1-표본

Page 152: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

출 력

152

03 Rex를 활용한 두 군의 평균비교

부호순위 검정

부호 검정

부호순위검정결과

B P-value

concentration 13 1

W P-value

concentration 233 0.0578

더 효율적인 분석 전략은?

p>0.05, 중심값이 1과 유의한 차이를 보인다고 할 수 없다

p>0.05, 중심값이 1과 유의한 차이를 보인다고 할 수 없다

Page 153: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

153

03 Rex를 활용한 두 군의 평균비교

통계분석 Flow chart

질문 형태

관계 분석 비교 분석 진단 관련

연속변수 범주변수

> 두 군 두 군

상관분석 회귀분석

독립 독립 대응 대응 순서

> 두 군 두 군

독립 대응 독립 순서

Pearson’s r

Linear reg. Logistic reg. Poisson reg. Cox PH reg.

T-test

Paired t-test

ANOVA

RM-ANOVA

Jonckheere test

χ2 test Fisher’s exact test

McNemar test

χ2 test Fisher’s exact test

Linear by linear test

중도절단

독립

Log-rank test

진단력 평가 일치도 평가

Sensitivity Specificity Predictive value ROC curve AUC

Kappa Weighted Kappa ICC CCC

(Mann- Whitney U test)

(Wilcoxon signed rank test)

(Kruskal- Wallis test)

(Friedman test)

(Spearman’s ρ)

Page 154: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

02 가설 검정

통계분석 Flow chart

질문 형태

관계 분석 비교 분석 진단 관련

범주변수

상관분석 회귀분석

> 두 군 두 군

독립 대응 독립 순서

Pearson’s r

Linear reg. Logistic reg. Poisson reg. Cox PH reg.

Jonckheere test

χ2 test Fisher’s exact test

McNemar test

χ2 test Fisher’s exact test

Linear by linear test

중도절단

독립

Log-rank test

진단력 평가 일치도 평가

Sensitivity Specificity Predictive value ROC curve AUC

Kappa Weighted Kappa ICC CCC

154

(Spearman’s ρ)

연속변수

> 두 군 두 군

독립 독립 대응 대응 순서

T-test

Paired t-test

ANOVA

RM-ANOVA

(Mann- Whitney U test)

(Wilcoxon signed rank test)

(Kruskal- Wallis test)

(Friedman test)

Jonckheere test

Page 155: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

가정

– 두 치료군의 자료가 독립적으로 추출된 경우

표본 1 : 𝑥1, 𝑥2, … , 𝑥𝑛1

표본 2 : 𝑦1, 𝑦2, … , y𝑛2

– 가설

영가설 : 𝐻0: 𝜇𝑥 = 𝜇𝑦

대립가설 : 𝐻0: 𝜇𝑥 ≠ 𝜇𝑦

– 가정

𝑋1, 𝑋2, … , 𝑋𝑛 ~ 𝑖𝑖𝑑 𝜇𝑥 , 𝜎𝑥2 , 𝑌1, 𝑌2, … , 𝑌𝑛 ~ 𝑖𝑖𝑑 𝜇𝑦 , 𝜎𝑦

2

정규성 (𝑛1 ≥ 30 & 𝑛2 ≥ 30인 경우는 필요 없음)

등분산성 (xi 와 yi 간에 )

독립성 (xi 간에, yi 간에, xi림 yi 간에 )

155

03 Rex를 활용한 두 군의 평균비교

독립표본 T검정

Page 156: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

검정통계량

𝑡 =𝑋 − 𝑌

𝑠𝑝2 1𝑛𝑥

+1𝑛𝑦

, if 𝜎𝑥2 = 𝜎𝑦

2, 𝑡 =𝑋 − 𝑌

𝑠𝑥2

𝑛𝑥+𝑠𝑦2

𝑛𝑦

, if 𝜎𝑥2 ≠ 𝜎𝑦

2

– P값이 유의수준보다 작으면 영가설을 기각하고,

유의수준보다 크면 영가설을 기각할 만한 증거가 없다고 결론을 내림

156

03 Rex를 활용한 두 군의 평균비교

독립표본 T검정

Page 157: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

환자 10명과 정상인 10명이 앉아 있을 때 혈압을 측정한 결과는 다음과 같다고 한다.

이때 환자군이 대조군에 비하여 혈압평균이 낮다고 할 수 있는지 유의수준 0.05에

서 검정하라. (데이터 : BP)

– 그룹 : 1=환자, 2=정상인

– 혈압 : 단위 mmHg

03 Rex를 활용한 두 군의 평균비교

독립표본 T검정

대조군 120 115 130 131 111 117 90 114 150 170

환자군 160 150 130 180 153 135 121 119 130 130

157

Page 158: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

입 력

03 Rex를 활용한 두 군의 평균비교

독립표본 T검정

Rex ► 그룹비교 ► 평균비교 ► 독립표본T검정

158

Page 159: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

출 력

159

03 Rex를 활용한 두 군의 평균비교

독립표본 T검정

Number of total observations 20

Number of non-missing observations 20 (group 2: 10, group 1: 10)

Dependent variable 혈압

Group variable 그룹

Alternative hypothesis true difference in means is not equal to 0

Significance level for CI 0.95

Number of non-missing observations Mean SD

Group 2 10 124.8 22.2151

Group 1 10 140.8 19.4068

Page 160: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

출 력

160

03 Rex를 활용한 두 군의 평균비교

독립표본 T검정

W P-value

그룹 = 2 0.9318 0.4660

그룹 = 1 0.9059 0.2539

F-value DF1 DF2 P-value

혈압 0.0074 1 18 0.9322

Shapiro-Wilk 검정

Levene’s 검정

두군 모두 p>0.05, 각 군에서 혈압이 정규성을 만족한다고 판단

p>0.05, 등분산 가정을 만족한다고 판단

Page 161: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

출 력

161

03 Rex를 활용한 두 군의 평균비교

독립표본 T검정

mean in group 1

mean in group 2

Difference of the means

T-value DF P-value Lower bound of 95% CI

Upper bound of 95% CI

혈압 140.8 124.8 16 1.715 18 0.1035 -3.5976 35.5976

mean in group 1

mean in group 2

Difference of the means

T-value DF P-value Lower bound of 95% CI

Upper bound of 95% CI

혈압 140.8 124.8 16 1.7152 17.681 0.104 -3.623 35.623

등분산 가정하에서 분석 결과

이분산 가정하에서 분석 결과 p>0.05, 두 군에서 유의한 차이가 난다고 할 수 없다

Page 162: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

자료의 정규성 검정

1. 그래프

줄기-잎 그림 (대칭성 확인)

상자그림 (대칭성 확인)

QQ그림 (선형성 확인)

2. 검정

Shapiro-Wilk 검정

Kolmogorov-Smirnov 검정

162

03 Rex를 활용한 두 군의 평균비교

2-독립표본 비모수검정

• 정규성을 따르지 않을 경우 방법

1. 변수변환 후 독립표본 T검정 수행

• 왼쪽으로 치우친 경우 : 로그변환 • 오른쪽으로 치우친 경우 : 제곱변

2. 비모수검정 수행 • 윌콕슨 순위합 검정

(Wilcoxon’s rank sum test)

2y

(log )y y

Page 163: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

http://rexsoft.org

윌콕슨 순위합 검정

(Wilcoxon’s ranksum test)

– 자료: 독립적으로 추출된 두 치료군 자료의 표

본의 크기가 작고 정규성 가정이 만족되지 않는

경우

– 검정통계량

𝑊 = 𝑅𝑗

𝑛2

𝑗=1

– W값이 충분히 크거나 작으면 영가설을 기각함.

– 𝑛1, 𝑛2가 작은 경우 W의 분포표를 이용하며,

충분히 큰 경우 정규분포를 가정함.

163

03 Rex를 활용한 두 군의 평균비교

2-독립표본 비모수검정

맨휘트니 검정

(Mann-Whitney U test)

– 자료: 독립적으로 추출된 두 치료군 자료의 표본

의 크기가 작고 정규성 가정이 만족되지 않는 경

– 검정통계량

𝑈 = 𝜓𝑖𝑗

𝑛2

𝑗=1

𝑛1

𝑖=1

, 𝜓𝑖𝑗 = 1, 𝑦𝑗 > 𝑥𝑖0, 𝑦𝑗 ≤ 𝑥𝑖

𝑊 = 𝑈 +𝑛2(𝑛2 + 1)

2

– 𝑈 값이 충분히 크거나 작으면 영가설을 기각함.

– 𝑛1, 𝑛2가 작은 경우 𝑈 의 분포표를 이용하며, 충

분히 큰 경우 정규분포를 가정함.

Page 164: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

환자 10명과 정상인 10명이 앉아 있을 때 혈압을 측정한 결과는 다음과 같다고 한다.

이때 환자군이 대조군에 비하여 혈압평균이 낮다고 할 수 있는지 유의수준 0.05에

서 비모수 검정하라. . (데이터 : BP)

– 그룹 : 1=환자, 2=정상인

– 혈압 : 단위 mmHg

164

03 Rex를 활용한 두 군의 평균비교

2-독립표본 비모수검정

대조군 120 115 130 131 111 117 90 114 150 170

환자군 160 150 130 180 153 135 121 119 130 130

Page 165: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

입 력

165

03 Rex를 활용한 두 군의 평균비교

2-독립표본 비모수검정

Rex ► 비모수분석 ► 위치문제 ► 2-독립표본

Page 166: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

실습 http://rexsoft.org

출 력

166

03 Rex를 활용한 두 군의 평균비교

2-독립표본 비모수검정

WS U P-value

혈압 130 75 0.0593

윌콕슨 순위합 검정 (Wilcoxon rank-sum test)

p>0.05, 두 군에서 유의한 차이가 난다고 할 수 없다

Page 167: Rex를 활용한 통계 기초 - Seoul National Universityhosting03.snu.ac.kr/~hokim/sas/2018/Rex.pdf · 포아송 회귀분석 판별분석 분포 문제 1-표본 이표본 비율검정

문의

M a k e A n a l y s i s F a s t a n d E a s y

홈페이지 ‘질문과 답변’ 게시판을 통해 Rex 설치, 다운로드, 기능 등 사용문의를 남겨주세요.

신속하고 친절한 상담을 통해 사용자들의 궁금증에 답변해 드립니다.

[email protected]

http://rexsoft.org