11_통계 자료분석 입문

통계, 자료분석 입문

김성익[email protected]

kasa발표자료2011/06/25

개요

• 기초적인 통계, 자료분석 개념 정리

• Why–게임 서비스 시 체계적이고 신속한 유저 대응

을 위한 시스템 구성–통계 및 자료 분석 개념 사용되고 있음• VSM, PCA이용한 DXT, MOTION GRAPH등등

–그냥 일반 상식으로

1. 통계 기본 개념들

• 어떻게 측정치가 실제 값이 되는가?• 기술통계, 추측통계• 샘플링• 대표 값• 표준편차• 주성분 분석• 신뢰성, 타당성

통계적 추측

• 실제값 != 예측값• 예측 값을 실제 값으로 만드는 마법

통계적 추측

• 실제값 = 예측값 + 오차

통계

• 기술 통계–모든 정보로 집단 특성 조사–센서스 census 전수조사–모집단의 특성이 다양하게 분포되는 경우

• 추측통계–모집단 가운데서 표본을 추출해서 모집단의

특성을 추측–샘플링

샘플링• 설계

– 모집단 정의– 샘플링 프레임 (목록, 기준)– 샘플링 방법 선택

• 확률적 샘플링 (순수 랜덤)– 단순 랜덤 샘플링 simple random sampling– 층화 샘플링 stratified sampling– 군집 샘플링 cluster sampling– 체계적 샘플링 systematic sampling

• 비확률적 샘플링 (의도적으로 분류)– 편의 샘플링 convenience sampling– 판단 샘플링 judgement sampling– 쿼타 샘플링 quota sampling (vs cluster sampling)

– 표본 수 결정• 최대 허용 오차, 신뢰수준

대표값

• 모집단의 특성을 나타내는 값–평균 mean

• 산술 평균 arithmetic mean

–중앙값 median

• 데이터를 순서대로 나열한 데이터 중 가운데 값(짝수면 가운데 두 수의 평균)

–최빈값• 가장 많은 값

• 평균으로는 데이터가 얼마나 흩어져 있는 지는 알수 없다

• 표준 편차 (s)• 분산 (s2)

– 값이 작으면 데이터는 평균 주변에 모이지만, 크면 평균에서 크게 벗어나는 성질

– (자유도)• 변동계수 coefficient of variation : CV– 평균에 대한 상대적 분산도– 표준편차를 평균으로 나눈 값

표준편차

• 히스토그램 histogram

확률 밀도 함수 probability density function

– 데이터 수 증가, 폭이 좁아지면

• 정규분포 normal distribution

– 종모양– 중심극한정리 centeral limit theorem

• 표본의 수가 많다면, 모집단의 실제 분포와 관계없이, 표본평균의 표본분포는 정규분포를 따른다

• Lilliefores 검정 : 데이터가 정규분포를 따르는 지 검사

정규분포

정규분포

• 정규분포는 다음의 특성을 가지고 있다

표준정규분포

• 즉, 평균과 표준 편차를 알면 데이터의 분포도를 예측 할 수 있다

응용 예

• VSM variance shadow map

• Chebyshev 부등식 이용–분산이용, occlusion 정도를 구함

http://www.punkuser.net/vsm/

주성분 분석

• 주성분 분석 principal component analysis

• 고유값 eigenvalue

• 의미 있는 개념의 수만큼 의미 있는 주성분이 추출

주성분 분석 응용 예

• DXT 압축 알고리즘– PCA축을 이용하여 블록의 두 지점 결정–각 픽셀은 두 점 사이의 블랜드 값

• 애니메이션 그래프–복잡한 모션을 특성 몇 개로 대표–모션 탐색 시 사용

http://www.slideshare.net/noerror/dxtcompressionhttp://www.gdcvault.com/play/1705/Momentum-vs-Character

신뢰성

• 신뢰성 reliability 측정– 재검사– 반분법

• 내적 일관성 측정– 측정값의 분산에서 실제 값의 분산이 차지하는 비율– 크론바흐 알파 Cronbach’s alpha

• 값이 클수록 신뢰성이 높다– 신뢰성 있는 크론바하 알파는 얼마 이상 ???

0.7 ??? Nunnally(1978)

타당성

• 타당성 Validity

–기준 타당성–내용 타당성–개념 타당성

2. 자료분석

• 모수 분석 / 비모수 분석• 상관 관계 분석• 로지스틱 회귀 분석• 분산 분석• 요인 분석• 군집 분석

자료분석

• 모수 분석 parametric analysis

–모수(평균, 분산 등)를 이용하여 추측–자료가 정규 분포를 따른다• 중심극한정리

• 비모수 분석 nonparametric analysis

–분포와 무관한 방법–도수 frequency, 부호 sign, 순위 rank 등의 통계량

으로 분석

상관 관계 분석

• 종속 변수(반응변수) Y와 독립변수(설명변수) X사이의 연관성을 파악

• 연관도 측정– 공분산

• 선형 관계 방향 유무 (관계 정도는 알 수 없음)

– 상관 계수• 표준화된 공분산• 방향과 퍼진 정도

단순 회귀 분석

• 회귀분석 regression analysis

– 다른 변수의 값이 어떻게 변할 것인지를 예측

• 두 변수 사이에 존재하는 상호의존 관계를 함수 관계로 표현– 모 회귀 방정식 population regression equation

E(Yi) = α + β xi– 표본자료를 이용 α, β 를 추정

• 최소제곱법 least square method

• 잔차 residual

– 예측한 값과 측정한 값의 차이(오차, 개별성)

단순 회귀 분석

• 총변동– SST = 회귀제곱합 SSR + 잔차제곱합 SSE

• 결정계수(r2) coefficient of determination

– SSR / SST = 1 – SSE / SST–잔차가 작을 수록 결정계수가 커진다–결정계수 0.7 = 70%로 회귀식을 설명할 수 있

다

• 상관 계수(r) coefficient of correlation

단순 회귀 분석• F 검점

– 회귀 모형을 사용할 것인지 검정• F가 1보다 충분히 커야 한다

– F = MSR / MSE• MSR (mean square regression) <- 회귀변동• MSE (mean square error) <- 평균 잔차변동• 자유도

• t 검정– 독립 변수와 종속 변수의 관계의 유의미성

• T값이 유의 값 보다 크다면 유의미

• 잔차 분석 residual analysis– 잔차가 서로 무관해야 함 (상관성 X)– 거빈 와트슨 통계량 Durbin-Watson statistic

다중 회귀 분석

• 한 개의 종속 변수와 여러 개의 독립변수의관계를 분석

• 회귀 방정식Yi = α + β1x1i + β2 x2i + .. + ei

• 다중 공선성 multicollinearity

– 독립 변수들 사이의 상호의존도가 높으면 회귀계수의 부호가 바뀌거나 0에 가까운 값으로 나타남

– 분산확대인자 Variance inflation factor• 클수록 다중 공선성이 심하다

– 상관 관계가 높은 변수들 중 하나만 남기고 나머지 변수들은 모형에서 제거

다중 회귀 분석

• 적합성 검정–전반 검정–부분 검정• 다중 공선성 문제를 해결하기 위해 추가적인 검정

절차 필요• 독립변수 각각의 회귀계수에 대해 유의성 검정

로지스틱 회귀 분석• 자료가 두 그룹으로 나누어진 상황에서, 두 그룹이 구분되는

특성을 파악하여 다른 어떤 데이터가 어느 그룹에 속하는 지예측

• 오즈 (odds)– 그룹 1에 속할 확률 / 그룹 2에 속할 확률

• 그룹 1에 속할 확률 p• 오즈 = p / (1-p)

• 로그 오즈– 오즈에 로그를 취한 값– 로그오즈 = ln( p / (1-p) )– 로지스틱 회귀 모형 = α + β1x1i + β2 x2i + ..

• 로지스틱 회귀 방정식– p = 1 / (1 + exp[ - (α + β1x1i + β2 x2i + ..) ] )– 최대우도법 maximum likelihood method 으로 추정

분산 분석

• ANOVA analysis of variance–두 개 이상으로 구성된 그룹의 평균을 비교하

는 목적의 분산–평균의 정확성 측정

• 단일 요일 분산 분석 one way ANOVA

• 2요인 분산 분석 two way ANOVA

요인분석• 측정 변수들의 상호 의존 관계를 나타낼 수 있도록 만드는 새로운

변수• 탐색적 요인분석

확증적 요인분석• 초기 요인 추출

– 주성분 분석 principal component analysis– 반복된 주성분 분석 iterated principal component– 최대우도법 maximum likelihood method

• 요인 다이어그램– 요익 적재값을 그래프를 그려서 시각화

• 요인 회전 factor rotation– 직교 회전 orthogonal rotation

• 배리맥스 회전 varimax rotation

– 사각 회전 oblique rotation• 비직교회전 non-orthogonal rotation

군집분석

• 데이터의 군집을 분류• 프로파일 다이어그램• 두 점간의 거리– 유클리디안 거리– 절대차이

• 두 군집간의 거리– 중심 연결법, 단일 연결법, 완전 연결법, 평균 연

결법, …• 계층적 군집화 – 응집법, 분리법

비계층적 군집화 – k 평균 군집화

3. 통계적 추측

• 기본–어떤 가설을 참이라고 가정–일어날 가능성이 희박한 표본 평균값에 대한

수준을 정함–표본 자료를 통해 계산된 표본 평균이 그 수준

을 벗어나면–참이라고 가정한 그 가설은 기각

통계적 가설• 귀무가설(H0) nullhypothesis

– 일반적으로 인정하는 가설– 주장하고자 하는 가설의 반대

• 대립가설(H1) alternative hypothesis– 일반적으로 주장하고자 하는 가설– 귀무 가설의 반대 (대립)

• 결론적으로 귀무 가설을 기각시켜서 대립 가설을 주장하는 로직• 결론 해석

– 가설이 참이다 X– 가설을 기각할만한 충분한 이유가 없다 (O)

• 유의 수준

• 1종 오류– 귀무가설이 진실임에도 불구하고 귀무가설을

기각하고 대립가설을 채택하는 경우• 2종 오류

– 귀무가설이 진실이 아님에도 불구하고귀무가설을 채택하는 경우

통계적 절차

• 유의 수준, 귀무가설, 대립 가설 설정• 검정 통계량 결정• 기각역 결정• 검정 통계량의 계산• 통계적 의사 결정

질문/답

• 감사합니다

Education

11_통계 자료분석 입문