개요
• 기초적인 통계, 자료분석 개념 정리
• Why–게임 서비스 시 체계적이고 신속한 유저 대응
을 위한 시스템 구성–통계 및 자료 분석 개념 사용되고 있음• VSM, PCA이용한 DXT, MOTION GRAPH등등
–그냥 일반 상식으로
1. 통계 기본 개념들
• 어떻게 측정치가 실제 값이 되는가?• 기술통계, 추측통계• 샘플링• 대표 값• 표준편차• 주성분 분석• 신뢰성, 타당성
통계적 추측
• 실제값 != 예측값• 예측 값을 실제 값으로 만드는 마법
통계적 추측
• 실제값 = 예측값 + 오차
통계
• 기술 통계–모든 정보로 집단 특성 조사–센서스 census 전수조사–모집단의 특성이 다양하게 분포되는 경우
• 추측통계–모집단 가운데서 표본을 추출해서 모집단의
특성을 추측–샘플링
샘플링• 설계
– 모집단 정의– 샘플링 프레임 (목록, 기준)– 샘플링 방법 선택
• 확률적 샘플링 (순수 랜덤)– 단순 랜덤 샘플링 simple random sampling– 층화 샘플링 stratified sampling– 군집 샘플링 cluster sampling– 체계적 샘플링 systematic sampling
• 비확률적 샘플링 (의도적으로 분류)– 편의 샘플링 convenience sampling– 판단 샘플링 judgement sampling– 쿼타 샘플링 quota sampling (vs cluster sampling)
– 표본 수 결정• 최대 허용 오차, 신뢰수준
대표값
• 모집단의 특성을 나타내는 값–평균 mean
• 산술 평균 arithmetic mean
–중앙값 median
• 데이터를 순서대로 나열한 데이터 중 가운데 값(짝수면 가운데 두 수의 평균)
–최빈값• 가장 많은 값
• 평균으로는 데이터가 얼마나 흩어져 있는 지는 알수 없다
• 표준 편차 (s)• 분산 (s2)
– 값이 작으면 데이터는 평균 주변에 모이지만, 크면 평균에서 크게 벗어나는 성질
– (자유도)• 변동계수 coefficient of variation : CV– 평균에 대한 상대적 분산도– 표준편차를 평균으로 나눈 값
표준편차
• 히스토그램 histogram
확률 밀도 함수 probability density function
– 데이터 수 증가, 폭이 좁아지면
• 정규분포 normal distribution
– 종모양– 중심극한정리 centeral limit theorem
• 표본의 수가 많다면, 모집단의 실제 분포와 관계없이, 표본평균의 표본분포는 정규분포를 따른다
• Lilliefores 검정 : 데이터가 정규분포를 따르는 지 검사
정규분포
정규분포
• 정규분포는 다음의 특성을 가지고 있다
표준정규분포
• 즉, 평균과 표준 편차를 알면 데이터의 분포도를 예측 할 수 있다
응용 예
• VSM variance shadow map
• Chebyshev 부등식 이용–분산이용, occlusion 정도를 구함
http://www.punkuser.net/vsm/
주성분 분석
• 주성분 분석 principal component analysis
• 고유값 eigenvalue
• 의미 있는 개념의 수만큼 의미 있는 주성분이 추출
주성분 분석 응용 예
• DXT 압축 알고리즘– PCA축을 이용하여 블록의 두 지점 결정–각 픽셀은 두 점 사이의 블랜드 값
• 애니메이션 그래프–복잡한 모션을 특성 몇 개로 대표–모션 탐색 시 사용
http://www.slideshare.net/noerror/dxtcompressionhttp://www.gdcvault.com/play/1705/Momentum-vs-Character
신뢰성
• 신뢰성 reliability 측정– 재검사– 반분법
• 내적 일관성 측정– 측정값의 분산에서 실제 값의 분산이 차지하는 비율– 크론바흐 알파 Cronbach’s alpha
• 값이 클수록 신뢰성이 높다– 신뢰성 있는 크론바하 알파는 얼마 이상 ???
0.7 ??? Nunnally(1978)
타당성
• 타당성 Validity
–기준 타당성–내용 타당성–개념 타당성
2. 자료분석
• 모수 분석 / 비모수 분석• 상관 관계 분석• 로지스틱 회귀 분석• 분산 분석• 요인 분석• 군집 분석
자료분석
• 모수 분석 parametric analysis
–모수(평균, 분산 등)를 이용하여 추측–자료가 정규 분포를 따른다• 중심극한정리
• 비모수 분석 nonparametric analysis
–분포와 무관한 방법–도수 frequency, 부호 sign, 순위 rank 등의 통계량
으로 분석
상관 관계 분석
• 종속 변수(반응변수) Y와 독립변수(설명변수) X사이의 연관성을 파악
• 연관도 측정– 공분산
• 선형 관계 방향 유무 (관계 정도는 알 수 없음)
– 상관 계수• 표준화된 공분산• 방향과 퍼진 정도
단순 회귀 분석
• 회귀분석 regression analysis
– 다른 변수의 값이 어떻게 변할 것인지를 예측
• 두 변수 사이에 존재하는 상호의존 관계를 함수 관계로 표현– 모 회귀 방정식 population regression equation
E(Yi) = α + β xi– 표본자료를 이용 α, β 를 추정
• 최소제곱법 least square method
• 잔차 residual
– 예측한 값과 측정한 값의 차이(오차, 개별성)
단순 회귀 분석
• 총변동– SST = 회귀제곱합 SSR + 잔차제곱합 SSE
• 결정계수(r2) coefficient of determination
– SSR / SST = 1 – SSE / SST–잔차가 작을 수록 결정계수가 커진다–결정계수 0.7 = 70%로 회귀식을 설명할 수 있
다
• 상관 계수(r) coefficient of correlation
단순 회귀 분석• F 검점
– 회귀 모형을 사용할 것인지 검정• F가 1보다 충분히 커야 한다
– F = MSR / MSE• MSR (mean square regression) <- 회귀변동• MSE (mean square error) <- 평균 잔차변동• 자유도
• t 검정– 독립 변수와 종속 변수의 관계의 유의미성
• T값이 유의 값 보다 크다면 유의미
• 잔차 분석 residual analysis– 잔차가 서로 무관해야 함 (상관성 X)– 거빈 와트슨 통계량 Durbin-Watson statistic
다중 회귀 분석
• 한 개의 종속 변수와 여러 개의 독립변수의관계를 분석
• 회귀 방정식Yi = α + β1x1i + β2 x2i + .. + ei
• 다중 공선성 multicollinearity
– 독립 변수들 사이의 상호의존도가 높으면 회귀계수의 부호가 바뀌거나 0에 가까운 값으로 나타남
– 분산확대인자 Variance inflation factor• 클수록 다중 공선성이 심하다
– 상관 관계가 높은 변수들 중 하나만 남기고 나머지 변수들은 모형에서 제거
다중 회귀 분석
• 적합성 검정–전반 검정–부분 검정• 다중 공선성 문제를 해결하기 위해 추가적인 검정
절차 필요• 독립변수 각각의 회귀계수에 대해 유의성 검정
로지스틱 회귀 분석• 자료가 두 그룹으로 나누어진 상황에서, 두 그룹이 구분되는
특성을 파악하여 다른 어떤 데이터가 어느 그룹에 속하는 지예측
• 오즈 (odds)– 그룹 1에 속할 확률 / 그룹 2에 속할 확률
• 그룹 1에 속할 확률 p• 오즈 = p / (1-p)
• 로그 오즈– 오즈에 로그를 취한 값– 로그오즈 = ln( p / (1-p) )– 로지스틱 회귀 모형 = α + β1x1i + β2 x2i + ..
• 로지스틱 회귀 방정식– p = 1 / (1 + exp[ - (α + β1x1i + β2 x2i + ..) ] )– 최대우도법 maximum likelihood method 으로 추정
분산 분석
• ANOVA analysis of variance–두 개 이상으로 구성된 그룹의 평균을 비교하
는 목적의 분산–평균의 정확성 측정
• 단일 요일 분산 분석 one way ANOVA
• 2요인 분산 분석 two way ANOVA
요인분석• 측정 변수들의 상호 의존 관계를 나타낼 수 있도록 만드는 새로운
변수• 탐색적 요인분석
확증적 요인분석• 초기 요인 추출
– 주성분 분석 principal component analysis– 반복된 주성분 분석 iterated principal component– 최대우도법 maximum likelihood method
• 요인 다이어그램– 요익 적재값을 그래프를 그려서 시각화
• 요인 회전 factor rotation– 직교 회전 orthogonal rotation
• 배리맥스 회전 varimax rotation
– 사각 회전 oblique rotation• 비직교회전 non-orthogonal rotation
군집분석
• 데이터의 군집을 분류• 프로파일 다이어그램• 두 점간의 거리– 유클리디안 거리– 절대차이
• 두 군집간의 거리– 중심 연결법, 단일 연결법, 완전 연결법, 평균 연
결법, …• 계층적 군집화 – 응집법, 분리법
비계층적 군집화 – k 평균 군집화
3. 통계적 추측
• 기본–어떤 가설을 참이라고 가정–일어날 가능성이 희박한 표본 평균값에 대한
수준을 정함–표본 자료를 통해 계산된 표본 평균이 그 수준
을 벗어나면–참이라고 가정한 그 가설은 기각
통계적 가설• 귀무가설(H0) nullhypothesis
– 일반적으로 인정하는 가설– 주장하고자 하는 가설의 반대
• 대립가설(H1) alternative hypothesis– 일반적으로 주장하고자 하는 가설– 귀무 가설의 반대 (대립)
• 결론적으로 귀무 가설을 기각시켜서 대립 가설을 주장하는 로직• 결론 해석
– 가설이 참이다 X– 가설을 기각할만한 충분한 이유가 없다 (O)
• 유의 수준
• 1종 오류– 귀무가설이 진실임에도 불구하고 귀무가설을
기각하고 대립가설을 채택하는 경우• 2종 오류
– 귀무가설이 진실이 아님에도 불구하고귀무가설을 채택하는 경우
통계적 절차
• 유의 수준, 귀무가설, 대립 가설 설정• 검정 통계량 결정• 기각역 결정• 검정 통계량의 계산• 통계적 의사 결정
질문/답
• 감사합니다