[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석

빅데이터 분석을 위한 통계 이해와 해석

2013. 11. 14

㈜ 세이프티아 선임연구원 공학박사 김은주

목차

통계학이란 생각보다 중요한 자료형 기술 통계량과 해석 참고문헌

통계학이란빅데이터 분석을 위한 통계 이해와 해석

통계학 (Statistics)

기술통계학 관측을 통하여 얻은 데이터에서 그 데이터의 특성을 뽑아내기 위한

기술 도수분포표 , 히스토그램 , 평균 , 표준편차 등

추리통계학 ‘ 전체를 파악할 수 없을 정도로 큰 대상’이나 ‘아직 일어나지 않은 ,

미래에 일어날일’에 관해 추측하는 것 선거 결과 예측 시스템 등

출처 : 세상에서 가장 쉬운 통계학 입문

우리 주변에 통계 활용 예 (1/2)

한국의 주요지표 ( 통계청 , 2013 년 11 월 11 일 기준 )

기준 값 비고

추계인구 201350,219,669

명

월평균소득 2013 2/4 4,040,630 원 기준 : 가구

실업률 2013.09 2.7%경제활동인구대상( 만 15 세이상 )

1 인당 국민 총소득 2012 2,559 만원

기대수명 2011 81.2 년

고용률 2013.09 60.4%만 15 세이상 인구 중

취업자가 차지하는 비율

우리 주변에 통계 활용 예 (2/2)

프로야구 심판 오심 삼진아웃제 , 찬성 62.4%( 리얼미터 , 2014.06.18)

최근 프로야구 심판들의 오심이 문제가 되고 있는 가운데 오심이 잦은 심판들에게 삼진아웃제를 도입해야 한다는 의견에 대해 찬성한다는 의견이 더 높은 것으로 나타났다 . 여론조사 전문기관 리얼미터 ( 대표 : 이택수 ) 가 심판 오심에 대한 삼진아웃제에 대한 긴급 여론조사를 실시한 결과 , ‘ 찬성한다’는 의견이 62.4%, ‘ 반대한다’는 의견이 11.6% 로 , 찬성 의견이 압도적으로 높게 나타났다 .

조사 개요 조사기간 : 2013 년 6 월 17 일 ( 월 )

조사대상 : 전국 19 세 이상 성인남녀 500 명 조사방법 : 유무선 RDD 자동응답방식 표본오차 : 95% 신뢰수준 ±4.4%p

자료형빅데이터 분석을 위한 통계 이해와 해석

생각보다 중요한 자료형

비계량적 변수(Non-metric)

계량적 변수(metric)

질적변수(qualitative)

양적변수(qualitative)

질적 척도

양적 척도

명목척도

서열척도

등간척도

비율척도

출처 : http://socialplanner.tistory.com/123 ( 이영훈의 연구방법론 p189 재인용 )

http://socialplanner.tistory.com/123


척도의 종류

설명 예제

명목척도(nominal

scale)

• 둘 이상의 범주로 구분되는 변수를 측정하는 척도• 서열이 없음

직업 , 종교

서열척도(ordinal scale)

• 정도에 따라 범주화하여 순서대로 배열 한 것• 상대적인 서열이므로 크기의 정도를 알 수 없음• 2 등은 1 등의 2 배 의미가 없음

계층 , IQ 등

등간척도(interval

scale)

• 범주간의 간격이 일정함• 연속적 척도• 200 원은 100 원에 비하여 2 배의 의미가 있음

온도 ,

비율척도(ratio scale)

• 연속적 척도• 0 의 의미가 있음

인구수 , 소득 , 무게 ,

연령


자료의 종류

분류 설명 예제

질적 자료(qualitative

data)

수치로 측정이 불가능한 자료범주형 자료 (Categorical data)라고도 함

전화번호성별 , 순위 등급종교구분

양적 자료(quanitive

data)수치로 측정이 가능한 자료 온도 , 가격 ,

매출액

출처 : 위키백과 , 자료 (http://ko.wikipedia.org/wiki/%EC%9E%90%EB%A3%8C)


분류 설명 예제

양적자료 이산형(discrete data)

셀 수 있는 숫자 사람수 , 나이

연속형(continuous data)

특정 단위를 이용하여 측정하는 숫자

무게 , 온도

질적자료 이분형(Dichotomous data)

범주가 두 개인 자료 성별 , Yes/No

다분형(nondichotomous data)

범주가 셋 이상인 자료 종교 , 지역

자료

양적자료이산형

연속형

질적자료이분형

다분형


측도 별 분석 방법

통계분석방법 기계학습 분석 시 고려할 것

명목척도(nominal scale)

최빈값 , 빈도 - 회귀분석사용 및 거리를 구하는 알고리즘( 예 : K-means, k-NN 등 ) 사용할 수 없음

- 일부의 경우 코드화 하여 사용하지만 ,

올바른 방법이 아님- 연관규칙 , 의사결정트리 , 신경망 등과

빈도수를 이용하는 군집화 기법은 이용가능

서열척도(ordinal scale)

중앙값 ,

사분위값 , Spear-

man 상관계수 등

등간척도(interval scale)

평균 ,

표준편차 , Pearson

상관계수 등

- 연관규칙 기법 등을 이용하기 위하여 범주화 등을 선행하여야 함

- 회귀분석 , 신경망 , K-means 등은 사용가능비율척도

(ratio scale)평균 ,

표준편차 등

기술 통계량과 해석빅데이터 분석을 위한 통계 이해와 해석

통계량

데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리 정돈해서 의미 있는 정보만 추출 하는 것 그래프로 만들어서 그 특징을 파악할 수 있도록 함 숫자 하나로 특징을 대표하도록 함

예제

2710

2755

2850

2880

2880

2890

2920

2940

2950

3050

3130

3325

김은주

Chart 넣을 것

기술 통계량과 해석

위치의 척도

기술통계량 설명 예제

평균(average, mean)

• 자료의 중심 위치를 측정함• 데이터 합계를 데이터 총 개수로 나눈 값• 데이터들은 평균값 주변에 분포되어 있음

• 2940

중앙값(median)

• 자료의 중심 위치를 나타내는 또 다른 척도• 최소값부터 최대값으로 순서대로 정렬할 때 , 순서 상 가장

중앙에 있는 값• 자료가 홀수개이면 가장 중간에 위치한 값• 자료가 짝수개이면 중앙에 있는 두 값의 평균

• 자료가 짝수개이므로 2890, 2920 의 평균값인 2905

최빈값 (mode) • 가장 도수가 많은 값 • 2880

사분위수 (quartile)

• 자료를 4 등분 하여 분포를 보여줌• 분위수 , (25 분위수 )• 분위수 , (50 분위수 , 중앙값 )• 분위수 , (75 분위수 )

• 2865• 2905• 3000

2710

2755

2850

2880

2880

2890

2920

2940

2950

3050

3130

3325

중앙값𝑄1 𝑄3


변동성의 척도기술통계량 설명 예제

편차 (deviation) • 각 데이터가 평균값으로부터 얼마나 떨어져 있는지를 측정하는 측도

• 편차의 산술평균은 언제나 0 임

분산 (variance) • 데이터가 퍼져있는 상태를 평가함• 제곱평균을 이용하므로 값의 단위가 바뀌고 수치가 커짐

( 다른 통계량과 비교가 힘듦 )

• 27440.91

표준편차(standard deviation)

• 분산에 루트를 씌어서 사용함 • 편차의 평균을 구할 수 있고 , 단위도 바뀌지 않음

• 165.65

범위(range)

• 최대값 – 최소값• 극단적인 값의 영향을 많이 받기 때문에 잘 사용하지 않음

• 615

사분위범위(interquartile range: IQR)

• 범위의 극단적인 영향을 줄이기 위한 변동성 척도 • 135

변이계수(coefficient of variation)

• 평균보다 표준편차가 얼마나 큰지를 나타냄• 표준편차 / 평균

• 165.65/2940*100 = 5.6%

2710

2755

2850

2880

2880

2890

2920

2940

2950

3050

3130

3325

평균의 맹점 (1/2)

분기별 가계동향 자료에 나오는 충격적인 기사 도시 근로자 가구 월평균 소득 (2013 년 2 분기 ) 444 만

7000 원으로 서울의 아파트 ( 국토부 자료 7 월 현재 4 억 9068 만원 ) 를 매입하려면 , 한 푼 안쓰고 110 개월 (9 년 2 개월 ) 동안 저축을 해야 한다 .

출처 : 시사인 321 호 , 통계청 발표에 통곡이 나네

‘ 평균’이렇게 높아 ?

평균의 맹점 (2/2)

기사의 문제점 ‘ 우리나라 전체 가구’가 아닌 ‘도시 근로자 가구’의 평균 소득임 통계청의 도시 근로자 가구의 기준은 “가장이 근로자인 가구의 총

수입”임 ‘ 가구’는 2 인 이상의 집단을 의미하므로 ‘ 1 인 가구’는 제외됨 전국의 8,700 개 표본 가구를 조사한 결과이므로 오차가 존재함

데이터가 그 주변에 얼마나 퍼져있는지를 아는 것이 중요


평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸 것에 불과함

데이터가 평균값 주변에 분포되어 있지만 평균값 역시 데이터의 분포 중 하나의 수일뿐

평균값으로는 데이터가 그 주변에 어느 정도 퍼져있는지 , 또는 흩어져 있는지를 알 수 없음

국회의원의 평균재산

국회의원 평균 재산 94 억원 , 2 명 제외 시 23 억 ( 머니투데이 , 2013.3.29)

2012 년 기준 국회의원 평균 재산은 94 억 9 천만원 그러나 1,000 억 이상 재산가인 정몽준 (1 조 9,249 만원 ),

고희선 (1,984 억원 ) 을 제외한 평균은 23 억 3 천만원 또한 , 500 억 이상 재산가 ( 총 4 명 ) 제외 18 억 3 천만원

고희선 정몽준

1,984 19,294

295 명 평균

18.3

23.3

297 명 평균

94.9

19 대 국회의원전체 평균 (299 명 )

단위 : 억원


Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여 평가

정규분포를 따르지 않는 경우 ( 체비세프의 정리 )

평균에서 +- 2 표준편차 사이의 자료 비율은 적어도 75% 평범한 데이터

평균에서 +- 3 표준편차 사이의 자료 비율은 89% 특수한 데이터

평균에서 +- 4 표준편차 사이의 자료 비율은 94%

𝑧=𝑥 𝑖−𝑥𝑠


Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여 평가

정규분포를 따르는 경우 평균에서 +- 1 표준편차 사이의 자료 비율은 68.3%

평범한 데이터 평균에서 +- 2 표준편차 사이의 자료 비율은 95.4%

특수한 데이터 평균에서 +- 3 표준편차 사이의 자료 비율은 99.7%

아주 특수한 데이터 이상치 (outlier) 검토 기준이 됨



표준정규분포 평균은 0, 표준편차가 1 인 정규분포 +- 1 범위의 자료 비율은 68.3%, +- 2 범위의 자료 비율은

95.4%, +- 3 범위의 자료 비율은 99.7%

일반 정규분포를 표준정규분포로 바꾸는 법


고맙습니다 .

참고문헌

서적 Head first statistic

앤더슨의 통계학 벌거벋은 통계학 , 찰스 월런저 , 김명철역 , 책읽는수요일

Web Site

http://blog.naver.com/junesj/140073919296

Technology

[Ankus Open Source Conference 2013] 빅데이터 분석을 위한 통계 이해와 해석