Upload
-
View
1.809
Download
6
Embed Size (px)
DESCRIPTION
[Ankus Open Source Conference 2013] '빅데이터 분석을 위한 통계 이해와 해석' 에 대한 발표자료
Citation preview
빅데이터 분석을 위한 통계 이해와 해석
2013. 11. 14
㈜ 세이프티아 선임연구원 공학박사 김은주
목차
통계학이란 생각보다 중요한 자료형 기술 통계량과 해석 참고문헌
통계학이란빅데이터 분석을 위한 통계 이해와 해석
통계학 (Statistics)
기술통계학 관측을 통하여 얻은 데이터에서 그 데이터의 특성을 뽑아내기 위한
기술 도수분포표 , 히스토그램 , 평균 , 표준편차 등
추리통계학 ‘ 전체를 파악할 수 없을 정도로 큰 대상’이나 ‘아직 일어나지 않은 ,
미래에 일어날일’에 관해 추측하는 것 선거 결과 예측 시스템 등
출처 : 세상에서 가장 쉬운 통계학 입문
우리 주변에 통계 활용 예 (1/2)
한국의 주요지표 ( 통계청 , 2013 년 11 월 11 일 기준 )
기준 값 비고
추계인구 201350,219,669
명
월평균소득 2013 2/4 4,040,630 원 기준 : 가구
실업률 2013.09 2.7%경제활동인구대상( 만 15 세이상 )
1 인당 국민 총소득 2012 2,559 만원
기대수명 2011 81.2 년
고용률 2013.09 60.4%만 15 세이상 인구 중
취업자가 차지하는 비율
우리 주변에 통계 활용 예 (2/2)
프로야구 심판 오심 삼진아웃제 , 찬성 62.4%( 리얼미터 , 2014.06.18)
최근 프로야구 심판들의 오심이 문제가 되고 있는 가운데 오심이 잦은 심판들에게 삼진아웃제를 도입해야 한다는 의견에 대해 찬성한다는 의견이 더 높은 것으로 나타났다 . 여론조사 전문기관 리얼미터 ( 대표 : 이택수 ) 가 심판 오심에 대한 삼진아웃제에 대한 긴급 여론조사를 실시한 결과 , ‘ 찬성한다’는 의견이 62.4%, ‘ 반대한다’는 의견이 11.6% 로 , 찬성 의견이 압도적으로 높게 나타났다 .
조사 개요 조사기간 : 2013 년 6 월 17 일 ( 월 )
조사대상 : 전국 19 세 이상 성인남녀 500 명 조사방법 : 유무선 RDD 자동응답방식 표본오차 : 95% 신뢰수준 ±4.4%p
자료형빅데이터 분석을 위한 통계 이해와 해석
생각보다 중요한 자료형
비계량적 변수(Non-metric)
계량적 변수(metric)
질적변수(qualitative)
양적변수(qualitative)
질적 척도
양적 척도
명목척도
서열척도
등간척도
비율척도
출처 : http://socialplanner.tistory.com/123 ( 이영훈의 연구방법론 p189 재인용 )
생각보다 중요한 자료형
척도의 종류
설명 예제
명목척도(nominal
scale)
• 둘 이상의 범주로 구분되는 변수를 측정하는 척도• 서열이 없음
직업 , 종교
서열척도(ordinal scale)
• 정도에 따라 범주화하여 순서대로 배열 한 것• 상대적인 서열이므로 크기의 정도를 알 수 없음• 2 등은 1 등의 2 배 의미가 없음
계층 , IQ 등
등간척도(interval
scale)
• 범주간의 간격이 일정함• 연속적 척도• 200 원은 100 원에 비하여 2 배의 의미가 있음
온도 ,
비율척도(ratio scale)
• 연속적 척도• 0 의 의미가 있음
인구수 , 소득 , 무게 ,
연령
생각보다 중요한 자료형
자료의 종류
분류 설명 예제
질적 자료(qualitative
data)
수치로 측정이 불가능한 자료범주형 자료 (Categorical data)라고도 함
전화번호성별 , 순위 등급종교구분
양적 자료(quanitive
data)수치로 측정이 가능한 자료 온도 , 가격 ,
매출액
출처 : 위키백과 , 자료 (http://ko.wikipedia.org/wiki/%EC%9E%90%EB%A3%8C)
생각보다 중요한 자료형
분류 설명 예제
양적자료 이산형(discrete data)
셀 수 있는 숫자 사람수 , 나이
연속형(continuous data)
특정 단위를 이용하여 측정하는 숫자
무게 , 온도
질적자료 이분형(Dichotomous data)
범주가 두 개인 자료 성별 , Yes/No
다분형(nondichotomous data)
범주가 셋 이상인 자료 종교 , 지역
자료
양적자료이산형
연속형
질적자료이분형
다분형
생각보다 중요한 자료형
측도 별 분석 방법
통계분석방법 기계학습 분석 시 고려할 것
명목척도(nominal scale)
최빈값 , 빈도 - 회귀분석사용 및 거리를 구하는 알고리즘( 예 : K-means, k-NN 등 ) 사용할 수 없음
- 일부의 경우 코드화 하여 사용하지만 ,
올바른 방법이 아님- 연관규칙 , 의사결정트리 , 신경망 등과
빈도수를 이용하는 군집화 기법은 이용가능
서열척도(ordinal scale)
중앙값 ,
사분위값 , Spear-
man 상관계수 등
등간척도(interval scale)
평균 ,
표준편차 , Pearson
상관계수 등
- 연관규칙 기법 등을 이용하기 위하여 범주화 등을 선행하여야 함
- 회귀분석 , 신경망 , K-means 등은 사용가능비율척도
(ratio scale)평균 ,
표준편차 등
기술 통계량과 해석빅데이터 분석을 위한 통계 이해와 해석
통계량
데이터로 나열되어 있는 많은 숫자를 어떤 기준으로 정리 정돈해서 의미 있는 정보만 추출 하는 것 그래프로 만들어서 그 특징을 파악할 수 있도록 함 숫자 하나로 특징을 대표하도록 함
예제
2710
2755
2850
2880
2880
2890
2920
2940
2950
3050
3130
3325
기술 통계량과 해석
위치의 척도
기술통계량 설명 예제
평균(average, mean)
• 자료의 중심 위치를 측정함• 데이터 합계를 데이터 총 개수로 나눈 값• 데이터들은 평균값 주변에 분포되어 있음
• 2940
중앙값(median)
• 자료의 중심 위치를 나타내는 또 다른 척도• 최소값부터 최대값으로 순서대로 정렬할 때 , 순서 상 가장
중앙에 있는 값• 자료가 홀수개이면 가장 중간에 위치한 값• 자료가 짝수개이면 중앙에 있는 두 값의 평균
• 자료가 짝수개이므로 2890, 2920 의 평균값인 2905
최빈값 (mode) • 가장 도수가 많은 값 • 2880
사분위수 (quartile)
• 자료를 4 등분 하여 분포를 보여줌• 분위수 , (25 분위수 )• 분위수 , (50 분위수 , 중앙값 )• 분위수 , (75 분위수 )
• 2865• 2905• 3000
2710
2755
2850
2880
2880
2890
2920
2940
2950
3050
3130
3325
중앙값𝑄1 𝑄3
기술 통계량과 해석
변동성의 척도기술통계량 설명 예제
편차 (deviation) • 각 데이터가 평균값으로부터 얼마나 떨어져 있는지를 측정하는 측도
• 편차의 산술평균은 언제나 0 임
분산 (variance) • 데이터가 퍼져있는 상태를 평가함• 제곱평균을 이용하므로 값의 단위가 바뀌고 수치가 커짐
( 다른 통계량과 비교가 힘듦 )
• 27440.91
표준편차(standard deviation)
• 분산에 루트를 씌어서 사용함 • 편차의 평균을 구할 수 있고 , 단위도 바뀌지 않음
• 165.65
범위(range)
• 최대값 – 최소값• 극단적인 값의 영향을 많이 받기 때문에 잘 사용하지 않음
• 615
사분위범위(interquartile range: IQR)
• 범위의 극단적인 영향을 줄이기 위한 변동성 척도 • 135
변이계수(coefficient of variation)
• 평균보다 표준편차가 얼마나 큰지를 나타냄• 표준편차 / 평균
• 165.65/2940*100 = 5.6%
2710
2755
2850
2880
2880
2890
2920
2940
2950
3050
3130
3325
평균의 맹점 (1/2)
분기별 가계동향 자료에 나오는 충격적인 기사 도시 근로자 가구 월평균 소득 (2013 년 2 분기 ) 444 만
7000 원으로 서울의 아파트 ( 국토부 자료 7 월 현재 4 억 9068 만원 ) 를 매입하려면 , 한 푼 안쓰고 110 개월 (9 년 2 개월 ) 동안 저축을 해야 한다 .
출처 : 시사인 321 호 , 통계청 발표에 통곡이 나네
‘ 평균’이렇게 높아 ?
평균의 맹점 (2/2)
기사의 문제점 ‘ 우리나라 전체 가구’가 아닌 ‘도시 근로자 가구’의 평균 소득임 통계청의 도시 근로자 가구의 기준은 “가장이 근로자인 가구의 총
수입”임 ‘ 가구’는 2 인 이상의 집단을 의미하므로 ‘ 1 인 가구’는 제외됨 전국의 8,700 개 표본 가구를 조사한 결과이므로 오차가 존재함
데이터가 그 주변에 얼마나 퍼져있는지를 아는 것이 중요
기술 통계량과 해석
평균값이라는 것은 데이터의 분포 중에서 하나의 수를 꺼낸 것에 불과함
데이터가 평균값 주변에 분포되어 있지만 평균값 역시 데이터의 분포 중 하나의 수일뿐
평균값으로는 데이터가 그 주변에 어느 정도 퍼져있는지 , 또는 흩어져 있는지를 알 수 없음
국회의원의 평균재산
국회의원 평균 재산 94 억원 , 2 명 제외 시 23 억 ( 머니투데이 , 2013.3.29)
2012 년 기준 국회의원 평균 재산은 94 억 9 천만원 그러나 1,000 억 이상 재산가인 정몽준 (1 조 9,249 만원 ),
고희선 (1,984 억원 ) 을 제외한 평균은 23 억 3 천만원 또한 , 500 억 이상 재산가 ( 총 4 명 ) 제외 18 억 3 천만원
고희선 정몽준
1,984 19,294
295 명 평균
18.3
23.3
297 명 평균
94.9
19 대 국회의원전체 평균 (299 명 )
단위 : 억원
기술 통계량과 해석
Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여 평가
정규분포를 따르지 않는 경우 ( 체비세프의 정리 )
평균에서 +- 2 표준편차 사이의 자료 비율은 적어도 75% 평범한 데이터
평균에서 +- 3 표준편차 사이의 자료 비율은 89% 특수한 데이터
평균에서 +- 4 표준편차 사이의 자료 비율은 94%
𝑧=𝑥 𝑖−𝑥𝑠
기술 통계량과 해석
Z-score: 평균과 표준편차를 이용한 상대적 위치 계산하여 평가
정규분포를 따르는 경우 평균에서 +- 1 표준편차 사이의 자료 비율은 68.3%
평범한 데이터 평균에서 +- 2 표준편차 사이의 자료 비율은 95.4%
특수한 데이터 평균에서 +- 3 표준편차 사이의 자료 비율은 99.7%
아주 특수한 데이터 이상치 (outlier) 검토 기준이 됨
𝑧=𝑥 𝑖−𝑥𝑠
기술 통계량과 해석
표준정규분포 평균은 0, 표준편차가 1 인 정규분포 +- 1 범위의 자료 비율은 68.3%, +- 2 범위의 자료 비율은
95.4%, +- 3 범위의 자료 비율은 99.7%
일반 정규분포를 표준정규분포로 바꾸는 법
𝑧=𝑥 𝑖−𝑥𝑠
고맙습니다 .
참고문헌
서적 Head first statistic
앤더슨의 통계학 벌거벋은 통계학 , 찰스 월런저 , 김명철역 , 책읽는수요일
Web Site
http://blog.naver.com/junesj/140073919296