빅데이터

빅데이터 교육

이강욱

The leading expert in Data Science

[email protected]

VICDATA

VALUE

데이터데이터의 정의

“ Data are values of qualitative or quantitative variables, belong to a set of items.”

Set of items : Sometimes called the population; the set of objects you are in-terested in.

Variables : A measurement or characteristic of an item

Qualitative : Country of origin, treatment, gender ...

Quantitative : Height, weight, blood pressure...

데이터존재적 특성

존재적 특성에는 정성적 데이터 (qualitative data) 와 정량적 데이터 (quantitative data) 로 구분한다 .정성적 데이터 : 언어 , 문자 등으로 이루어짐 – 오늘 날씨가 좋다 정량적 데이터 : 수치 , 도형 , 기호 등으로 이루어짐 – 나이 , 몸무게

데이터목적론적 특성

우리의 인식체계에서 어떤 사실에 대해 “데이터”라고 인식하게 되는 객체가 가지고 있는 존재 목적 .수요조사 , 실험 검사 측정 등을 통해 데이터를 수집 축적 다양한 방법으로 분석 하여 논문 예측 경영전략 정책을 수립하는 일련의 가치 창출 .

암묵지 형식지

경험을 통해 습득된 무형의 지식

형상화된 지식

데이터베이스개요

동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아 들이고 저장 , 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합

히스토리

1950 년대 미국 군수목적으로 데이터의 기지라는 이름으로 개념 출발 1960 년대 디지털 컴퓨팅 발달로 계층구조의 데이터베이스 탄생 1970 년대 관계형 데이터베이스 이론 ( 코드 -1981 튜링상 )

1980 년대 관계형 데이터베이스 시스템 출시 1990 년대 ~ 현재 관계형 데이터베이스 시스템 전성기 2010 년대 big data 이론의 대두로 NoSql 기반의 데이터 베이스 시스템 개발

데이터베이스ACID 이론

원자성 (Atomicity) : 트랜잭션의 처리는 완전히 끝마치지 않을 경우에는 전혀 이루어지지 않은 것과 같아야 한다 .

이러한 특성을 All or Nothing" 이라 한다 .

일관성 (Consistency) : 트랜잭션들간의 영향이 한 방향으로만 전달되어야 한다 .

고립성 (Isolation) : 트랜잭션의 부분적인 상태를 다른 트랜잭션에 제공해서는 안된다 .

지속성 (Durability) : 성공적인 트랜잭션의 수행 후에는 반드시 데이터베이스 ( 디스크 ) 에 반영하여야 한다 .

데이터베이스CAP 이론

2000 년 에릭 브루어 (Eric Brewer) 가 주창한 이론으로 , CAP 정리 (CAP Theorem), 혹은 브루어 정리 (Brewer’s theorem) 등으로 불리운다 . 주요 내용은 분산 컴퓨터 시스템에서 , 분산된 시스템이 가지는 세가지 특성을 동시에 충족시키는 것은 불가능하며 , 이 중 두가지만을 취할 수 있다는 것을 정리한 내용이다

일관성 (Consistency) 각각의 사용자가 같은 데이터를 볼 수 있다 = 모든 노드가 같은 시간에 같은 데이터를 보여줘야 한다 .

가용성 (Availability) 모든 사용자가 항상 읽고 쓸 수 있다 = 몇몇 노드가 다운되어도 다른 노드들에게 영향을 주지 않아야 한다 .

분단가용성 (Partition Tolerance) 물리적으로 분리된 분산 환경에서도 작동한다 = 일부 메시지를 손실하더라도 시스템은 정상 동작을 해야 한다 .

데이터베이스CAP 이론

CP 분류 ( 동일성 + 생존성 = 모든 노드가 함께 퍼포먼스를 내야하는 성능형 )AP 분류 ( 독립성 + 생존성 = 비동기화된 서비스 스토어에 적합 )CA 분류 ( 동일성 + 독립성 = 일반적인 RDB)

데이터베이스NoSql

Not-Only-SQL 빅데이터 분산처리 및 저장 기술과 함께 발달된 분산 데이터베이스 기술

Key-Value : 가장 기초적이며 다른 데이터 모델의 기본이 됨 . Dynamo, Redis

Ordered KeyValue : 키밸류 모델에 데이터간 연속성을 더해 스캔에 힘을 더함 . BerkeleyDB

Big Table : 순차적 키밸류 모델에 데이터 모델링이 가능하도록 변경된 모델 : Hbase

Documnet : 오브젝트형 이 NoSql 형태로 파생 오브젝트대신 XML,JSON 등 문서형 사용: MongoDB, Cloudant

데이터베이스NoSql

그만 따라해 !!!

빅데이터정의

클 가능성을 가진 모든 디지털 형태의 데이터

빅데이터데이터용량 추이

PC 시대

인터넷 /모바일 시대

메인프레임컴퓨터

디지털 정보량증가 추이

• 2011년 전세계 디지털 정보량은 약 1.8ZB(제타바이트 )

※ 1.8제타바이트 = 1.8조 기가바이트

• 2020년에 관리해야 할 정보의 양은 50배에 이상 증가

SNSWeb2.0

브로드밴드1인 1PC

모바일혁명

www

사물정보통신

증강현실

인공지능

(IDC & EMC, ‘Digital Universe Study 2011’)

<전세계 정보량 증가 추이>

ITeverywhere

빅데이터시대 도래

* Byte, Kilo, Mega, Giga, Tera, Peta, Exa, Zetta 1ZB(제타바이트 ) = 1021 Byte = 1조 GB

빅데이터데이터용량 추이

빅데이터빅데이터의 전망



ICE BREAKE다음 중 빅데이터라고 생각되는 것은 ?

미의회 도서관 자료

한국고용정보원 자료

싸이월드자료

빅데이터의 활용시장예측

빅데이터의 활용선호분석

빅데이터의 활용사회적분위기 파악

빅데이터의 활용트렌드 감지 및 예측

빅데이터의 활용빅데이터가 변화시킨 것들

사전처리 사후처리 ( 표준화된 문서포맷 )표본조사 전수조사 ( 잉여력 )질 양 ( 번역시스템 )인과관계 상관관계 (Aviva)

빅데이터의 활용사전처리사후처리

사전처리 사후처리 ( 표준화된 문서포맷 )표본조사 전수조사 ( 잉여력 )질 양 ( 번역시스템 )인과관계 상관관계 (Aviva)

빅데이터 사례해외사례 ( 월마트 )

• Polaris– 소비자가 희망할 것으로 추정되는 것 검색– 월마트 ‘ social genom’ 프로젝트– Fast data의 개념 도입– 소비자의 수 15% 증가 , 온라인 리뷰 20% 증가– 기존 검색업체들을 통해 제휴하려 했지만 , 거부당해 자체 솔루션 개발

– 오프라인 매장과 온라인 매장의 연결고리 마련– 불필요한 물품을 각 매장에 보낼 필요가 없어져 유통 구조를 개선할 수 있으며 각 매장 공간 효율성 상승

– 검색통계를 활용해 특정 제품에 관심이 많은 지역 점포의 상품구성 조정을 한다

빅데이터 사례해외사례 ( 월마트 )

빅데이터 사례해외사례

Google flu Trends


Google flu Trends

구글이 지난 2008 년 11 월부터 선보인 ' 독감 트렌드 ' 서비스는 전 세계 각지에서 ' 독감증세 ', ' 독감치료 ' 등 독감과 관련된 검색어의 입력 빈도를 지역별로 파악해 독감 유행 수준을 ‘매우 낮음’부터 ‘매우 높음’까지 5 개 등급으로 구분해 표시한다 .

특정 지역에서 발열이나 기침 등 독감 관련 검색이 늘어나면 검색어와 관련된 IP 주소를 지도에 추가해 해당 지역의 독감 유행 수준 등급이 거의 실시간으로 표시된다 .

구글의 독감 트렌드가 지난 2009 년 2 월 대서양 연안 중부지역 주에서 감기가 확산될 것이란 정보를 미국 CDC 보다 2 주 먼저 예측한 것은 지금도 화제가 되고 있다 .

앞서 구글은 미국 CDC 의 관련 보고서보다 1 주에서 2 주 정도 더 빨리 독감 바이러스의 활성을 정확히 예측하는 실시간 감시 시스템으로 변환시켜주는 컴퓨터 모델을 제시했으며 , 그 결과가 네이처 (Nature) 지에도 게재됐다 .

이번에도 구글의 독감 트렌드는 미국 CDC 의 독감 감시 리포터와 거의 일치하고 있다 . 게다가 CDC 보다 앞서 독감의 확산 경로를 보여주고 있다 .


Google flu Trends 반론

" 구글 독감 동향 (GFT) 은 공학의 놀라운 부분이고 매우 유용한 도구이지만 , ' 빅 데이터 ' 분석이 어떤 곳에서 잘못 활용될 수 있는지도 보여준다 ." 라고 휴스턴 대학의 정치학 교수인 라이언 케네디는 말했다 . 케네디와 공동 연구자들은 구글과 같은 수집기로부터 얻어진 빅 데이터의 잘못된 사용에 대한 새로운 연구를 자세히 설명했다 .

수 년 간 GFT 에 대한 수정에도 불구하고 , 독감 유행에 대한 대응을 개선하기 위해 설정된 도구는 지난 2 년 동안 미국에서 최대 독감 증례들을 과대 평가해왔다 . "' 빅 데이터 ' 의 대부분의 원천은 , 구글 처럼 지속적으로 자신의 비즈니스 모델에 따라 해당 서비스를 변경하고 있는 민간 기업들에서 온다 ." 고 케네디 는 말했다 . " 우리는 이것이 그들이 생산하는 데이터에 어떻게 영향을 끼치는지에 대해 이해할 필요가 있습니다 . 그렇지 않으면 우리는 잘못된 결론을 도출하고 잘못된 정책을 채택할 위험을 가지게 됩니다 ." 라고 케네디 는 말했다 .

이 연구에 따르면 , 구글 독감 동향 (GFT) 은 2011-2012, 2012-2013 시즌의 독감 유병률 (prevalence) 을 50% 가 넘게 과대 평가했다 . 또한 , 2011 년 8 월 부터 2013 년 9 월 사이에 , 구글 독감 동향 (GFT) 은 108 주 중 100 주 동안 독감 의 유병률 (prevalence) 을 과도하게 예측했다 .


Google flu Trends 변명지난 달 , 사이언스 지에 실린 “구글트렌드가 준 교훈 : 빅데이터 분석의 함정 (The Parable of Google Flu: Traps in Big Data Analysis)” 이라는 논문은 독감 트렌드의 예측 능력 실패를 다루며 , 독감 트렌드가 2011 년 8 월 이후 108 주 중에서 100 주 동안 실제 독감발병보다 더 높은 값을 예측했다고 발표했습니다 .그리고 다시 많은 매체들이 이를 다루었습니다 . 포브스는 “왜 구글 독감 트렌드는 실패했나”라는 제목을 , 타임즈는 “구글 독감 트렌드의 실패가 보여주는 빅 데이터의 단점”이라는 제목을 뽑았았습니다 . 마치 이들의 기사 제목을 보면 구글의 독감 트렌드가 전혀 엉뚱한 결과를 만들어 내는 것처럼 보입니다 .그러나 논문을 잘 살펴보면 , 비록 독감 트렌드 자체는 좋은 결과를 주지 않았지만 , 독감 트렌드와 CDC 의 표준예측결과를 조합했을 때는 실제로 더 나은 결과를 준다는 것을 볼 수 있습니다 . 논문의 저자는 이렇게 말합니다 .“ 구글 독감 트렌드는 그 자체로 다른 전통적인 방법을 대체하도록 만들어졌다기 보다는 다른 방법을 보완하는 용도로 만들어졌습니다 . 다른 감시 시스템과 마찬가지로 , 이 데이터를 바탕으로 추가적인 실제 조사활동을 하기 위해 사용될 때 가장 유용할 수 있습니다 .”만약 독감 트렌드가 실제로 CDC 의 방법들을 보완할 목표를 가졌다면 , 이를 독감 트렌드의 실패라고 부르는 것이 맞는 표현일까요 ? 실제로 2004 년 , 독감 트렌드를 지금은 거의 사문화된 구글의 20% 법칙을 통해 만든 매트 모헤비 (Matt Mohebbi) 와 제레미 깅스버그 (Jeremy Ginsberg) 는 당시 독감 트렌드를 완성한 직후 CDC 에 연락을 취해 그들이 보완적인 용도로 사용할 수 있도록 그들과 협력했습니다 .그리고 독감 트렌드는 기존의 방법을 보완했을 때 , 기존의 방법보다 더 나은 결과를 만들어 내고 있습니다 . 이런 상황에서 독감 트렌드를 , 그리고 이를 빅 데이터의 실패라고 부르는 것이 맞는 표현일까요 ?새로운 기술이 등장할 때마다 사람들은 과도한 환호성을 보냅니다 . 그리고 그 기술이 자신들의 기대에 미치지 못했을 때 , 다시 이를 실패로 쉽게 규정짓습니다 .다행히 , 이런 대중과 언론의 호들갑을 신경쓰지 않는 사람들이 있습니다 . 과학자들은 이 독감 트렌드의 방법론이 역학(epidemiology) 분야에 중요한 역할을 한다고 생각하고 있으며 2009 년 깅스버그의 네이처 논문은 지금까지 다양한 분야에서 1,000 번 이상 인용되며 과학의 발전에 기여하고 있습니다 . (Atlantic)

빅데이터 사례국내사례 (SKT)

• 주요 포털 뉴스 등 온라인 버즈 분석• SNS 상의 최신 핫이슈 분석• 기업의 평판을 실시간으로 모니터링하여 기업의 대응전략 마련

빅데이터 사례국내기업의 한계점

데이터 , 텍스트 마이닝을 하는 것 보다 모니터링에 그침

한국의 형태소 근원에 대한 명확한 텍스트 마이닝 기술 어려움

SNS 의 활동 등이 facebook, twitter 가 크지 않음

빅데이터분석기법빅데이터 활용 분석 기본 테크닉

1. 연관규칙학습 (Association Rule Learning)

2. 유전 알고리즘 (Genetic Algorithms)

3. 회귀분석 (Regression Analysis)

4. 유형분석 (Classification Tree Analysis)

5. 기계학습 (Machine Learning)

6. 소셜네트워크 분석 (Social Network Analysis)

7. 감정분석 (Sentiment Analysis)

빅데이터분석기법연관규칙학습

상품 혹은 서비스간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때 이용될 수 있는 기법 . 연관성측정 (Associations) 은 어떤 특정 문제에 대해 아직은 일어나지 않은 답 ( 예를 들어 , 부도 · 건전 ) 을 얻고자 하는 예측 (Prediction) 의 문제나 고객들을 특정목적에 따라 분류 (Segmentation) 하는 문제가 아니라 , 상품 혹은 서비스 ( 이하 상품 ) 의 거래기록 (Historical) 데이터로부터 상품간의 연관성 정도를 측정하여 관성이 많은 상품들을 그룹화하는 클러스터링 (clustering) 의 일종 .

If A Then B

빅데이터분석기법유전알고리즘

유전 알고리즘은 자연계의 생물 유전학에 기본 이론을 두며 , 병렬적이고 전역적인 탐색 알고리즘으로서 , 다윈의 적자생존 이론을 기본 개념으로 한다 . 유전 알고리즘은 풀고자 하는 문제에 대한 가능한 해들을 정해진 형태의 자료구조로 표현한 다음 , 이들을 점차적으로 변형함으로써 점점 더 좋은 해들을 만들어 낸다 . 여기에서 해들을 나타내는 자료구조는 유전자 , 이들을 변형함으로써 점점 더 좋은 해를 만들어 내는 과정은 진화로 표현할 수 있다 .

빅데이터분석기법회귀분석

변수들 간의 상호 관련성을 규명하고 어떤 변수들의 변화로부터 다른 변수들의 변화를 예측하는 기법- 상관분석두 변수의 역할이 서로 대등할 때 사용 . ex)키와 몸무게목적 (target)변수의 역할이 서로 바뀔 수 있을 때역할의 구분이 없을 때두 변수간의 직선적 (linear) 관련성의 강도 (strength)를 하나의 값 , 상관계수(correlation coefficient)- 회귀분석두 변수의 관계에 분명한 방향 (direction)이 있을 때 ex)혈압과 체질량 지수반응변수와 설명변수 (종속변수와 독립변수 ) 회귀계수 (Regression coefficients)

빅데이터분석기법유형분석

이 사용자는 어떤 특성을 가진 집단에 속하는가 ? 와 같은 문제를 해결하고자 할 때 사용한다 . 통계적 분류는 새로운 사건이 속하게 될 범주를 찾아내는 일이다 . 이를 위해서는 기존 자료를 바탕으로 만들어진 Training Set 이 있어야 한다 . 이 기법은 문서를 분류하거나 조직을 그룹으로 나눌 때 , 혹은 온라인으로 지원한 수강생들을 특성에 따라 분류할 때 사용할 수 있다 .

Classifier

TestingData

NAME RANK YEARS TENUREDTom Assistant Prof 2 noMerlisa Associate Prof 7 noGeorge Professor 5 yesJoseph Assistant Prof 7 yes

Unseen Data

(Jeff, Professor, 4)

Tenured?

빅데이터분석기법소셜네트워크분석

사회관계망 분석이라 불리는 소셜네트워크분석은 특정인과 다른 사람이 몇 촌 정도 인가 ?를 파악할 때 사용한다 . 이를 통해 오피니언 리더 , 즉 영향력 있는 사람을 찾아낼 수 있으며 , 고객들 간의 소셜 관계를 파악할 수 있다 .

A

B

CD

E

F

G

A B

C

D

E

F

G

빅데이터분석기법감정 분석

특정 주제에 관하여 말하거나 글을 쓴 사람의 감정을 분석한다 .

빅데이터분석기법기계학습

기계학습은 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까 ? 와 같은 문제를 해결할 때 사용된다 . 이를 위해 기계학습은 데이터를 통해 학습할 수 있는 소프트웨어를 포함하고 있다 . 기계학습은 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 일에 초점을 맞춘다 .

주위 환경(Environment)

학습 요소(LearningElement)

지식베이스실행 요소

(PerformanceElement)





















빅데이터분석기법통계적 기법과 차이점가설확인 중심의 통계적 방식

가설 발견 중심의 데이터마이닝 방식

질의도구

시각화도구

OLAP도구

DATA

가설

고객의 직업과 수입정도가 신용불량 여부와 관련이 많다 .

데이터마이닝

DATA

어떤 사람들이 신용불량자 (잠재 )일까 ?

가설

*직업이 자영업 ,무직등에 속한 사람들

*수입이 XXX만원이하이고 , 지역이 A지역에 거주하는 경우 신용불량 확률높음

검증 정보

빅데이터분석기법결론

데이터 분석은 결국 앞서 소개한 기법으로 데이터를 분석해 흥미로운 상관관계를 발견하거나 , 사용자를 특정한 유형으로 분류하고 , 보유한 자원을 적당하게 할당하거나 , 서비스나 상품의 가치를 책정하는데 도움을 받을 수 있다 . 나아가 여러기법을 결합해 다양한 비즈니스 모델을 개발할 수 있다 . 데이터뿐 아니라 분석 테크닉까지 창의적으로 재 조합해 활용하면 , 기존에 없던 비즈니스 모델 개발이 가능할 수도 있고 새로운 가치도 창출할 수 있게 된다 .

데이터사이언스분석 vs. 과학

Data 분석

Data Sci-ence

데이터사이언스마케팅부서의 항의

“ 애널리틱스 /IT 부서는 ‘비즈니스 구상에 관해 설명한 내용과 전혀 관련 없는 결과만을 전달하는’ 이들이다 . 이들이 수만 가지 말을 하더라도 , 마케팅 사업부에겐 아무런 영양가가 없기 십상이다”

데이터사이언스애널리틱스 /IT 부서의 변명

무엇을 분석할 것인지가 애매하고 데이터 자체가 경영과 연결되지 않고 있다 . 또한 경영문화 자체가 데이터에 적합하지 않으니 데이터에 아무리 투자해도 성과가 부진할 수밖에 없다

데이터사이언스데이터사이언스 핵심구성요소

Analytics

비즈니스 분석IT

(Data Mgmt)

데이터사이언스전문가가 본 데이터 사이언티스트의 역량

데이터사이언스전문가가 본 데이터 사이언티스트의 역량

데이터사이언스데이터 사이언티스트의 역량

Analytics

비즈니스 분석IT

(Data Mgmt)

Hard Skill

Soft Skill

데이터사이언스참고자료

OO원의 BIG DATA 커리큘럼 도출사례


ㅇ빅데이터 특성 3V 및 가치 (Value) 이해ㅇ기존 데이터와 빅데이터의 차이점ㅇ빅데이터 최신 이슈들에 대한 사례 연구ㅇ빅데이터 관련 시장과신규성장분야현황 및성장 률 전망분석ㅇ소셜 미디어 및 스마트폰을 활용한 빅데이터 적 용방법 연구

ㅇ빅데이터 자원 , 기술 , 인력에 대한 상호 관계 학습ㅇ데이터 사이언티스트의 필요역량 이해 및 강화방안 연구ㅇ데이터 사이언스의 상세 분야 탐구ㅇ데이터 사이언스의 학제성과 실제 프로젝트 수행에 필요한 역할 학습ㅇ데이터 과학자의 향후 인력수급 전망 분석


ㅇ IT의 기본개념 이해ㅇ클라우드 컴퓨팅의 기본개념 이해ㅇ System & Server의 핵심 개념 이해ㅇ Network를 활용한 빅데이터 인프라 구축ㅇ DataBase 인프라 구축 기본 개념 이해

ㅇ데이터베이스 설계 시 요구사항 분석 및 실습ㅇ논리적 설계 개념의 이해ㅇ개념적 설계 개념의 이해ㅇ물리적 설계 개념의 이해ㅇ ER 모델 개념 학습


ㅇ신뢰도와 타당도 점검방법 학습ㅇ가설과 가설검증의 과정 학습ㅇ확률적 의사결정의 개념 이해ㅇ통계적 추론법 학습ㅇ통계적 문제해결의 문제점 및 보완방법 도출

ㅇ통계의 기초가 되는 분석기법의 개념 이해ㅇ기술통계분석 , 빈도분석 , 교차분석의 이해와ㅇ다중응답분석 , 상관분석 , 신뢰도 분석의 이해ㅇ T검정 , 분산분석 , 회귀분석 , 요인분석의 이해ㅇ산업별 빅데이터 분석에 활용되는 통계 분석 기법의 이해

빅데이터의 한계와 반론빅데이터미신









마치며The data is the second most important thing

The most important thing in data science is the

question

The second most important is data

Often the data will limit or enable the question

But having data can’t save you if you don’t have a

question

Documents

빅데이터