51
데이터 과학자는 답을 알고 있다 Big Data April 2015/ ISP/ Yonsei univ. 2010147158 이병은 2012147044 박준성 2012147048 이준영 2012147022 김동욱 2012147043 최재림 2012253081 조동헌

빅데이터_ISP수업

Embed Size (px)

Citation preview

Page 1: 빅데이터_ISP수업

데이터 과학자는 답을 알고 있다

Big Data

April 2015/ ISP/ Yonsei univ.

2010147158 이병은

2012147044 박준성

2012147048 이준영

2012147022 김동욱

2012147043 최재림2012253081 조동헌

Page 2: 빅데이터_ISP수업

목차• 빅데이터 개념 소개 • Data science의 흐름 3단계

• 빅데이터 수집 – 컴퓨터 공학 • 빅데이터 분석 – 통계학 • 빅데이터 활용 – 활용 분야 전문성

• 빅데이터의 사례 • 데이터 과학자 • 빅데이터의 한계점 • 결론

Big Data

April 2015/ ISP/ Yonsei univ.

Page 3: 빅데이터_ISP수업
Page 4: 빅데이터_ISP수업

BIG DATA

Page 5: 빅데이터_ISP수업

BigdataBig Data란?

기존에는 대용량 데이터 자체를 의미하였으나, 대용

량 데이터를 이용하여 정보를 수집, 발굴, 분석하는

개념까지 확대되어, 개인화된 비정형 데이터

Page 6: 빅데이터_ISP수업

Bigdata

빅데이터와 클라우드의 만남

➢ 대용량 데이터를 다루는 특성상 한 대의 컴퓨터에 모든 데이터를 저장하는 것은 불가능. 여러 대의 컴퓨터에 저장하는 분산 환경의 저장 시스템 필요

➢ 데이터 분석 또한 한 대의 컴퓨터로 수행 불가능. 빅데이터 플랫폼은 여러 대의 컴퓨터가 유기적으로 상호 연결되어 수행되는 분산 컴퓨팅을 기반으로 구성되어어야 함.

➢ 빅데이터는 분산 컴퓨팅의 하드웨어 구성 문제를 클라우드 가상화 기술과 서비스를 통해 해결하고자 함. •필요한 만큼만 하드웨어 사용하고 반납

• 클라우드 저장 서비스는 사용 공간 및 시간 선택 가능

Big Data란?

데이터와 클라우드와의 만남을 통해서 이전에는 불가능했던 수십 TB, PB까지의 빅데이터를 저장하고

이를 분석하기 위한 컴퓨터를 원하는 만큼 손쉽게 제공 받을 수 있게 됨

Page 7: 빅데이터_ISP수업

Bigdata

공공 민간의 지식 개방, 공유 확대를 위한 빅데이터 활용 공통 기술 확보

데이터 마트 활성화로 빅데이터 활용성 증대 및 창조적 응용 분야 창출

Big Data란?

빅데이터와 클라우드의 만남

Page 8: 빅데이터_ISP수업

Bigdata

데이터의 무한질주 시대

Big Data란?

Page 9: 빅데이터_ISP수업

Bigdata

스마트환경 정착으로 ‘연결’ 이 보편화

Gartner (2010); Cisco (2011)

Big Data란?

Page 10: 빅데이터_ISP수업

Bigdata

‘연결’의 성장은 데이터의 폭증을 유발

N개의 독립된 존재가 N^2개의 상호 연결로 확장

연결관계를 따라 소통이 이뤄지며 데이터는 급팽창

Big Data란?

Page 11: 빅데이터_ISP수업

BigdataBig Data란?

수익(단위: 10억달러)

빅데이터 시장 규모와 전망

출처: IDC

성장률이 매년 30%를 상회하며 성장 중

Page 12: 빅데이터_ISP수업

Bigdata

빅데이터의 세 가지 특징

2010년 IBM이 최초 정의 전 세계 데이터 중 90%가 최근 3년 이내에 생성

<빅데이터의 3요소> Volume

Large volume of data terabytes or petabytes Size, records, transactions, or tables

Variety

Number and type of data sources Structured Unstructured

Velocity

Frequency of updates Real-time or streams Batch processing

Big Data란?

Page 13: 빅데이터_ISP수업

Bigdata

빅데이터 분류

규모

Volume다양성

Variety속도

Velocity

MB,GB

단위 규모

TB,PB,EB

단위

정형데이터 비정형데이터

동영상 음악 메세지

소셜

미디어위치정보

고객 신상 데이터 매출 데이터 재고 데이터

회계 데이터 등

유통 활용 주기

몇 시간~몇 주

유통활용 주기

분, 초게시물

Big Data란?

Page 14: 빅데이터_ISP수업

Bigdata

새로 등장한 정확성, 제4의 ‘V’

Big Data란?

Page 15: 빅데이터_ISP수업

Bigdata

DATA Science?

Page 16: 빅데이터_ISP수업
Page 17: 빅데이터_ISP수업

BigdataData Science

KDD (Knowledge Discovery in Database) Process

Data

Target  data

Preprocessed data

Transformed  dataPattern/Model

Knowledge

수집된 데이터

목표 데이터 추출

데이터 가공

데이터 분류데이터 패턴화

지식 창출

데이터 수집

데이터 분석

데이터 활용

Page 18: 빅데이터_ISP수업

BigdataData Science – 데이터 수집

내부데이터

- 기업의 활동으로 업무 과정 중에 생산된 데이터

- 로그 기록

외부데이터

- 인터넷에 연결되어 구할 수 있는 데이터

- 정부, 데이터 회사가 보유

- API를 통해 일부 접근

Page 19: 빅데이터_ISP수업

BigdataData Science – 데이터 수집

70million

Page 20: 빅데이터_ISP수업

BigdataData Science – 데이터 가공

비정형 데이터

Page 21: 빅데이터_ISP수업

BigdataData Science – 데이터 가공

6만년

Page 22: 빅데이터_ISP수업

BigdataData Science – 데이터 가공

80% Unstructed  data  –  IT.com  (2020)  

빅데이터 의사 결정을 위해 비정형 데이터를 정형데이터로 가공 필요

Page 23: 빅데이터_ISP수업

BigdataData Science – 데이터 가공

정형 데이터 –  비정형 데이터를 Database에 데이터 분석가가 활용하도록 정리

Page 24: 빅데이터_ISP수업

BigdataData Science – 데이터 가공

SNS의 글을 분석 –  Parsing 문장 자체 분석

특정한 단어 분석

Page 25: 빅데이터_ISP수업

BigdataData Science – 데이터 가공

세상의 사진을 분석 –  Image  Recognition

비정형 데이터인 이미지를 자동 인식해서 정형 데이터 변환

Page 26: 빅데이터_ISP수업

BigdataData Science – 데이터 가공

Data tool

Page 27: 빅데이터_ISP수업

BigdataData Science – 데이터 분류&패턴화

가공된 데이터를 분류시키고 의미를 발견하는 과정 =>  Data  Mining

Predictive  Methods Descriptive  Methods

가설 확인 중심 데이터 분석 패턴 발견 중심 데이터 분석

Classification -­‐  데이터를 미리 지정된 부류나 등급으로 나눔

Clustering -­‐  데이터 수집 후 유사한 데이터끼리 분할

Page 28: 빅데이터_ISP수업

BigdataData Science – 데이터 분류&패턴화

단어 Clustering

Page 29: 빅데이터_ISP수업

BigdataData Science – 데이터 분류&패턴화

INFO  graphics

Page 30: 빅데이터_ISP수업

BigdataData Science – 지식창출

데이터 활용 분석 결과를 어떻게 전략적으로 활용할 것인가?

사회학

경제학

공학

법학

경영학

의학

과학

인문학

전문지식

Page 31: 빅데이터_ISP수업

BigdataData Science – 지식 창출

보안 시각화 –  공격 판단

Page 32: 빅데이터_ISP수업

BigdataData Science – 지식 창출

스포츠 빅데이터  –  판단은 감독!

Page 33: 빅데이터_ISP수업

BigdataData Science

BIG 데이터의 수집, 분석, 활용

Page 34: 빅데이터_ISP수업

Bigdata

사례 집중 분석

Page 35: 빅데이터_ISP수업

Bigdata빅데이터 집중 분석 (베노플러스)

베노플러스겔

출시 : 2002년

타겟 : 어린이

Market Message : 멍, 붓기, 벌레 물린데

Page 36: 빅데이터_ISP수업

Bigdata빅데이터 집중 분석 (베노플러스)

‘멍’에 대한 소비자 재분석

•환자가 아닌 아기, 여성 Focus •여성 잡지에 광고 시작

•성형외과에도 홍보

But! 근본적인 것은 해결되지 않음

시장 타겟 변경

Page 37: 빅데이터_ISP수업

Bigdata

제품으로는

맨소래담과 버츠비가 경쟁자이지만

소비자 인식에서는

계란과 소고기를 이겨야 한다

연고는 치료 뿐만 아니라

가리는 역할도 해야 한다.

빅데이터 집중 분석 (베노플러스)

Page 38: 빅데이터_ISP수업

Bigdata

• 계란은 팔 아프다, 소고기는 비싸다

“멍 빼야 할 땐 – 베노플러스” • 무릎에 메이크업? 가리지 말고 빼자.

“멍 빼야 할 땐 - 베노플러스" • “계란은 드세요. 멍은 베노플러스가 뺄게요.”

• ‘멍 빨리 없애는 법’의 키워드는 전년 동기 대비 33% 감소한 반면, ‘베노플러스겔’은 557% 증가함

• ‘멍 빨리 없애는 법’의 검색 감소분이 ‘베노플러스겔’로 전이됨

• 전년대비 매출 46% 성장!

빅데이터 집중 분석 (베노플러스)

검색량 변화광고 전략

Page 39: 빅데이터_ISP수업

Bigdata빅데이터 집중 분석 (GIS분석사례)

송규봉 GIS United 대표 연세대 생활환경대학원 겸임 교수

2호선 홍대입구역 일일 평균이용객 : 12만 3,800명

홍대입구역에서 홍대 정문으로 이어지는 곳에 많은 유동인구 형성

2호선 합정역 일일 평균이용객 : 5만 1,300명

’홍대정문점' ‘홍대거리점' ‘합정역' 중 가장 매출이 높은 곳은??

답 : 합정역

홍대정문점보다 매출이 3배가 많았다.

사용자의 특징과

지리적 분포 분석!!

Page 40: 빅데이터_ISP수업

Bigdata빅데이터 집중 분석 (GIS분석사례)

홍대전문점 합정역점

주 고객층 20대 (매출의 61%)40-50대 (매출

의 32%)

평균 카드 사용 금액 3558원 1만 928원

주 매출 시간9pm-6am동안 매출

의 50%오전 출근시간에만 매출의 25%

매출이 높은 이유는 고객특성

- ‘합정역점’에는 경제활동에 참여 중인

40∼50대 고객이 두드러짐, 상대적

으로 20대보다 구매력이 높음

- 자택지에서 출발한 고객들이 직장으

로 가기 위한 중간지점에 ’합정역점’

위치 (카드회사 데이터) 퇴근길에도

마찬가지.

Page 41: 빅데이터_ISP수업
Page 42: 빅데이터_ISP수업

BigdataDATA SCIENTIST

“데이터를 얻는 능력, 이해하는 능력, 처리하는 능력, 가치를 뽑아내는 능력, 시각화하는 능력,전달하는 능력이야말로

앞으로 10년간 엄청나게 중요한 능력이 될 것이다.”

- 구글 수석 경제학자 할 베리언(Hal Varian).

Page 43: 빅데이터_ISP수업

BigdataDATA SCIENTIST

Data scientist?

대량의 데이터에 관한 통계학적 분석, 데이터 마이닝, 그리고 복구 프로세스를 진행하여 트렌드 및 수치 등의 정

보를 확인하는 개인 및 조직, 혹은 애플리케이션

- technopedia

Data scientist의 역할

• 데이터 수집→ 비정형 데이터 처리 기술

• 데이터 분석→ 전략 수립 관점에서 Data선택 및 결합, 통계적 방법, 프로그래밍을 통한 분석

• 데이터 활용→ 각각의 활용 분야에서 전략적 적용

Page 44: 빅데이터_ISP수업

BigdataDATA SCIENTIST

데이터 수집 타격영상 타자의 타율, 주루 플레이 40년간의 수첩 기록(그 날의 상

황, 상대 투수,선수의 자세, 경기 결과)

데이터 분석 모션 캡쳐, ESPN HOT ZONE 분석 마르코브 체인 상황에 따른 상대방의 경향 분석

데이터 활용 약점을 공략하는 결정구 모든 타선 조합의 예상 점수 산출

→ 효율적인 라인업 대비책 제시, 데이터에 따른 전략

구상→ “데이터 야구”

“데이터가 머릿속에 있으니까 직감으로 결정하고 판단할 수 있다. 직감이라

는 것은 운이 아니고 근거가 있어야 한다. 그건 데이터와 경험에서 나온다.”

-김성근 감독

Page 45: 빅데이터_ISP수업

Bigdata2012년 오바마 대선

빅데이터 선거전략

1000 x 200,000,000

결과는 재선 성공!

오바마? NO

데이터 과학자? YES!

Page 46: 빅데이터_ISP수업

BigdataDATA SCIENTIST

• Berkley 대학의 MIDS 과정을 비롯해 Stanford, NYU와 같은 미국 유수 대학에서는 Data Science에 관한 커리큘럼을 갖춰가고 있다.

• 웹 2.0의 선구자로 잘 알려진 팀 오 라일리는 지난 2월 포브스에 ‘가장 영향력 있는 데이터 과학자'로 구글 CEO 래리 페이지를 비롯해 MIT 교수, 메사추세츠 상원의원, 보건 복지부 CTO 등 정·재계와 학계 7명을 소개했다. 오 라일리는 실리콘 밸리에서 가장 뜨고 있는 직업(the hottest job title)으로 데이터 과학자를 꼽았다.

• 미국은 IT 산업계 뿐만 아니라 미국 정부에서도 DJ Patil 박사를 최고데이터과학자(Chief Data Scientist, CDS)로 임명하는 등 공공 분야에서도 민간 분야의 데이터 과학자들을 영입하는데 노력을 기울이고 있다.

master of information and Data Science

Page 47: 빅데이터_ISP수업

Bigdata빅데이터 한계점

1. 개인정보 유출 • Netflix - 좋아하는 영화를 통해 개인정보를 역추적 가능

• 미국 ‘target’ , 개인 데이터 남용

• 페이스북, 블로그를 통한 사생활 유출

Page 48: 빅데이터_ISP수업

Bigdata빅데이터 한계점

2. 현업 사용자의 외면(CRM을 기억하자) • 실무자들이 사용하기 어려운 시스템

• 시스템 사용을 강제하지 않는 기업 문화와 업무 프로세스

• 데이터 ‘분석’이 아닌 집계에 불과했다는 점

Page 49: 빅데이터_ISP수업

Bigdata빅데이터 한계점

3. 목적 없는 분석의 위험

빅데이터 분석시 빅데이터 분석으로 무엇을 얻을 수 있는지 확신과, 무엇을 얻으려 하는지 구체적 목표가 부재하기 때문에 어려움을 겪는 중

Page 50: 빅데이터_ISP수업

결론데이터 과학자는 답을 알고 있다

Page 51: 빅데이터_ISP수업

BigdataReference

http://www.theguardian.com/technology/2015/mar/18/twitter-puts-trillions-tweets-for-sale-data-miners

http://www.slideshare.net/opendori/ss-21769292?

qid=6cbe2dc2-2237-4efaa87e-47da20a80628&v=default&b=&from_search=8

http://www.slideshare.net/womendevel/big-data-analytics-and-data-mining?qid=43051d73-a572-49c0-a336-

d330ed951a1d&v=default&b=&from_search=3

빅데이터 승리의 과학(빅데이터는 당신이 무엇을 선택할지 알고 있다), 고한석 저, 이지스 퍼블리싱