Upload
jrim-choi
View
148
Download
2
Embed Size (px)
Citation preview
데이터 과학자는 답을 알고 있다
Big Data
April 2015/ ISP/ Yonsei univ.
2010147158 이병은
2012147044 박준성
2012147048 이준영
2012147022 김동욱
2012147043 최재림2012253081 조동헌
목차• 빅데이터 개념 소개 • Data science의 흐름 3단계
• 빅데이터 수집 – 컴퓨터 공학 • 빅데이터 분석 – 통계학 • 빅데이터 활용 – 활용 분야 전문성
• 빅데이터의 사례 • 데이터 과학자 • 빅데이터의 한계점 • 결론
Big Data
April 2015/ ISP/ Yonsei univ.
BIG DATA
BigdataBig Data란?
기존에는 대용량 데이터 자체를 의미하였으나, 대용
량 데이터를 이용하여 정보를 수집, 발굴, 분석하는
개념까지 확대되어, 개인화된 비정형 데이터
Bigdata
빅데이터와 클라우드의 만남
➢ 대용량 데이터를 다루는 특성상 한 대의 컴퓨터에 모든 데이터를 저장하는 것은 불가능. 여러 대의 컴퓨터에 저장하는 분산 환경의 저장 시스템 필요
➢ 데이터 분석 또한 한 대의 컴퓨터로 수행 불가능. 빅데이터 플랫폼은 여러 대의 컴퓨터가 유기적으로 상호 연결되어 수행되는 분산 컴퓨팅을 기반으로 구성되어어야 함.
➢ 빅데이터는 분산 컴퓨팅의 하드웨어 구성 문제를 클라우드 가상화 기술과 서비스를 통해 해결하고자 함. •필요한 만큼만 하드웨어 사용하고 반납
• 클라우드 저장 서비스는 사용 공간 및 시간 선택 가능
Big Data란?
데이터와 클라우드와의 만남을 통해서 이전에는 불가능했던 수십 TB, PB까지의 빅데이터를 저장하고
이를 분석하기 위한 컴퓨터를 원하는 만큼 손쉽게 제공 받을 수 있게 됨
Bigdata
공공 민간의 지식 개방, 공유 확대를 위한 빅데이터 활용 공통 기술 확보
데이터 마트 활성화로 빅데이터 활용성 증대 및 창조적 응용 분야 창출
Big Data란?
빅데이터와 클라우드의 만남
Bigdata
데이터의 무한질주 시대
Big Data란?
Bigdata
스마트환경 정착으로 ‘연결’ 이 보편화
Gartner (2010); Cisco (2011)
Big Data란?
Bigdata
‘연결’의 성장은 데이터의 폭증을 유발
N개의 독립된 존재가 N^2개의 상호 연결로 확장
연결관계를 따라 소통이 이뤄지며 데이터는 급팽창
Big Data란?
BigdataBig Data란?
수익(단위: 10억달러)
빅데이터 시장 규모와 전망
출처: IDC
성장률이 매년 30%를 상회하며 성장 중
Bigdata
빅데이터의 세 가지 특징
2010년 IBM이 최초 정의 전 세계 데이터 중 90%가 최근 3년 이내에 생성
<빅데이터의 3요소> Volume
Large volume of data terabytes or petabytes Size, records, transactions, or tables
Variety
Number and type of data sources Structured Unstructured
Velocity
Frequency of updates Real-time or streams Batch processing
Big Data란?
Bigdata
빅데이터 분류
규모
Volume다양성
Variety속도
Velocity
MB,GB
단위 규모
TB,PB,EB
단위
정형데이터 비정형데이터
동영상 음악 메세지
소셜
미디어위치정보
고객 신상 데이터 매출 데이터 재고 데이터
회계 데이터 등
유통 활용 주기
몇 시간~몇 주
유통활용 주기
분, 초게시물
Big Data란?
Bigdata
새로 등장한 정확성, 제4의 ‘V’
Big Data란?
Bigdata
DATA Science?
BigdataData Science
KDD (Knowledge Discovery in Database) Process
Data
Target data
Preprocessed data
Transformed dataPattern/Model
Knowledge
수집된 데이터
목표 데이터 추출
데이터 가공
데이터 분류데이터 패턴화
지식 창출
데이터 수집
데이터 분석
데이터 활용
BigdataData Science – 데이터 수집
내부데이터
- 기업의 활동으로 업무 과정 중에 생산된 데이터
- 로그 기록
외부데이터
- 인터넷에 연결되어 구할 수 있는 데이터
- 정부, 데이터 회사가 보유
- API를 통해 일부 접근
BigdataData Science – 데이터 수집
70million
BigdataData Science – 데이터 가공
비정형 데이터
BigdataData Science – 데이터 가공
6만년
BigdataData Science – 데이터 가공
80% Unstructed data – IT.com (2020)
빅데이터 의사 결정을 위해 비정형 데이터를 정형데이터로 가공 필요
BigdataData Science – 데이터 가공
정형 데이터 – 비정형 데이터를 Database에 데이터 분석가가 활용하도록 정리
BigdataData Science – 데이터 가공
SNS의 글을 분석 – Parsing 문장 자체 분석
특정한 단어 분석
BigdataData Science – 데이터 가공
세상의 사진을 분석 – Image Recognition
비정형 데이터인 이미지를 자동 인식해서 정형 데이터 변환
BigdataData Science – 데이터 가공
Data tool
BigdataData Science – 데이터 분류&패턴화
가공된 데이터를 분류시키고 의미를 발견하는 과정 => Data Mining
Predictive Methods Descriptive Methods
가설 확인 중심 데이터 분석 패턴 발견 중심 데이터 분석
Classification -‐ 데이터를 미리 지정된 부류나 등급으로 나눔
Clustering -‐ 데이터 수집 후 유사한 데이터끼리 분할
BigdataData Science – 데이터 분류&패턴화
단어 Clustering
BigdataData Science – 데이터 분류&패턴화
INFO graphics
BigdataData Science – 지식창출
데이터 활용 분석 결과를 어떻게 전략적으로 활용할 것인가?
사회학
경제학
공학
법학
경영학
의학
과학
인문학
전문지식
BigdataData Science – 지식 창출
보안 시각화 – 공격 판단
BigdataData Science – 지식 창출
스포츠 빅데이터 – 판단은 감독!
BigdataData Science
BIG 데이터의 수집, 분석, 활용
Bigdata
사례 집중 분석
Bigdata빅데이터 집중 분석 (베노플러스)
베노플러스겔
출시 : 2002년
타겟 : 어린이
Market Message : 멍, 붓기, 벌레 물린데
Bigdata빅데이터 집중 분석 (베노플러스)
‘멍’에 대한 소비자 재분석
•환자가 아닌 아기, 여성 Focus •여성 잡지에 광고 시작
•성형외과에도 홍보
But! 근본적인 것은 해결되지 않음
시장 타겟 변경
Bigdata
제품으로는
맨소래담과 버츠비가 경쟁자이지만
소비자 인식에서는
계란과 소고기를 이겨야 한다
연고는 치료 뿐만 아니라
가리는 역할도 해야 한다.
빅데이터 집중 분석 (베노플러스)
Bigdata
• 계란은 팔 아프다, 소고기는 비싸다
“멍 빼야 할 땐 – 베노플러스” • 무릎에 메이크업? 가리지 말고 빼자.
“멍 빼야 할 땐 - 베노플러스" • “계란은 드세요. 멍은 베노플러스가 뺄게요.”
• ‘멍 빨리 없애는 법’의 키워드는 전년 동기 대비 33% 감소한 반면, ‘베노플러스겔’은 557% 증가함
• ‘멍 빨리 없애는 법’의 검색 감소분이 ‘베노플러스겔’로 전이됨
• 전년대비 매출 46% 성장!
빅데이터 집중 분석 (베노플러스)
검색량 변화광고 전략
Bigdata빅데이터 집중 분석 (GIS분석사례)
송규봉 GIS United 대표 연세대 생활환경대학원 겸임 교수
2호선 홍대입구역 일일 평균이용객 : 12만 3,800명
홍대입구역에서 홍대 정문으로 이어지는 곳에 많은 유동인구 형성
2호선 합정역 일일 평균이용객 : 5만 1,300명
’홍대정문점' ‘홍대거리점' ‘합정역' 중 가장 매출이 높은 곳은??
답 : 합정역
홍대정문점보다 매출이 3배가 많았다.
사용자의 특징과
지리적 분포 분석!!
Bigdata빅데이터 집중 분석 (GIS분석사례)
홍대전문점 합정역점
주 고객층 20대 (매출의 61%)40-50대 (매출
의 32%)
평균 카드 사용 금액 3558원 1만 928원
주 매출 시간9pm-6am동안 매출
의 50%오전 출근시간에만 매출의 25%
매출이 높은 이유는 고객특성
- ‘합정역점’에는 경제활동에 참여 중인
40∼50대 고객이 두드러짐, 상대적
으로 20대보다 구매력이 높음
- 자택지에서 출발한 고객들이 직장으
로 가기 위한 중간지점에 ’합정역점’
위치 (카드회사 데이터) 퇴근길에도
마찬가지.
BigdataDATA SCIENTIST
“데이터를 얻는 능력, 이해하는 능력, 처리하는 능력, 가치를 뽑아내는 능력, 시각화하는 능력,전달하는 능력이야말로
앞으로 10년간 엄청나게 중요한 능력이 될 것이다.”
- 구글 수석 경제학자 할 베리언(Hal Varian).
BigdataDATA SCIENTIST
Data scientist?
대량의 데이터에 관한 통계학적 분석, 데이터 마이닝, 그리고 복구 프로세스를 진행하여 트렌드 및 수치 등의 정
보를 확인하는 개인 및 조직, 혹은 애플리케이션
- technopedia
Data scientist의 역할
• 데이터 수집→ 비정형 데이터 처리 기술
• 데이터 분석→ 전략 수립 관점에서 Data선택 및 결합, 통계적 방법, 프로그래밍을 통한 분석
• 데이터 활용→ 각각의 활용 분야에서 전략적 적용
BigdataDATA SCIENTIST
데이터 수집 타격영상 타자의 타율, 주루 플레이 40년간의 수첩 기록(그 날의 상
황, 상대 투수,선수의 자세, 경기 결과)
데이터 분석 모션 캡쳐, ESPN HOT ZONE 분석 마르코브 체인 상황에 따른 상대방의 경향 분석
데이터 활용 약점을 공략하는 결정구 모든 타선 조합의 예상 점수 산출
→ 효율적인 라인업 대비책 제시, 데이터에 따른 전략
구상→ “데이터 야구”
“데이터가 머릿속에 있으니까 직감으로 결정하고 판단할 수 있다. 직감이라
는 것은 운이 아니고 근거가 있어야 한다. 그건 데이터와 경험에서 나온다.”
-김성근 감독
Bigdata2012년 오바마 대선
빅데이터 선거전략
1000 x 200,000,000
결과는 재선 성공!
오바마? NO
데이터 과학자? YES!
BigdataDATA SCIENTIST
• Berkley 대학의 MIDS 과정을 비롯해 Stanford, NYU와 같은 미국 유수 대학에서는 Data Science에 관한 커리큘럼을 갖춰가고 있다.
• 웹 2.0의 선구자로 잘 알려진 팀 오 라일리는 지난 2월 포브스에 ‘가장 영향력 있는 데이터 과학자'로 구글 CEO 래리 페이지를 비롯해 MIT 교수, 메사추세츠 상원의원, 보건 복지부 CTO 등 정·재계와 학계 7명을 소개했다. 오 라일리는 실리콘 밸리에서 가장 뜨고 있는 직업(the hottest job title)으로 데이터 과학자를 꼽았다.
• 미국은 IT 산업계 뿐만 아니라 미국 정부에서도 DJ Patil 박사를 최고데이터과학자(Chief Data Scientist, CDS)로 임명하는 등 공공 분야에서도 민간 분야의 데이터 과학자들을 영입하는데 노력을 기울이고 있다.
master of information and Data Science
Bigdata빅데이터 한계점
1. 개인정보 유출 • Netflix - 좋아하는 영화를 통해 개인정보를 역추적 가능
• 미국 ‘target’ , 개인 데이터 남용
• 페이스북, 블로그를 통한 사생활 유출
Bigdata빅데이터 한계점
2. 현업 사용자의 외면(CRM을 기억하자) • 실무자들이 사용하기 어려운 시스템
• 시스템 사용을 강제하지 않는 기업 문화와 업무 프로세스
• 데이터 ‘분석’이 아닌 집계에 불과했다는 점
Bigdata빅데이터 한계점
3. 목적 없는 분석의 위험
빅데이터 분석시 빅데이터 분석으로 무엇을 얻을 수 있는지 확신과, 무엇을 얻으려 하는지 구체적 목표가 부재하기 때문에 어려움을 겪는 중
결론데이터 과학자는 답을 알고 있다
BigdataReference
http://www.theguardian.com/technology/2015/mar/18/twitter-puts-trillions-tweets-for-sale-data-miners
http://www.slideshare.net/opendori/ss-21769292?
qid=6cbe2dc2-2237-4efaa87e-47da20a80628&v=default&b=&from_search=8
http://www.slideshare.net/womendevel/big-data-analytics-and-data-mining?qid=43051d73-a572-49c0-a336-
d330ed951a1d&v=default&b=&from_search=3
빅데이터 승리의 과학(빅데이터는 당신이 무엇을 선택할지 알고 있다), 고한석 저, 이지스 퍼블리싱