14
빅데이터 플랫폼, 새로운 미래 Pla&orm Camp 2012 12.06.23 김우승

빅데이터 플랫폼 새로운 미래

Embed Size (px)

Citation preview

Page 1: 빅데이터 플랫폼 새로운 미래

빅데이터 플랫폼, 새로운 미래  

Pla&orm  Camp  2012  12.06.23  김우승  

   

Page 2: 빅데이터 플랫폼 새로운 미래

소개  •  줌인터넷(주) 연구소장  •  이력  

–  줌인터넷  –  SK  플래닛  –  SK  텔레콤    –  삼성전자  

•  h7p://kimws.wordpress.com  •  @kimws  

Page 3: 빅데이터 플랫폼 새로운 미래

Why  Now?  

     Connected  Everything  –  Smartphone  –  LTE  –  Sensor  Networks    –  …  …  

¨  Google  ¨  Facebook  ¨  Yahoo  ¨  LinkedIn  ¨  Twi7er  

웹 서비스 비즈의 성장 기술 공개 ,  빠른 기술 진화  

데이터 처리 비용 상대적으로 낮아짐  

데이터의 폭발적인 증가  멀티미디어  실시간 데이터  

 

Cost  <  Value  

NoSQL  

Page 4: 빅데이터 플랫폼 새로운 미래

Legacy  Technologies  .vs.    Big  Data  Technologies  

•  Single  Machine  –  MulY-­‐core  (>  16  cores)  –  Scale-­‐up  –  High  Price  H/W,  S/W  –  SAN  Storage  

•  MS  Windows,  AIX,  HP-­‐UX  •  Commercial  SoluYons  •  IBM,  Oracle,  Microsoa  

 •  RDBMS  •  TeraData,  Exadata,NeYzza  •  SAS,  SPSS  

•  MulYple  Machines  –  Commodity  H/W,  N/W  –  Scale-­‐out  –  Low  Cost  H/W  –  Distributed  FS  

•  Linux  •  Open  Source  •  Google,  Yahoo!,  Facebook,  

Twi7er,  LinkedIn  •  NoSQL  •  Hadoop  •  R  

Page 5: 빅데이터 플랫폼 새로운 미래

Legacy  Data  Pla&orm  

고가의 하이엔드 싱글서버 서버, 네트워크장비 SAN 스토리지 상용 데이터베이스, 마이닝 솔루션 매우 고가

비용은 몇배로 발생 시스템 아키텍쳐 & 데이터 구조 변경이 불가피 처리할 수 있는 데이터 처리에 한계가 발생

데이터 수집   데이터 처리   데이터 분석   데이터 제공  

SAN Storage

FTP SFTP Rsync

OLAP Tools

ETL Process (IBM DataStage) SQL, PL/SQL

RDBMS (Oracle, DB2, MSSQL …)

데이터 마이닝 (SAS)

Local FS Local FS

Data Warehouse (TeraData)

Service Server

시스템 확장  

Page 6: 빅데이터 플랫폼 새로운 미래

No  MigraYon  ,  Hybrid!!!  

Page 7: 빅데이터 플랫폼 새로운 미래

Big  Data  Pla&orm  

Real-time Stream & Event Processor

데이터 수집   데이터 처리   데이터 분석   데이터 제공  

Distributed File System

FTP SFTP Rsync

OLAP Tools (R)

ETL Process Pig & Script Lanugage

RDBMS (Oracle, MySQL)

데이터 마이닝 Mahout, R

Local FS Local FS

Data Warehouse Hive, R

Service Server

MapReduce Framework

NoSQL (Hbase, Cassandra)

SAN Storage

Log Aggregator (Flume)

Data Warehouse

NoSQL (MongoDB)

•  대용량 데이터 저장과 대용량 데이터 분석 시스템에는 Hadoop 및 오픈소스기반의 NoSQL, R을 적극 활용 •  최종 분석 결과 제공을 위한 OLTP 기반 리포트 시스템 / 서비스 데이터들은 기존의 기술을 적극 활용 •  Hadoop 및 오픈소스 기반의 시스템들은 저가의 범용서버 및 네트워크스위치를 활용해서 클러스터를 구성

Page 8: 빅데이터 플랫폼 새로운 미래

재빠른 벤더들의 움직임  

Page 9: 빅데이터 플랫폼 새로운 미래

‘12년 국내 빅데이터 시장은?  

•  DB,  DW  벤더중심의 마케팅으로 왜곡  – 기존 DW,  데이터 마이닝과 무슨 차이?  

•  빅데이터가 있기는 한건가?  – 주로 소셜미디어 (주로 트위터) 분석 시장  

•  SmartInsight,  Seenal,  TrueStory,PulseK,  tweetTrend  …  – 게임회사,  포털서비스, 서비스회사,  Telco  

•  2-­‐3년 전부터 기술을 도입하여 활용중  

‘12년 하반기되면 거품이 빠질 듯 …  

Page 10: 빅데이터 플랫폼 새로운 미래

그러다보니 …  •  ‘11년부터 분산 컴퓨팅 환경에서의 데이터 프로세싱 영역에는 빅데이터 기술들을 적극 도입하고 활용  –  퍼스널 클라우드의 확대로 저가의 분산 스토리지에 대한 개발과적용은 활발  

–  대용량 데이터 저장과 프로세싱을 위한 NoSQL에 대한 활용이 크게 늘고 있음  

 •  데이터 분석 분야에서 특히 분산 컴퓨팅 환경에서의 대용량 마이닝 알고리즘이나 분석 기법은 제한적으로 활용되고 있음  –  이 영역이 외국계 업체들의 컨설팅, 솔루션 비지니스시에 강점으로 내세울 것임  

–  데이터가 없으니 당연히 국내에서는 이 영역에서 두각을 나타내는 업체 없음. 소셜분석이 뜨는 이유는 트위터데이터만이 활용할 수 있는 공개된 빅데이터(?) 라 할 수 있기 때문에

Page 11: 빅데이터 플랫폼 새로운 미래

Big  data  is  not  bubble!!!  2-­‐3년 이내에 각 산업계, 학계의 다양한 도메인별로 해외의 성공사례들이 나오게되면 비싼 컨설팅 비용과 솔루션 비용이 발생하고 기술 및 역량을 내재화하는 시기마저 놓칠수도  

전 산업분야에 걸쳐서 빅데이터 기술을 이용한 응용들이 크게 늘어나게 될 것이며 이를 뒷받침하는 하드웨어, 네트워크, 분산 알고리즘 연구, 분석도구 시장 역시 함께 성장하게 될 것이다.    

 클라우드 컴퓨팅이 거품이 아니었듯이  

Financial  Services  

Natural  Resources  

Manufacturing  

TransportaYons  

Government  

Healthcare  

Retail  

Media  and  Entertainment  

UYliYes  

Cloud  

Science  

Page 12: 빅데이터 플랫폼 새로운 미래

빅데이터는 있다. 하지만 …  어떤 가치를 찾을 수 있지?  

 •  당장 분석할 충분한 데이터를 갖추고(저장하고) 있지않다.  •  그래도 일단 데이터를 수집하고 바로 시작해야 한다.  •  다양한 분석과 데이터로부터 가치를 찾는 일을 시작해야 한다.  

 닭과 달걀의 문제  즉 ROI  의 문제!!!  내재화가 필요하다  

Page 13: 빅데이터 플랫폼 새로운 미래

빅데이터를 위한 기술 역량  

도메인 전문가  

데이터 분석가  

소프트웨어 개발자  

시스템 엔지니어  

•  추천 로직 기획,  광고 플랫폼  •  Financial  &  Stock  Market  •  Health  Care  •  BioInfomaYcs  •  Power  Management  

•  통계 & 데이터 탐색  •  데이터 마이닝 & 기계학습  •  데이터 분석  •  리포팅  •  데이터 시각화  

•  데이터 수집  •  마이닝 알고리즘 &  ML 구현  •  데이터 처리 엔진 구현  •  데이터 저장소 최적화  •  분산 알고리즘 구현  

•  운영 체계 최적화  •  컴퓨팅  H/W,  N/W  최적화  

•  OLAP  Tools  •  SAS,  SPSS,R,Weka  •  SQL  •  RDBMS  •  ETL  •  Script  Language  •  Pig,  Hive  •  MapReduce  

•  Log  Aggregator  •  NoSQL  •  Hadoop  •  Linux  •  X86  •  Network  

•  VisualizaYon  •  Infograph  •  IR  &  RecSys    

Data  Scien

Yst  

DevO

ps  

Page 14: 빅데이터 플랫폼 새로운 미래

감사합니다.