1© Copyright 2015 EMC Corporation. All rights reserved.
사례로 보는 Big Data 프로젝트의 Success Factor한지수 이사
한국이엠씨컴퓨터시스템즈㈜
2© Copyright 2015 EMC Corporation. All rights reserved.
목차
• Big Data는 무엇인가?
• BI/DW와 Big Data의 차이점?
• Big Data프로젝트의 목표
• Big Data 프로젝트 수행의 3가지 어려움
• Big Data 프로젝트 사례와 시사점
• Key Success Factor
• Big Data 수행을 위한 조직
• Big Data 수행을 위한 Technology
• Big Data 프로젝트 수행 단계
• Best partner for Big Data
3© Copyright 2015 EMC Corporation. All rights reserved.
Big Data는 무엇인가?
사내(정형)
사내 + 사외(정형, 비정형)
VolumeVariousVelocity
•사내 사내 + 사외 (Web, SNS 등)
•정형 정형+비정형 (문서, 메일, 이미지, 동영상, 로그 등)
데이터
비즈니스가치
향상된 Insight 제공
Smart 의사결정
Data 기반 사고 혁신
Business 경쟁력 제고
기존 데이터
Big Data
4© Copyright 2015 EMC Corporation. All rights reserved.
BI/DW 와 Big Data의 차이점?
Big Data Analytics (Data Science)
데이터 유형• 대규모 data set
• 정형/비정형 Data, File, 음성/이미지/텍스트 등
분석기법• 최적화 모델 / 통계학적 분석 / 예측분석 모델 /
Forecasting / Early Warning 등
일반적 질문• 어떤 결과가 나올 것인지?(What-if simulation)• 우리 비즈니스에 최적화된 시나리오는 무엇인지?• 향후에 어떤 일이 발생할 것인지?
Business Intelligence
데이터 유형• 비교적 소규모의 data set
• 정형 Data, 전통적 RDBMS 소스
분석기법• 집약적 대시보드 / 스탠다드 ad hoc 리포팅 / Alerts
/ 정형 Query 등
일반적 질문• 지난 분기에 발생한 일은?• 왜 발생했는지?• 과거 실적 및 영업이익은?
What happened?
Whatwill
happen?
Why it happened?
Whatwe will do?
TIMEPast Future
ANALYSIS
BusinessIntelligence
Big DataAnalytics
Factbased
Interpretationbased
5© Copyright 2015 EMC Corporation. All rights reserved.
Big Data의 프로젝트의 목표
* Source: the Saïd Business School at the University of Oxford
생산/품질 향상고객 중심의
R&D
마케팅 분석의고도화
고도의 AS 정보제공
계정계 데이터흐름에 대한 분석
고객 중심의이니셔티브
Strong Analysis
병렬처리 프로세싱
금융회사의목표
제조회사의목표
6© Copyright 2015 EMC Corporation. All rights reserved.
Big Data 프로젝트 수행의 3가지 어려움
1 왜 Big Data를 도입해야 하나?
2 IT 부서 주도의 기술구현 프로젝트
3 매우 다양한 분석 요구사항과 시스템 연계
• 회사의 비즈니스와 Align 하여 “무엇”을 “왜” 분석해야 하는지 목표가 명확하지 않다
• “무엇을 예측”할 것인가?, “무엇을 최적화”할 것인 가에 대한 막연한 목표
• 업무현장의 Insight를 반영하기 어렵고, 분석의 효과로서 목적하는 바가 분명하지 않다
• 기존의 시스템으로부터 “어떤 데이터”를 “어떠한 방식”으로 수집할 것인지 확실치 않다
• 분석데이터를 요구하는 조직마다 매우 “다양한 원천데이터”와 “다양한 분석기법”을 요구
7© Copyright 2015 EMC Corporation. All rights reserved.
Big Data 프로젝트 사례와 시사점(1/3)왜 Big Data 를 도입해야 하나? > 추진 과제 선정 프로젝트의 선행
조직 차원의 분석 목표와
분석 대상을 정의하였는가?
대상 Biz-Case 핵심과제를
도출하였는가?
C레벨의 스폰서쉽을
확보하였는가?
투자 효과에 대한 분석과
예측이 가능한가?
C 증권
P 제조
빅데이터 기반 생산관리시스템
적합한 주제/목표
분석 데이터의식별
전직원 공모(358개)
부서별 토론/임원 토론
현업부서장(우선순위: 35개)
선행과제 20개 추출
선행과제 실행으로Big Data 선경험으로향후 시행착오를줄이고자 함
주가 예측 정확도 향상
1) 95개 주가 종목의 예측이 가능한K-Index 지표 개발
2) 통계경제지표, SNS, 블로그 등내/외부 통합데이터 분석 플랫폼 구축
3) ’13년 Big Data Award우수상 수상
<월별 주가 예측 리포트>
• 추진과제 고도화 ’13년: 20여개의 Pilot 과제 ’14년: 기 수행 7개 과제
검증 및 개선
<생산관리시스템 품질관리>
CasesChallenging Questions Key Findings
8© Copyright 2015 EMC Corporation. All rights reserved.
현업분석가, Biz전문가가
함께 참여하였는가?
데이터 분석인력(Scientist)
는 육성 및 확보하였는가?
Biz-Case에 적합하게 적용할
분석 모델은 수립하였는가?
C 물류
현실성 있는 분석 모델 개발
1. 실무진과의 참여와 검증을 통해물동량 예측을 위한 모델 개발
H중공업
빅데이터 수준 진단 및 과제선정
1. 빅 데이터 조직 수준을진단2. 전체 업무 중 25개를 빅데이터 분석과제로 선정, 최우선과제 4개 정의
조직의 빅데이터역량 향상을 위한데이터 분석가 양성
적합한 과제와 분석모델 적용
조직 전사 수준의 빅데이터
수준 진단은 되어있는가?
H사
Big Data 프로젝트 사례와 시사점(2/3)IT 부서 주도의 기술구현 프로젝트 > 회사 전체의 Big Data 수준 향상
D중공업
Pilot을 통한 주제분석 및 사전 교육
1. 과제별 현업전문가, 분석전문가 및Data Scientist 양성
기본교육(1주)
심화교육(2주)
Pilot과제수행
분석가 활용
CasesChallenging Questions Key Findings
9© Copyright 2015 EMC Corporation. All rights reserved.
추가 요구사항 수렴이
용이한 확장 구조인가?
안정적으로 대용량을
지원하는 플랫폼인가?
산재된 데이터 통합 및
연계방안은 검토되었는가?
최적의솔루션구축
안정적인운영/확산
각 분석 환경에 유연한
대응은 가능한가?
Big Data 프로젝트사례와시사점(3/3)매우 다양한 분석 요구사항과 시스템 연계 > BIG DATA ON CLOUD
Cloud 환경 적용
품질 추적체계 고도화
Big Data 기반 자동분석 체계
공정 품질관제 체계
S 제조
다양한 분석및 결과Feed Back
구현목표
CasesChallenging Questions Key Findings
10© Copyright 2015 EMC Corporation. All rights reserved.
Key success factor
수행 조직과 역할(Master Plan)
적합한 주제/목표
분석 데이터의 식별
최적의 솔루션 구축
안정적인 운영/확산
역량향상을 위한 데이터 분석가 양성
적합한 과제와 분석 모델 적용 적용 Technology(Implementation)
철저한 사전 준비와검증을 통한Big Data 프로젝트 수행
1
2
5
6
3
4
11© Copyright 2015 EMC Corporation. All rights reserved.
Big Data 수행을 위한 조직
Business
Data
• Biz Expert (업무 담당자)
• Data Scientist (분석가)
• Big Data Coordinator
•주제/과제 정의
•업무 통찰력 / 분석 수행
•우선순위, 키워드 정의
•분석 방법론 적용
• Data Architect
• Solution Architect
• Big Data Consultant
•필요 데이터 식별/확보
•원천/목표 데이터 정의
•데이터 논리/물리모델 설계
•속성 데이터 정의
•데이터 관리 및 활용 체계 수립
• DB Administrator
• Hadoop Administrator
• HW/SW/NW Engineer
• Solution Specialist
•아키텍처 총괄적 설계, 관리
•데이터 기술적 관리, 처리
•서버, NW, 스토리지 기술지원
•관련 소프트웨어 기술지원
•제품별 유지보수
Technology
목적과 효과
Data 수집과 관리
Solutions
People Role & Responsibility
12© Copyright 2015 EMC Corporation. All rights reserved.
Big Data 수행을 위한 technology
Data
Ingestion &
ETL
Greenplum DBAster
In-DB Scoring
EDW
전처리
Staging
Staging 결과
Hadoop
Analytics
DB SandBox
AnalyticMart
Hadoop In-DB Scoring
VisualAnalytics
High-Performance
AnalyticsGreenplum &
HadoopInterface
Big Data 시각화, 모바일
예측 모델
GPHDFSprotocol
Adatper
8
4
GPHDFSprotocol
GP Loader
Crawler
ETL
CEP
Mobile 데이터
소셜데이터
SmartTV데이터
생산설비데이터
시스템데이터
EnterpriseDW
SQL-Fire
Flume
데이터 원천 데이터 수집 Big Data Lake Analytic on Demand
GPFDISTprotocol
LoadExtract
분석 UI
GP Loader
HadoopSandBox
GemFire
HAWQ
SpringXD
Cloud Architecture
기업의 Value Chain 에서 생성되는 모든 데이터의 저장
13© Copyright 2015 EMC Corporation. All rights reserved.
Big Data 프로젝트 수행 단계
“점진적 추진” : 과제 우선 순위 – 선택과 집중
“시작이 반” : 신속한 추진 전략과 Roadmap
“백문이 불여일견” : Pilot을 통해 실제 체험
“강력한 Sponsorship 확보” : C 레벨의 의지
“소수 정예” : 전문가를 양성하고 전담 조직 구성
“역량 내재화” : 외부 전문업체를 활용하여 기술내재화
Master Plan수립
전문가 양성
Pilot 수행
“전사 프로젝트” : 최고 효율과 최대 성과를 획득
“뛰어난 Partnership” : 성공확률 극대화Implementation
14© Copyright 2015 EMC Corporation. All rights reserved.
Best partner for big dataSolution과 경험을 보유한 Big Data 프로젝트의 최고의 파트너는 EMC
Big Data 전용 솔루션Big Data 위한 최적의 플랫폼
BigData를 구현하기 위한
Converged Infra, Storage, Virtualization
Big Data를 효과적으로 저장, 관리, 분석 위한
최적의 제품 및 솔루션
관리 자동화
Data Scientist 교육
Big Data Implementation
DB/HD
대용량HDFS
백업
Big Data를 위한 맞춤형 서비스
Big Data를 통한 비즈니스 가치 창출을 위한
최적의 프로페셔널 서비스 제공
Big Data Planning
Big Data 분석 Big Data Architecting
Big Data 구축
1. 적합한 주제/목표
3. 역량향상을 위한 데이터 분석가 양성
2. 분석 데이터의 식별
4. 적합한 과제와 분석 모델 적용
5.최적의 솔루션 구축
6.안정적인 운영/확산