Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
제8회 2015 한국 소프트웨어 아키텍트 대회
2015(제8회) 한국 소프트웨어 아키텍트 대회
빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 가이드
2015. 07. 16
한국오라클
임상배([email protected])
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Safe Harbor Statement
The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle.
제8회 2015 한국 소프트웨어 아키텍트 대회
Agenda
• 빅데이터 아키텍쳐 프레임워크
• 빅데이터와 분석 아키텍쳐 개발
• 빅데이터 참조 아키텍쳐 Overview
• 빅데이터 구축 가이드 라인
3
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터 활용 시 가장 효율적인 분야
4
테이블 조인 복잡성
데이터 갱신 패턴
스키마 복잡도
전체 데이터 볼륨
신속성 작업 당
데이터 볼륨
처리 자유 동시작업
Big Data Analytics
Traditional RDBMS
범용 데이터 처리
1000
Structured Append Only Unstructured Transactional
100 Tables
Interactive
Batch
100 PB
10 PB
1 PB
100 TB SQL
100 TB Batch
10 PB
1 PB
100 PB
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터 아키텍쳐 프레임워크
• Big Data & Analytics Capability Maturity Model
5
Level 0
Level 1
Level 2
Level 3
Level 4
Level 5
• 포인트솔루션 • 중복 컨텐츠 • 이질적 인프라 • 거버넌스 없음
Fragmented
Managed
Systematic
Advanced
Optimized
Innovative
• EDW 기반 메타데이터 관리
• 분석 측면 MDM
• 부서단위 데이터 허브
• 제한적 데이터 탐색
• 소스 시스템 대상 데이터 품질
• 데이터 소스 간 용어 표준화
• 운영 측면 MDM
• 통합된 인프라 • Biz & IT 협업 • 전사 수준 데이터 리터러시
• Data Reservior(하둡, NoSQL) 표준 구축
• 자동화된 일관되며 신속한 리포팅
• 산업 표준 용어 • 전사 수준 Data Reservior(w/ data factory)
• DW와 Data Reservior 통합 제공
• 분석 모델 정확도 관리까지 데이터 거버넌스 확대
DW
DW 고도화 &
Data Reservior
전사 통합 Data
Reservior
• 운영 및 리스크 조정을 개선하기 위한 분석 실행
• 상호 운용성 제공 인프라 및 중앙화된 서비스
• 비즈니스 프로세스 통합 기반 데이터 거버넌스
• Data Reservior 기반 분석팀의 C레벨 보고 체계 구축
• 모든 직무에 Predictive Analytics 내장
• 데이터 탐구를 기업의 문화로 정착
• 모든 데이터 소스 간 실시간 데이터 통합
• NLP, 텍스트 분석
• 데이터 거버넌스 프로세스 최적화
• 베스트 프랙티스 활용 강화
실효있는 분석
지시적 분석 (통찰) 정착
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터 아키텍쳐 프레임워크
• 신규 기술 분야(빅데이터) 아키텍쳐 고려 사항
6
스킬 경험 투자
리스크 고려사항
목표 고려사항
솔루션 고려사항
실행가능성 시간 비용
비즈니스 밸류에 집중 기존 프로세스를 이용 기 투자 인프라 이용
IT 혁신의 최전선에 있는 아키텍트의 책무=>기술적 솔루션 수준을 넘어
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• OADP(Oracle Architecture Development Process)
7
비즈니스 동인, 운영모델, 핵심 프로세스 이해 및 확인
핵심 원칙 : 명료성 달성, 비즈니스 목적과 IT 책무와의 일치
지도(指導) 원리 및 정보 표준 수립
현재 과제 및 문제점 파악
IT 자산 재사용 극대화 설계 참조 아키텍쳐 공유
To-Be 수준에 도달하기 위한 전략 개발
정보 관리 생애주기에 걸친 데이터 거버넌스 수립
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• 오라클의 정보관리 참조 아키텍쳐: 논리 뷰
8
Vir
tua
lisa
tion
&
Qu
ery
Fe
de
ratio
n
Enterprise Performance Management
Pre-built & Ad-hoc BI Assets
Information Services
Data Ingestion
Information Interpretation
Access & Performance Layer
Foundation Data Layer
Raw Data Reservoir
Advanced Analysis & Data Science Tools
Data Engines & Poly-structured sources
Content
Docs Web & Social Media
SMS
Structured Data Sources
• Operational Data • COTS Data • Streaming & BAM
Immutable raw data reservoir Raw data at rest is not interpreted
Immutable modelled data. Business Process Neutral form. Abstracted from business process changes
Past, current and future interpretation of enterprise data. Structured to support agile access & navigation
Discovery Lab Sandboxes Rapid Development Sandboxes
Project based data stores to support specific discovery objectives
Project based data stored to facilitate rapid content / presentation delivery
Data Sources
Master & Reference Data Sources
• Raw Data Reservior layer : 변경되지 않는 특성의 Raw data 저장 계층 • Foundation layer : 비즈니스 프로세스 중립적인 히스토리컬 데이터 관리 계층
• Access & Perf. Layer : 비즈니스/특정 기능 모델, 스냅샷, 요약 정보를 지닌 분석 계층
• Discovery Lab Sandboxes : 데이터 탐험 계층
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• 분석 성숙도 향상을 위한 점진적 접근 방식
9
Analytics 2.0
Analytics 3.0
Analytics 1.0
• 제한적인 서술적 분석 기반 보고 체계
• 제한된 범위의 표 데이터 활용
• 배치 중심 분석
• 일부 비즈니스 프로세스와 분석을 결합
• 분석 기반 경쟁
• 분석의 범위 확대 및 분석 데이터 셋 확장(구조화되지 않은 데이터 포함)
• 상업적 분야에 빅데이터 부상(浮上)
• 사업 조직에서 데이터 사이언스의 역활 인지
•수익창출을 위한 플랫폼
•심화분석 & 데이터 확대
• Test-Do-Learn 반복 가속화
•이기종데이터 & 비즈니스 프로세스 적용 분야 확대
•분석가는 데이터 디스커버리 및 영향력이 큰 비즈니스 가치에 집중.
•분석 주도 문화로 비즈니스 개조
Adapted from Tom Davenport material
작은 데이터, 서술적 분석
빅데이터 분석
데이터 경제 체득
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• 오라클의 정보관리 참조 아키텍쳐 : 개념 뷰
10
Actionable Events
Event Engine Data Reservoir
Data Factory Enterprise Information Store
Reporting
Discovery Lab
Actionable Information
Actionable Insights
Data Streams
Execution
Innovation
Discovery Output
Events & Data
Structured Enterprise Data
Other Data
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• 스토리지(RDBMS, NoSQL DB, Hadoop) 결정 요인
11
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
Concurrency
Complex Query Response
Times
Single Record Read/Write
Performance
Bulk Write Performance
Privileged User Security
General User Security
Governance Tools
System per TB Cost
Backup per TB Cost
Skills Acquisition Cost
RDBMS
NoSQL DB
Hadoop
Bigger numbers are better!
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• Performance, Cost, Security
12
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
Concurrency
Complex Query Response
Times
Single Record Read/Write
Performance
Bulk Write Performance
Privileged User Security
General User Security
Governance Tools
System per TB Cost
Backup per TB Cost
Skills Acquisition Cost
RDBMS
NoSQL DB
Hadoop
Bigger numbers are better! Security
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• 스토리지 결정 요인 내역
13
Cost
Security
Performance
• Cost of Data
• Operations / Skills
• Sensitivity of Data
• Regulatory Requirements
• Raw Query Performance
• Concurrency
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• 스토리지 결정 요인 예제-1
14
• Data: – System and Web etc. Log Files
• Performance Metric: – Need to ingest massive quantities quickly and continuously
– No single record queries required, mostly aggregations
• Security Metric: – No PII like information
– All users
• Cost Metric: – Low cost required
– Loosing data is ok
Hadoop
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• 스토리지 결정 요인 예제-2
15
• Data: – Manufacturing Sensor Data
• Performance Metric: – Need to ingest massive quantities quickly and continuously
– Need to see operational status across sensors
• Security Metric: – No PII like information
– All users
• Cost Metric: – Low cost required
– Support low cost long retention periods
NoSQL
Hadoop
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• 스토리지 결정 요인 예제-3
16
• Data: – Web Store Orders / Purchases
• Performance Metric: – Relatively low volume when compared to activity logs
– Need to see individual transactions
• Security Metric: – Contains sensitive data (or links to it)
– Requires restricted access to some of the data
• Cost Metric: – Business critical
– Consistency is most important
RDBMS / NoSQL
RDBMS
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• 스토리지 결정 요인 예제-4
17
• Data: – Web Store Recommendations (publish)
• Performance Metric: – High volume of low latency, but simple requests
– Need to see individual recommendations
• Security Metric: – No sensitive data
– Application level access (automated)
• Cost Metric: – Business critical low latency requirement
– Distributed environment
NoSQL
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• 빅데이터 R&R
18
Roles Responsibilities
Big Data Champion 빅데이터 활용을 감독하는 역활, 초창기에는 주로 IT 부서에서 맡으며, 빅데이터를 기술적 관점에서 비즈니스 조력자로 변경되면 마케팅 & 제품 개발 임원이 맡는다.
Information Architects & Enterprise Architects
빅데이터와 분석은 기존 DW 대체가 아닌, 기존 Information Architecture의 확장이 되어가고 있다. IA는 다양해진 정보 자산 및 관련 도구들로 구성된 생태계를 지원하고 설계해야 하며, EA는 IA와 협력하여 확대된 Information Architecture을 기능을 구현하는 별도의 사일로가 아닌 크로스 플랫폼을 개발해야 한다.
Data Scientists 비즈니스 문제를 활용가능한 데이터를 이용하여 푸는데 과학적 방법을 사용한다. 통계적 모델 및 분석을 적용하고, 결과를 해석하며, 데이터 분석 결과를 적용하고 예측하는 데 사용될 수 있도록 추진한다.
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터와 분석 시스템 아키텍쳐 개발
• 빅데이터 R&R
19
Roles Responsibilities
Business Analysts 비즈니스 지식으로 Data Scientist가 비즈니스 컨텍스트를 이해 및 분석 결과의 해석을 지원. 데이터와 모델이 복잡해질수록 Data Scientist와 Business Analysis의 협업이 매우 중요.
Hadoop Administrators 하둡 배포판과 플랫폼을 관리하는 역활을 수행
Hadoop Programmers MapReduce 코드, Pig, Spark 등을 비롯하여 빅데이터 플랫폼을 지원하는데 필요한 다양한 언어로 프로그래밍을 수행
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터 참조 아키텍쳐 Overview
• 전통적 Information Architecture + 빅데이터
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터 참조 아키텍쳐 Overview
• 통합 참조 아키텍쳐
21
Actionable Events
Event Engine Data Reservoir
Data Factory Enterprise Information Store
Reporting
Discovery Lab
Actionable Information
Actionable Insights
Data Streams
Execution
Innovation
Discovery Output
Events & Data
Structured Enterprise Data
Other Data
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터 참조 아키텍쳐 Overview
• 데이터 처리 단계별 솔루션 매핑
제8회 2015 한국 소프트웨어 아키텍트 대회
빅데이터 구축 가이드 라인
23
#1: Align Big Data with Specific Business Goals
#2: Ease Skills Shortage with Standards and Governance
#3: Optimize Knowledge Transfer with a Center of Excellence
#4: Top Payoff is Aligning Unstructured with Structured Data
#5: Plan your Discovery Lab for Performance
#6: Align with the Cloud Operation Model
• 성공적 빅데이터 아키텍쳐 구축 가이드 라인
제8회 2015 한국 소프트웨어 아키텍트 대회
Q & A
24