Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
1 © Copyright 2014 EMC Corporation. All rights reserved.
미래를 예측하는 빅데이터와 실시간 데이터 분석 홍상우 한국이엠씨컴퓨터시스템즈㈜
2 © Copyright 2014 EMC Corporation. All rights reserved.
목차
• Data Lake 란?
• EMC Data Lake의 목표 및 전략
• EMC Data lake 솔루션
• Data Lake 활용 예시
3 © Copyright 2014 EMC Corporation. All rights reserved.
Data Lake 란?
• Data Lake 정의
• 현재의 Enterprise Data 아키텍처
• Data Lake Concept
• Business Data Lake 아키텍처
4 © Copyright 2014 EMC Corporation. All rights reserved.
Data Lake 정의 세상과 연결된 모든 장치로부터 얻는 Big Data를 체계화할 수 있는 신 개념의 저장소
James Dixon, CTO of Pentaho is promoting a
new concept for organizing the big
data that comes in from the wide
world of connected devices. Instead of
thinking of a “data warehouse,” Dixon’s concept is
that CIOs should think of a “data lake.” The
difference between a data lake and a data
warehouse is that in a data warehouse, the data
is pre-categorized at the point of entry, which can
dictate how it’s going to be analyzed. This is
especially true in online analytical processing,
which stores the data in an optimal form to
support specific types of analysis…
- Fobes 지(誌) Dan Woods 기고 중
5 © Copyright 2014 EMC Corporation. All rights reserved.
현재의 Enterprise Data 아키텍처
ODS
Traditional Structured Data
Mart
Mart
ERP
CRM
MES
Unstructured Data
ETL EDW
DW
BI Analytics
Sales Finance
HR Marketing
ETL Overload
값비싼
Exadata
Silo화 데이터 중복된 데이터
개별 분석 부족한 분석능력
처리되지 못하는 비정형 데이터
6 © Copyright 2014 EMC Corporation. All rights reserved.
관계형, 정형 데이터
실시간, 설비 데이터
비정형, 반정형 데이터
•비즈니스 부서에 고객 행동 패턴을 감지하는 통찰력을 제공할 수 있는 어플리케이션의 개발
•실행 장애(action failure)*와 비정상적인 조작의 발견을 통한 장애와 다운타임 방지
•하드웨어, 네트워크, 미들웨어 및 어플리케이션 전반에 걸친 데이터의 발굴
•의사 결정을 위한 예측, 알림
•실시간 트랜잭션 데이터와 과거 시점 데이터의 결합
•미래 예측을 위한 통계 모델링 활용
……
Data Lake Concept 모든 데이터를 통합 저장하여 어플리케이션을 통해 제약 없이 빠르게 분석이 가능하게 하는 전사적 Big Data 플랫폼
*실행 장애 : 요구된 데이터가 발견되지 않거나 무결성 제약 조건의 위반 등과 같은 이유로 인한 데이터베이스 연산 실패
Data Lake
7 © Copyright 2014 EMC Corporation. All rights reserved.
Business Data Lake 아키텍처 중앙 관리되는 Hadoop 기반의 Big Data 플랫폼을 통해 데이터 수집, 처리, 분석을 실시간 또는 지연 수행하여 미래 예측 및 Insight 발굴
Centralized Management
System monitoring System management
Unified Data Management Tier Data mgmt.
services MDM RDM
Audit and policy mgmt.
Processing Tier
Workflow Management
Distillation Tier
HDFS storage Unstructured and structured data
In-memory
MPP database
Unified Sources Flexible Actions
Real-time ingestion
Micro batch ingestion
Batch ingestion
Real-time insights
Interactive insights
Batch insights
8 © Copyright 2014 EMC Corporation. All rights reserved.
EMC Data Lake의 목표 및 전략
• EMC의 Data Lake 전략
• 모든 데이터의 저장/활용
• SQL on Hadoop
• Fast Data
9 © Copyright 2014 EMC Corporation. All rights reserved.
EMC의 Data Lake 전략
Fast Data
모든 데이터의 저장/활용
SQL on Hadoop
•모든 Raw 데이터와 분석
데이터를 저장/사용할 수
있는 환경 제공 - 비용/성능 효율적인 저장 아키텍처
- 기업 내 외의 다양한 정형/비정형
데이터 소스에 대한 수집 및 가공
• Hadoop 내의 정형/비정형
데이터 접근에 대한 성능 및
편의성 제공 - Map/Reduce의 한계 극복
- Raw 데이터 조회 시 응답 속도 개선
- 데이터 활용에 대한 교육 시간 절감
•빠른 데이터 처리를 위한 In-Memory 기술
제공 - 고속의 데이터 수집
- DBMS 형태의 In-Memory 저장소
- 실시간, 준 실시간 분석을 위한 고속 분산 처리
Centralized Management
System monitoring System management
Unified Data Management TierData mgmt.
servicesMDMRDM
Audit and policy mgmt.
Processing Tier
Workflow Management
Distillation Tier
HDFS storageUnstructured and structured data
In-memory
MPP database
Unified Sources Flexible Actions
Real-timeingestion
Micro batchingestion
Batch ingestion
Real-time insights
Interactive insights
Batch insights
Data Lake
Big Data + Fast Data
10 © Copyright 2014 EMC Corporation. All rights reserved.
모든 데이터의 저장/활용 – Traditional 정형 데이터
Only
데이터 유실
값비싼 비용으로
저장 공간 부족
11 © Copyright 2014 EMC Corporation. All rights reserved.
모든 데이터의 저장/활용 – Hadoop
정형 데이터 +
비정형 데이터
필요한 모든
데이터 활용
저비용 대용량
12 © Copyright 2014 EMC Corporation. All rights reserved.
모든 데이터의 저장/활용 – Hadoop
• 대량의 데이터 처리(Handles large amounts of data)
• 원시 형태의 데이터 저장(Stores data in native format)
• 저비용 선형 확장 아키텍처 제공(Delivers linear scalability at low cost)
• 인프라 장애에 탄력적 대응(Resilient in case of infrastructure failures)
• 어플리케이션 확장에 대한 투명성(Transparent application scalability)
Big Data 분석을 위한 요구사항 만족 + 저비용 고가용성 아키텍처
Why is Important?
13 © Copyright 2014 EMC Corporation. All rights reserved.
모든 데이터의 저장/활용 – Hadoop
$-
$20,000
$40,000
$60,000
$80,000
2008 2009 2010 2011 2012 2013
Big Data 플랫폼 가격/TB
Big Data DB Hadoop
Big Data RDBMS 가격이 Hadoop 가격에 극단적으로 수렴
Hadoop이 시장의 중심
The price per TB of Big Data RDMBS has been consistently eroding over time. Hadoop pricing has increased slightly over time as vendors have injected value added services into the ecosystem.
14 © Copyright 2014 EMC Corporation. All rights reserved.
SQL on Hadoop 분석 어플리케이션
Spring for Hadoop Framework
HDFS Raw “untouched” Data Processed Data
Query Engine <SQL Query>
Planner Optimizer
Executer Transaction
Manager
MapReduce <개발>
15 © Copyright 2014 EMC Corporation. All rights reserved.
Fast Data
STORE EVERYTHINGStructured and unstructured. Internal and external. Historic and real-time streamed data. The nature of data is changing and IT needs to adapt.
ANALYZE ANYTHINGAnalytics is forward looking and predictive. Data analytics complements the business intelligence, ‘rear-view mirror’.
BUILD THE RIGHT THING3rd platform applications take big data insights and turn them into business value. IT has a role in rapid development, deployment and scaling of new apps.
수집 데이터를 고속으로 적재
DBMS 형태의 저장소와 표준 SQL지원으로
BI/OLAP 개발 용이
실시간, 준 실시간 대형 분석 결과를 고속으로 응답
16 © Copyright 2014 EMC Corporation. All rights reserved.
EMC Data Lake 솔루션
• Pivotal Hadoop
• HAWQ
• Gemfire XD
• Pivotal HD을 활용한 실시간 데이터 분석 모델
17 © Copyright 2014 EMC Corporation. All rights reserved.
Business Data Lake와의 솔루션 맵핑
Centralized Management
System monitoring System management
Unified Data Management Tier
Data mgmt. services
MDM RDM
Audit and policy mgmt.
Processing Tier
Workflow Management
Distillation Tier
HDFS storage Unstructured and structured data
In-memory
MPP database
Unified Sources Flexible Actions
Real-time ingestion
Micro batch ingestion
Batch ingestion
Real-time insights
Interactive insights
Batch insights
Centralized Management
Unified Data Management Tier
Data Dispatch MDM RDM
Data Dispatch
Processing Tier
Spring XD
GemFire XD
HAWQ
Existing Sources
Unified Sources Flexible Actions
Clickstream Sensor Data
Weblogs Network Data
CRM Data ERP Data
GemFire
RabbitMQ Redis
Pivotal CF Pivotal HD
New Data Sources
Command Center
18 © Copyright 2014 EMC Corporation. All rights reserved.
EMC Data Lake 솔루션 아키텍처
HDFS
HBase Pig, Hive, Mahout
Map Reduce
Sqoop Flume
Resource
Management & Workflow
YARN
ZooKeeper
Apache Pivotal
Command Center Configure,
Deploy,
Monitor,
Manage
Spring XD
Pivotal HD
Enterprise
Spring
Xtension Framework
Catalog Services
Query Optimizer
Dynamic Pipelining
ANSI SQL + Analytics
HAWQ – Advanced Database Services
Distributed In-
memory Store
Query Transactions
Ingestion Processing
Hadoop Driver – Parallel with Compaction
ANSI SQL + In-Memory
Pivotal GemFire XD – Real-Time Database
Services
MADlib Algorithms
Oozie
Virtual Extensions
GraphLab, Open MPI
19 © Copyright 2014 EMC Corporation. All rights reserved.
Pivotal HD Apache Hadoop 스택에 대해 완벽한 오픈 소스 인증 및 지원 버전이며, 속도, 신뢰성, 사용 편의성을 업그레이드한 제품
• HDFS, MapReduce, Hive, Pig, Zookeeper 등으로 구성된 Apache Hadoop 스택의 완벽한 오픈 소스 인증 및 지원 버전
•단순한 Apache Hadoop 배포 패키지의 수준 이상을 제공
• Hadoop의 속도, 신뢰성, 사용 편의성을 업그레이드
• Greenplum SQL의 성능과 고급 조회 기능을 활용한 Hadoop 과 Pivotal Database와의 연계
Hadoop 관련
Application
MapReduce
Hadoop File System
O/S
H/W
Pivotal HD 개요 Apache Hadoop vs Pivotal Hadoop
20 © Copyright 2014 EMC Corporation. All rights reserved.
HAWQ
• 분산(병렬) 쿼리 엔진 – HDFS에 있는 데이터에 쿼리를 이용해 실시간으로 접근 가능
• Query Optimizer를 통해 빠른 성능을 제공 – DB의 통계를 수집, table analyze 등의 optimize 활동을 통해 최고의 성능을 제공
• 실시간 쿼리가 가능 – MapReduce를 사용하지 않고 분산되어 있는 데이터에 직접 접근
• Insert가 병렬로 수행됨 – 각 노드에 데이터가 병렬로 삽입되기 때문에 고성능을 보장
(Original Hadoop의 경우 데이터가 각 노드에 순차적으로 삽입됨)
• ODBC, JDBC API를 지원 • OLTP workload를 지원 • GUI Tool 사용을 통해 보다 쉬운 접근관리가 가능
최고 성능의 SQL On Hadoop 솔루션
Query type 단위 :
Seconds
Query type 단위 :
Seconds Query type 단위 :
Seconds
21 © Copyright 2014 EMC Corporation. All rights reserved.
HAWQ 아키텍처 분산(병렬) 처리 아키텍처 기반으로 고속으로 Query 처리가 가능
Network Interconnect
... ...
... ... Master
Servers & Name Nodes
Query planning & dispatch
Segment Servers &
Data Nodes
Query processing & data storage
External Sources
Loading, streaming, etc.
HDFS
추 출
HAWQ Segment
Query Executor
HAWQ Segment
Query Executor
HAWQ Segment
Query Executor
HAWQ Segment
Query Executor
HAWQ Master (P)
Query Optimizer
Query Parser
HAWQ Master (S)
Query Optimizer
Query Parser
SQL Query
22 © Copyright 2014 EMC Corporation. All rights reserved.
EMC In-Memory Solution
• In Memory 분산 Data Grid • Shared Nothing구조의 NoSQL • 고성능, 고가용성(active-active), 선형적 확장성 • Java 개발 능력 필요, Custom Application 에 응용 적합 • 중국철도, 미국방성, hotel.com 등 대량의 사용자가 동시 접속하며 빠른 반응 속도가 요구되는 사이트에서 널리 사용됨
• In Memory SQL Data Management Platform • GemFire 의 기능 + RDBMS 기능 포함(Apache Derby) • SQL 92 Compliance – 쉬운 개발 • JDBC, ADO.net 지원
• “In-Memory with Big Data” • GemFire + SQLFire + Pivotal HD 에 Read/Write 기능 추가 • Pivotal HD 에 add-on
23 © Copyright 2014 EMC Corporation. All rights reserved.
In-Memory Solution 이 왜 필요한가? 사용자의 동시 접속과 응답속도 확보를 위해 In-Memory 솔루션이 필요
Users
Web Tier
Application Tier
DB/Hadoop Tier
Storage Tier
DB Hadoop
동시 사용자 증가
Session 증가로 Web, Application 서버
추가
응답 속도 저하로 고성능/고용량 서버로 교체
In-Memory 솔루션으로 해결
24 © Copyright 2014 EMC Corporation. All rights reserved.
GemFire XD 아키텍처 “In Memory Cluster with Big Data”
소스 데이터를 메모리에 고속 적재
표준 SQL지원으로 데이터 분석 편의성 제공
HAWQ의 대형 분석 결과를 캐시에서 고속 처리
25 © Copyright 2014 EMC Corporation. All rights reserved.
Pivotal HD을 활용한 실시간 데이터 분석 모델 Pivotal HD Enterprise 솔루션을 사용한 실시간 분석 모델
GemFire XD
HAWQ
PXF
Model Refresh
Map-Reduce
I/P & O/P Formatter
Command Center
Model Refresh
Online Apps
Analytic Apps
Sensor Data / Log
Pivotal HD Enterprise
Shared Data
Re-evaluate Model
Re-evaluate Model
HDFS
Native Persistence
26 © Copyright 2014 EMC Corporation. All rights reserved.
Data Lake 활용 예시
• 실시간 마케팅 분석 예시
• 항공기 제조 공정 분석 예시
• 통신사 네트워크 분석 예시
27 © Copyright 2014 EMC Corporation. All rights reserved.
실시간 마케팅 분석 예시 Closed loop 분석 – Model generation with scoring
+
Monte Carlo Simulation
Historical Data Big Active Data Fast
Market Data
Trades/Bids
Detect Threshold
Send Correction
Recalculate Model
• 장기간 트렌드 기반의 적응 모델 개발 • 실시간 모델 스코어링(scoring) • 반복적인 데이터 질의
28 © Copyright 2014 EMC Corporation. All rights reserved.
항공기 제조 공정 분석 예시 Fast Data와 Big Data 기술을 활용하여 실시간 분석과 심층 분석을 모두 적용
1,000분의 1초 미만의 센서 데이터 발생 주기
실시간 분산 이벤트 프로세싱 (Real-time distributed event processing)
고가용성 아키텍처를 위한
In-memory HA
Fast Data 100K+ Data Points
per Second
지속적인 실시간 분석(Real-Time Analytics)
Big Data
Asynchronous Write
보고(Reporting)
심층 분석
(Deep Analytics) 빌링(Billing)
영업활동
(Operations)
Pivotal HD HAWQ
GemFire XD
29 © Copyright 2014 EMC Corporation. All rights reserved.
통신사 네트워크 분석 예시 실시간 네트워크 분석을 위한 가변적 아키텍처(Scalable Architecture)를 적용
In-Memory 클러스터 이용자
프로파일, 기타
HDFS
스트림(Streme) 데이터 수집
- Filter (‘opt-in’), normalize - Dispatch real time events
2) 파생(Derived) 데이터
HAWQ
상세 분석 -
Trending, Subscriber location based analytics, etc
3) Analyze billions of
events
Profiles, models
1) Raw 데이터
Business Rules Engine
Rule Execution
Rule Triggering
Spring Framework
Network sources