30
1 © Copyright 2014 EMC Corporation. All rights reserved. 미래를 예측하는 빅데이터와 실시간 데이터 분석 홍상우 한국이엠씨컴퓨터시스템즈㈜

실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

1 © Copyright 2014 EMC Corporation. All rights reserved.

미래를 예측하는 빅데이터와 실시간 데이터 분석 홍상우 한국이엠씨컴퓨터시스템즈㈜

Page 2: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

2 © Copyright 2014 EMC Corporation. All rights reserved.

목차

• Data Lake 란?

• EMC Data Lake의 목표 및 전략

• EMC Data lake 솔루션

• Data Lake 활용 예시

Page 3: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

3 © Copyright 2014 EMC Corporation. All rights reserved.

Data Lake 란?

• Data Lake 정의

• 현재의 Enterprise Data 아키텍처

• Data Lake Concept

• Business Data Lake 아키텍처

Page 4: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

4 © Copyright 2014 EMC Corporation. All rights reserved.

Data Lake 정의 세상과 연결된 모든 장치로부터 얻는 Big Data를 체계화할 수 있는 신 개념의 저장소

James Dixon, CTO of Pentaho is promoting a

new concept for organizing the big

data that comes in from the wide

world of connected devices. Instead of

thinking of a “data warehouse,” Dixon’s concept is

that CIOs should think of a “data lake.” The

difference between a data lake and a data

warehouse is that in a data warehouse, the data

is pre-categorized at the point of entry, which can

dictate how it’s going to be analyzed. This is

especially true in online analytical processing,

which stores the data in an optimal form to

support specific types of analysis…

- Fobes 지(誌) Dan Woods 기고 중

Page 5: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

5 © Copyright 2014 EMC Corporation. All rights reserved.

현재의 Enterprise Data 아키텍처

ODS

Traditional Structured Data

Mart

Mart

ERP

CRM

MES

Unstructured Data

ETL EDW

DW

BI Analytics

Sales Finance

HR Marketing

ETL Overload

값비싼

Exadata

Silo화 데이터 중복된 데이터

개별 분석 부족한 분석능력

처리되지 못하는 비정형 데이터

Page 6: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

6 © Copyright 2014 EMC Corporation. All rights reserved.

관계형, 정형 데이터

실시간, 설비 데이터

비정형, 반정형 데이터

•비즈니스 부서에 고객 행동 패턴을 감지하는 통찰력을 제공할 수 있는 어플리케이션의 개발

•실행 장애(action failure)*와 비정상적인 조작의 발견을 통한 장애와 다운타임 방지

•하드웨어, 네트워크, 미들웨어 및 어플리케이션 전반에 걸친 데이터의 발굴

•의사 결정을 위한 예측, 알림

•실시간 트랜잭션 데이터와 과거 시점 데이터의 결합

•미래 예측을 위한 통계 모델링 활용

……

Data Lake Concept 모든 데이터를 통합 저장하여 어플리케이션을 통해 제약 없이 빠르게 분석이 가능하게 하는 전사적 Big Data 플랫폼

*실행 장애 : 요구된 데이터가 발견되지 않거나 무결성 제약 조건의 위반 등과 같은 이유로 인한 데이터베이스 연산 실패

Data Lake

Page 7: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

7 © Copyright 2014 EMC Corporation. All rights reserved.

Business Data Lake 아키텍처 중앙 관리되는 Hadoop 기반의 Big Data 플랫폼을 통해 데이터 수집, 처리, 분석을 실시간 또는 지연 수행하여 미래 예측 및 Insight 발굴

Centralized Management

System monitoring System management

Unified Data Management Tier Data mgmt.

services MDM RDM

Audit and policy mgmt.

Processing Tier

Workflow Management

Distillation Tier

HDFS storage Unstructured and structured data

In-memory

MPP database

Unified Sources Flexible Actions

Real-time ingestion

Micro batch ingestion

Batch ingestion

Real-time insights

Interactive insights

Batch insights

Page 8: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

8 © Copyright 2014 EMC Corporation. All rights reserved.

EMC Data Lake의 목표 및 전략

• EMC의 Data Lake 전략

• 모든 데이터의 저장/활용

• SQL on Hadoop

• Fast Data

Page 9: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

9 © Copyright 2014 EMC Corporation. All rights reserved.

EMC의 Data Lake 전략

Fast Data

모든 데이터의 저장/활용

SQL on Hadoop

•모든 Raw 데이터와 분석

데이터를 저장/사용할 수

있는 환경 제공 - 비용/성능 효율적인 저장 아키텍처

- 기업 내 외의 다양한 정형/비정형

데이터 소스에 대한 수집 및 가공

• Hadoop 내의 정형/비정형

데이터 접근에 대한 성능 및

편의성 제공 - Map/Reduce의 한계 극복

- Raw 데이터 조회 시 응답 속도 개선

- 데이터 활용에 대한 교육 시간 절감

•빠른 데이터 처리를 위한 In-Memory 기술

제공 - 고속의 데이터 수집

- DBMS 형태의 In-Memory 저장소

- 실시간, 준 실시간 분석을 위한 고속 분산 처리

Centralized Management

System monitoring System management

Unified Data Management TierData mgmt.

servicesMDMRDM

Audit and policy mgmt.

Processing Tier

Workflow Management

Distillation Tier

HDFS storageUnstructured and structured data

In-memory

MPP database

Unified Sources Flexible Actions

Real-timeingestion

Micro batchingestion

Batch ingestion

Real-time insights

Interactive insights

Batch insights

Data Lake

Big Data + Fast Data

Page 10: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

10 © Copyright 2014 EMC Corporation. All rights reserved.

모든 데이터의 저장/활용 – Traditional 정형 데이터

Only

데이터 유실

값비싼 비용으로

저장 공간 부족

Page 11: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

11 © Copyright 2014 EMC Corporation. All rights reserved.

모든 데이터의 저장/활용 – Hadoop

정형 데이터 +

비정형 데이터

필요한 모든

데이터 활용

저비용 대용량

Page 12: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

12 © Copyright 2014 EMC Corporation. All rights reserved.

모든 데이터의 저장/활용 – Hadoop

• 대량의 데이터 처리(Handles large amounts of data)

• 원시 형태의 데이터 저장(Stores data in native format)

• 저비용 선형 확장 아키텍처 제공(Delivers linear scalability at low cost)

• 인프라 장애에 탄력적 대응(Resilient in case of infrastructure failures)

• 어플리케이션 확장에 대한 투명성(Transparent application scalability)

Big Data 분석을 위한 요구사항 만족 + 저비용 고가용성 아키텍처

Why is Important?

Page 13: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

13 © Copyright 2014 EMC Corporation. All rights reserved.

모든 데이터의 저장/활용 – Hadoop

$-

$20,000

$40,000

$60,000

$80,000

2008 2009 2010 2011 2012 2013

Big Data 플랫폼 가격/TB

Big Data DB Hadoop

Big Data RDBMS 가격이 Hadoop 가격에 극단적으로 수렴

Hadoop이 시장의 중심

The price per TB of Big Data RDMBS has been consistently eroding over time. Hadoop pricing has increased slightly over time as vendors have injected value added services into the ecosystem.

Page 14: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

14 © Copyright 2014 EMC Corporation. All rights reserved.

SQL on Hadoop 분석 어플리케이션

Spring for Hadoop Framework

HDFS Raw “untouched” Data Processed Data

Query Engine <SQL Query>

Planner Optimizer

Executer Transaction

Manager

MapReduce <개발>

Page 15: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

15 © Copyright 2014 EMC Corporation. All rights reserved.

Fast Data

STORE EVERYTHINGStructured and unstructured. Internal and external. Historic and real-time streamed data. The nature of data is changing and IT needs to adapt.

ANALYZE ANYTHINGAnalytics is forward looking and predictive. Data analytics complements the business intelligence, ‘rear-view mirror’.

BUILD THE RIGHT THING3rd platform applications take big data insights and turn them into business value. IT has a role in rapid development, deployment and scaling of new apps.

수집 데이터를 고속으로 적재

DBMS 형태의 저장소와 표준 SQL지원으로

BI/OLAP 개발 용이

실시간, 준 실시간 대형 분석 결과를 고속으로 응답

Page 16: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

16 © Copyright 2014 EMC Corporation. All rights reserved.

EMC Data Lake 솔루션

• Pivotal Hadoop

• HAWQ

• Gemfire XD

• Pivotal HD을 활용한 실시간 데이터 분석 모델

Page 17: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

17 © Copyright 2014 EMC Corporation. All rights reserved.

Business Data Lake와의 솔루션 맵핑

Centralized Management

System monitoring System management

Unified Data Management Tier

Data mgmt. services

MDM RDM

Audit and policy mgmt.

Processing Tier

Workflow Management

Distillation Tier

HDFS storage Unstructured and structured data

In-memory

MPP database

Unified Sources Flexible Actions

Real-time ingestion

Micro batch ingestion

Batch ingestion

Real-time insights

Interactive insights

Batch insights

Centralized Management

Unified Data Management Tier

Data Dispatch MDM RDM

Data Dispatch

Processing Tier

Spring XD

GemFire XD

HAWQ

Existing Sources

Unified Sources Flexible Actions

Clickstream Sensor Data

Weblogs Network Data

CRM Data ERP Data

GemFire

RabbitMQ Redis

Pivotal CF Pivotal HD

New Data Sources

Command Center

Page 18: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

18 © Copyright 2014 EMC Corporation. All rights reserved.

EMC Data Lake 솔루션 아키텍처

HDFS

HBase Pig, Hive, Mahout

Map Reduce

Sqoop Flume

Resource

Management & Workflow

YARN

ZooKeeper

Apache Pivotal

Command Center Configure,

Deploy,

Monitor,

Manage

Spring XD

Pivotal HD

Enterprise

Spring

Xtension Framework

Catalog Services

Query Optimizer

Dynamic Pipelining

ANSI SQL + Analytics

HAWQ – Advanced Database Services

Distributed In-

memory Store

Query Transactions

Ingestion Processing

Hadoop Driver – Parallel with Compaction

ANSI SQL + In-Memory

Pivotal GemFire XD – Real-Time Database

Services

MADlib Algorithms

Oozie

Virtual Extensions

GraphLab, Open MPI

Page 19: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

19 © Copyright 2014 EMC Corporation. All rights reserved.

Pivotal HD Apache Hadoop 스택에 대해 완벽한 오픈 소스 인증 및 지원 버전이며, 속도, 신뢰성, 사용 편의성을 업그레이드한 제품

• HDFS, MapReduce, Hive, Pig, Zookeeper 등으로 구성된 Apache Hadoop 스택의 완벽한 오픈 소스 인증 및 지원 버전

•단순한 Apache Hadoop 배포 패키지의 수준 이상을 제공

• Hadoop의 속도, 신뢰성, 사용 편의성을 업그레이드

• Greenplum SQL의 성능과 고급 조회 기능을 활용한 Hadoop 과 Pivotal Database와의 연계

Hadoop 관련

Application

MapReduce

Hadoop File System

O/S

H/W

Pivotal HD 개요 Apache Hadoop vs Pivotal Hadoop

Page 20: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

20 © Copyright 2014 EMC Corporation. All rights reserved.

HAWQ

• 분산(병렬) 쿼리 엔진 – HDFS에 있는 데이터에 쿼리를 이용해 실시간으로 접근 가능

• Query Optimizer를 통해 빠른 성능을 제공 – DB의 통계를 수집, table analyze 등의 optimize 활동을 통해 최고의 성능을 제공

• 실시간 쿼리가 가능 – MapReduce를 사용하지 않고 분산되어 있는 데이터에 직접 접근

• Insert가 병렬로 수행됨 – 각 노드에 데이터가 병렬로 삽입되기 때문에 고성능을 보장

(Original Hadoop의 경우 데이터가 각 노드에 순차적으로 삽입됨)

• ODBC, JDBC API를 지원 • OLTP workload를 지원 • GUI Tool 사용을 통해 보다 쉬운 접근관리가 가능

최고 성능의 SQL On Hadoop 솔루션

Query type 단위 :

Seconds

Query type 단위 :

Seconds Query type 단위 :

Seconds

Page 21: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

21 © Copyright 2014 EMC Corporation. All rights reserved.

HAWQ 아키텍처 분산(병렬) 처리 아키텍처 기반으로 고속으로 Query 처리가 가능

Network Interconnect

... ...

... ... Master

Servers & Name Nodes

Query planning & dispatch

Segment Servers &

Data Nodes

Query processing & data storage

External Sources

Loading, streaming, etc.

HDFS

추 출

HAWQ Segment

Query Executor

HAWQ Segment

Query Executor

HAWQ Segment

Query Executor

HAWQ Segment

Query Executor

HAWQ Master (P)

Query Optimizer

Query Parser

HAWQ Master (S)

Query Optimizer

Query Parser

SQL Query

Page 22: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

22 © Copyright 2014 EMC Corporation. All rights reserved.

EMC In-Memory Solution

• In Memory 분산 Data Grid • Shared Nothing구조의 NoSQL • 고성능, 고가용성(active-active), 선형적 확장성 • Java 개발 능력 필요, Custom Application 에 응용 적합 • 중국철도, 미국방성, hotel.com 등 대량의 사용자가 동시 접속하며 빠른 반응 속도가 요구되는 사이트에서 널리 사용됨

• In Memory SQL Data Management Platform • GemFire 의 기능 + RDBMS 기능 포함(Apache Derby) • SQL 92 Compliance – 쉬운 개발 • JDBC, ADO.net 지원

• “In-Memory with Big Data” • GemFire + SQLFire + Pivotal HD 에 Read/Write 기능 추가 • Pivotal HD 에 add-on

Page 23: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

23 © Copyright 2014 EMC Corporation. All rights reserved.

In-Memory Solution 이 왜 필요한가? 사용자의 동시 접속과 응답속도 확보를 위해 In-Memory 솔루션이 필요

Users

Web Tier

Application Tier

DB/Hadoop Tier

Storage Tier

DB Hadoop

동시 사용자 증가

Session 증가로 Web, Application 서버

추가

응답 속도 저하로 고성능/고용량 서버로 교체

In-Memory 솔루션으로 해결

Page 24: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

24 © Copyright 2014 EMC Corporation. All rights reserved.

GemFire XD 아키텍처 “In Memory Cluster with Big Data”

소스 데이터를 메모리에 고속 적재

표준 SQL지원으로 데이터 분석 편의성 제공

HAWQ의 대형 분석 결과를 캐시에서 고속 처리

Page 25: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

25 © Copyright 2014 EMC Corporation. All rights reserved.

Pivotal HD을 활용한 실시간 데이터 분석 모델 Pivotal HD Enterprise 솔루션을 사용한 실시간 분석 모델

GemFire XD

HAWQ

PXF

Model Refresh

Map-Reduce

I/P & O/P Formatter

Command Center

Model Refresh

Online Apps

Analytic Apps

Sensor Data / Log

Pivotal HD Enterprise

Shared Data

Re-evaluate Model

Re-evaluate Model

HDFS

Native Persistence

Page 26: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

26 © Copyright 2014 EMC Corporation. All rights reserved.

Data Lake 활용 예시

• 실시간 마케팅 분석 예시

• 항공기 제조 공정 분석 예시

• 통신사 네트워크 분석 예시

Page 27: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

27 © Copyright 2014 EMC Corporation. All rights reserved.

실시간 마케팅 분석 예시 Closed loop 분석 – Model generation with scoring

+

Monte Carlo Simulation

Historical Data Big Active Data Fast

Market Data

Trades/Bids

Detect Threshold

Send Correction

Recalculate Model

• 장기간 트렌드 기반의 적응 모델 개발 • 실시간 모델 스코어링(scoring) • 반복적인 데이터 질의

Page 28: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

28 © Copyright 2014 EMC Corporation. All rights reserved.

항공기 제조 공정 분석 예시 Fast Data와 Big Data 기술을 활용하여 실시간 분석과 심층 분석을 모두 적용

1,000분의 1초 미만의 센서 데이터 발생 주기

실시간 분산 이벤트 프로세싱 (Real-time distributed event processing)

고가용성 아키텍처를 위한

In-memory HA

Fast Data 100K+ Data Points

per Second

지속적인 실시간 분석(Real-Time Analytics)

Big Data

Asynchronous Write

보고(Reporting)

심층 분석

(Deep Analytics) 빌링(Billing)

영업활동

(Operations)

Pivotal HD HAWQ

GemFire XD

Page 29: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author:

29 © Copyright 2014 EMC Corporation. All rights reserved.

통신사 네트워크 분석 예시 실시간 네트워크 분석을 위한 가변적 아키텍처(Scalable Architecture)를 적용

In-Memory 클러스터 이용자

프로파일, 기타

HDFS

스트림(Streme) 데이터 수집

- Filter (‘opt-in’), normalize - Dispatch real time events

2) 파생(Derived) 데이터

HAWQ

상세 분석 -

Trending, Subscriber location based analytics, etc

3) Analyze billions of

events

Profiles, models

1) Raw 데이터

Business Rules Engine

Rule Execution

Rule Triggering

Spring Framework

Network sources

Page 30: 실시간 데이터 분석 - emcweb.co.kremcweb.co.kr/2014/edm/20140710_forum_thanks/download/D02.pdf · Title: 미래를 예측하는 빅데이터와 실시간 데이터 분석 Author: