29
© 2007 IBM Corporation 실시간 비즈니스 최적화를 위한 다이내믹 웨어하우징 - CDC를 활용한 실시간 정보통합 InfoSphere Team 배상균 실장

Information Management CDC - Japaneas

Embed Size (px)

Citation preview

Page 1: Information Management CDC - Japaneas

© 2007 IBM Corporation

실시간 비즈니스 최적화를 위한 다이내믹 웨어하우징

- CDC를 활용한 실시간 정보통합

InfoSphere Team

배상균 실장

Page 2: Information Management CDC - Japaneas

2 © 2008 IBM Corporation

Unified Metadata Management

Understand Cleanse Transform Deliver

IBM Information Server

Parallel Processing Rich Connectivity

IBM InfoSphere Warehouse

Industry Models and Pre-Built Solution Assets

Business Strategy and Planning Services

Integrated IBM Partner Components

Expertise & Accelerators

AnalyzeManage

Reliable Real-Time Delivery

Party, Product, Account

Define & Synch Manage Transact

IBM InfoSphere MDM Server

Banking Public SectorRetail Telco Etc…. Etc….

IOD Framework for Dynamic WarehousingComplete, Integrated Information Infrastructure

데이터 통합 서비스

Page 3: Information Management CDC - Japaneas

3 © 2008 IBM Corporation

Business value 증대를 위한 데이터 통합의 요건

이상적인이상적인 데이터데이터 통합의통합의 요건요건

Right System

Right Time

Right Data

Business event

Action time orAction distance

Business Value

Data ready for analysis

Information delivered

Action taken

Value lost

Time

Source: Richard D. Hackathorn, Bolder Technology, Inc.

급변하는 업무 환경과 고객 요구에 적절히 대응하기 위해 IT조직은 양질의 데이터를, 적절한 시점에, 필요한시스템으로 전달할 수 있어야 합니다.

데이터 분석을 통한 의미있는 정보 생산에소요되는 시간과 Business value는

반비례

Time Value of DataTime Value of Data

Page 4: Information Management CDC - Japaneas

4 © 2008 IBM Corporation

데이터 통합 기술 발전 경향

Source: Gartner, 2007

RealReal--timetime

Integrated PlatformIntegrated Platform

Service OrientedService Oriented

3가지 방향

Page 5: Information Management CDC - Japaneas

5 © 2008 IBM Corporation

기업 내의 다양한 시스템/DB간 데이터 통합은 갈수록 실시간 성격을 많이 요구 받고 있습니다.

Drivers• Requirements• Benefits• Action-based• ROI

Inhibitors• Gathering• Transformation• Aggregation• Analysis• Data cleansing

• Movement• Cost

Real-time 데이터 통합 요구사항의 증가

Source: Gartner, 2007

Page 6: Information Management CDC - Japaneas

6 © 2008 IBM Corporation

Real-time 데이터 통합의 확대 필요성

다양한 시스템간 Data Latency의 최소화

데이터 통합 인프라는 배치성격과 실시간 성격의 적절한 조화를 통하여 기업의 Real-time 요건을만족시켜야 합니다.

Real-time 성격주기적 Batch

Real-time 성격 주기적 Batch

기업에서기업에서 운영하는운영하는 다양한다양한 시스템시스템 RealReal--time time 비중의비중의 증대증대

Page 7: Information Management CDC - Japaneas

7 © 2008 IBM Corporation

Front-end 시스템에서 발생하는 트랜잭션 데이터를 다양한 분석 시스템으로 실시간으로 변환 및전달하기 위해서 Real-time CDC를 통한 변경 데이터 추출이 기술적으로 중요합니다.

CDC : 시스템간 Data Latency 최소화를 위한 핵심 기술

• CDC : Changed Data Capture

• 다양한 CDC 방법

– ODBC/JDBC Adapters

– SQL Query (추출할 레코드 구분을 위해 Timestamp 활용)

– Database Triggers

– 변환 데이터 로깅을 위한 유저 테이블

– File Comparison (최종 CDC 시점의 전체 데이터와 비교)

– DB 로그에서 직접 추출

Page 8: Information Management CDC - Japaneas

8 © 2008 IBM Corporation

CDC : Real-time 데이터 통합의 기반 기술

DB2 DB2log

Oracle

I5/DB2

OracleRedo log

OS/400 Journal

Real-Time CDC ETL Feeds DB2

Data Warehouse

Corporate ETL Server

CDC와 ETL 기술의 결합

Page 9: Information Management CDC - Japaneas

9 © 2008 IBM Corporation

Federation

Replication Change Data Capture

ConsolidationAnalytical & Reporting Tools

Web Applications

Federation

Product Performance

Real-time Inventory Level

Consolidation

Headquarters Stores

PrimaryData Center

BackupData Center

Replication

Replication

Capture and Publish

Database

Region 1 Product

Performance

Region 2 Product

Performance

eBusinessApplication

InformationServer

MessageQueue

Target app/DB

Federation Consolidation

Replication

Change Data Capture

Replication

IBM Information Server의 데이터 통합 패턴

Analytical & Reporting ToolsWeb Applications

Page 10: Information Management CDC - Japaneas

10 © 2008 IBM Corporation

Near-real time 성격의 데이터를 통한 분석 및리포팅

특정한 이벤트에 대한 실시간 모니터링

Dynamic Warehousing & Business Intelligence and Reporting

Real-time Event Detection

생산 시스템과 e-Business 어플리케이션간의데이터 통합

HA 구성 및 장애 복구 효율적인 방식의 데이터 복제를 통한 HA 구현

e-Business를 위한 실시간 데이터 제공

IBM CDC 제품의 활용

Page 11: Information Management CDC - Japaneas

11 © 2008 IBM Corporation

Real-Time Integration

전자 상거래(eCommerce) 어플리케이션에 최신의 정보 제공

Data Warehouse에 최신의 정보 제공

Inventory

Downtown Store

Midtown Store

Uptown Store

IBM CDC 제품의 활용 – Use case

운영 시스템 DW/Mart

이기종간 DB 지원

데이터 가공도 가능

Topology– 1:1, 1:N, N:1 모두 가능

Solution– InfoSphere Change Data Capture (구 DataMirror)

– WebSphere Event Publisher

Page 12: Information Management CDC - Japaneas

12 © 2008 IBM Corporation

Data Synchronization

- Operational System을 대상으로 한 Reporting작업이 필요하지만, 소스시스템에 부하를 주고 싶지 않은 경우

- 1개 이상의 시스템과 데이터를 동기화하는 경우

IBM CDC 제품의 활용 – Use case

소스 시스템 부하 최소화

이기종간 DB 지원

Topology– 주로 1:1, 1:N

IBM Solution– InfoSphere Change Data Capture

– WebSphere Replication Server

- Migration, consolidation, upgrade 작업 동안에도비즈니스를 지속시킬 필요가 있는 경우

Page 13: Information Management CDC - Japaneas

13 © 2008 IBM Corporation

High Availability

- 시스템, 프로세스, 어플리케이션에 24x7 접근이 필요한 경우

- 시스템 장애에 따른 위험요소와 백업 관리를 최소화

IBM CDC 제품의 활용 – Use case

주로 동일 기종간 DB 지원

Topology– 1:1

IBM Solution– System i : iCluster for i

– DB2 : WebSphere Replication Server

– Oracle : InfoSphere Change Data Capture for Oracle

Page 14: Information Management CDC - Japaneas

14 © 2008 IBM Corporation

Database Logs

Source Engine Target Engine

TCP/IP

Monitoring and Configuration

Database

Message Queue

DB2, Oracle,SQL Server, etc

Flat files

1. DBMS 1. DBMS 로그에서로그에서데이터데이터 CaptureCapture

2. 2. 변경변경 데이터데이터 전송전송

3. 3. 변경변경 데이터데이터 적용적용

운영시스템 부하 최소화를 위한 Push 방식의 데이터 복제

InfoSphere CDC (구 DataMirror)는 다양한 DBMS에서 발생하는 데이터 변경내용을 실시간으로 Capture하여, 해당 데이터가 필요한 시스템으로 데이터를 변환 및 복제해주는 데이터통합 도구입니다.

InfoSphere CDC 제품 – 개요

Page 15: Information Management CDC - Japaneas

15 © 2008 IBM Corporation

운용시스템의 성능에 최소한의 영향

– DBMS와 연동 (트리거, API 등)하지 않는 로그 방식의 데이터 추출 기법

– 로그(LOG)중심의 데이터 복제 기술을 적용하여 운영시스템의 성능에 대한 영향을 최소화

– 변화가 발생한 트랜젹션(데이터)을 목표 시스템으로 전송 함으로 지연시간을 최소화

운영 시스템의 구조에 영향이 없음

– 트랜잭션 발생 시간을 위한 Timestamp 필드의 추가가 필요 없음

– 변경 데이터 추출을 위해 사용중인 어플리케이션 또는 테이블 스키마의 변경이 필요 없음

운용중인 IT환경에 영향이 없음

– Peer-to-peer 아키텍처로 추가적인 하드웨어가 필요하지 않음

– 단지 변화된 데이터의 복제 기술을 적용하므로 네트워크 부담을 최소화

InfoSphere CDC는 IBM의 다른 CDC 제품과 동일하게 변경 데이터 추출을 위해 DBMS 로그 직접 읽는

방식을 활용합니다. 로그 기반의 데이터 추출은 트리거나 DBMS API를 이용하는 데이터 추출 방식이나 Timestamp를 이용한 배치

기반의 데이터 추출에 비해 소스시스템 부하를 최소화하고, 성능을 극대화하는 장점을 가지고 있습니다.

InfoSphere CDC 제품 – CDC 기능

Page 16: Information Management CDC - Japaneas

16 © 2008 IBM Corporation

IBM System i

IBM System z

IBM System p

HP-9000

Intel

HP Alpha

Sun

MS SQL Server

Sybase ASE

DB2 / UDB

Oracle

TCP/IPTeradata OS/400

OS/390

AIX

HP-UX

Solaris

MS Windows

Linux

PointBase

DATABASESSource & Target

DATABASES Target Only

OPERATINGSYSTEMS

HARDWAREPLATFORMS

NETWORKPROTOCOLS

MESSAGE QUEUESupport

JMS

MQ Series

WebMethods

BEA

TIBCO

Netezza

Itanium

InfoSphere CDC는 동일 DBMS의 복제 뿐만 아니라 이기종 DBMS나 플랫폼을 지원합니다.

InfoSphere CDC 제품 – 다양한 플랫폼/DBMS 지원

Greenplum

Informix

MySQL

PostgreSQL

Page 17: Information Management CDC - Japaneas

17 © 2008 IBM Corporation

기존 프로그램과 H/W구성의 변경 없이 관리도구를 통한 설정만으로 데이터 복제를 구현합니다.

복제복제 Wizard Wizard 제공제공 데이터데이터 변환변환 설정설정

InfoSphere CDC 제품 – Zero programming

Page 18: Information Management CDC - Japaneas

18 © 2008 IBM Corporation

자바 기반의 GUI 제공

– 환경 설정, 관리, 모니터링에 활용

– 통합 스크린에 데이터 통합 프로세스를 관리

– 자동 매핑 및 drag & drop 방식의 데이터 변환

– Event 로그, 경고, 통계 리포팅 제공

Data volume, operation별실시간 조회

Easy to use

InfoSphere CDC 제품 – 모니터링, 관리 툴

Page 19: Information Management CDC - Japaneas

19 © 2008 IBM Corporation

3. Staging DB 4. MQ 연동

2. File Based1. Direct Connect

CDC툴인 InfoSphere CDC와 ETL 툴인 DataStage가 완벽하게 연동되어 구성의 유연성을 증대시킵니다.

2 5

1InfoSphere

CDC Stage in DataStage

DS/QS job4

database database

User E

xit

3

1 4

3FilesDS/QS job

2

database database

Files

1 4

2 stagingarea DS/QS job

3

database database

1 4

2DS/QS job

3

database database

MQ

CDC(InfoSphere CDC)와 ETL(DataStage)과의 통합

Page 20: Information Management CDC - Japaneas

20 © 2008 IBM Corporation

2

1

CognosNow!

Database

In-memorydatabase

3

1. 소스 DB에서 변경 데이터 capture

2. JMS message queue로 변경 데이터 전송

3. CognosNow!가 message queue에서 변경데이터 수신

4. CognosNow! dashboard가 변경 내용을 출력

InfoSphere Change Data Capture 4

CDC(InfoSphere CDC)와 CognosNow!와의 연동

Page 21: Information Management CDC - Japaneas

21 © 2008 IBM Corporation

LegacyData

OtherERP

CRM

SCM

RDBMS

소스 시스템

DW

DBMS로그를 통한변경데이터 Capture

직접 데이터 추출

타겟 시스템

배치 ETL 작업(일/시간 주기)

속보성 데이터 처리(테이블 복제)

ODS

Mart

IBM의 CDC툴인 InfoSphere CDC와 ETL 툴인 DataStage를 통하여 DW 데이터 통합 아키텍쳐를 구성할 수있습니다.

Direct ETL Feed

BI

Operation BI 데이터 통합 시나리오

속보성 데이터 처리(InfoSphere CDC + ETL을 통한

업무로직 구현)

InfoSphereCDC

ETL(DataStage)

Page 22: Information Management CDC - Japaneas

22 © 2008 IBM Corporation

Real-time CDC 솔루션인 InfoSphere CDC와 IBM IOD 솔루션의 결합은 기업에서 필요한 데이터를 right-time에 통합할 수 있는 완벽한 솔루션을 제공합니다.

엔터프라이즈엔터프라이즈 아키텍처아키텍처 지원지원 데이터데이터 통합의통합의 Value Value 증대증대

Loading into ODS in real-time

– Shrinking Batch windows

Operational BI

Event Detection

– Audit & Internal controls

– Event Driven SOA

Synchronous eBusiness

– Up-to-Date Web Portals

Workload balancing

완벽한 Real-time 데이터 통합 솔루션

Page 23: Information Management CDC - Japaneas

23 © 2008 IBM Corporation

InfoSphere CDC 고객사

* 현재 국내에 10개의 고객사들이 InfoSphere CDC제품을 사용하고 있으며, 올해에만 현재까지 5개의 신규 고객을유치하였음.

Page 24: Information Management CDC - Japaneas

24 © 2008 IBM Corporation

변경 데이터의 ESB (Enterprise Service Bus) integrationBilling 시스템인 AMDOCS의 Real-time event 발생 감지를 위한 변경 데이터 전송

데이터 유형에 따라 필요한 시스템으로 routing

Oracle Redo Log

Transaction 1

Transaction 2Transaction 3

Transaction 4

Transaction 5

Transaction 6

Transaction 7

Transaction 8

Transaction 9

Transaction 10

Customer

Address

Billing

Oracle 9.2.05

Customer, Address, Memo, Service,

Billing etc…

Transaction 1

Transaction 2Transaction 3Transaction 4

Transaction 1

Transaction 1Transaction 7

Transaction 8

Queue 1

Transaction 10

Queue 2

Queue 3

XML Document

XML Document

XML Document

SeibelCRM

Oracle 9i.2.05

Other Application

Other Application

db size = 11 terabytes

40 million trans/day

1GB redo log generated per minute

구축사례 – 미국의 통신사

Page 25: Information Management CDC - Japaneas

25 © 2008 IBM Corporation

I5/DB2 OS/400 Journal

Regional Billing Application

Regional Billing Application

I5/DB2

I5/DB2

OS/400 Journal

OS/400 Journal

Real-Time CDC ETL FeedsData

Warehouse

Corporate ETL Server Customer Value CreationMarketing System

14개 지역 Billing 시스템의 변경 데이터가 실시간으로 마케팅 DW로 적재

트랜잭션 유형 및 변경시점의 timestamp가 핸드코딩 없이 ETL 서버로 전송

RealReal--time CDCtime CDC와와 ETL ETL 솔루션의솔루션의 결합결합

구축사례 – 미국의 Cable 제공사

Page 26: Information Management CDC - Japaneas

26 © 2008 IBM Corporation

이기종 DB간 실시간 데이터 통합을 위한 DB로그 기반의 CDC- LiveAudit, Event Server등의 추가 옵션

데이터 감사 및 Transaction History 복제

Event-driven 데이터 통합 솔루션MQ및 JMS로의 데이터 전송

Oracle 솔루션 – HA 구축을 위한 데이터 복제

InfoSphere CDC의 핵심 제품

DataMirror Transformation Server IBM InfoSphere CDCDataMirror LiveAudit IBM InfoSphere CDCDataMirror Transformation Server/Event Server IBM InfoSphere CDCDataMirror iReflect IBM InfoSphere CDC for Oracle Replication

* 제품명 변경

Page 27: Information Management CDC - Japaneas

27 © 2008 IBM Corporation

2007

Expand Capabilities• Release IBM branded InfoSphere CDC v.6.2

technology systems/standards• First phase product integration (DM TS with

DataStage)• Release DB2 Rep/EP v9.5 & Classic

Rep/EP v9.5

2009Extend Leadership • Leverage capture agents• Unified UI for management

Product MissionProtect Customer InvestmentIntegrate offeringsExtend/Optimize solutions

Integrate offerings • Release DM v6.5 with global translations

• Tighter integration between DM TS, Rep/EP & DataStage

2008

기존 고객에 대한 보호뿐만 아니라 IBM IOD 솔루션과의 통합을 위한 로드맵을 가지고 있습니다.

로드맵

Page 28: Information Management CDC - Japaneas

28 © 2008 IBM Corporation

IBM CDC의 가치

Consistent Data Delivery

Continuous

ImpactLow

LatencyLow

영향도 (IMPACT )

1. Business Operation은 유지하면서 지속적으로 소스로 부터 변경분을 수집해 Target으로 전달해줌.2. 트랜잭션 일관성 유지 (Unit of Work, RI) 3. 전체 트랜잭션 단위로 변경된 Before/After Image를 가져옴4. 데이터 이벤트를 감지하여 특정 비즈니스 프로세스를 Triggering 하는데 사용가능5. 장애 복구, 마지막 적용된 트랜잭션 이후부터 진행

데이터 전달의 연속성 (Continuous)

1. 운영 시스템에 영향 감소2. 어플리케이션이나 DataBase에 변경사항이 없음.3. Native DB logs의 사용. 추가적인 오버헤드는 약 2-5%.4. Trigger의 사용이 필요 없음5. 기존 IT운영에 손쉽게 통합할 수 있는 관리기능6. 관리비용의 절감

1. 거의 실시간에 가까운 지연시간2. ETL를 사용하여 낮은 지연시간을 달성할 수 있지만, 운영시스템이나

중요한 업무 시스템에 엄청나게 큰 영향을 미침.

지연시간 (LATENCY)

Page 29: Information Management CDC - Japaneas

29 © 2008 IBM Corporation

Thank You