Upload
sachinnilose
View
16
Download
4
Embed Size (px)
Citation preview
© 2007 IBM Corporation
실시간 비즈니스 최적화를 위한 다이내믹 웨어하우징
- CDC를 활용한 실시간 정보통합
InfoSphere Team
배상균 실장
2 © 2008 IBM Corporation
Unified Metadata Management
Understand Cleanse Transform Deliver
IBM Information Server
Parallel Processing Rich Connectivity
IBM InfoSphere Warehouse
Industry Models and Pre-Built Solution Assets
Business Strategy and Planning Services
Integrated IBM Partner Components
Expertise & Accelerators
AnalyzeManage
Reliable Real-Time Delivery
Party, Product, Account
Define & Synch Manage Transact
IBM InfoSphere MDM Server
Banking Public SectorRetail Telco Etc…. Etc….
IOD Framework for Dynamic WarehousingComplete, Integrated Information Infrastructure
데이터 통합 서비스
3 © 2008 IBM Corporation
Business value 증대를 위한 데이터 통합의 요건
이상적인이상적인 데이터데이터 통합의통합의 요건요건
Right System
Right Time
Right Data
Business event
Action time orAction distance
Business Value
Data ready for analysis
Information delivered
Action taken
Value lost
Time
Source: Richard D. Hackathorn, Bolder Technology, Inc.
급변하는 업무 환경과 고객 요구에 적절히 대응하기 위해 IT조직은 양질의 데이터를, 적절한 시점에, 필요한시스템으로 전달할 수 있어야 합니다.
데이터 분석을 통한 의미있는 정보 생산에소요되는 시간과 Business value는
반비례
Time Value of DataTime Value of Data
4 © 2008 IBM Corporation
데이터 통합 기술 발전 경향
Source: Gartner, 2007
RealReal--timetime
Integrated PlatformIntegrated Platform
Service OrientedService Oriented
3가지 방향
5 © 2008 IBM Corporation
기업 내의 다양한 시스템/DB간 데이터 통합은 갈수록 실시간 성격을 많이 요구 받고 있습니다.
Drivers• Requirements• Benefits• Action-based• ROI
Inhibitors• Gathering• Transformation• Aggregation• Analysis• Data cleansing
• Movement• Cost
Real-time 데이터 통합 요구사항의 증가
Source: Gartner, 2007
6 © 2008 IBM Corporation
Real-time 데이터 통합의 확대 필요성
다양한 시스템간 Data Latency의 최소화
데이터 통합 인프라는 배치성격과 실시간 성격의 적절한 조화를 통하여 기업의 Real-time 요건을만족시켜야 합니다.
Real-time 성격주기적 Batch
Real-time 성격 주기적 Batch
기업에서기업에서 운영하는운영하는 다양한다양한 시스템시스템 RealReal--time time 비중의비중의 증대증대
7 © 2008 IBM Corporation
Front-end 시스템에서 발생하는 트랜잭션 데이터를 다양한 분석 시스템으로 실시간으로 변환 및전달하기 위해서 Real-time CDC를 통한 변경 데이터 추출이 기술적으로 중요합니다.
CDC : 시스템간 Data Latency 최소화를 위한 핵심 기술
• CDC : Changed Data Capture
• 다양한 CDC 방법
– ODBC/JDBC Adapters
– SQL Query (추출할 레코드 구분을 위해 Timestamp 활용)
– Database Triggers
– 변환 데이터 로깅을 위한 유저 테이블
– File Comparison (최종 CDC 시점의 전체 데이터와 비교)
– DB 로그에서 직접 추출
8 © 2008 IBM Corporation
CDC : Real-time 데이터 통합의 기반 기술
DB2 DB2log
Oracle
I5/DB2
OracleRedo log
OS/400 Journal
Real-Time CDC ETL Feeds DB2
Data Warehouse
Corporate ETL Server
CDC와 ETL 기술의 결합
9 © 2008 IBM Corporation
Federation
Replication Change Data Capture
ConsolidationAnalytical & Reporting Tools
Web Applications
Federation
Product Performance
Real-time Inventory Level
Consolidation
Headquarters Stores
PrimaryData Center
BackupData Center
Replication
Replication
Capture and Publish
Database
Region 1 Product
Performance
Region 2 Product
Performance
eBusinessApplication
InformationServer
MessageQueue
Target app/DB
Federation Consolidation
Replication
Change Data Capture
Replication
IBM Information Server의 데이터 통합 패턴
Analytical & Reporting ToolsWeb Applications
10 © 2008 IBM Corporation
Near-real time 성격의 데이터를 통한 분석 및리포팅
특정한 이벤트에 대한 실시간 모니터링
Dynamic Warehousing & Business Intelligence and Reporting
Real-time Event Detection
생산 시스템과 e-Business 어플리케이션간의데이터 통합
HA 구성 및 장애 복구 효율적인 방식의 데이터 복제를 통한 HA 구현
e-Business를 위한 실시간 데이터 제공
IBM CDC 제품의 활용
11 © 2008 IBM Corporation
Real-Time Integration
전자 상거래(eCommerce) 어플리케이션에 최신의 정보 제공
Data Warehouse에 최신의 정보 제공
Inventory
Downtown Store
Midtown Store
Uptown Store
IBM CDC 제품의 활용 – Use case
운영 시스템 DW/Mart
이기종간 DB 지원
데이터 가공도 가능
Topology– 1:1, 1:N, N:1 모두 가능
Solution– InfoSphere Change Data Capture (구 DataMirror)
– WebSphere Event Publisher
12 © 2008 IBM Corporation
Data Synchronization
- Operational System을 대상으로 한 Reporting작업이 필요하지만, 소스시스템에 부하를 주고 싶지 않은 경우
- 1개 이상의 시스템과 데이터를 동기화하는 경우
IBM CDC 제품의 활용 – Use case
소스 시스템 부하 최소화
이기종간 DB 지원
Topology– 주로 1:1, 1:N
IBM Solution– InfoSphere Change Data Capture
– WebSphere Replication Server
- Migration, consolidation, upgrade 작업 동안에도비즈니스를 지속시킬 필요가 있는 경우
13 © 2008 IBM Corporation
High Availability
- 시스템, 프로세스, 어플리케이션에 24x7 접근이 필요한 경우
- 시스템 장애에 따른 위험요소와 백업 관리를 최소화
IBM CDC 제품의 활용 – Use case
주로 동일 기종간 DB 지원
Topology– 1:1
IBM Solution– System i : iCluster for i
– DB2 : WebSphere Replication Server
– Oracle : InfoSphere Change Data Capture for Oracle
14 © 2008 IBM Corporation
Database Logs
Source Engine Target Engine
TCP/IP
Monitoring and Configuration
Database
Message Queue
DB2, Oracle,SQL Server, etc
Flat files
1. DBMS 1. DBMS 로그에서로그에서데이터데이터 CaptureCapture
2. 2. 변경변경 데이터데이터 전송전송
3. 3. 변경변경 데이터데이터 적용적용
운영시스템 부하 최소화를 위한 Push 방식의 데이터 복제
InfoSphere CDC (구 DataMirror)는 다양한 DBMS에서 발생하는 데이터 변경내용을 실시간으로 Capture하여, 해당 데이터가 필요한 시스템으로 데이터를 변환 및 복제해주는 데이터통합 도구입니다.
InfoSphere CDC 제품 – 개요
15 © 2008 IBM Corporation
운용시스템의 성능에 최소한의 영향
– DBMS와 연동 (트리거, API 등)하지 않는 로그 방식의 데이터 추출 기법
– 로그(LOG)중심의 데이터 복제 기술을 적용하여 운영시스템의 성능에 대한 영향을 최소화
– 변화가 발생한 트랜젹션(데이터)을 목표 시스템으로 전송 함으로 지연시간을 최소화
운영 시스템의 구조에 영향이 없음
– 트랜잭션 발생 시간을 위한 Timestamp 필드의 추가가 필요 없음
– 변경 데이터 추출을 위해 사용중인 어플리케이션 또는 테이블 스키마의 변경이 필요 없음
운용중인 IT환경에 영향이 없음
– Peer-to-peer 아키텍처로 추가적인 하드웨어가 필요하지 않음
– 단지 변화된 데이터의 복제 기술을 적용하므로 네트워크 부담을 최소화
InfoSphere CDC는 IBM의 다른 CDC 제품과 동일하게 변경 데이터 추출을 위해 DBMS 로그 직접 읽는
방식을 활용합니다. 로그 기반의 데이터 추출은 트리거나 DBMS API를 이용하는 데이터 추출 방식이나 Timestamp를 이용한 배치
기반의 데이터 추출에 비해 소스시스템 부하를 최소화하고, 성능을 극대화하는 장점을 가지고 있습니다.
InfoSphere CDC 제품 – CDC 기능
16 © 2008 IBM Corporation
IBM System i
IBM System z
IBM System p
HP-9000
Intel
HP Alpha
Sun
MS SQL Server
Sybase ASE
DB2 / UDB
Oracle
TCP/IPTeradata OS/400
OS/390
AIX
HP-UX
Solaris
MS Windows
Linux
PointBase
DATABASESSource & Target
DATABASES Target Only
OPERATINGSYSTEMS
HARDWAREPLATFORMS
NETWORKPROTOCOLS
MESSAGE QUEUESupport
JMS
MQ Series
WebMethods
BEA
TIBCO
Netezza
Itanium
InfoSphere CDC는 동일 DBMS의 복제 뿐만 아니라 이기종 DBMS나 플랫폼을 지원합니다.
InfoSphere CDC 제품 – 다양한 플랫폼/DBMS 지원
Greenplum
Informix
MySQL
PostgreSQL
17 © 2008 IBM Corporation
기존 프로그램과 H/W구성의 변경 없이 관리도구를 통한 설정만으로 데이터 복제를 구현합니다.
복제복제 Wizard Wizard 제공제공 데이터데이터 변환변환 설정설정
InfoSphere CDC 제품 – Zero programming
18 © 2008 IBM Corporation
자바 기반의 GUI 제공
– 환경 설정, 관리, 모니터링에 활용
– 통합 스크린에 데이터 통합 프로세스를 관리
– 자동 매핑 및 drag & drop 방식의 데이터 변환
– Event 로그, 경고, 통계 리포팅 제공
Data volume, operation별실시간 조회
Easy to use
InfoSphere CDC 제품 – 모니터링, 관리 툴
19 © 2008 IBM Corporation
3. Staging DB 4. MQ 연동
2. File Based1. Direct Connect
CDC툴인 InfoSphere CDC와 ETL 툴인 DataStage가 완벽하게 연동되어 구성의 유연성을 증대시킵니다.
2 5
1InfoSphere
CDC Stage in DataStage
DS/QS job4
database database
User E
xit
3
1 4
3FilesDS/QS job
2
database database
Files
1 4
2 stagingarea DS/QS job
3
database database
1 4
2DS/QS job
3
database database
MQ
CDC(InfoSphere CDC)와 ETL(DataStage)과의 통합
20 © 2008 IBM Corporation
2
1
CognosNow!
Database
In-memorydatabase
3
1. 소스 DB에서 변경 데이터 capture
2. JMS message queue로 변경 데이터 전송
3. CognosNow!가 message queue에서 변경데이터 수신
4. CognosNow! dashboard가 변경 내용을 출력
InfoSphere Change Data Capture 4
CDC(InfoSphere CDC)와 CognosNow!와의 연동
21 © 2008 IBM Corporation
LegacyData
OtherERP
CRM
SCM
RDBMS
소스 시스템
DW
DBMS로그를 통한변경데이터 Capture
직접 데이터 추출
타겟 시스템
배치 ETL 작업(일/시간 주기)
속보성 데이터 처리(테이블 복제)
ODS
Mart
IBM의 CDC툴인 InfoSphere CDC와 ETL 툴인 DataStage를 통하여 DW 데이터 통합 아키텍쳐를 구성할 수있습니다.
Direct ETL Feed
BI
Operation BI 데이터 통합 시나리오
속보성 데이터 처리(InfoSphere CDC + ETL을 통한
업무로직 구현)
InfoSphereCDC
ETL(DataStage)
22 © 2008 IBM Corporation
Real-time CDC 솔루션인 InfoSphere CDC와 IBM IOD 솔루션의 결합은 기업에서 필요한 데이터를 right-time에 통합할 수 있는 완벽한 솔루션을 제공합니다.
엔터프라이즈엔터프라이즈 아키텍처아키텍처 지원지원 데이터데이터 통합의통합의 Value Value 증대증대
Loading into ODS in real-time
– Shrinking Batch windows
Operational BI
Event Detection
– Audit & Internal controls
– Event Driven SOA
Synchronous eBusiness
– Up-to-Date Web Portals
Workload balancing
완벽한 Real-time 데이터 통합 솔루션
23 © 2008 IBM Corporation
InfoSphere CDC 고객사
* 현재 국내에 10개의 고객사들이 InfoSphere CDC제품을 사용하고 있으며, 올해에만 현재까지 5개의 신규 고객을유치하였음.
24 © 2008 IBM Corporation
변경 데이터의 ESB (Enterprise Service Bus) integrationBilling 시스템인 AMDOCS의 Real-time event 발생 감지를 위한 변경 데이터 전송
데이터 유형에 따라 필요한 시스템으로 routing
Oracle Redo Log
Transaction 1
Transaction 2Transaction 3
Transaction 4
Transaction 5
Transaction 6
Transaction 7
Transaction 8
Transaction 9
Transaction 10
Customer
Address
Billing
Oracle 9.2.05
Customer, Address, Memo, Service,
Billing etc…
Transaction 1
Transaction 2Transaction 3Transaction 4
Transaction 1
Transaction 1Transaction 7
Transaction 8
Queue 1
Transaction 10
Queue 2
Queue 3
XML Document
XML Document
XML Document
SeibelCRM
Oracle 9i.2.05
Other Application
Other Application
db size = 11 terabytes
40 million trans/day
1GB redo log generated per minute
구축사례 – 미국의 통신사
25 © 2008 IBM Corporation
I5/DB2 OS/400 Journal
Regional Billing Application
Regional Billing Application
I5/DB2
I5/DB2
OS/400 Journal
OS/400 Journal
Real-Time CDC ETL FeedsData
Warehouse
Corporate ETL Server Customer Value CreationMarketing System
14개 지역 Billing 시스템의 변경 데이터가 실시간으로 마케팅 DW로 적재
트랜잭션 유형 및 변경시점의 timestamp가 핸드코딩 없이 ETL 서버로 전송
RealReal--time CDCtime CDC와와 ETL ETL 솔루션의솔루션의 결합결합
구축사례 – 미국의 Cable 제공사
26 © 2008 IBM Corporation
이기종 DB간 실시간 데이터 통합을 위한 DB로그 기반의 CDC- LiveAudit, Event Server등의 추가 옵션
데이터 감사 및 Transaction History 복제
Event-driven 데이터 통합 솔루션MQ및 JMS로의 데이터 전송
Oracle 솔루션 – HA 구축을 위한 데이터 복제
InfoSphere CDC의 핵심 제품
DataMirror Transformation Server IBM InfoSphere CDCDataMirror LiveAudit IBM InfoSphere CDCDataMirror Transformation Server/Event Server IBM InfoSphere CDCDataMirror iReflect IBM InfoSphere CDC for Oracle Replication
* 제품명 변경
27 © 2008 IBM Corporation
2007
Expand Capabilities• Release IBM branded InfoSphere CDC v.6.2
technology systems/standards• First phase product integration (DM TS with
DataStage)• Release DB2 Rep/EP v9.5 & Classic
Rep/EP v9.5
2009Extend Leadership • Leverage capture agents• Unified UI for management
Product MissionProtect Customer InvestmentIntegrate offeringsExtend/Optimize solutions
Integrate offerings • Release DM v6.5 with global translations
• Tighter integration between DM TS, Rep/EP & DataStage
2008
기존 고객에 대한 보호뿐만 아니라 IBM IOD 솔루션과의 통합을 위한 로드맵을 가지고 있습니다.
로드맵
28 © 2008 IBM Corporation
IBM CDC의 가치
Consistent Data Delivery
Continuous
ImpactLow
LatencyLow
영향도 (IMPACT )
1. Business Operation은 유지하면서 지속적으로 소스로 부터 변경분을 수집해 Target으로 전달해줌.2. 트랜잭션 일관성 유지 (Unit of Work, RI) 3. 전체 트랜잭션 단위로 변경된 Before/After Image를 가져옴4. 데이터 이벤트를 감지하여 특정 비즈니스 프로세스를 Triggering 하는데 사용가능5. 장애 복구, 마지막 적용된 트랜잭션 이후부터 진행
데이터 전달의 연속성 (Continuous)
1. 운영 시스템에 영향 감소2. 어플리케이션이나 DataBase에 변경사항이 없음.3. Native DB logs의 사용. 추가적인 오버헤드는 약 2-5%.4. Trigger의 사용이 필요 없음5. 기존 IT운영에 손쉽게 통합할 수 있는 관리기능6. 관리비용의 절감
1. 거의 실시간에 가까운 지연시간2. ETL를 사용하여 낮은 지연시간을 달성할 수 있지만, 운영시스템이나
중요한 업무 시스템에 엄청나게 큰 영향을 미침.
지연시간 (LATENCY)
29 © 2008 IBM Corporation
Thank You