14
Hadoop EcoSystem을 홗용한 Hybrid DW 구축 사례 2013-05-02 KT cloudware / NexR Project Manager 정구범 klaus.jung@{kt|nexr}.com

Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

Hadoop EcoSystem을 홗용한

Hybrid DW 구축 사례

2013-05-02

KT cloudware / NexR Project Manager 정구범

klaus.jung@{kt|nexr}.com

Page 2: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

KT의 대용량 데이터 처리 이슈

1

적재 Data의 폭발적인 증가

LTE 등 초고속 무선 Data 통싞 : 트래픽이 예상보다 빨리/많이 증가

비통싞(컨텐츠/플랫폼/Bio/금융 등) 영역의 대용량 Data 처리수요 증가

비용젃감

주력매출의 정체 : 비싼 장비와 SW에 계속 투자해서는 이득이 없음

내재화를 통한 자체 역량 확보 및 구축/확대/유지보수 비용 젃감

보다 정밀해지는 분석처리

정밀한 분석 : 분석에 필요한 Data의 크기와 종류의 증가

교차분석 대상 및 관계요건 복잡성의 대폭 증가

처리결과의 적시성 확보

Data의 크기와 복잡성이 증가해도 처리 결과는 항상 일정한 시간에 제공

처리시간의 여유 부족 = 처리 중 사소한 문제라도 발생되면 적시 제공불가

Page 3: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

상용DW 기반의 기졲 분석 시스템

2

Network System

Service System

High Scale-up UNIX Machine

ODS ETL

DW ETT Data

Mart

BI tool

업무 시스템

Bottleneck

적재량의 증가

처리 프로세스의 증가

구축 및 유지비용의 증가

스토리지 용량 증설 불가피

장비 증설/대개체 불가피

다른 투자기회의 상실

원천 데이터의 지속적 증가 다양한 데이터 제공 요구

처리젃차 및 결과의 복잡성 증가

Page 4: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

상용DW 대체의 젂제 조건

3

경제성 확보

데이터와 성능 증가목표에 대응하여 단계별 적기 투자가 가능한 비용 합리성 확보

Commodity Hardware에서 운용 가능한 비용 효율성 확보

동일한 처리결과 확보

기존의 SQL을 최대한 홗용하여 적용할 수 있는 호홖성 확보

기존의 업무처리 결과와 동일한 처리결과 확보

확장성과 Real-time 성능 확보

지속적으로 증가하는 데이터의 수용이 가능한 적재 확장성 확보

장비 추가에 따른 처리성능의 선형적 확장성 확보

원하는 조건의 데이터를 Real-time 이내에 확인 가능한 성능 확보

새로운 데이터/분석 기법에 대한 수용력 확보

기존 시스템 통합으로 데이터 포맷 등의 추가적용이 가능한 비정형 데이터 수용력 확보

새로운 분석 기법/알고리즘의 추가 적용이 용이한 분석기능 수용력 확보

Page 5: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

요구사항 분석

4

단계별 투자 Sclale-out

Commodity HW 저사양 구동

SQL 호홖성

동일한 처리결과

비정형 데이터 수용력

새로운 분석 기능 수용력

Hadoop

Hive

Distributed Search

R

Solutions 세부 요건 주요 요건 Reference

적재 확장성

선형적 성능 확장성

Near Real-time 검색

경제성 확보

동일한 처리결과 확보

확장성 & 성능 확보

싞규 데이터 새로운 분석 수용

HBase

Page 6: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

5

• 구글은 방대한 데이터의 수집/적재/처리를 보다 저렴한 비용으로 현실화

• 범용부품 기반의 맞춤/조립식 저비용 하드웨어 기반, 모듞 문제를 소프트웨어로 해결

• Hadoop = 구글의 비공개 기술을 모방, 오픈소스에 기반한 집단지성의 결정체

기술/서비스 Google Eco-System Hadoop Eco-System

분산 파일 시스템 Google File System Apache Hadoop (HDFS)

분산 데이터 처리 Map-Reduce Apache Hadoop (MapReduce)

분산 락킹, 이벤트 통지 Chubby Apache Zookeeper

분산 데이터 저장

(Row-level ACID) BigTable Apache HBase

SQL기반 데이터 처리 BigQuery

(외부 서비스 제공. 최대 70TB) Apache Hive

분산 데이터베이스

(Full ACID) Spanner -

Hadoop EcoSystem

Page 7: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

Hadoop EcoSystem based Realization Architecture

6

Query Tool

Apache Flume Apache Chukwa Facebook Scribe

Apache Hadoop

Apache Hive Apache Pig

Apache Solr ElasticSearch

Apache HBase

Storing

Scheduled Querying

Log / Data Collection

Searching

Querying

Apache Sqoop

Data Import/Export

Ad-hoc Querying

Map-Reduce Execution

Apache Oozie LinkedIn Azkaban

Cascading Hamake

Access HDFS

Access HDFS

Integration Executing

Log Repository

DBMS

업무 시스템

BI Tool

Apache Zookeeper

Storing

Page 8: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

7

Big Data 처리를 위한 All-in-One 솔루션 : Big Data의 수집/저장/분석/검색/변홖 등 모듞 처리를 하나의 솔루션 기반으로 수행

Real-time Search

SQL Processing

Massive Data Store

Workflow &

Workbench

Data Collection

Management &

Monitoring

NDAP 수평적 확장성

비용 효율성

NDAP (NexR Data Analytics Platform)

Page 9: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

NDAP Software Stack

8

RDBMS

Remote Files

Workflow RHive

SSH Import

JDBC Import/Export

RDBMS

R

Hive

HBase Table HDFS Table JDBC Table

HBase

HDFS

HBase Data ODS Data Warehouse

Workbench

Map Reduce

Data Mart

AdHoc Query Scheduled Query Pro

vis

ionin

g &

Monitoring &

Managem

ent

Page 10: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

통합 (2013년)

KT의 주요 분석 시스템 구축 현황

9

무선 유선

Main DW

Main DW

통합 BI/DW

경영정보 중심의 분석 (상용DW) xxx TB

무선 NMS 분석 (총 3종류 개별 운영)

유선 NMS 분석 (총 9종류 개별 운영)

통합 NMS 분석

장비 중심의 분석 (상용DBMS)

xxx TB

KDAP

통합 분석 (Hadoop)

x PB

Page 11: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

Platform Architecture

10

Operational Sources

Staging Layer

Original Data

Convert & Load

Store & Process Layer

Original Data

Convert & Load

Node-1

Node-2

Node-3

Node-4

Node-5

Node-6

Node-7

Node-n

+

Mart Layer

Summary Export

End User UI

BI Tool

웹 포탈

Search Layer

Node-1

Node-2

+

Job Execute

Original Data

Convert & Load

Source 증가 대응력 확보

단계별 노드증설

ETL 처리부하 분산

선형적 처리성능 확장

실시간 처리성능 확보

기졲DB 홗용

Mart젂용 성능확보

저비용 범용장비 기반으로 CAPEX 최소화 성능 및 용량 확장 무제한 (단계별 투자 가능)

Page 12: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

KDAP Architecture

11

KDAP (KT Data Analytics Platform)

NMS DW

ODS

Validation, Converting, Normalizing

Hadoop

Mart DB

BI/DW 포탈

HBase Hive

R

RHive

DW NMS

BSS

Workflow

Export

ETL

실시간

배치

Page 13: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

Data 수용 및 확대 적용 계획

12

KT Platforms

3G Voice/data

LTE data/VoLTE

SMS / MMS

olleh Wibro

olleh Wifi

Wifi Call / VoIP

Packet Data Log

Wired Internet

2011년 부터 NDAP을 기반 SW로 사용하여 구축 수행 2013년 100 TB 규모 2014년 1 PB 이상 확대

KT Data Analytics Platform

2013년 통합

2014년 확대

olleh TV

Page 14: Hadoop EcoSystem Hybrid DW 구축 사례 - KOCCA · KT의 대용량 데이터 처리 ... 분산 파일 시스템 Google File System Apache Hadoop (HDFS) 분산 데이터 처리 Map-Reduce

13

Thank you

[email protected]