iris solution_overview_for_bigdata

IRIS 솔루션 소개

빅데이터 실시간 처리를 위한 분산 DBMS

1

I

R

I

S

솔루션

소개

IRIS ?

오픈소스

차별점

외산

차별점

신뢰성

1

2

3

4

Master/Slave Sharding DB

• 마스터 슬레이브 구조의 분산처리

• 분산처리에 의한 고성능

12

3

3

3

3

3

3

3

3

3

3

10Gbps Switch

SlaveNodes

MasterNode

In-Memory Disk Hybrid

• In-Memory 실시간 처리

• 빅데이터 배치처리

Slave NodeMaster

NodeSlave Node

Slave Node

Slave Node

Slave Node

In-M

em

ory

실시간

처리

Dis

k배치

처리

Scale-Out


IRIS 특징

2

I

R

I

S

솔루션

소개

IRIS ?

오픈소스

차별점

외산

차별점

신뢰성

1

2

3

4

실시간성

고성능

Master

Slave 2 Slave 1 Slave n

Job Job

Job

Job1

Jobn

Job2

CPU

Backend

( Memory / Disk )

CPU CPU CPU CPU

Backend

( Memory / Disk )

CPU CPU CPU CPU

Backend

( Memory / Disk )

CPU CPU CPU …

안정성

Slave 1

Data A

Data B

Slave 2

Data A

Data C

Slave 3

Data B

Data D

Slave 5

Data D

Data E

Slave 4

Data E

Data C

Write 수행 시 실시간 이중화

이중화되어 보관된 Data

Master

Data D

Data E

확장성

추가 Slave

Master

Slave 1

CPU

Backend ( Memory / Disk )

CPU CPU CPU

Slave 2

CPU


CPU CPU CPU

Slave N

CPU


CPU CPU CPU

Slave

CPU


CPU CPU CPU 무 정지 증설

…

• 데이터 band width 은 문제되지 않는다.

- HDD 에 연속적으로 데이터 기록시 속도 : 6 Gbps

- 서버 10대 정도만 병열처리 해도 요구치 30 Gbps 만족가능

• 데이터 건수가 문제

- 데이터 1건당 색인 1건이 생성되어야 한다.

- 색인을 B-Tree 로 구성시 최악의 경우 데이터 1건당 1번의

HDD random access 필요

- HDD 1번의 random access time : 10 ms, 즉 100번/초

- 최악의 경우 이론적으로 10,000,000 record/초 처리 위해

100,000 대의 HDD 필요

- 서버 1대당 10 HDD 가정해도 서버 10,000대 필요 (최적화제외)

• 해결방안 : 메모리(RAM) 상에서 색인 생성, 1,000,000배 이상 빠름

• 데이터 처리 건수 : SKT 의 경우 1,000,000~10,000,000 record/초 데이터 발생

- 유레카 시스템 : 최번시 1,500,000 record/초

- 티파니 시스템 : 최번시 2,000,000 record/초

• 데이터 band width : SKT 의 경우 100 Tbyte/일, 최번시 3 Gbyte/초, 30 Gbps

차별화 기술 – In-Memory 기반 실시간처리 (1/2)

3

전제 조건 – 초대용량데이터 실시간 색인생성 필요성1

문제점 – 색인 생성시 HDD 의 random access 속도 문제2

• B-Tree 색인, HDD random access

Random Access 속도비교

HDD SSD(100배) RAM(백만배)

8~10 msec 0.1 msec 3~4 nano sec

• HDD random access time (Seagate사 자료참조)


• 문제점 – 한정된 메모리 공간의 효과적인 사용

• 해결 방안

- 1Gbyte 단위로 색인과 데이터를 묶어서

1개의 블럭파일로 관리

- 최근시간의 데이터는 메모리에서

indexing 하고 완료된 데이터는

블럭파일 단위로 disk 로 이동

차별화 기술 – In-Memory 기반 실시간처리 (2/2)

4

해결 방안 – 메모리(RAM) 상에서 색인 생성 및 실시간 통계3

• IRIS SKT 유레카 시스템 사례

- 최번시 1,500,000 record/초

- 12 core 서버 * 35대 에서 처리중, 부하율 50% 수준

- 서버당 42,800 record/초 수준

• 오픈소스 Elasticsearch 자사 테스트, 부하율 100% 수준

- 16 core 서버 * 12대 서버, 538,094,650 record, 47분소요

- 서버당 15,898 record초 수준

결과 – 서버당 100,000 record per second inserting and indexing 성능4

(http://planetcassandra.org/nosql-performance-benchmarks)

• 오픈소스 성능테스트 : 서버당 3,700 record/초 수준

메모리 (RAM)

Data

디스크 (HDD)

시간순

1Gbyte

Index Data Index Data Index Data Index Data Index Data


Open I/F

실시간, 배치, 정형, 비정형 데이터 복합처리

5

I

R

I

S

솔루션

소개

오픈소스

차별점

IRIS ?

외산

차별점

신뢰성

1

2

3

4

Hadoop

• HDD 기반 처리

• 비정형 배치처리

최적화

• 실시간 처리불가

Batch AnalysisApplication

비정형배치분석기능

• Ad-hoc 분석기능

• Long Term 분석기

능

Hadoop

HDFS (HDD)

Data(64M)

Data(64M)

Map/Reduce

IRIS

• In-Memory/Disk 하이브리드구조

- 빅데이터실시간 및 배치처리통합구조

• RDBMS 엔진/빅데이터오픈소스결합구조

- 정형데이터 RDBMS 엔진 처리

- 비정형데이터 Spark/검색엔진처리

IRIS Solution

IRIS DFS (RAM) IRIS DFS (HDD)

Index Data(1Gbyte)

Index Data(1Gbyte)

Index Data(1Gbyte)

Index Data(1Gbyte)

SparkEmbeded

ANSI SQLon JDBC

Map/ReduceEmbeded

Full Text SearchEmbeded

Real-time AnalysisApplication

실시간통계기능

• 1분주기 KPI 생성

• 실시간이벤트및 스

트림데이터처리

Interactive AnalysisApplication

Batch AnalysisApplication

빅데이터검색기능

• 정형데이터처리

• 비정형데이터처리

비정형배치분석기능

• Ad-hoc 분석기능

• Long Term 분석기능


비용절감, 성능향상

6

I

R

I

S

솔루션

소개

오픈소스

차별점

IRIS ?

외산

차별점

신뢰성

1

2

3

4

• IRIS 를 기반으로 다수의 오픈소스가 통합 및 최

적화 되어 개발 운용

• IRIS 에 유일한 데이터를 저장하고, 통합된 오픈

소스 엔진들이 공통으로 접근 사용

• 데이터 중복처리가 없어 최소 최적의 H/W 로 운

용개발 가능, 비용 감소

IRIS

IRIS Solution

IRIS DFS

SparkEmbeded

ANSI SQLon JDBC

MapReduce

Full TextSearch

Real-timeAnalysis

Application

InteractiveAnalysis

Application

BatchAnalysis

Application

H/W Efficiency

• Hadoop 을 기반으로 다수의 오픈소스를 별도 개

발 운용

• 각각의 오픈소스에 동일한 데이터를 중복해서 저

장 필요

• 데이터 중복처리에 따른 H/W 비용 증가 및 성능

저하

Open Source

Open Source

Hadoop

SparkHive

NoSQLMap

ReduceElasticSearch

Real-timeAnalysis

Application

InteractiveAnalysis

Application

BatchAnalysis

Application

H/W Inefficiency

Hadoop

Hadoop

Hadoop


RDBMS 확장형 vs 빅데이터 전문 플랫폼

7

I

R

I

S

솔루션

소개

외산

차별점

IRIS ?

오픈소스

차별점

신뢰성

1

2

3

4

아키텍처

구축비용

외부연동

IRIS외산 솔루션 A사

• Shared Everything 에 가까운 클러스터

링 DBMS

• 고성능 H/W 에 의한 엔지니어링 구성

• 기존의 DB 및 DW 워크로드에 최적화

• Shared Nothing 에 가까운 분산형

DBMS (Scale-Out)

• 하이브리드 아키텍처

- In-Memory/Disk

- DBMS/빅데이터 오픈소스

• 빅데이터 실시간 처리 최적화

• 고성능 H/W 에 의한 고비용구조

• 기존의 DBMS 호환성에 최적화

• 대용량(Scale-Out)에 한계

• 최적의 비용으로구성가능

• 성능과 비용의 최적화

• 초대용량(Scale-Out) 실현가능

- 60식 상용 클러스터링 사례

- 2 Peta 상용 처리 사례

• 표준 SQL 인터페이스 지원

• 기존의 RDBMS 와의 호환성과확장성

에 용이

• 정형데이터 처리에용이

• 표준 SQL 인터페이스 지원

• RDBMS 와 빅데이터 오픈소스결합하

여 향상된 빅데이터 처리 용이

• 정형데이터 + 비정형데이터동시처리


비정형 데이터 처리 vs 정형-비정형 데이터 통합처리

8

IRIS

솔루션

소개

외산

차별점

IRIS ?

오픈소스

차별점

신뢰성

1

2

3

4

아키텍처

처리성능

데이터

수용성

IRIS외산 솔루션 B사

• 표준 SQL 사용 불가

- 기업환경에 광범위하게 적용하기 어

려움

• 검색엔진 사용

• 로그 데이터 처리에최적화

• 표준 SQL 기본 사용

• 광범위한 기업데이터 처리

- 정형데이터 RDBMS 처리

- 비정형데이터 검색엔진 처리

• HDD 기반의 데이터 처리

• 빅데이터 실시간 처리의한계

• In-Memory 기반의 실시간 데이터 처리

• HDD 기반의 배치데이터 처리

• 빅데이터 실시간 처리 최적화

• 비정형 데이터처리에최적화

- 정형 데이터 처리가 더 많은 일반적인

기업환경에 적용 어려움

• 정형-비정형, 실시간-배치통합처리

- 다양한 기업환경의 데이터 통합처리

가능


RDBMS + 빅데이터 처리 플랫폼

9

I

R

I

S

솔루션

소개

신뢰성

IRIS ?

오픈소스

차별점

외산

차별점

1

2

3

4

검증된 솔루션 기술인력

• 외산 솔루션 : 국내 전문가 및 경험인력 부족, 적절한 지원의 어려움

• 국산 솔루션 업체 : 성능 기능 면에서 검증된 솔루션 부재

• 모비젠 : 국내 대형 사이트에서 검증된솔루션, 기술인력 보유

1

국내 최대 상용적용 실적2

국내 최고 레퍼런스 및 분석기술 보유

• SK Telecom, LGU+, 삼성전자, 삼성화재, KISA, NIA, 한전 등

- IRIS DB 사례

* SK Telecom 과금데이터 1일 800억건, 8조건/3달, 1.8 Peta 사례

- Hadoop 사례

* SK Telecom 800대 하둡, 6 Peta 솔루션 구축 운용 사례

• 이동통신사에서의 빅데이터 분석기술 보유

- Anomaly detection, Root cause analysis, 시계열 prediction 등

3

30 여개의 대형 프로젝트

적용 실적

300 식 이상의 누적

납품 실적

최대 1.8 Petabyte 처리

적용 실적

최대 일일 800억 record

3개월 8조 record 처리


Software

iris solution_overview_for_bigdata