Upload
mobigen
View
1.374
Download
5
Embed Size (px)
Citation preview
IRIS 솔루션 소개
빅데이터 실시간 처리를 위한 분산 DBMS
1
I
R
I
S
솔루션
소개
IRIS ?
오픈소스
차별점
외산
차별점
신뢰성
1
2
3
4
Master/Slave Sharding DB
• 마스터 슬레이브 구조의 분산처리
• 분산처리에 의한 고성능
12
3
3
3
3
3
3
3
3
3
3
10Gbps Switch
SlaveNodes
MasterNode
In-Memory Disk Hybrid
• In-Memory 실시간 처리
• 빅데이터 배치처리
Slave NodeMaster
NodeSlave Node
Slave Node
Slave Node
Slave Node
In-M
em
ory
실시간
처리
Dis
k배치
처리
Scale-Out
IRIS 솔루션 소개
IRIS 특징
2
I
R
I
S
솔루션
소개
IRIS ?
오픈소스
차별점
외산
차별점
신뢰성
1
2
3
4
실시간성
고성능
Master
Slave 2 Slave 1 Slave n
Job Job
Job
Job1
Jobn
Job2
CPU
Backend
( Memory / Disk )
CPU CPU CPU CPU
Backend
( Memory / Disk )
CPU CPU CPU CPU
Backend
( Memory / Disk )
CPU CPU CPU …
안정성
Slave 1
Data A
Data B
Slave 2
Data A
Data C
Slave 3
Data B
Data D
Slave 5
Data D
Data E
Slave 4
Data E
Data C
Write 수행 시 실시간 이중화
이중화되어 보관된 Data
Master
Data D
Data E
확장성
추가 Slave
Master
Slave 1
CPU
Backend ( Memory / Disk )
CPU CPU CPU
Slave 2
CPU
Backend ( Memory / Disk )
CPU CPU CPU
Slave N
CPU
Backend ( Memory / Disk )
CPU CPU CPU
Slave
CPU
Backend ( Memory / Disk )
CPU CPU CPU 무 정지 증설
…
• 데이터 band width 은 문제되지 않는다.
- HDD 에 연속적으로 데이터 기록시 속도 : 6 Gbps
- 서버 10대 정도만 병열처리 해도 요구치 30 Gbps 만족가능
• 데이터 건수가 문제
- 데이터 1건당 색인 1건이 생성되어야 한다.
- 색인을 B-Tree 로 구성시 최악의 경우 데이터 1건당 1번의
HDD random access 필요
- HDD 1번의 random access time : 10 ms, 즉 100번/초
- 최악의 경우 이론적으로 10,000,000 record/초 처리 위해
100,000 대의 HDD 필요
- 서버 1대당 10 HDD 가정해도 서버 10,000대 필요 (최적화제외)
• 해결방안 : 메모리(RAM) 상에서 색인 생성, 1,000,000배 이상 빠름
• 데이터 처리 건수 : SKT 의 경우 1,000,000~10,000,000 record/초 데이터 발생
- 유레카 시스템 : 최번시 1,500,000 record/초
- 티파니 시스템 : 최번시 2,000,000 record/초
• 데이터 band width : SKT 의 경우 100 Tbyte/일, 최번시 3 Gbyte/초, 30 Gbps
차별화 기술 – In-Memory 기반 실시간처리 (1/2)
3
전제 조건 – 초대용량데이터 실시간 색인생성 필요성1
문제점 – 색인 생성시 HDD 의 random access 속도 문제2
• B-Tree 색인, HDD random access
Random Access 속도비교
HDD SSD(100배) RAM(백만배)
8~10 msec 0.1 msec 3~4 nano sec
• HDD random access time (Seagate사 자료참조)
IRIS 솔루션 소개
• 문제점 – 한정된 메모리 공간의 효과적인 사용
• 해결 방안
- 1Gbyte 단위로 색인과 데이터를 묶어서
1개의 블럭파일로 관리
- 최근시간의 데이터는 메모리에서
indexing 하고 완료된 데이터는
블럭파일 단위로 disk 로 이동
차별화 기술 – In-Memory 기반 실시간처리 (2/2)
4
해결 방안 – 메모리(RAM) 상에서 색인 생성 및 실시간 통계3
• IRIS SKT 유레카 시스템 사례
- 최번시 1,500,000 record/초
- 12 core 서버 * 35대 에서 처리중, 부하율 50% 수준
- 서버당 42,800 record/초 수준
• 오픈소스 Elasticsearch 자사 테스트, 부하율 100% 수준
- 16 core 서버 * 12대 서버, 538,094,650 record, 47분소요
- 서버당 15,898 record초 수준
결과 – 서버당 100,000 record per second inserting and indexing 성능4
(http://planetcassandra.org/nosql-performance-benchmarks)
• 오픈소스 성능테스트 : 서버당 3,700 record/초 수준
메모리 (RAM)
Data
디스크 (HDD)
시간순
1Gbyte
Index Data Index Data Index Data Index Data Index Data
IRIS 솔루션 소개
Open I/F
실시간, 배치, 정형, 비정형 데이터 복합처리
5
I
R
I
S
솔루션
소개
오픈소스
차별점
IRIS ?
외산
차별점
신뢰성
1
2
3
4
Hadoop
• HDD 기반 처리
• 비정형 배치처리
최적화
• 실시간 처리불가
Batch AnalysisApplication
비정형배치분석기능
• Ad-hoc 분석기능
• Long Term 분석기
능
Hadoop
HDFS (HDD)
Data(64M)
Data(64M)
Map/Reduce
IRIS
• In-Memory/Disk 하이브리드구조
- 빅데이터실시간 및 배치처리통합구조
• RDBMS 엔진/빅데이터오픈소스결합구조
- 정형데이터 RDBMS 엔진 처리
- 비정형데이터 Spark/검색엔진처리
IRIS Solution
IRIS DFS (RAM) IRIS DFS (HDD)
Index Data(1Gbyte)
Index Data(1Gbyte)
Index Data(1Gbyte)
Index Data(1Gbyte)
SparkEmbeded
ANSI SQLon JDBC
Map/ReduceEmbeded
Full Text SearchEmbeded
Real-time AnalysisApplication
실시간통계기능
• 1분주기 KPI 생성
• 실시간이벤트및 스
트림데이터처리
Interactive AnalysisApplication
Batch AnalysisApplication
빅데이터검색기능
• 정형데이터처리
• 비정형데이터처리
비정형배치분석기능
• Ad-hoc 분석기능
• Long Term 분석기능
IRIS 솔루션 소개
비용절감, 성능향상
6
I
R
I
S
솔루션
소개
오픈소스
차별점
IRIS ?
외산
차별점
신뢰성
1
2
3
4
• IRIS 를 기반으로 다수의 오픈소스가 통합 및 최
적화 되어 개발 운용
• IRIS 에 유일한 데이터를 저장하고, 통합된 오픈
소스 엔진들이 공통으로 접근 사용
• 데이터 중복처리가 없어 최소 최적의 H/W 로 운
용개발 가능, 비용 감소
IRIS
IRIS Solution
IRIS DFS
SparkEmbeded
ANSI SQLon JDBC
MapReduce
Full TextSearch
Real-timeAnalysis
Application
InteractiveAnalysis
Application
BatchAnalysis
Application
H/W Efficiency
• Hadoop 을 기반으로 다수의 오픈소스를 별도 개
발 운용
• 각각의 오픈소스에 동일한 데이터를 중복해서 저
장 필요
• 데이터 중복처리에 따른 H/W 비용 증가 및 성능
저하
Open Source
Open Source
Hadoop
SparkHive
NoSQLMap
ReduceElasticSearch
Real-timeAnalysis
Application
InteractiveAnalysis
Application
BatchAnalysis
Application
H/W Inefficiency
Hadoop
Hadoop
Hadoop
IRIS 솔루션 소개
RDBMS 확장형 vs 빅데이터 전문 플랫폼
7
I
R
I
S
솔루션
소개
외산
차별점
IRIS ?
오픈소스
차별점
신뢰성
1
2
3
4
아키텍처
구축비용
외부연동
IRIS외산 솔루션 A사
• Shared Everything 에 가까운 클러스터
링 DBMS
• 고성능 H/W 에 의한 엔지니어링 구성
• 기존의 DB 및 DW 워크로드에 최적화
• Shared Nothing 에 가까운 분산형
DBMS (Scale-Out)
• 하이브리드 아키텍처
- In-Memory/Disk
- DBMS/빅데이터 오픈소스
• 빅데이터 실시간 처리 최적화
• 고성능 H/W 에 의한 고비용구조
• 기존의 DBMS 호환성에 최적화
• 대용량(Scale-Out)에 한계
• 최적의 비용으로구성가능
• 성능과 비용의 최적화
• 초대용량(Scale-Out) 실현가능
- 60식 상용 클러스터링 사례
- 2 Peta 상용 처리 사례
• 표준 SQL 인터페이스 지원
• 기존의 RDBMS 와의 호환성과확장성
에 용이
• 정형데이터 처리에용이
• 표준 SQL 인터페이스 지원
• RDBMS 와 빅데이터 오픈소스결합하
여 향상된 빅데이터 처리 용이
• 정형데이터 + 비정형데이터동시처리
IRIS 솔루션 소개
비정형 데이터 처리 vs 정형-비정형 데이터 통합처리
8
IRIS
솔루션
소개
외산
차별점
IRIS ?
오픈소스
차별점
신뢰성
1
2
3
4
아키텍처
처리성능
데이터
수용성
IRIS외산 솔루션 B사
• 표준 SQL 사용 불가
- 기업환경에 광범위하게 적용하기 어
려움
• 검색엔진 사용
• 로그 데이터 처리에최적화
• 표준 SQL 기본 사용
• 광범위한 기업데이터 처리
- 정형데이터 RDBMS 처리
- 비정형데이터 검색엔진 처리
• HDD 기반의 데이터 처리
• 빅데이터 실시간 처리의한계
• In-Memory 기반의 실시간 데이터 처리
• HDD 기반의 배치데이터 처리
• 빅데이터 실시간 처리 최적화
• 비정형 데이터처리에최적화
- 정형 데이터 처리가 더 많은 일반적인
기업환경에 적용 어려움
• 정형-비정형, 실시간-배치통합처리
- 다양한 기업환경의 데이터 통합처리
가능
IRIS 솔루션 소개
RDBMS + 빅데이터 처리 플랫폼
9
I
R
I
S
솔루션
소개
신뢰성
IRIS ?
오픈소스
차별점
외산
차별점
1
2
3
4
검증된 솔루션 기술인력
• 외산 솔루션 : 국내 전문가 및 경험인력 부족, 적절한 지원의 어려움
• 국산 솔루션 업체 : 성능 기능 면에서 검증된 솔루션 부재
• 모비젠 : 국내 대형 사이트에서 검증된솔루션, 기술인력 보유
1
국내 최대 상용적용 실적2
국내 최고 레퍼런스 및 분석기술 보유
• SK Telecom, LGU+, 삼성전자, 삼성화재, KISA, NIA, 한전 등
- IRIS DB 사례
* SK Telecom 과금데이터 1일 800억건, 8조건/3달, 1.8 Peta 사례
- Hadoop 사례
* SK Telecom 800대 하둡, 6 Peta 솔루션 구축 운용 사례
• 이동통신사에서의 빅데이터 분석기술 보유
- Anomaly detection, Root cause analysis, 시계열 prediction 등
3
30 여개의 대형 프로젝트
적용 실적
300 식 이상의 누적
납품 실적
최대 1.8 Petabyte 처리
적용 실적
최대 일일 800억 record
3개월 8조 record 처리
IRIS 솔루션 소개