84
작성 및 문의 한국정보화진흥원 빅데이터 전략연구센터 정지선 책임연구원([email protected], 02-2131-0533) 2012. 9.

빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

작성 및 문의

한국정보화진흥원 빅데이터 전략연구센터

정지선 책임연구원([email protected], 02-2131-0533)

2012. 9.

Page 2: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

I

II

추진배경 및 목적

빅데이터 기업의 추진 현황

1 그루터(Gruter)`•`10

2 넥스알(NexR)`•`17

3 다음소프트(Daumsoft)`•`22

4 사이람(CYRAM)`•`29

5 솔트룩스(Saltlux)`•`35

6 EMC`•`42

7 HP`•`51

8 IBM`•`57

9 오라클(Oracle)`•`62

10 SAS`•`68

11 테라데이타(Teradata)`•`74

Contents

Page 3: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

추진배경 및 목적

I

Page 4: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

4

빅데이터 공급 기업의 현황 파악 필요성

`▒` 사용자들이 빅데이터를 이해하고 업무에 활용하기 위해서는 빅데이터 서비스

및 솔루션 공급 현황을 파악하는 것이 필요

- 활용할 소스 데이터(내부데이터, 웹, 소셜 등)와 분석 목적에 따라서 데이터

수집과 분석 방법은 천차만별

- 빅데이터 활용 범위와 목적에 가장 부합하는 효율적인 방식을 찾기 위해서는

각종 서비스와 솔루션에 대한 이해가 중요

※ 기업뿐만 아니라 공공·통신·교육·교통·의료 등 여러 분야에서 제기되는 빅데이터

서비스는 목적과 대상에 맞는 다른 접근법 필요

※ 다양한 고급분석 기법을 활용하여 관계, 패턴, 트렌드, 의미, 선호도, 통계 분석 등 목적에

맞는 분석 결과 도출이 가능

빅데이터 업계 지도(Big Data Landscape)

※ 출처 : www.forbes.com/sites/davefeinleib/2012/06/19/the-big-data-landscape

Log Data Apps

Data Providers

Copyright Ⓒ 2012 Dave Feinleib [email protected] http://blogs.forbes.com/davefeinleib/

Vertical Apps BusinessIntelligence

AnalyticsInfrastructure

OperationalInfrastructure

Infrastructure AsA Service

Structured Databases

Analytics andVisualization

Page 5: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 5

Ⅰ. 추

진배

경 및

목적

`▒` IT기업들의 빅데이터 추진 현황은 미래 빅데이터 시장 발전 방향과 차세대

정보화 패러다임을 이해하는데도 유용한 정보

- 최근 IT 업계는 빅데이터 비즈니스 발굴에 주력하며 글로벌 빅데이터 시장에서

주도권을 잡기위한 전략을 강화중

- 빅데이터 중심의 선도기업 뿐만 아니라 신생 IT기업, 전통적인 IT 기업들도

후발주자로 참여하며 빅데이터 시장 경쟁이 본격화

※ 위키본(Wikibon)의 자료에 따르면 빅데이터 시장 규모는 ’12년 약 51억 달러에서 ’17년

534억 달러로 10배 이상 성장할 것으로 전망

1) http://wikibon.org/wiki/v/Big_Data_Market_Size_and_Vendor_Revenues

향후 빅데이터 시장 전망(2012~2017)

※ 출처 : Jeff Kelly(2012), ‘Big Data Market Size and Vendor Revenues’, Wikibon1

$53.4

$48.0

$32.1

$16.8

$10.2

$5.1

$60.0

$50.0

$40.0

$30.0

$20.0

$10.0

$0.020132012 2014 2015 2016 2017

Big Data Market Forecast, 2012-2017 (in $US billions)

Page 6: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

6

IT기업들의 빅데이터 추진 동향

`▒` 현재 많은 IT기업들은 기존의 강점과 전문성을 빅데이터 영역까지 확장시켜

새로운 서비스와 솔루션을 마련중

- 글로벌 IT기업들은 빅데이터를 차세대 주력분야로 선정하고, 빅데이터 전문

기업의 인수합병 등을 통해 선도적 전략 수립

- 전통적으로 비즈니스 솔루션에 강점이 있는 기업들은 BI, DW 등에 빅데이터를

접목하고, 고급 분석(Advanced Analysis)을 강화

<글로벌 IT기업의 빅데이터 사업 추진 현황>

기업명 빅데이터 사업 추진 현황

EMC

• 데이터 저장부터 관리, 분석까지 빅 데이터와 관한 모든 것을 제공하기 위해

그린플럼, 아이실론 등 빅 데이터 솔루션 업체 및 데이터 관련 다수업체 인수

• 빅 데이터 스토리지 솔루션(아이실론, 아트모스), 콘텐츠 관리 솔루션(다큐멘텀)

HP

• BI 솔루션 업체 ‘버티카’, 기업용 검색엔진 업체 ‘오토노미’ 인수

• 버티카와 오토노미를 결합하여 빅 데이터 분석 시장에 진입

• 기업경영 의사결정, 경영정보 분석 등 경영지원 전략 수립 서비스 제공

IBM

• 분석용 데이터 저장관리 업체(네티자), 데이터 통합 업체(에센셜), 분석 솔루션

업체(코그너스) 등 비즈니스 분석 관련업체 인수

• 빅 데이터 솔루션 : InfoSphere BigInsight(Hadoop), InfoSphere Streams

Oracle• 세계적인 DB 업체, ‘하이페리온社’를 인수로 분석기술 확보

• 오라클 빅데이터 어플라이언스 제품 출시

SAS

• 고급 분석(Advanced Analytics)을 위한 ‘HPA(High Performance Analytics)

기반의 SEMMA 방법론’ 제시

• ‘IT+분석+비즈니스’ 통합 플랫폼 구현(SAS 빅데이터 분석 플랫폼 Solution MAP)

Teradata

• 데이터웨어하우징 및 비즈니스 인텔리전스(BI) 전문 업체

• 비정형 데이터의 고급분석·관리 솔루션 업체 인수(애스터데이터)

• ‘애스터 맵리듀스 플랫폼’ 제시

`▒` 빅데이터의 프로세스의 전 과정을 아우르는 빅데이터 플랫폼부터 특화된

단위와 분야별 서비스까지 다양한 빅데이터 서비스 등장

Page 7: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 7

Ⅰ. 추

진배

경 및

목적

- 빅데이터 수집, 저장, 분석, 표현의 전체 과정을 통합적으로 처리할 수 있는

빅데이터 플랫폼 구축 및 토털솔루션 서비스 제공

- 클라우드 서비스(저장, 관리), 소셜 네트워크 분석/텍스트 마이닝(분석),

시맨틱 검색(수집, 검색) 등 여러 서비스 영역 창출

<국내 IT기업의 빅데이터 사업 추진 현황>

기업명 빅데이터 추진 현황

그루터

• 빅데이터 관련 플랫폼, 기술, 솔루션 전문기업

• 빅데이터 플랫폼 구축 및 컨설팅 서비스, 빅데이터 분석 및 데이터 제공 서비스,

빅데이터 분석 플랫폼 제공 서비스 구축

넥스알• 넥스알 빅데이터 분석 플랫폼(NDAP : NexR Data Analytics Platform), 넥스알

빅데이터 분석 솔루션(RHive) 구축

다음

소프트

• SNS 정보 기반 여론 진단 서비스, 소셜미디어 트위터, 블로그 트렌드 분석

• 소셜미디어 상의 데이터들에서 의미 있는 정보를 찾고, 조직화함으로써 정보

간의 관계나 패턴, 트렌드 등을 분석하는 서비스 제공

사이람

• 소셜 네트워크 분석 소프트웨어 넷마이너(NetMiner) 개발 : 대규모 소셜 네트워크 및

데이터 간의 관계를 계량적으로 분석해 패턴을 파악하고 시각화하는 기능을 제공

• 소셜 네트워크 분석 응용솔루션 및 컨설팅 제공

솔트룩스

• 비정형 빅데이터 분석 및 시맨틱 기술 전문기업

• 비정형 빅데이터 분석 플랫폼(truestory), 클라우드 기반 시맨틱 검색 플랫폼(IN2),

시맨틱 기반 빅데이터 추론 플랫폼(STORM), 빅데이터 분석 서비스 플랫폼(O2)

서비스

Page 8: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

8

보고서 작성 개요

▒` (목적) 국내의 빅데이터 관련 기업의 기술 및 솔루션 제공 현황을 파악

`▒` (방법) 국내에서 활동하고 있는 빅데이터 기업을 선정하고, 해당 기업의 담당자에게

빅데이터 추진현황에 관한 원고 작성을 요청

- 「빅데이터 국가전략 포럼」 창립 초기에 참여한 빅데이터 전문기업을 중심으로

기업 선정

- 각 기업의 빅데이터 담당자들에게 자사의 빅데이터 비즈니스 전략, 기술,

솔루션 등을 소개하는 원고를 의뢰하여 정리

※ 이후에도 포럼 참여기관 및 그 외 다양한 국내 빅데이터 전문기업들의 빅데이터 솔루션과

서비스 추진 현황을 조사하여 추가적으로 보고서를 발간할 계획임

각 기업의 원고작성 담당자 및 원문 출처

• 그루터, 이전행 미디어랩 이사

• 넥스알, 김연섭 이사

• 다음소프트, 권미경 이사

• 사이람, 하정엽 경영기획팀 팀장

• 솔트룩스, 여준희 차장

• EMC, 강정민 마케팅팀 부장

• HP, 최형광 기술컨설팅본부 상무

• IBM, 김경전 실장

• Oracle, 김상현, ‘Big Data in Oracle’, ORACLE KOREA MAGAZINE, 2011 Winter. 참고

• SAS, 이진권 솔루션서비스본부 상무

• Teradata, 구태훈 이사

`▒` �(내용) 각 기업의 빅데이터 추진 전략 및 비전 소개

- 각 기업의 빅데이터 관련 기술, 서비스, 솔루션의 소개

- 국내외 적용 사례 및 적용 효과

- 향후 발전방향

❖ 빅데이터 솔루션 및 서비스를 제공하는 IT기업들의 현황을 파악을 통해

- 기업과 조직이 빅데이터 활용 시에 참고할 수 있고,

- IT시장의 중요한 패러다임 변화를 이해할 수 있도록 자료 작성

Page 9: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 추진 현황

II

1. 그루터(Gruter)`

2. 넥스알(NexR)

3. 다음소프트(Daumsoft)`

4. 사이람(CYRAM)

5. 솔트룩스(Saltlux)`

6. EMC

7. HP`

8. IBM`

9. 오라클(Oracle)`

11. SAS

12. 테라데이타(Teradata)`

Page 10: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

10

그루터의 비전 및 주요 전략

`▒` 그루터는 빅데이터 관련한 플랫폼 및 기술과 솔루션 전문 기업

- 빅데이터 플랫폼 구축뿐만 아니라 구축 이후 최적화 관리가 가능한 종합적인

관리 운영체계를 솔루션化해서 제공

`▒` 그루터의 빅데이터 비전 : ‘Data Centric Company’

- 그루터는 데이터 수집, 분석, 서비스 등 일련의 데이터 프로세스의 전 과정을

경험하고 공유하며 체화하여 최고의 기술력을 보유

- 향후 솔루션 중심의 기술 안정화, 서비스를 통한 운영 안정화 그리고 꾸준한

인력 양성을 통해 글로벌 경쟁력을 유지하고자 함

`▒` 빅데이터 플랫폼 구축 및 컨설팅, 빅데이터 분석 및 데이터 제공, 빅데이터

분석 플랫폼 제공 등의 기술과 서비스 보유

① 빅데이터 플랫폼 구축 및 컨설팅 서비스(Big Data Platform Providing

& Consulting Service).

② 빅데이터 분석 및 데이터 제공 서비스(Big Data Analysis & Data Providing

Service)

1 그루터(Gruter)2

2) 원문 출처 : 그루터 미디어랩 이전행 이사([email protected])

Page 11: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 11

Ⅱ. 빅

데이

터 기

업의

추진

현황

- 소셜 데이터와 같은 다양한 빅데이터 수집·분석 서비스

- 데이터 혹은 재 가공된 데이터를 기업 등에 제공

③ 빅데이터 분석 플랫폼 제공 서비스(Big Data Ad-hoc Analysis Platform

Service)

- 개별 기업의 특정 목적에 따라 원하는 분석을 자유롭고 효과적으로 수행할

수 있는 빅데이터 분석 플랫폼 제공

빅데이터 플랫폼, BAAS

(BigData Analysis & Application System)

`▒` BAAS는 대용량 데이터 수집, 저장, 실시간 분석 및 일괄 분석 등 분석용

데이터의 전체 라이프 사이클을 관리하는 플랫폼

BAAS의 개념도

분산 스토리지

분석

검색

Data 추출

Data저장

Log or Data

Collector/Real-time Analysis

ContentsStorage

NoSQL검색 서버군

Front-end 서버(웹로그, 메일, 블로그 등)

HTTPd

SAN NAS

Batch Analysis

BAAS

Page 12: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

12

<BAAS의 주요 특징>

특징 주요 내용

데이터수집/

저장/분석

토탈 솔루션

• 오픈소스 중심의 소프트웨어 스택

• x86 Linux 서버와 SATA/SAS 등 저가의 디스크 사용

• 분산/병렬 처리로 고성능 데이터 처리 실현

오픈소스 취약점을

보완하는 추가

컴포넌트 제공

• 관리 및 모니터링 도구

• 그루터 자체 개발 다양한 부가 컴포넌트 제공

대용량 데이터

저장

• 페타바이트 이상 규모의 원본 데이터 저장 가능

• 수백억 건 이상의 실시간 트렌젝션 데이터 저장

탄력적인 확장성• 데이터 증가 시 서비스 중단 또는 프로그램 변경 없이 지속적으로 증설 가능

• 불필요한 서버는 별도의 작업 없이 즉시 제거 가능

안정성• 모든 컴포넌트는 장애 발생 시 자가 치유 능력 보유로 지속적인 서비스 가능

• 모든 데이터는 2 ~ 3중 백업 체계

<BAAS의 주요 기능>

기능 주요 내용

원본 데이터

수집 및 저장

• 데이터 발생원으로 안정적인 저장소로 저장

• 파일 기반 저장 및 트렌젝션 데이터 저장

• 외부 데이터(웹, 사용자 로그, 블로그, 소셜네트워크 등) 수집

✽ 지원솔루션 : Flume/Hadoop/HBase/Cassandra

데이터 분석

• 다양한 분석 유형 제공 : 실시간/준실시간/배치 분석

• Query 기반의 분석 룰 관리 기능 : 분석 룰 관리 및 분석된 데이터 검색

통합 관리 UI 제공

• 분석에 필요한 도구 제공 : 데이터 마이닝 알고리즘, Sentiment Analysis 등

• 알고리즘 또는 작업 관리 도구 제공

✽ 지원솔루션 : Esper(실시간분석), Cloustream(준실시간 분석), Hive(배치

분석), 분석을 위한 Rule Manager, M/R, Hive Manager

검색

• 사용자 별 개인화된 검색 및 전체 데이터에 대한 검색

• 다양한 검색 조건을 이용한 검색

• 첨부 파일 검색(txt, doc, ppt, xls, pdf 등)

✽ 지원솔루션 : ElasticSearch

분산시스템

모니터링 및

Management

System -

Cloumon

• 빅데이터 관련 솔루션은 대부분 오픈소스이므로 관리 및 모니터링 환경은

취약.

• 분산된 서버에 대한 클러스터 및 통합 환경 설정 관리

• 관리용 웹 콘솔 및 Shell 명령 제공

✽ 대상솔루션 : Hadoop, ZooKeeper, HBase/Cassandra, Hive, Flume

Page 13: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 13

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` BAAS는 다양한 오픈 소스와 그루터 자체 기술로 구성된 소프트웨어 스택

솔루션 제공

- 빅데이터 플랫폼에 필요한 전체 기술 스택 및 컨설팅 제공

- 고객의 요구사항에 맞게 최적화된 오픈 소스를 선택하여 빅데이터 플랫폼을

구현(유연성)

- 고객의 요구 기능에 따라 필요한 모듈을 개발하여 추가(확장성)

BAAS의 세부구성 내용

데이터 소스/수집기(각종 로그 데이터)

배치분석/저장소

검색엔진(Search)

실시간 분석 결과저장소(File/Structured)

원본 저장소(File/Structured), 준 실시간 분석

데이터 수집기/실시간 분석

데이터 소스/수집기(FTP, HTTP 등표준 프로토콜)

ThriftSource

ThriftSource

NoSQLHBase

Serri-Struetured

Analysis

Origin File

Serri-Struetured

Origin File

RGB

Index

Origin File

Pipeline-Sink

Logical Node

Hadoop

검색

RnaltimeAnalysis

FTP/HTTP

Temporary

Temporary

FlumeAgent

FlumeAgent

Data Source

Flume Collector

Cluster Monitoring

Cloumon

HBaseRegionServer

Cloustream

HadoopDataNode

HBaseRegionServer

HadoopDataNode

Oracle/MySQL

ElasticSearch

준 실시간 분석

배치분석

Hive

HadoopMapeduce

HadoopDataNode

Rule Manager

ARM

Cluster coordinator

Zookeeper

ThriftSink

ThriftSink

Data Source(Web Server)

Page 14: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

14

빅데이터 분석 및 데이터 제공 서비스

(Big Data Analysis & Data Providing Service)

`▒` 소셜네트워크 데이터 수집 및 분석 서비스 : Seenal.com

- 트위터, 페이스북, 블로그 및 기타 소셜네트워크 미디어 등의 데이터 수집

및 분석 서비스 제공

- 기업의 소셜 네크워트 활동과 관련된 모니터링, 분석 정보제공

- 이미지, 인물, 제품 및 이슈등 대한 실시간 분석 서비스

- 메시지, 이슈에 대한 확산 경로 및 확산 요인 분석

- 메시지에 대한 감성, 영향력, 확산 정도 등 효과 측정

- 소셜네트워크 검색 서비스

- 효율적인 성과지표 관리를 지원하는 보고서 기능 제공

그루터 빅데이터 플랫폼의 기본적인 소프트웨어 스택

Collector(flume, scribe, chukwa)

File System(HadoopFS)

Analysis

Managem

ent

Monito

ring

(cloum

on)

Cluster M

anagement

(Zookeeper)

NoSQL(HBase, Cassandra)

NoSQL(cloudata)

오픈소스 자체구축

Search(ElasticSearch)

Collector(flume, scribe, chukwa)

Real-time Analysis Platform(ClouStream)

Analysis Job Analysis Job

Script Language(Hive, Pig)

Job Workflow Engine(cozie, cascade)

Data Analysis Platform(hadoop)

(Near)Real-timeAnalysis

Aggregator Data Store

Batch Analysis

Managem

ent

Interface

Data Visualization

PhoneWeb Pad

Page 15: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 15

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` 데이터 제공 서비스(Data Providing Service)

- 소셜네트워크 분석 및 데이터 제공 서비스

- 기업이 요청하는 원본 Raw Data Crawl & Feeding 서비스

- 분석결과를 직접 서비스 지원하는 API 제공

빅데이터 분석 플랫폼 제공 서비스

(Ad-Hoc BigData Analysis Platform Service)

`▒` 빅데이터 분석 플랫폼을 보유하지 않은 기업들에게 다양한 목적과 내용의

빅데이터를 분석할 수 있도록 플랫폼 제공

- 빅데이터 플랫폼 구축에 비용 등의 부담을 느끼는 중소기업이나 부분적인

분석의 필요성만 있는 기업의 경우에 적합한 솔루션

Page 16: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

16

`▒` 그루터가 자체적으로 보유하고 있는 빅데이터 플랫폼을 개별 기업들이

빅데이터를 분석하는데 이용할 수 있도록 서비스 제공

- 소셜 네트워크 데이터의 분석 플랫폼 제공

- On Demand 빅데이터 분석 플랫폼을 제공

- 기업의 Social CRM 구현을 위한 CRM연동

- 빅데이터 분석 모듈의 On Demand 제공

Page 17: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 17

Ⅱ. 빅

데이

터 기

업의

추진

현황

넥스알 빅데이터 분석 플랫폼

(NDAP : NexR Data Analytics Platform)

`▒` Big Data 배치 처리 및 근 실시간 검색 플랫폼, NDAP

- 빅데이터 분석을 위한 모든 작업(수집/저장/분석/검색/관리 등) 및 실시간

데이터 질의를 처리할 수 있는 소프트웨어 플랫폼

- ANSI SQL를 기본 언어로 사용하여 신규 개발 및 기존 DB나 DW(Data

Warehouse)의 마이그레이션(Migration)4이 용이

- 빅데이터 처리 및 향후 데이터 증가에 유연하게 대처할 수 있는 scale-out

구조

2 넥스알(NexR)3

3) 원문 출처 : 넥스알, 김연섭 이사([email protected])

4) 하나의 운영환경으로부터 더 나은 운영환경으로 옮아가는 과정을 뜻하는 정보통신 용어(네이버

백과사전)

Page 18: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

18

<기존 제품과 NDAP의 차별성>

차별성 주요 내용

저비용

고 확장성 구조

• RDB 기반의 기존 DW 시스템에 비해 시스템(처리 성능, 저장 용량)

확장이 쉽고 저비용임

다양한 데이터

적재 방법 제공

• 다양한 형식의 데이터를 쉽게 적재할 수 있으며, 필요할 경우 플러그인

형식의 확장으로 신규 데이터를 쉽게 적재할 수 있음

정형/비정형 관계없이

모두 수용 가능• 정형/비정형 등 데이터 유형에 관계없이 모두 수용 가능

분산 기반 고성능 검색

기능 제공

(NDAP Search)

• 색인 및 검색을 scale-out 구조로 분산화 하여 빅 데이터 수용에 적합

• 표현이 다양한 검색 질의 언어 제공(기능 확장 중)

데이터 다중화

(2copy, 3copy,…)• 특정 노드 장애에 관계없이 seamless한 서비스 가능

넥스알 빅데이터 솔루션 NDAP

Advanced analytics

Common data storage

Batch data processing

Real-time query

Streamed data collection

Enterprise RHiveIntegration of R and Hive

NDAP Data StoreHDFS, Sqoop-based data import/export

NDAP Enterprise HiveOracle-to-Hive, Hive workflow,

Hive performance monitor, query planner

NDAP SearchLucene-based distributed log search engine

Time-ranged index sharding

NDAP CollectorFlume-based data collector

Checkpointing for low overhead agents

NDAP Admin CenterZookeeper-based distributed coordinator

Collected-based system/app management

Page 19: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 19

Ⅱ. 빅

데이

터 기

업의

추진

현황

넥스알 빅데이터 분석 솔루션 : RHive

`▒` Big Data 고급 분석 플랫폼, RHive

- 가장 대중적인 분석 도구인 R5과 검증된 대용량 분산 DW`시스템인 Hive를

결합하여 제작

- 분석가들에게 친숙한 R 환경에서 빅데이터 고급 분석 가능

`▒` RHive는 빅데이터를 대상으로 고급 분석(Advanced Analysis)을 할 수 있게

하는 플랫폼

- 고급 분석이란 빅데이터에서 세부 정보, 극단적인 정보도 빠짐없이 분석하여

기존에는 찾을 수 없었던 Big Value를 찾아내는 분석

- RHive는 군집 분석, 회귀 분석, 기계 학습, 이상 징후 예측 분석, 시계열

분석 등의 고급 분석이 가능

넥스알 빅데이터 솔루션 RHive

◆ Language : R or ANSI-SQL

◆ R-Hive Bridge

◆ R Export

◆ R 기반 분산 처리 Framework

◆ 가장 널리 사용하는 Analytic Tool

◆ CRAN : 4,000+Rich R library Set

◆ 용이한 Library/Procedure 제작

◆ 다양한 Visualization, IDE 도구

◆ Hadoop 기반 분산 병렬 처리

◆ ANSI SQL : Low Leaning Cost

◆ 용이한 기능 확장 : UDF, UAF

◆ NexR Add-on

5) ‘R’이란 오픈소스 통계분석 소프트웨어임. 무료 소프트웨어이며 각종 API 제공으로 기능 확장 및

타 SW와의 연동이 용이하여 학계 및 산업계에서 널리 쓰이고 있음

Page 20: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

20

`▒` 기존의 상용 분석 도구와 빅데이터 분산처리 플랫폼의 장단점을 분석하여

사용하기 쉬운 빅데이터 분석 플랫폼, ‘RHive’를 제작

- 기존 통계 분석 도구는 DW의 요약된 정보를 대상으로 분석을 수행하므로

outlier 및 long-tail의 숨은 정보를 놓치는 문제 발생

- 또한 분석 대상 데이터가 메모리 위에 존재해야 하므로, 처리 속도 및 저장

용량 면에서 빅데이터 처리가 어려움

`▒` RHive는 Hadoop과 같은 분산 처리 시스템 기반의 빅데이터 분석 시스템에

비해서 개발이 용이

- 데이터 분석가들이 많이 사용하는 R 인터페이스를 지원하여 사용하기 쉬운

친숙한 인터페이스 호환성 지원

- 분산화 모델로 이식된 R Basic Function을 제공하고, ANSI SQL 기반의

Hive-QL로 개발 가능하여 개발이 상대적으로 쉬움

상용 분석 도구와 빅데이터 분산처리 플랫폼의 장단점

◆ Data Analytics 기법은 수 십 년간 연구되

어 성숙 단계임

◆ 데이터 분석가들이 쉽게 사용할 수 있는

자체 분석 언어 제공

◆ 시각화, 시스템화를 위한 각종 편의 도

구 제공

장점

Big Data

Analytics

Platform

단점

◆ 데이터 처리 스케일 : TB ~ PB

◆ 분산 병렬 처리 기반

◆ 수평 확장 가능하여 저비용으로 고성

능 보장

전통적

분석 도구

분산 처리

플랫폼

◆ 데이터 처리 스케일 : GB

◆ 대용량 데이터는 샘플링에 의존

◆ 단일 node, In-memory 처리 기반

◆ 고성능을 위해서는 H/W 수직 확장이

필요

분석가들이 쓰기 쉽다

Big Data를 다루지 못한다

Big Data 분석 가능

분석가들이 다루기 어렵다

◆ 분석가들이 다루기 어렵다(패키지 언어

에 Lock-in)

◆ Library화 된 분석 기법이 많지 않다.

◆ 분석 기법 Porting이 어렵다(java,

MapReduce, HDFS 등 언어 및 패러다

임 이질성)

R 및 기존 상용

분석 도구들

Page 21: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 21

Ⅱ. 빅

데이

터 기

업의

추진

현황

- 또한 맵리듀스 모델(MapReduce Model)을 R 개발자가 이해하기 쉽도록

추상화한 프레임워크 제공

- 맵리듀스에 대한 지식이 없이도 분산 모델의 프로그래밍이 가능

`▒` RHive는 공개 소프트웨어(OSS)로 개방(Apache License Version 2)

- http://www.github.com/nexr/RHive

- http://cran.r-project.org/web/packages/RHive

- R-Hive Integration 기능, R-HDFS Integration 기능 및 분산 처리화 된

R 기본 함수(range, mode, xtabs, cut, by 등)를 제공

`▒` RHive의 상용 버전으로 ‘Enterprise RHive’ 제작

- RHive의 기본 기능 외에 각종 편의 도구 및 분산화 된 분석 알고리즘

패키지를 제공

- KMeans, Sampling, Scatter Plot, Simple Linear Regression 등

분산화 된 분석 알고리즘 제공(알고리즘 셋(set) 추가 확장 중)

- 개발 도구로 SSO(Single-Sign-On) 연동된 RStudio6 사용 가능

- RHive 및 보고서 Action을 기술할 수 있는 웹기반 워크플로우(Workflow)

관리 기능 제공

- 시스템 모니터링/관제/작업 관리/설정 관리 등의 기능을 제공하는 웹 기반

통합 관리 콘솔 기능 제공

6) RStudio는 R을 위한 무료 오픈소스 통합 개발 환경(IDE)임(사이트 : rstudio.org).

Page 22: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

22

소셜미디어 분석을 위한 다음소프트의 전략

`▒` 다음소프트는 고도의 자연 언어 처리 기술과 방대한 언어 자원을 기반으로

소셜미디어 등 대용량의 텍스트 분석 서비스를 제공

- 소셜미디어 상의 데이터들에서 의미 있는 정보를 찾고, 조직화함으로써

정보 간의 관계나 패턴, 트렌드 등을 분석하는 서비스

- 비정형 텍스트 데이터인 소셜미디어 데이터를 자연 언어 처리 기술인 텍스트

마이닝(text mining) 기법 등을 활용하여 분석

<다음소프트의 소셜미디어 분석 서비스>

기술 범주 세부 정보

관심도 분석

정확도 높은 단어 및 개체명 인식을 통해 이용자가 관심이 있는 키워드 혹은

개체명이 특정 소스, 특정 기간의 문서에서 얼마나 나타났는지를 시계열로

확인할 수 있는 버즈 분석 서비스

연관어 분석관심 키워드/개체명이 어떤 키워드/개체명과 특정 소스, 특정 기간의 문서에서

얼마나 연관되어 나타났는지를 시계열로 확인할 수 있는 연관어 분석 서비스

감성 및 긍부정 분석

관심 키워드/개체명이 어떤 속성어/감성어와 특정 소스, 특정 기간의 문서에서

어떠한 양상(긍정, 부정)으로 나타났는지를 시계열로 확인할 수 있는 속성 및

감성 분석 서비스

3 다음소프트(Daumsoft)7

7) 원문 출처 : 다음소프트, 권미경 이사([email protected])

Page 23: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 23

Ⅱ. 빅

데이

터 기

업의

추진

현황

기술 범주 세부 정보

이슈 분석관심 키워드/개체명과 관련된 이슈의 발생과 변화를 감지하고 모니터링할

수 있는 이슈 분석 서비스

영향력자 분석관심 키워드/개체명과 관련된 버즈를 발생시키는 영향력 있는 사용자를

감지하고 모니터링할 수 있는 사용자 영향력 분석 서비스

소셜미디어 계정 분석이용자/기업의 소셜 네트워크 계정에 대한 리트위트, 맨션 등의 상호작용을

모니터링하고 대응할 수 있는 계정 분석 서비스

`▒` 다음소프트는 잘 구성된 규칙적 알고리즘, 방대한 언어자원, 통계정보 등 자연

언어 처리를 위한 최고 수준의 기술 보유

- 오랜 연구 개발 경험을 통해 정확도가 높은 단어를 인식하고, 단어의 구조를

파악하는 형태소 분석 기술 보유

- 문장 내에서 단어 간의 관계를 파악할 수 있는 문장 분석 기술 보유

- 개체명 사전, 사물과 상황에 대한 주관적 평가의 표현에 사용되는 속성어와

감성어 사전 등의 방대한 언어 자원 구축

<빅데이터 분석을 위한 다음소프트 보유 기술>

기술 범주 세부 정보

자연어 처리 기술 형태소 분석 기술, 품사 태깅 기술, 복합명사 인식 기술, 개체명 인식 기술

데이터마이닝 기술특성 추출 기술, 카테고리 분류 기술, 군집화 기술, 토픽 연관성 분석 기술,

Fact 추출 기술, SNS 분석 기술

문서 변환 기술 텍스트 추출 기술, 메타 정보 추출 기술, 표준 포맷 변환 기술

지식 구축 및

관리 기술

사전 구축 및 관리 기술, DB 구축 및 관리 기술, Ontology 구축 및 관리

기술

Ontology 관련 기술 Ontology 자료구조(기술 언어)

기타 보유 기술 트렌드 분석 기술

`▒` 기업들은 위기 감지, 소비자 반응 분석, 소비자 트렌드 및 행동 연구, 커뮤니

케이션 활동 평가 등에 소셜미디어 분석을 활용

Page 24: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

24

<기업들의 소셜미디어 분석서비스 도입 목적>

도입 목적 설명

Risk Monitoring 자사 관련 이슈에 대한 조기 감지 및 대응

Market Research 자사 제품/브랜드에 대한 소비자 반응 조사

Trend Watching 소셜미디어를 통한 소비자 트렌드 및 행동 연구

Communication

Evaluation커뮤니케이션 활동을 평가하기 위한 SNS 모니터링

빅데이터 관련 서비스 및 솔루션

`▒` 빅데이터 분석을 위한 Hub 솔루션 : ‘SOCIALmetrics™ TrendMap’

- 소셜미디어 분석을 위하여 개발된 허브 시스템으로 제품, 브랜드, 산업 및

사회현상이나 트렌드 분석에 주로 활용

<‘소셜메트릭스™ TrendMap 2.0’의 분석 환경 및 기능>

제공 언어 한국어

분석 대상 블로그, 트위터, 미디어(뉴스)

주요 분석결과 관심도분석, 연관어분석, 감성분석, 분류분석, 영향력자 분석

Page 25: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 25

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` 실시간 소셜미디어 분석 및 모니터링 서비스 : ‘트윗몹™’

- 트위터 상에서 공유되고 있는 거의 모든 종류의 콘텐츠 링크를 실시간으로

모아 프리뷰를 제공하는 큐레이팅 서비스

<‘트윗몹(www.tweetmob.co.kr)’의 분석 환경 및 기능>

제공 언어 한국어

분석 대상 트위터

주요 분석결과 트위터에서 공유되는 다양한 콘텐츠링크를 주제별로 프리뷰

`▒` 소셜메트릭스서비스의 기업용 버전 : ‘SOCIALmetrics™ Biz’

- 지정된 기업, 제품(서비스)에 대한 상시 모니터링, 소셜미디어 중심의 디지털

마케팅 효과 분석, 마케팅 타겟 발굴, 인플루언서 분석 제공

<‘소셜메트릭스 Biz(http://insight.some.co.kr)’의 분석환경 및 기능>

제공 언어 한국어

분석 대상 블로그, 트위터

주요 분석결과 실시간 이슈 모니터링, 이슈 히스토리, 계정분석(트위터), 키워드탐색

Page 26: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

26

`▒` 소셜메트릭스 Enterprise edition : ‘SOCIALmetrics™ Enterprise’

- 다양한 수집원과 분석 카테고리를 활용하여 기업의 제품, 브랜드 분석 및

캠페인 분석 결과를 제공

<‘소셜메트릭스™ Enterprise’의 분석 환경 및 기능>

제공 언어 한국어, 영어, 중국어

분석 대상블로그, 트위터, 페이스북(팬페이지), 포럼, 포털, 쇼핑몰 및 기타 전문 리뷰

사이트

주요 분석결과브랜드 제품별 온라인버즈 점유율변화, 피쳐별 긍부정 분석, 캠페인효과분석,

사이트별 분석, 리포팅을 위한 각종 통계

Page 27: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 27

Ⅱ. 빅

데이

터 기

업의

추진

현황

공공분야 적용 사례

`▒` 국가권익위원회 - 온라인 민원정보분석시스템 구축

- 국가권익위원회 홈페이지 민원, 제안, 콜센터 상담을 통해 축적된 민원

데이터를 분석하여 민원이 정책에 환류될 수 있도록 지원

- 정보의 획득 및 이슈 민원 분석시간 단축 등을 통한 업무효율화

- 의미기반의 다차원 분석을 통한 개선사항 조기발견 및 선제적 대응을 목적으로

온라인 민원정보분석시스템 구축

`▒` 국가대표포털(www.korea.go.kr) 콘텐츠 이용 활성화를 위한 소셜 트렌드

분석

- 최근 3년간의 블로그 데이터를 대상으로 국민의 관심사 및 서비스 콘텐츠에

대한 관심도를 분석

- 국민들의 월별 관심사 파악을 통해 시의적인 콘텐츠 및 서비스 제공

- 관심사에서 주요 언급되는 내용을 분석하여 국민의 니즈를 반영한 콘텐츠

구성에 활용

국가권익위원회 온라인국민소통시스템(2차년도)

Page 28: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

28

대한민국정부포털 콘텐츠 이용활성화를 위한 트렌드 분석

350030002500200015001000500

0

연말정산

• 연말정산간소화에 대한 관심도 변화 및 연관어

연말정산간소화

2008

-01-

01

2009

-01-

01

2010

-01-

01

2011-

01-0

1

2008

-07-

01

2009

-07-

01

2010

-07-

01

2011-

07-0

1

2008

-04-

01

2009

-04-

01

2010

-04-

01

2011-

04-0

1

2008

-10-

01

2009

-10-

01

2010

-10-

01

순위 연관어 문서수

1 필요하다 697

2 가능하다 263

3 다양한 103

4 달라지다 97

5 편리하다 57

6 쉽다 57

7 편리한 54

8 불편 57

9 큰 기대 41

10 아름다운 41

11 간단한 38

12 어렵다 36

13 어려운 32

14 다르다 29

15 간편하다 29

16 새로운 28

17 기대 28

18 불만 23

19 까다롭다 20

20 신속한 18

⋮ ⋮ ⋮

Page 29: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 29

Ⅱ. 빅

데이

터 기

업의

추진

현황

소셜 네트워크 분석 전문기업 사이람

`▒` 사이람은 소셜 네트워크 분석(SNA)에 기반하여 개체 데이터와 관계 데이터를

함께 분석할 수 있는 통합 데이터 마이닝 기업

- 데이터 수집, 모델링 및 처리, 알고리즘 개발, 분석, 시스템 구축, 컨설팅 등

데이터 마이닝 종합 솔루션 제공

<소셜 네트워크 분석 응용 분야 및 적용사례>

주요 기능 내용

문헌/정보관리

지식지도 시스템

연구자, 저널, 키워드 등 지식의 구성요소간 관계를 맵으로 시각화하고, 내비

게이션 및 R&D 동향에 대한 효과적 탐색 지원

대표사례 : 한국산업기술평가원(2011), KISTI(2011)

인사조직/지식경영

인적자원 네트워크 관리 시스템/지식 네트워크 관리 시스템

구성원, 부서, 업무, 역량, 지식 등 조직 자원 간의 관계를 분석하여 효율적인

조직 자원 배분과 전략 경영 지원

대표사례 : 현대 모비스(2011), 한국 컨텐츠 진흥원(2010)

범죄수사/사기적발

네트워크형 범죄수사/사기적발 지원 시스템

혐의자들 간의 드러나거나 숨은 관계에 대한 수사를 가능하게 함으로써 불법

증권거래 및 보험 사기 적발지원

대표사례 : 금융감독원(2010), 교보생명(2009)

4 사이람(CYRAM)8

8) 원문 출처 : 사이람, 경영기획팀 하정엽 팀장([email protected])

Page 30: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

30

주요 기능 내용

소셜 미디어분석

소셜 미디어 모니터링 시스템

소셜 미디어 분석을 통한 위기 관리, 여론 조사, 시장동향 파악

대표사례 : 정당(2012), 공공기관(2011), 언론사(2011)

마케팅/고객관리

소셜 마케팅 시스템/고객관계 네트워크 관리시스템

구매 및 활동이력, 고객 관계 네트워크를 통합·활용해 핵심 영향력자, 고객

커뮤니티를 파악하고 고객관리의 효율성 향상

대표사례 : 도서유통사(2011), 통신사(2008)

소셜 네트워크 분석 전문 소프트웨어 : NetMiner

`▒` NetMiner는 국내 기술로 개발된 소셜 네트워크 분석 소프트웨어

- 노드와 링크로 이루어진 데이터를 분석하고 시각화

- 전세계 50여개국 대학, 정부/공공기관, 글로벌 기업 고객 확보

<NetMiner의 주요 특징>

주요 특징 내용

대용량 네트워크 처리 • 최대 1백만 개의 노드로 구성된 네트워크 처리

최신 SNA 분석지표 탑재 • SNA 표준 지표, 다양한 최신 분석 지표를 신속하게 반영

상호작용이 원활한

시각적 분석

• 사용자의 분석 의도와 편의성을 반영한 다양한 기능 제공

• 노드와 링크를 각 속성에 따라 자유롭게 스타일링 할 수 있을 뿐만

아니라, 네트워크 지도상에서 자유롭게 노드와 링크의 이동이 가능

다양한 통계분석과

차트 기능의 포함

• 다양한 통계분석 기능과 차트가 포함되어 있어 통합된 분석환경을 제공

• 외부 통계 프로그램을 사용하지 않고서도 다양한 분석 가능

`▒` 대용량 데이터 최적화 알고리즘 구현으로 유연한

분석 수행

- NetMiner는 최대 1백만 개의 노드와 1천만

개의 링크를 처리할 수 있으며, 대용량 데이터

처리에 최적화된 알고리즘 구현

Page 31: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 31

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` NetMiner는 다양한 SNA(Social Network Analysis) 방법론과 이론을

포함하는 포괄적인 범위의 네트워크 지표와 분석모델들을 제공

- 기존 통계분석 모델과 차트 기능이 내장되어 외부 통계처리 프로그램을

사용하지 않고 다양한 분석 수행 가능

`▒` NetMiner는 분석과 시각화가 유기적으로 결합되어 탐색적인 데이터 분석이

가능하며 분석결과를 직관적으로 이해하는데 도움

NetMiner의 분석모델과 차트기능 예시

Page 32: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

32

<NetMiner 응용분야 예시>

주요 기능 내용

온라인 네트워크

분석

트위터와 같은 온라인 소셜미디어 상에 형성되는 여론이나 네트워크 등을

분석하고 시각화

고객 네트워크 분석고객의 구매 및 활동 이력, 고객간 관계 네트워크를 분석하여 다양한 마케팅

활용에 활용

조직 네트워크 분석조직구성원, 부서, 업무, 역량 등 조직 내 인적자원 간의 공식적, 비공식적

관계를 분석하고 시각화

범죄 네트워크 분석혐의자들 간의 드러나거나 숨은 관계(covert/overt network)를 분석하여

시각화

지식 네트워크 분석 연구나, 저널, 키워드 등 지식의 구성요소 간 관계를 분석하고 시각화

네트워크 분석 엔터프라이즈 솔루션 : NetMetrica

`▒` NetMetrica는 엔터프라이즈 환경에서의 대용량 네트워크 데이터 속에 숨겨진

패턴과 가치 있는 정보를 찾아내는 데이터 분석 솔루션

- 영향력 있는 노드(Node: 사람, 아이템 등) 추적, 행위 패턴 분석, 연결경로

추적, 노드의 역할 분석, 응집그룹 판별, 유사성 분석

NetMiner의 시각화 사례 및 UI

Page 33: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 33

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` 대용량 네트워크 분석이 필요한 다양한 응용영역에서 데이터 처리, 시각화

솔루션 등과 연계하여 적용 가능

<NetMetrica 특장점>

특장점 내용

대용량 네트워크

데이터 분석

• 수천만 노드, 수십업 링크 이상으로 구성된 네트워크 데이터를 처리할 수

있는 구조와 기능을 제공

(4천 5백만 노드, 12억 링크로 구성된 데이터로 Eigenvector Centrality를

계산하는데 약 3시간 소요)

NettMetrica의 시스템 아키텍처 및 분석 프로세스

Resource Layer

Administration Layer

Interface Layer

Script Scheduler

Data Processing Modules Network Analysis Modules

Internal Storage

Internal DB

DBNAS

InternalFile

System

External Storage

Meciation Layer

Analysis Layer

Storage Layer

Analysis Layer

NetMetrica

NetViz

NetVizmanager

CustomerDW

NetworkData Analyzed

NetworkData MartLegacy

NetworkData Mart

ServicePage

Visualize Layer

▶ ▶

▶▶

DataManager

DataRetrieval

ScriptManager

ScriptLauncher

Request Gateway

On-Demand Analysis Client

Configuration Handler Log Handler

Request Analyzer Module Controller

Pre-process

HubScorting

CommunityGroup

Detection

RoleIdentification

Transform Post-process

PathSearch

SocialFiltering Similarity

• 시스템 운영을 위한 관리/감독

기능의 집합

• 엔진에 분석을 요청하는 역할을 하는

기능 및 시스템 구성 요소의 집합

• Interface Layer로부터 수취한 분석

요청을 해석한 결과 및 Storage Layer에

저장된 데이터를 Analysis Layer의

분석 모듈에 전달하기 위해 필요한 매개

기능의 집합

• 데이터 처리 및 분석을 위한 기능들의

집합으로 독립적인 분석 단계의 단위인

‘모듈’로 구성되어 있음

• 데이터의 저장, 관리, 전송을 위한 기능

및 시스템 구성요소의 집합

Page 34: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

34

특장점 내용

사용자에게 적합한

분석 환경 제공

• 분석 서버에서 스크립트 기반의 자동화된 처리, 클라이언트로부터의

on-demand 분석요청 처리를 동시에 지원

스케줄 분석 지원• 내장 스케줄러를 통한 분석 예약기능 지원

(정해진 시간에 분석 실행, 주기적인 배치 처리 지원)

기존 시스템과의

유연한 연동

• NetMetrica의 내부 인터페이스 레이어를 통해 기존 시스템의 데이터 및

애플리케이션과 유연하게 연동

운영체제에 독립적인

시스템 운영 가능

• JAVA 가상 머신에서 운영되어 기존 운영체제 환경에서 독립적인 시스템을

유지

실시간 SNA API 지원 • 실시간 경로 검색 인터페이스를 이용한 웹 서비스 구현 가능

NetMetrica 주요 기능

NetMetrica의 기본 프레임워크

• 데이터를 다루는데 필요한 기본적인 기능과

네트워크의 기본적인 특성을 파악하는데

필요한 알고리즘 제공

• 관리도구, 요청처리, 외부 시스템과의

인터페이스, 스케줄러 등의 기능 포함

개체 간 연결 경로 검색

• 두 노드간의 최단 연결 경로를

실시간으로 검색

네트워크 영향력 지수 분석

• 네트워크 상에서 개체들의 구조적

중요성을 평가(중심성 분석)

• 특히, 소설 네트워크에서 개인별

관계 영향력 지수를 산출하여 핵심

영향력자를 선별

커뮤니티 판결

• 대규모 네트워크 데이터

내에 숨겨져 있는 커뮤니티

및 그룹을 추출

개체들간의 유사성 분석

• 동일 유형의 개체간 또는 이중 개체간

관계 패턴의 유사성 지수를 산출

행위와 관계 데이터를 통합 활용한 아이템 추천

• 협업 필터링을 통한 추천엔진

제공

• 사용자의 행위 데이터와 사용자간

관계 데이터(소셜 네트워크)를

통합 활용하여 최적의 추천

아이템을 선정

Page 35: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 35

Ⅱ. 빅

데이

터 기

업의

추진

현황

솔트룩스의 경쟁력 및 사업영역

`▒` 솔트룩스는 비정형 빅데이터 분석 및 정보 마이닝, 시맨틱 웹, 유비쿼터스

컴퓨팅 등 차세대 웹과 지식 서비스 전문기업

- 시맨틱 기술 기반의 정형·비정형 빅데이터의 분석 및 지능화 서비스 제공

- 온톨로지와 시맨틱 기술을 토대로 한 시맨틱 기술 기반의 지능형 검색

부분에서 기술 경쟁력 보유

5 솔트룩스(Saltlux)9

9) 원문 출처 : 솔트룩스, 여준희 차장([email protected])

솔트룩스 주요 사업영역

혁신 서비스소프트웨어 솔루션

지능형

• 시맨틱 웹, LCD

• 온톨로지, 추론엔진

• 소셜 미디어 분석(트랜드, 평판)

• 서비스 개인화, 추천

• 상황인지, Geo-Semantic

• 지능형 모바일 서비스

• 초대용량 시맨틱 검색

• 고정밀 텍스트 마이닝

• 소셜 검색 및 분석

시맨틱

검색

데이터

지능화

Knowledge Communication Company

기술/사업 컨설팅

Page 36: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

36

※ 오라클, SAP, 온토프라이즈, STI2, 프란츠 등 미국 및 유럽의 글로벌 기업 및 연구 단체

들과 공동연구 및 협력을 통해 세계적인 기술력 보유

※ 유럽의 대규모 연구사업인 Larkc(Large Knowledge Collider) 프로젝트 중 FP6, FP7

(한화 100조원 규모) 등 유럽의 시맨틱 및 빅데이터 연구 프로젝트에 참여(위치기반

시맨틱 소셜미디어 분석엔진 개발)

비정형 빅데이터 분석 플랫폼, 트루스토리(truestory)

`▒` 트루스토리(www.truestory.co.kr)는 클라우드 컴퓨팅과 인공지능 기술이

결합된 정형+비정형의 빅데이터 분석을 수행

- 솔트룩스 고유의 시맨틱(Semantic) 기술이 적용된 워크플로우 기반의 심층

분석이 가능

- 소셜 빅데이터 분석뿐 아니라 기업 빅데이터 분석, 통신 및 금융 빅데이터

분석 등 다양한 도메인에 활용

트루스토리 아키텍쳐

빅 데이터 기대 효과분석 플랫폼 심층 분석 서비스▶

▶ ▶

소셜 데이터

기업 데이터

금융 데이터

통신 데이터

안보 데이터

의료 데이터

분석 서비스 응용 및 시각화

사회, 시장 트랜드 분석실시간 마케팅

최적화

경쟁 전략최적화

등적 비용최적화

신 사업,정책 발굴

위험 조기 감지사전 대응

고객, 시민 목소리 분석

제품, 서비스 평판 분석

경쟁자 모니터링, 분석

사업 리스크 감지, 분석

부정 사용자, 비리 감지

분석 워크플로우 시스템

분석 기술 인프라자연어처리, 기계학습, 통계, 시맨틱/추론

분산, 병렬처리 인프라하둡, NoSQL(HBASE, mongoDB, ...)

분석 서비스 컴포넌트트랜드, 분류, 군집, 사히망, 인물, 감성

데이터 수집/통합/관리 인프라

클라우드 컴퓨팅 인프라

Page 37: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 37

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` 현재 트루스토리 플랫폼을 사용한

시즌`1 서비스로 “정치인 소셜 빅데이터

분석 서비스”를 제공

- 블로그, 뉴스, 트위터 등 약 2억 건

이상의 웹 및 소셜 미디어 데이터를

실시간 수집, 분석

- 정치인 관심도, 호감·비호감 등의

평판, 비교 분석 등의 결과 제공

클라우드 기반 시맨틱 검색 플랫폼 : [IN2]

`▒` [IN2]는 클라우드 컴퓨팅 및 의미 기반 대용량 정보 검색, 텍스트 마이닝

(Text Mining), 지식 표현, 추론 기술이 융합 적용

- 손쉬운 연동 및 확장이 가능하며 초대용량 분산 클라우드 지원

- 비정형 콘텐트의 의미적 융합·분석 및 내 외부 정보의 융합·검색·분석을

지원할 수 있는 클라우드 기반 시맨틱 검색 플랫폼

`▒` 시맨틱 검색엔진 : [IN2]

Discovery

- 의미 기반 연관정보의 시맨틱

검색과 분석, 토픽 랭크 기반의

시맨틱 네트워크 분석, LOD

(Linked Open Data) 적용이

가능한 검색 엔진

시맨틱 검색엔진 [IN2]Discovery

Page 38: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

38

`▒` 클라우드 지원 통합 검색엔진 : [IN2]DOR

- 자체 클라우드 컴퓨팅 기능을 내장하고, 빅 데이터 시대에 적합한 고가용

통합 검색 엔진

- 초 대용량 검색, 다양한 종류의 비정형 데이터 대응, 실시간 생성/유통 되는

스트림 데이터의 인덱싱과 검색을 제공

`▒` 하이브리드 자동분류 엔진 : [IN2]HBC

- 방대한 양의 다양한 비정형 문서들을 사전 정의한 분류체계로 실시간 자동

분류하는 대용량 고정밀 자동 분류 시스템

`▒` 스토리지 일체형 사내 검색포털 : [IN2]SearchBox

- 파일서버와 개인 PC의 공유문서를 언제 어디서나 정확하고 빠르게 찾아서

지식으로 활용할 수 있게 지원

시맨틱 기반 빅데이터 추론 플랫폼 : STORM

`▒` STORM은 분산된 비즈니스 정보들로부터 시맨틱 메타데이터의 추출, 통합,

저장, 관리 및 활용하기 위한 시맨틱 통합 플랫폼

- 기반 구조, 응용 프레임워크, 개발 방법론을 제공

- 온톨로지 공학 통합 환경, 견고하고 확장성 있는 시맨틱 메타데이터 처리,

효과적이고 생산적인 온톨로지 구축 도구 제공

- 강력한 질의 및 추론 성능, 쉽고 유연한 응용 시스템 개발 지원

`▒` 초대용량 트리플 저장, 질의, 추론 플랫폼 : STORM SOR

- 시맨틱 메타데이터의 생성, 저장, 관리, 질의와 추론을 가능하도록 하는

초대용량 시맨틱 컴퓨팅 프레임워크

Page 39: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 39

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` 소셜 서치 & 지식 네트워크 분석 엔진 : STORM SSAMZIE

- 비정형 정보로부터 소셜 네트워크와 시맨틱 네트워크를 자동 추출하고 지식

베이스로 통합하는 소셜 검색 및 지식 네트워크 분석 엔진

`▒` 의미정보 추출과 온톨로지 인스턴스 자동생성 엔진 : STORM Semano

- 대용량 비정형(일반 텍스트) 혹은 반정형 정보들로부터 온톨로지 인스턴스

생성을 자동화하기 위한 고성능 어노테이션(Annotation) 도구

`▒` 시맨틱 인스턴스 데이터 자동생성 엔진 : STORM Transformer

- DBMS 또는 텍스트 파일에 존재하는 정형화된 데이터를 온톨로지 스키마

간의 매핑을 통해 인스턴스 데이터로 자동 생성하는 변환 모듈

`▒` 대용량 온톨로지 라이브러리 시스템 : STORM COMET

- 기업이 보유하고 있는 시맨틱 데이터 저장소, 추론엔진, 작성된 온톨로지

(Ontology)들을 통합 관리하기 위한 기반구조

STORM SOR

Integration / Application Interface

Driver Manager

Query &Reasoning

System Managing

Ontology Browsing

Instance Managing

Query Managing

User & Authority

InstantiationManaging

Indexing &loading

RepositoryManaging

TDB BigOWLIM AllegroGraph The others

Adm

inistratio

nData

Sto

rage / R

etrie

val

Page 40: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

40

빅데이터 분석 서비스 플랫폼 : O2

`▒` O2는 소셜 미디어 상의 지식 콘텐츠 수집 및 분석을 위한 분산 인프라와

시맨틱 기술 기반의 빅데이터 분석·융합 서비스 플랫폼

- 소셜 미디어 분석 기반 지식 콘텐트 제공

- 대용량 클라우드 컴퓨팅 인프라 및 데이터 수집·통합·관리 인프라

`▒` 비정형 빅데이터 분석 플랫폼 : Truestory(www.truestory.co.kr)

- 다양한 형태의 소셜 빅데이터를 수집하여 제품·정치·사회 등과 관련된

이슈·평판·트렌드·영향력에 관한 분석을 지원

`▒` 스마트 큐레이션 플랫폼 : Ziny.us

- 소셜 빅데이터 분석과 사용자 선호 기계학습·자동추천 등의 인공지능

기술이 융합된 미래형 소셜 플랫폼

- 스마트 큐레이션 및 클라우드 퍼블리싱 기반의 멀티 플랫폼과 n-Screen을

지원하는 개인화된 소셜 매거진 서비스 제공

스마트 큐레이션 플랫폼, 지니어스

Page 41: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 41

Ⅱ. 빅

데이

터 기

업의

추진

현황

솔트룩스의 빅데이터 분석 구축사례

분야 및 목적 내용

학술 빅데이터 :

전문가 추천

(부산 지식

네트워크 서비스)

• 부산 지역 전문가들의 논문, 기고 등을

분석해서 전문 지식 네트워크 도출

• 관련된 전문가들을 연결, 추천

• 전문가들 간의 친밀도나 소셜 네트

워크 분석

기술 빅데이터 :

트랜드 센싱

(삼성전자 신기술

센싱 및 트렌드

분석)

• 삼성전자 내부 지식정보, 국내외 학술

자료, 과학기술 동향 분석

• 기술 문서들의 트렌드, 특정 기술의

연관관계망 분석, 기술검색 서비스 등

제공

고객 빅데이터 :

고객 VOC 분석

(KT & 도로공사

VOC 분석)

• 비정형 VOC 데이터 분석(통계, 분석

기반의 텍스트 마이닝)

• 고객 불만`/`니즈 추출, 상품`/`서비스`/`

프로세스 측면의 연관 정보 분석

국방/안보 빅데이터 :

정보 분석

(통일부 정보분석

시스템)

• 각 부문별로 도출한 위험관리 지표

체계를 정보시스템 DB와 연계

• 예측되는 위협요인 및 행동패턴, 특이

동향에 따른 대응전략 수립을 지원

기업 빅데이터 :

e-Discovery

(기업 이메일

네트워크 분석)

• 기업의 비정형 정보로부터 시맨틱

소셜 네트워크 도출 및 지식 유통

구조를 분석하는 시스템

• 조직 내의 문서들로부터 의미적 관계를

발견하여 통합된 지식 생성

스마트 시티 빅데이터 :

지능형 u-City

관제 시스템

(국토해양부 u-city

관제 시스템)

• u-City 사업에서 상황인지를 위해

시맨틱 웹 기술과 추론 기술 적용

• u-City의 지하 매설물 관리에 활용할

수 있는 지능형 관제 시스템을 구현

통신 빅데이터 :

개인화, 맞춤 추천

(모바일 소셜

네트워크 분석)

• 모바일 소셜 네트워크 분석 시스템

구현

• 사용자의 행동 패턴 학습을 통해 개인

선호 정보 및 서비스 제공

Page 42: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

42

전략 방향

`▒` EMC는 그린플럼(Greenplum), 아이실론(Isilion) 등 빅데이터 관련 솔루션

업체를 전략적으로 인수

- 그린플럼은 대규모 데이터 클라우드와 데이터 분석 서비스의 핵심이 되는

데이터 웨어하우징(Data Warehousing) 기술을 보유

- 아이실론은 스케일 아웃 NAS 스토리지 부문의 글로벌 선도 업체로서

데이터 관리를 위한 강력하고도 간편한 솔루션 제공

※ 스케일 아웃(Scale-out) 스토리지인 NAS(Network Attached Storage)는 데이터 저장

용량을 바로 확장할 수 있는 장점이 있어 데이터가 급격히 늘어날 경우 이에 대해

빠르게 대응 가능

- EMC는 향후에도 빅데이터 시장의 선도적 입지를 강화하기 위해 지속적으로

관련 업체를 인수할 계획

`▒` 데이터 과학자들로 구성된 애널리틱스 랩(Analytics Lap) 부서를 운영하는 등

‘데이터 과학자(Data Scientist)’ 확보 및 양성에 노력

- ̀11년 5월 세계적인 ‘데이터 과학자 서밋(Data Scientist Summit)’을 개최하여

약 500명의 데이터 과학자 및 업계 리더들이 함께 참여

6 EMC2 10

10) 원문 출처 : EMC, 마케팅팀 강정민 부장([email protected])

Page 43: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 43

Ⅱ. 빅

데이

터 기

업의

추진

현황

- ’11년 말 ‘데이터 과학’과 ‘빅데이터 분석’ 교육 및 자격증 과정 신설

- EMC 산학협력 프로그램인 EAA(EMC Academic Alliance)에 참여하고

있는 40여 국가, 700개 이상 기관에 ‘데이터 과학’, ‘빅데이터 분석’ 커리

큘럼을 제공

※ 한국EMC는 EAA 프로그램의 첫 대상으로 숭실대학교를 선정, 정보인프라스트럭처

과정에 대한 지원을 하고 있으며 데이터 과학에 관련한 커리큘럼 역시 빠른 시일 내에

제공할 계획

빅데이터 통합·분석을 위한 EMC 그린플럼(Greenplum)11

`▒` EMC 그린플럼은 단일 어플라이언스 내에서 정형·비정형 데이터의 Seamless한

상호 연계 처리 및 공유 기능을 제공

- 정형 데이터 분석을 위한 DB모듈과 비정형 데이터 분석을 위한 하둡 모듈을

단일 어플라이언스 내에서 지원

11) 그린플럼은 현재 EMC 정보 인프라스트럭처 사업부 산하 데이터 컴퓨팅 제품(Data computing

Product) 사업부로 통합돼 다양한 솔루션을 출시하는데 박차를 가하고 있음.

EMC 그린플럼 어플라이언스의 구조

The Power of Data Co-Processing

Greenplum ChorusAnalytic Productivity & Tool Integration

Network

SQL DBEngine

paralleldata exchange

paralleldata exchange

MapReduceEngine

Compute& StorageStorage

Compute

Storage

All Data Types

Data Computing InterfacesSQL, MapReduce, In-Database Analytics, Parallel Data Loading (batch or real-time)

Page 44: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

44

`▒` 정형 데이터 분석을 위한 EMC 그린플럼 DBMS의 구조

- EMC 그린플럼 어플라이언스(Data Computing Appliance)는 MPP

(Massively Parallel Processing) 아키텍쳐 시스템

- 분산 병렬 처리에 기반한 강력한 로딩, 쿼리분석, 워크로드 관리기능, BI/

ETL/마이닝 툴과의 연계를 지원

`▒` 비정형 데이터 분석을 위한 EMC 그린플럼 하둡 배포판 제작

- 하둡 및 기타 하둡 배포판의 단점(가용성, 성능, 관리용이성)을 보완하여

Community 버전과 Enterprise 버전의 Hadoop을 제작

<하둡과 그린플럼의 특성 비교>

Hadoop Features Apache HadoopGreenplum HD

Community Edition

Greenplum HD

Enterprise Edition

Scalability Yes Yes Yes

Compatibility 100% 100% 100%

Language Java Java C

Commodity Hardward Yes Yes Yes

Certified Stack No Yes Yes

Installation Services No Yes Yes

Performance Standard Standard 2-5X faster

NFS Support No No Yes

Fault Tolerance No Yes Yes

Rolling Upgrades No No Yes

Snapshot No No Yes

Wide-Area Replication No No Yes

`

▒` EMC는 지난해 9월 ‘EMC 그린플럼 모듈식 데이터 컴퓨팅 어플라이언스12

(이하 그린플럼 DCA)’를 출시

12) GreenplumⓇ Modular Data Computing Appliance

Page 45: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 45

Ⅱ. 빅

데이

터 기

업의

추진

현황

- 그린플럼 DCA는 단일 인프라스트럭처 내에서 정형·비정형 데이터 및 애플리

케이션이 통합된 빅데이터 분석 플랫폼

- 기업들이 무공유(Shared-nothing) MPP 기반 관계형 DB와 엔터프라

이즈급의 아파치 하둡을 결합시킬 수 있는 모듈식 아키텍처

- 정형·비정형 데이터의 상호 연계 처리(co-processing) 및 정형·비정형

데이터를 단일의 통합 플랫폼에서 필요에 따라 확장 가능

<그린플럼 데이터 컴퓨팅 어플라이언스의 네 가지 모듈>

모듈 종류 내용

그린플럼 데이터베이스

모듈(Greenplum

Database Module)

• 목적별 DW 어플라이언스 모듈로 확장성 뛰어남

• 데이터베이스, 컴퓨팅, 스토리지 및 네트워크를 쉽게 실행할 수 있는

엔터프라이즈 시스템으로 통합 가능

• 최고의 성능과 비용 효율성 제공

그린플럼 데이터베이스

고용량 모듈

(Greenplum Database

High Capacity Module)

• 전원과 설치공간을 추가로 늘릴 필요 없이 수 페타바이트(PB)의 데이터를

관리할 수 있도록 설계

• 매우 방대한 양의 데이터를 정교하게 분석해야 하는 기업이나 장기적인

아카이빙이 필요한 기업들을 위해 단위당 저렴한 비용의 DW를 제공

그린플럼 HD 모듈

(Greenplum HD Module)

• 고성능 데이터 상호 연계 처리 하둡 어플라이언스 모듈

• 하둡과 그린플럼 데이터베이스를 결합시켜 정형·비정형 데이터를 단일

솔루션 내에서 상호 연계 처리

그린플럼 데이터 통합

가속기 모듈(Greenplum

Data Integration

Accelerator Module)

• 배치 로드를 줄이거나 마이크로 배치 로딩을 실행할 경우 업계 최고의

데이터 로딩 성능을 제공

Page 46: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

46

스케일 아웃 NAS 스토리지, EMC 아이실론(Isilion)13

`▒` EMC 아이실론은 대규모 정형·비정형 데이터 관리를 위한 스케일 아웃

(Scale-out) NAS 스토리지 솔루션

- EMC 아이실론 스토리지는 모듈 방식의 구조와 자동화된 기능으로 대량의

데이터를 빠르고 쉽게 처리

- 용량과 성능을 유연하게 확장할 수 있어, 전체 컴퓨팅 구조를 단순화하고

효율적으로 구성

`▒` EMC 아이실론은 다양한 산업 분야 걸쳐 빅데이터 관리의 문제를 보다 쉽게

해결할 수 있도록 유기적이고, 유연한 인프라 제공

- 클라우드 컴퓨팅 환경, 서버 가상화 및 VDI(Virtual Desktop Infra-

structure), 산업별 대규모 데이터 관리 등 다양한 분야에 활용

<EMC 아이실론의 활용 사례>

활용 분야 내용

클라우드 컴퓨팅

환경을 위한

EMC 아이실론

• 스케일 아웃 방식의 확장으로 용량과 성능을 필요한 만큼 선형적으로

증가시킬 수 있음

• 여러 노드를 하나의 파일 시스템으로 구성함으로써, 전체 컴퓨팅 환경을

단순화하고, 스토리지 활용률 극대화

• 부하를 여러 노드에 자동 분산하고, 성능이 다른 노드를 계층별로 구성하여

사용자 요구에 맞는 가격대 성능 제공

서버 가상화 및 VDI

(Virtual Desktop

Infrastructure)를 위한

EMC 아이실론

• EMC 아이실론 스토리지는 SSD, SAS, 또는 SATA 디스크로 스토리지

풀을 구성할 수 있어 가상머신의 업무가 필요로 하는 성능에 따라 다른

성능을 제공

• 성능이 다른 여러 개의 스토리지 풀을 하나의 스토리지로 구성하여

일원화된 관리가 가능

• 스토리지 용량이나 성능 증가 시에 기존 서버나 가상머신의 구성 변경을

하지 않고 운영 중에 확장 가능

13) 스케일 아웃(Scale-out) NAS(Network Attached Storage) 스토리지. ‘Simple is Smart’라는

슬로건을 내세우고 있는 EMC 아이실론의 솔루션은 규모에 관계없이 간편하게 설치, 관리 및 확장이

가능하며 추가되는 스토리지의 수, 요구되는 성능 수준 또는 향후 비즈니스 요구 사항에 관계없이

탁월한 사용 편의성을 보장한다.

Page 47: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 47

Ⅱ. 빅

데이

터 기

업의

추진

현황

활용 분야 내용

생명 공학을 위한

EMC 아이실론

• 유전자 분석을 위해 여러 컴퓨터가 동시에 읽고 분석할 수 있는 충분한

성능을 제공

• 기하급수적으로 증가하는 데이터를 쉽게 관리 할 수 있는 기능 제공

• EMC 아이실론 스토리지는 노드 단위로 확장되며, 최대 144노드, 15PB

까지 하나의 스토리지로 구성할 수 있어, 용량 증설이 쉽고, 스토리지

관리가 용이

`▒` 하둡 분산 파일 시스템14과 통합된 엔터프라이즈 NAS 플랫폼, ‘EMC 아이실론

스케일아웃 NAS’ 출시(’12. 2월)

- 하둡 지원이 가능한 빅데이터 분석 솔루션인 EMC 그린플럼 HD(EMC

Greenplum HD)와 결합

- 기존 오픈소스 기반의 하둡 대비, 성능과 효율성이 뛰어나고 유연한 데이터

스토리지 및 분석 지원 환경을 구현

`▒` EMC 아이실론 스케일아웃 NAS 하드웨어 및 소프트웨어 플랫폼 신제품

출시(’11. 5월)

- 빅데이터 애플리케이션의 성능을 가속화하는데 최적화된 아이실론 스케일

아웃 NAS 하드웨어 제품 : ‘아이실론 S200’, ‘아이실론 X200’

- 데이터를 간편하게 관리할 수 있으며 S200과 X200의 하드웨어 성능을

최대화하는 소프트웨어 제품 : OneFS 6.5와 SyncIQ 3.0

비정형 컨텐츠 관리를 위한 ‘EMC 다큐멘텀’ 솔루션

`▒` EMC는 비정형 컨텐츠 관리 및 협업을 담당하는 ECM(Enterprise Content

Management) ‘EMC 다큐멘텀’ 솔루션을 제공

14) 하둡 분산 파일 시스템(HDFS : Hadoop Distributed File System)

Page 48: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

48

- EMC는 빅데이터를 위해서 Store-Analyze-Act로 규정되는 계층화 된

새로운 IT 아키텍처인 ‘EMC 빅데이터 Stack15’을 제시

- EMC 다큐멘텀은 ‘EMC 빅데이터 Stack’에서 비정형 데이터 기반의 실행

(Act) 계층에 포지셔닝 됨

- EMC는 이와 같은 비정형 데이터 기반의 실행 계층을 ‘인포메이션 인텔리전스

그룹(Information Intelligence Group)’으로 분류

※ EMC 다큐멘텀은 국내 200여 개의 기업들이 사용하고 있는 솔루션으로써, 대부분의

기업들이 전사 엔터프라이즈 레벨로 도입하여 사용함

`▒` 다큐멘텀 솔루션은 컨텐츠를 축적·관리하는 것뿐만 아니라 비정형 컨텐츠와

핵심 업무 프로세스를 연결하는 프로세스 구현

`▒` EMC 다큐멘텀의 아키텍처는 객체지향 기술 및 서비스 기반의 안정적인

아키텍처를 제공

- 다양한 고가용성(HA) 서비스 및 최고의 성능을 보장하기 위해 수평적,

수직적으로 확장이 쉬운 아키텍처를 제공하는 것이 특징

EMC 빅데이터 Stack

The EMC Big Data “Stack”

Collaborative ActEMC Documentum

StoreEMC Isilon + Atmos

AnalyzeEMC Greenplum + Hadoop

Real Time

Structures &Unstructured

PetabyteScale

15) 빅데이터에서 신속하게 비즈니스 가치를 실현하기 위해 그것을 분석하는 새로운 IT 아키텍처로써

‘EMC 빅데이터 Stack’을 제시

Page 49: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 49

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` 기업 내 광범위하게 분포한 다양한 유형의 비정형 콘텐츠를 관리하기 위한

EMC의 ECM(전사콘텐츠관리) 영역은 4가지로 구분

- Knowledge Worker : 지식업무를 위한 콘텐츠 기반의 협업

- Transactional : 프로세스 기반 업무(BPM), 이미징

- Interactive : 웹콘텐츠 관리, 동영상 관리

- Compliance & Archiving : 문서 산출물의 장기 보관 및 보존 정책, 규정

준수

EMC의 ECM(Enterprise Content Management) 솔루션 영역

KNOWLEDGEWORKER

KNOWLEDGEWORKER

컨텐츠 중심 어플리케이션

컴플라이언스/보안 인프라스트럭처

다양한 컨텐츠 엑세스 기능 제공다양한 컨텐츠 서비스다양한 컨텐츠 타입 관리

TRANSACTIONAL INTERACTIVECOMPLIANCE& ARCHIVING

•협업

•문서관리혁신/검색

•입력/캡처 관리

•프로세스 관리

•웹사이트 관리

•디지털 자산 관리

•이메일 아카이빙

•SAP 아카이빙

COMPLIANCE& ARCHIVING

TRANSACTIONAL INTERACTIVE

EMC2

Page 50: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

50

EMC의 빅데이터 관련 고객 사례

분류 고객 사례 솔루션 활용 내용

오클라호마 의학

연구재단 (OMRF,

Oklahoma Medical

Research Foundation)

사례

• DNA 서열 분석 파이프라인과 가상화 환경을 확장성이 높고, 공유

가능한 고성능 단일 스토리지 풀로 통합

• 필요에 따라 스토리지 시스템을 유연하게 확장하여 미션 크리티컬한

워크플로의 고유한 성능 요구 사항을 충족함

• IT 환경 간소화 및 효과적인 치료제를 밝혀내기 위한 유전체 연구

기간을 크게 단축

Harvard

의과대학(HMS) 사례

• HMS 커뮤니티는 구성원들의 효율적 데이터 액세스, 생산적

소통을 원함

• 아이실론을 통해 커뮤니티의 변화에 따라 단계별로 확장이 가능한

스토리지 솔루션 확보

• 성능 또는 관리 용이성에 영향을 주지 않고 필요에 따른 용량

확장, 협업 등 효율성 보장

TGen(Translational

Genomics Research

Institute, 해석적

유전체학 연구기관)

사례

• 분산된 스토리지 사일로(silo)의 데이터를 옮기는 과정에서 복잡한

데이터 관리 과제 발생

• 필요에 따라 확장 가능하고 안정적인 스토리지 시스템으로

아이실론 솔루션 도입

• 엄청난 양의 워크플로를 간소화하고, 과학자들이 데이터 분석에

사용할 수 있는 용량도 증가

SK커뮤니케이션즈

사례…

‘그린플럼’으로 DW

분석 시스템 구조 개선

• 인터넷 서비스 환경, 요구사항 변화에 대응하기 위해 DW 분석

시스템 구조개선 사업 추진

• 늘어난 데이터를 처리할 수 있도록 대용량 병렬 처리(MPP) 기술을

기반으로 한 시스템 구축

• 이기종 분산DB 시스템을 통합관리 할 수 있는 시스템 요구(통합

관리와 확장성 보장)

• 향후 데이터 증가에 대비하여 증설 용량에 따라 성능의 비례적인

향상 고려

• 배치성능 개선 및 배치작업 단축 효과 발생

그 외의 그린플럼

고객 사례들

• 인터넷전화 업체 스카이프는 네트워크 남용을 막기 위한 유저

성향 분석에 활용

• 도이치뱅크는 금융 사기 감지·방지, 신용 위험 감소를 위한 신용

등급 설정 및 분석에 활용

• 미국의 폭스 인터랙티브 미디어는 광고 타겟 설정 및 마켓 조사를

위한 클릭 스트림(Click Stream) 분석을 위해 그린플럼을 도입

Page 51: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 51

Ⅱ. 빅

데이

터 기

업의

추진

현황

빅데이터 시장을 겨냥하는 HP의 차세대 전략

`▒` 데이터의 대부분은 오래 전부터 있었으며, 특정 목적으로 이용되다가 일정

시간 후 폐기되었으나 최근 데이터 가치가 재조명됨

- 여러 소스의 데이터를 연계·분석하여 새로운 비즈니스를 창출하거나 기존

비즈니스를 강화시킬 수 있을 것이라는 기대 증가

`▒` IT업계들은 폭증하고 있는 빅데이터 속에서 기업의 의사결정에 필요한 정보를

찾아낼 수 있는 차세대 기술 및 서비스에 주목

- 한국HP도 빅데이터 서비스 시장에 합류하였으며, ’12년 엔터프라이즈 사업

전략으로 빅데이터 솔루션을 제공할 계획

`▒` HP는 자동관리, 자동사용이 가능한 환경 구축을 전제로 정보 최적화(Infor-

mation Optimization) 및 빅데이터 플랫폼 전략을 수립

- ’11년에 DW(Data Warehouse) 솔루션인 버티카와 지능형 검색엔진

오토노미를 인수하여 빅데이터 기술과 서비스 기반 마련

- 오토노미에서 제공하는 정보처리 레이어와 버티카의 고성능 실시간 분석

엔진의 조합을 토대로 빅데이터 인프라 서비스 제공

7 HP16

16) 원문 출처 : 한국HP, 기술컨설팅본부 최형광 상무([email protected])

Page 52: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

52

`▒` HP가 제시하는 ‘HP 빅데이터 전략’의 5가지 강점

① 유연성과 확장성, 연계 가능한 플랫폼

② 운영 자동화를 통한 효율성 제고 및 비용절감을 통한 수익증대

③ 검증된 보안정책 및 솔루션을 통한 정보보안 확보

④ 의사결정을 위한 빅 데이터로부터 의미있는 정보분석 및 적시제공

⑤ 최적화된 딜리버리 모델을 통한 적정한 시간과 가격

빅데이터 분석을 위한 ‘Vertica Analytic Database’

`▒` 버티카(Vertica) 플랫폼은 실시간 분석, 대량의 데이터 분석, 고도의 분석

역량 등 세 가지 요소를 충족하는 분석 환경을 제공

- ‘Hadoop 시스템’은 분석 역량과 대량의 데이터 처리능력은 갖췄으나 실시간

분석에는 한계가 있음

- 기존의 ‘통계 패키지’는 분석 역량과 소량의 데이터 분석을 통한 실시간 처리

능력은 갖췄지만 대량의 데이터 분석은 어려움

- ‘스트리밍 처리 솔루션’은 대량의 데이터를 실시간으로 분석하지만 보다 깊이

있는 고도의 분석 역량은 부족함

버티카의 빅데이터 처리 요소별 기능

통계 프로그램

스트리밍Hadoop 대량의 데이터

실시

간 분

고도

의 분

석 역

Page 53: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 53

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` 버티카 솔루션은 자동화된 관리 도구로 대용량 데이터 분석에 대한 대응성을

강화하며, 실시간 기반의 MPP17 병렬처리로 확장성 보장

<버티카의 빅데이터 처리 요소별 제공 기능>

빅데이터 처리 요소 버티카 제공 기능

실시간

데이터 처리

기술

• 고속 데이터 적재 기능인 Copy 유틸리티 제공

• 별도의 메모리 영역을 활용하여 트랜잭션 처리가 가능한 하이브리드 데이터

저장 아키텍처 제공

• 실시간으로 분석되어야 하는 데이터를 메모리 영역을 통해 빠르게 DB에

입력하고, 즉각적으로 분석

고도의

분석 역량

• 다른 DBMS가 제공하지 못하는 다양한 형태의 분석함수 제공

• 사용자가 필요에 따라 추가적인 분석함수(User Defined Function)를 작성하여

사용 가능

• 오픈 소스 통계 어플리케이션인 R, 상용 통계 패키지인 SAS 등과의 손쉬운

연동 함수를 제공

• Hadoop 연동을 위한 connector 및 Hadoop 데이터를 External 테이블로

인식하여 직접 사용할 수 있는 기능 제공

대량의

데이터 처리

• Column Storage : Record 단위의 데이터 처리가 아닌 Column 데이터 처리를

통해 분석 시 발생하는 I/O를 최소화

• Clustering : 대용량의 데이터 처리를 위해 여러대의 서버를 활용하여 분석

성능을 향상시키는 기법

• Compression : 컬럼 기반의 데이터 압축 기법 외에 다양한 데이터 encoding

기법을 제공. 약 90%의 데이터 압축 가능

• Continuous Performance`̀ :`̀시스템 간의 데이터 이중화로 장애 발생시 별도의

Fail-over 없이 지속적인 서비스 제공. 시스템 레벨의 이중화 구성의 복잡도

최소화

17) MPP : Massively Parallel Processing

버티카 솔루션 프레임워크

ColumnarCompression

Native Columnar RDBMS

Native and Performance Optimized High Availability

Real Time Massively Parallel Processing

Next Generation Administration and Design Tools

ElasticCluster

OptimizedConnectors

ConcurrentLoad & Query

User-DefinedAnalytics

SQLAnalytics

StandardInterface

Page 54: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

54

의미기반으로 데이터를 분석하는 오토노미(Autonomy)18 솔루션

`▒` 오토노미는 구조화된 정보 및 비구조화된 정보의 관리, 프로세싱 및 검색

자동화 등을 수행하는 정보기술 인프라의 분석 툴로 사용

- 다양한 종류의 데이터(영상, 텍스트, 음성 등)가 가지는 의미와 구문을

개념적·문맥적으로 이해하는 의미기반의 분석 결과 제공

- 정보에서 개념적 검색뿐만 아니라 감성적 분석, 시각화, 경향화, 교육,

클러스터링, 범주화와 같은 확장된 기능까지 의미를 추출

※ Autonomy 인프라 스트럭처의 핵심기술인 IDOL(Intelligent Data Operating Layer)은 패턴

매칭 및 컨셉 추출 기술을 기반으로 함

※ IDOL은 효울성과 생산성을 증대시키기 위해 무한히 증가하는 정보로부터 사용가능한

지식을 추출하는 500개 이상의 기능 제공

18) 1996년 설립된 Autonomy는 영국 Cambridge 와 California, san francisco에 본사를 두고

있으며, 시장 지배력은 $4.5billion에 달함. 2011년 HP와 합병하였으며, Autonomy는 현재 HP의

Information Management 사업부의 핵심 솔루션.

오토노미 솔루션 포지셔닝

※ 출처 : Forrester Research(2011), “The Forrester Wave™ : Message Archiving Software, Q1 2011.”

Strong

Autonamy

Iron Mountain

ZL TechnologiesSymantec

OpenText

EMC

IBM

HPMicrosoft

Currentoffering

RiskyBets Contenders

StrongPerformers Leaders

Weak

Market presence

StrategyWeak Strong

Page 55: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 55

Ⅱ. 빅

데이

터 기

업의

추진

현황

오토노미 솔루션의 도입 사례

`▒` BBC는 오토노미의 동영상 아카이빙(Archiving), 안면인식, 음성인식 등의

기술을 기반으로 원하는 뉴스 영상 검색환경 구축

- BBC는 새로운 서비스로 ‘찾기’(Find), ‘플레이’(Play), ‘공유하기 ’(Share)

3가지 개념을 제시하고, 서비스 프로바이더로의 변신을 모색19

- 이를 위해 오토노미 솔루션을 도입하여 동영상 포맷의 뉴스 내용을 사용자가

언어에 구애받지 않고 검색하는 사이트 구축

※ 약 32개국 언어로 통합검색 서비스를 제공하며 약 3,500만개 뉴스 동영상에 대한 검색이

실시간으로 이루어짐

- 빠른 속도로 생산되는 뉴스 콘텐츠의 자동 태깅 및 분류가 가능해졌고,

동영상 내용 중에 해당 프레임만 검색하는 서비스 구현

19) BBC(2006), ‘BBC’s Director of New Media & Technology defines vision for the future’,

http://www.bbc.co.uk/pressoffice/pressreleases/stories/2006/04_april/25/newmedia.

shtml

BBC의 뉴스 아키이빙 서비스

Page 56: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

56

`▒` 영국 국방성은 국방성이 보유한 모든 정보를 검색하고 분석할 수 있는 인프라

구현

- 영국 국방성은 전세계에 약 40만명의 인력들을 운용하며 10억건 이상의

정보를 보유하고 25,000개 이상의 목적별 시스템을 운용함

- 국방성은 신속한 정보 취득 및 빠른 분석을 위해 포탈 인프라와 Autonomy

IDOL 엔진을 연계하여 하나의 표준화된 인프라 구축

- 국방성이 보유한 모든 정보를 단일 정보 인프라에 구현하고, 적절한 보안

관리 체계하에서 의미기반의 검색 수행

※ 기존의 레거시 정보는 물론 이메일, 동영상, 이미지, 음성파일, 오피스문서, HTML 등

정보의 형태에 구애 받지 않고 의미 기반 검색 지원

Page 57: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 57

Ⅱ. 빅

데이

터 기

업의

추진

현황

빅데이터에 대한 IBM의 접근방안 및 추진 전략

`▒` IBM은 빅데이터를 V321의 특성을 가진 새로운 타입의 데이터로서 과거에는

답할 수 없던 통찰력을 얻을 수 있는 기회로 정의

<IBM의 빅데이터 플랫폼 제공 전략>

구분 내용

포괄적

(Comprehensive)

볼륨, 속도, 다양성 등 빅데이터의 3가지 특징에 대응하는 가장 광범위한

솔루션을 제공

융합

(Integrated)

DB, DW, BI 등 기존 정보관리체계와의 융합을 통해 빅데이터 기술 도입의

단순화·가속화

준비성

(Enterprise-ready)

고객이 필요로 하는 성능, 보안, 신뢰성, 사용성 등을 갖춘 빅데이터 솔루션

및 서비스를 제공

오픈소스 기반

(Open Source based)

IBM 빅데이터 플랫폼은 엔터프라이즈 수준의 기능 및 통합능력을 통해 최상의

오픈소스 기술을 고객에게 제공

`▒` ‘빅데이터를 기업으로(Bringing big data to the enterprise)’라는 슬로건

아래, 빅데이터 플랫폼 제공 전략 수립

8 IBM20

20) 원문 출처 : 한국IBM, 김경전 실장([email protected])

21) V3 : 볼륨(Volume), 속도(Velocity), 다양성(Variety)

Page 58: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

58

<IBM의 빅데이터 플랫폼의 핵심요건>

구분 내용

V3에 대한 플랫폼

(Volume, Velocity, Variety)

• 네이티브 포맷(native format)의 데이터로 저장

• 초당 수천바이트의 스트리밍데이터까지 처리

• 페타바이트 이상까지 확장 가능

V3측면의 분석(Analytics)

기능 제공

• 네이티브 포맷(native format)의 소스 및 모든 데이터를 분석

• 자동 수정 및 액션 등 능동적 분석기능

사용편의성(Ease of Use)

제공

• 개발자가 친숙한 개발도구 및 인터페이스(UI) 제공

• 최종사용자 인터페이스(UI) 및 시각화

• 배포의 가속성

엔터프라이즈 수준

(Enterprise Class)의

프로젝트 환경 지원

• 여러 지역의 사용자환경을 지원하는 배포관리, 보안 및 프라이버시

• 필요에 따라 경제적으로 확장 가능한 플랫폼

확장적 통합역량

(Extensive Integration

Capabilities) 제공

• 매우 다양한 소스에 대한 통합기능 제공

• 엔터프라이즈 관점의 통합기술 레버리지

IBM의 빅데이터 플랫폼 기술

`▒` 전통적인 원천데이터(ERP, CRM 등), 데이터스트림, 정형·비정형의 대용량

데이터 등을 통합·분석하기 위한 HW, SW 솔루션 제공

① 하둡(Hadoop)22과 noSQL23 기반 : Infosphere BigInsights

- 다양성과 볼륨 특성을 가진 빅데이터를 분석하기 위한 하둡 기반의 저지연

(low latency) 분석기술

※ 적용사례 : Banco Bilbao Vizcaya Argentaria의 소셜분석, Vestas 풍력발전기 모델링,

통신사의 전계층 시스템로그 분석 등

22) 하둡(Hadoop) 컴퓨팅 모델 : 저가 컴퓨터상의 파일시스템에 데이터를 분산·저장하고, 데이터가

저장된 컴퓨터 자원을 이용하여 데이터를 분산·처리하는 오픈소스기반의 분산 소프트웨어 플랫폼

23) noSQL(not only SQL) : 관계형 데이터베이스의 한계를 극복하기 위한 데이터베이스의 새로운

형태로 수평적 확장성을 특징으로 하며, 구글의 BigTable, 아마존의 Dynamo 등이 대표적인

제품임

Page 59: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 59

Ⅱ. 빅

데이

터 기

업의

추진

현황

② 스트림 컴퓨팅(Stream Computing) 기술 : Infosphere Streams

- 스트리밍 데이터를 분석하기 위한 저지연(low latency) 분석기술

※ 적용사례 : 통신사의 전계층 시스템로그 분석, 석유탐사선의 센서데이터 실시간분석,

IBM 반도체공정 센서데이터 실시간 분석, 스웨덴의 우주기상 실시간분석, UOIT 미숙아

모니터링데이터 실시간분석 등

③ 정보융합(Information Integration) 기술 : Infosphere Information

Server

- 대용량 데이터 통합 및 변환 기술

④ MPP Data Warehouse 기술

- InfoSphere Warehouse : 대용량 정형데이터 분석기술

- Netezza : 정형데이터에 대한 쿼리 아카이브 및 Ad-hoc 분석용

어플라이언스

- Smart Analytics System : 정형 데이터에 대한 운영 분석 어플라이언스

- Informix Timeseries : 시간구조(Times-structured) 분석 기술

IBM의 빅데이터 플랫폼 기술

Info Sphere Big Insights

Hadoop-based low latencyanalytics for variety and volume

Info Sphere Information Server

High volume data integrationand transformation

IBM Info SphereWarehouse

Large volume structureddata analytics

IBM Netezza HighCapacity Appliance

Queryable Archivestructured Data

IBM Smart AnalyticsSystem

Operational Analyticson Structured Data

IBM InformixTimeseries

Time-structuredanalytics

IBM Netezza 1000

BI + Ad HocAnalytics on Structured

Data

Info Sphere Streams

Low Latency Analytics forstreaming data

Page 60: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

60

`▒` IBM은 정형·비정형 데이터의 저장, 생명주기관리, 실시간 분석, 사용자 분석

도구 등 빅데이터 전반에 걸친 솔루션 제공에 초점

IBM의 빅데이터 플랫폼 구조도

IBM의 빅데이터 플랫폼 이니셔티브

분산된 대용량 데이터

(비정형, 정형,...)

전통적 데이터 원천

(ERP, CRM, DB 등)

일관된 웨어하우스 입력을 위한

모든 원천데이터 융합

•Warehouse Feed

•Data Integration

•Data Quality

•Data Delivery

이벤트 감지 및

실시간 데이터 캡처

Cubing Services

SOA

웹서비스

데이터웨어하우스

InfoSphereBigInsights

InfoSphereStreams

InfoSphereInformationServer

운영데이터저장소

메쉬업

어플리케이션

Cognos

스프레드시트

재정계획

Page 61: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 61

Ⅱ. 빅

데이

터 기

업의

추진

현황

IBM의 빅데이터 구축 사례

`▒` IBM은 빅데이터 플랫폼을 자사의 반도체 제조공정, 세일즈부문 등에 도입하여

빅데이터 활용·분석에 따른 적용효과 창출

- IBM의 뉴욕 반도체 공장에 제조분석 기술을 도입하여 수율과 이익에

영향을 미치는 편차(deviations)를 조기 경보하는 체계 구축

※ 2007년 이후 3천2백만불의 비용절감 및 2천1백만불의 매출증대 효과 달성

- STAR(Statistical Tracking and Assessment of Revenue)라는 IBM

내부 모델링시스템을 구축하여 미래 매출을 예측

※ 과거대비 예측에러(forecasting error)가 평균 40% 감소

`▒` 에너지, 헬스케어, 공공기관, 미디어회사 등의 분야에 IBM의 빅데이터 플랫폼

적용

<IBM 빅데이터 플랫폼 적용 사례>

구분 내용

미국 사회보장국

(Social Security

Administration)

• 예측모델링 및 텍스트분석 시스템 구축

- 수개월 걸리던 장애인복지 심사·승인기간을 수일 내로 단축

- 지난 8년간 장애인복지 리뉴얼 비용을 약 20억불 절감

온타리오 공과대학

(University of Ontario

Institute of

Technology)

• 미숙아 모니터링 장치에서 데이터스트림을 실시간 분석

- 미숙아의 생명을 위협하는 잠재상황을 6~24시간 조기 감지로 환자의

사망률 감소

- 의료진의 새로운 임상가설 검증기반 제공

덴마크의 세계적

풍력에너지회사인

Vestaso

• 풍력터빈 및 풍력단지 설계를 위한 기상 및 지형데이터 분석 시스템 구축

- 수 주일씩 걸리던 풍력예측정보 모델링타임을 수 시간으로 약 97%

정도 단축

아르헨티나 금융기관,

BBVA(Banco Bilbao

Vizcaya Argentaria)

• 약 5.8테라바이트의 당 은행에 대한 인터넷 및 소셜 미디어 상의 정서

(sentiment)를 분석

- 부정적 여론에 적극 대처하고, 은행에 대한 평판을 향상

스웨덴의 Uppsala

University Swedish

Institute of Space

Physics

• 우주 날씨(spare weather)를 보다 잘 이해하기 위해 시간당 21.6테라

바이트에 이르는 방대한 데이터 분석

- 우주 날씨에 민감한 위성, 전력그리드 및 통신시스템에 미치는 영향을

완화

Page 62: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

62

오라클의 빅데이터 전략

`▒` 오라클의 전략은 현재 엔터프라이즈 데이터 아키텍처에 빅데이터를 포함시켜

비즈니스 가치를 창출할 수 있도록 진화하는 것

- 이미 검증된 오라클 시스템의 신뢰성, 유연성 및 성능에 기반해 빅데이터

처리 및 활용 요건 해결

<빅데이터 포함되는 데이터의 유형들>

데이터 유형 내용

기존의 엔터프라이즈

데이터

CRM 시스템의 고객 정보, 트랜잭션 데 데이터, 웹스토어 거래, 총계정원장

데이터 등

시스템 생성/센서

데이터

CDR(Call Detail Records), 웹로그, 스마트 미터기, 제조센서, 장비의 로그

데이터, 트레이딩 시스템 데이터 등

소셜 데이터고객 피드백 스트림, 트위터와 같은 마이크로 블로깅 사이트, 페이스북과

같은 소셜 미디어 플랫폼

`▒` 오라클은 최근 기업의 모든 빅 데이터 요건을 해결하기 위한 통합 솔루션

‘Oracle Big Data Appliance’를 발표

9 오라클(Oracle)24

24) 원문 출처 : 김상현(2011), ‘Big Data in Oracle’, ORACLE KOREA MAGAZINE, 2011 Winter.를

참고하여 작성

Page 63: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 63

Ⅱ. 빅

데이

터 기

업의

추진

현황

오라클 빅데이터 어플라이언스(Oracle Big Data Appliance)

`▒` NoSQL 데이터베이스가 개발자 중심의 전용 솔루션에서 기업용 솔루션으로

전환되려면, 기존의 SQL 솔루션과의 통합이 필수적

- NoSQL 시스템은 데이터를 시스템에 입력할 때 분류 및 구문분석 없이

모든 데이터를 캡처할 수 있어서 비정형 데이터 저장이 가능

- 그러나 NoSQL 데이터베이스는 저장된 데이터를 해석하기 위한 프로그래밍이

필요하며 복잡한 질의 패턴에 대한 지원도 부족

- 최종 사용자가 NoSQL 데이터베이스에서 데이터를 정제하는 것은 그리 쉽지

않으므로 기존의 SQL 솔루션과의 통합이 필요

NoSQL과 SQL 솔루션 범위의 구분

NoSQLFlexible

SpecializedDeveloper-

centric

SQLTrustedSecure

Administered

Distributed FileSystems MapReduce

SolutionsKey/ValueStores

DBMS(OLTP)

ETL Data Warehouse

ACQUIRE ORGANIZE ANALYZE

오라클 빅데이터 어플라이언스

Oracle Big Data Appliance

HDFS

Oracle NoSQLDatabase

DataWarehouse

In-Data

base

Analytic

s

AnalyticApplications

EnterpriseApplications

Hadoop(MapReduce)

Oracle Loader forHadoop

Oracle DataIntegrator

ACQUIRE ORGANIZE ANALYZE DECIDE

Page 64: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

64

`▒` 오라클은 기업의 빅데이터 요건을 해결할 수 있는 통합 솔루션 제공

`▒` ̀‘오라클 빅데이터 어플라이언스’는 최적화된 하드웨어와 오라클의 특화된

솔루션이 하나로 뭉쳐진 엔지니어드 시스템

- 빅데이터 처리를 위해 소프트웨어 및 하드웨어를 하나의 엔지니어드

시스템으로 통합하여 제공

- 빅데이터를 수집하고 구성하여 Oracle Database 11g에 로드하여 활용할 수

있게 하는 솔루션

- 기업 수준의 성능, 가용성, 지원성 및 보안 문제를 해결하며 Oracle Exadata

및 Oracle Database와도 밀접한 통합 가능

`▒` 오라클 빅데이터 어플라이언스는 총 스토리지 용량이 432TB에 이르는 18개의

Sun 서버가 포함된 풀랙(Full rack) 구성으로 제공

- 랙에 설치되는 모든 서버에는 6개의 코어가 탑재된 2개의 CPU가 장착되어

전체 랙에는 216개의 코어가 존재

- 각 서버의 메모리는 48GB로서 전체 랙에는 총 864GB 메모리 탑재

`▒` 오라클 빅데이터 어플라이언스는 통계 패키지 R, Oracle Enterprise Linux

5.6 운영체제 및 Apache Hadoop를 포함

오라클의 빅데이터 솔루션

HDFS

Oracle NoSQLDatabase

DataWarehouse

In-Data

base

Analytic

s

AnalyticApplications

EnterpriseApplications

Hadoop(MapReduce)

Oracle Loader forHadoop

Oracle DataIntegrator

ACQUIRE ORGANIZE ANALYZE DECIDE

Page 65: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 65

Ⅱ. 빅

데이

터 기

업의

추진

현황

- 이미 Hadoop 솔루션을 활용하고 있는 기업은 Oracle External Table

기능을 통해 HDFS의 데이터 통합 가능

- 먼저 FUSE(Filesystem in User SpacE)를 통해 HDFS 파일 시스템을

설치한 후 External Table로 정의하면 SQL 질의를 통해 HDFS 데이터에

액세스 가능

오라클 빅데이터 어플라이언스 : 소프트웨어 구성요소

`▒` 오라클 빅데이터 어플라이언스에는 오픈 소스 소프트웨어와 오라클이 개발한

전용 소프트웨어가 통합

`▒` Oracle NoSQL Database는 Oracle Berkeley DB를 기반으로 하는 확장성이

뛰어난 분산형 키-값 데이터베이스(Key-Value Database)

- 분산형 Berkeley DB 외에도 인텔리전트 드라이버가 추가되어 기업 수준의

범용 키-값 스토어(Key-Value Store) 제공

- 인텔리전트 드라이버는 기본 스토리지 토폴로지를 추적하고, 최저 지연

시간으로 데이터 저장 가능한 위치를 찾아주는 역할 수행

`▒` OLH(Oracle Loader for Hadoop)은 Hadoop MapReduce 프로세싱을

이용해 최적화된 데이터 세트를 생성

- 또한 Oracle Database 11g에서 효율적인 로딩 및 분석이 가능

- 오라클 내부의 포맷을 활용하기 때문에 데이터를 더욱 빨리 로드하면서도

오라클 데이터베이스의 부하는 경감

`▒` Oracle Data Integrator Application Adapter for Hadoop은 Hadoop과

Oracle Database간의 간편한 데이터 통합 작업 지원

- 사용이 간편한 Oracle Data Integrator 인터페이스를 이용

Page 66: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

66

In-Database 분석

`▒` 오라클 빅데이터 어플라이언스에서 ‘Oracle Database’ 또는 ‘Oracle Exadata’로

데이터를 적재한 경우 In-Database 고급 분석 수행 가능

- Oracle Exadata와 함께 오라클 빅데이터 어플라이언스를 사용하여 정형·

비정형 엔터프라이즈 데이터를 수집, 구성, 분석

- 빠른 분석과 통찰력을 얻을 수 있는 정보창출로 효율적인 의사결정 수립을

지원

오라클 빅데이터 어플라이언스 소프트웨어의 개요

Oracle Big Data Appliance

OracleNoSQL

Database

Oracle Data Integrator(Hadoop Knowledge Module)

Oracle Loader for Hadoop

Hadoop

Oracle Enterprise Linux & Java VM

빅데이터 어플라이언스 및 Exadata의 사용 모델

Oracle

Big Data Appliance

Stream Acquire Organize Analyze & Decide

Oracle

Exadata

High-SpeedConnectivity

InfiniBandAcceleratorSoftware

Page 67: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 67

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` 오라클 빅데이터 어플라이언스에서는 다음 중 한 가지를 활용하여 In-Database

고급 분석을 수행

- Oracle R Enterprise : Project R의 오라클 버전인 ‘오라클 R 엔터프라

이즈’는 기존의 R 사용자들이 대용량 데이터 세트에서 R을 활용할 수

있는 환경 제공

※ 활용 예시 : 공항의 항공사 지연 예측, 임상 시험 분석 및 결과 등에 활용

- In-Database Data Mining : 복잡한 모델을 만들어 대용량 데이터를

구축한 후 예측 분석이 가능

※ 활용 예시 : 구매 활동 및 인구 통계학적 데이터를 기준으로 고객 나이를 예측

- In-Database Text Mining : Oracle Text와 Oracle Data Mining을

적용하면 블로그, 리뷰 사이트 등의 텍스트 마이닝 가능

※ 활용 예시 : 특정 기업, 제품 또는 활동 등에 대한 고객의 반응을 판단하기 위해 코멘트

기반의 감성 분석에 활용

- In-Database Semantic Analysis : 다양한 데이터 포인트와 데이터 세트

간의 그래프 및 연결 관계를 통한 의미 분석 제공

※ 활용 예시 : 관계 네트워크를 통해 고객의 친구집단에 대한 가치 측정

- In-Database Spatial : 데이터에 공간 차원을 추가함으로써 맵에 데이터의

행적을 표시할 수 있음

※ 활용 예시 : 사용자는 지리적 관계와 동향을 더욱 효율적으로 파악하고, 근접해있는

고객들에 대해 구매 유도 기회를 확보

- In-Database MapReduce : MapReduce 로직을 작성하여 Oracle

Database 내에서 병렬 실행을 통해 빠른 성능을 제공

Page 68: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

68

1 0

SAS25)

빅데이터 분석을 위한 ‘IT+분석+비즈니스’ 통합 플랫폼 구현

`▒` SAS는 빅데이터에서 인사이트를 얻어내는 전 과정이 상호협력 할 수 있는

‘TOTAL DATA Approach26’의 핵심기술을 제공

- 외부 데이터를 수집-관리-분석-축적하고, 내부 운영계 시스템과 EDW

데이터와 연계하여, 최종 ADW를 구성

※ EDW(Enterprise Data Warehouse) : 전사데이터웨어하우스

※ ADW(Analytical Data Warehouse) : 분석데이터웨어하우스

- ADW를 구성하고, ADW를 통하여 비즈니스 인사이트를 얻어내는 전 과정을

아우르는 핵심기술 보유

① Volume : HPA(High Performance Analytics)

② Variety : Text Analytics Framework(SAM, SNA, TM, CC27)

③ Velocity : Real-Time Decision Management

④ Integrated Value : Business Analytics Framework, Access to

Hadoop

10 SAS25

25) 원문 출처 : SAS Korea, 솔루션서비스본부 이진권 상무([email protected])

26) 451 Research : TOTAL DATA - Data Management Approach in an Era of ‘Big Data’

27) SAM-Sentimental Analysis M’gmt, SNA - Social Network Analysis, TM-Text Mining,

CC-Content Categorization

Page 69: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 69

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` 고급 분석(Advanced Analytics)을

위한 ‘HPA 기반의 SEMMA 방법론’

제시

- 데이터의 탐색`-`변경`-`모델링`-`

검증의 전 과정에서 빅데이터

분석의 핵심인 HPA 기술이 적용

되어 처리

- 샘플링 없이 전수 데이터 처리나

다양한 변수의 적용 및 배치작업

대신 실시간 추천/감지가 가능

SAS 빅 데이터 분석 플랫폼 Solution MAP

`▒` Big Analytics 핵심기술은 ‘IT+분석+비즈니스’ 통합 플랫폼 구현

SEMMA 방법론 라이프사이클

SAS SEMMA 분석방법론 프로세스

분석주제 설정 및 필요 Data 추출

Sampling Explore Modify Modeling Assessment

Continuous Process

결과해석 및 업무적용

•분석 data 생성• 통계적 추출

• 조건 추출

• 비용 절감 및 모델 평가를 위한 데이터 준비

•모델 평가 및 검증 • 텍스트 교본

• Feedback

• 모델의 검증• 서로 다른 모델을

동시에 비교 • 추가분석

수행여부 결정

•분석 데이터 탐색• 기초 통계, 그래픽적

탐색

•요인 벨 분할표

•Clustering

• 변수유의성 및

상관분석

• 데이터 조감을 통한

데이터 오류 검색

•모델의 효율 증대

• 데이터 현황을 통해

비즈니스를 이해,

아이디어를 위해

이상현상, 변화 등을

탐색

• 분석 데이터 수정/

변환 • 수량화, 표준화,

각종 변환, 그룹화

• 데이터가 지닌

정보의 표현 극대화

• 최적의 모델을

구축할 수 있도록

다양한 형태로

변수를 생성, 선택,

변형

• 모델 구축 • Neural Network

•Decision TREE

•Logistic Regression

• 전통적 통계

• 데이터의 숨겨진

패턴 발견

• 하나의 비즈니스

문제해결을 위해

특수의 모델과

알고리즘 적용 가능

Page 70: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

70

① High Performance Analytics

- Grid Computing : 멀티노드를 병렬 처리하여 고급분석 수행

- In-Database : Oracle, DB2뿐 아니라 Teradata, Greenplum, Netizza

같은 Appliance DB 상에서 고급분석을 수행

- In-Memory : In-Memory OLAP/Query 뿐 아니라 고급분석 함수

(Logistics, Regression, Optimization 등)를 병렬컴퓨팅 환경에서

수행케 함

SAS HPA Infrastructure

SASⓇ

Grid Computing

SASⓇ HIGH-PERFORMANCE ANALYTICS

ANALYTICS INFRASTRUCTURE

SASⓇ

In-Database

SASⓇ

In-MemoryAnalytics

SAS 빅 데이터 분석 플랫폼 Solution MAP

SASHigh-Performance

Analytics

SASHigh-Performance

Visualization

SASAdvanced Analytics

SASInformation

Management

SASUnified Data Models

SASⓇ Grid Computing

DIVERSITY DATA

Banking Int. Solution

SASⓇ STATISTICS

Visual HUBSASⓇ In-Database

SASⓇ DI, DQ, qMOM

Telecom Int. Solution

SASⓇ MINING

Visual DesignerSASⓇ In-Memory Analytics

DATA GOVERNANCE

Retail Int. Solution

SASⓇ FORECASTING

Visual Explorer

SASⓇ Access to Hadoop

SASⓇ ANALYTICS

Visual BI

SASⓇ OPTIMIZATION

Page 71: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 71

Ⅱ. 빅

데이

터 기

업의

추진

현황

② High Performance Visualization

- Hadoop 기반 In-Memory

비주얼 분석환경(VAE) 제공

- Speed Free : 수억 건 이상

데이터를 In-Memory 기반

으로 실시간 분석

- Ad-Hoc Free : 직관적인

비정형 분석 제공

- Dimension Free : 사전

정의 없이 OLAP 분석

- Analytics Free : 회귀분석, 상관분석 등 고급분석 영역의 시각화

- Source Free : Hadoop을 포함한 DBMS 및 PC 파일에 대응

③ Advanced Analytics

- 기초통계 분석 외에 데이터 마이닝, 예측, 최적화, 텍스트 분석의 모든

고급분석 기능을 In-Memory 기반의 HPA 처리

- Advanced Analytics를 중심으로 Visualization, BI/Report, 정보관리

(IM)의 전 사이클을 통합 관리

SAS VAE(Visual Analytics Environment)

SAS Advanced Analytics Components

Page 72: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

72

④ Information Management

- Access to Hadoop : HIVE, PIG, R 등 오픈소스와의 인터페이스 모듈

및 툴 제공

- Data Government 환경 제공 : DI, DQ, MDM

- BA Framework 기반의 통합 메타 관리 제공

⑤ Unified Data Models

- 18개 산업에 대한 분석 DW(ABT : Analytic Based Table) 모델 제공

- ABT 와 Business Solution 연계 및 산업별 템플릿 제공

공공서비스 분야의 빅데이터 활용 사례

`▒` 안보, 범죄예방, 부정방지 등 Crime & Compliance 업무 외에도 맞춤형

서비스 등 Citizen Relationship Management에 활용

업무

영역

기관명

(비즈니스영역)해결과제 개선효과

부정

거래

Banks

(AML)

금융권 컴플라이언스 및 글로벌

금융시장에서 경쟁력을 갖추기

위한 필수조건

고객확인 의무 강화, 거래 모니터링,

혐의 거래 점검, 내부 통제 체계 구축

IRS

(탈세방지)

탈세 및 사기 범죄 방지 시스템

도입, 세법의 민형사상 위반행위

적발 및 사전 방지

연간 3,450억 달러 세금 누락 및 세금

환급 절감 및 정밀 조사로 민원 감소

관세청

(밀수감지)

불법 수입 화물에 대한 전수 조사를

대체할 신뢰성 높은 검사 방법 마련

시급

데이터에 근거한 강력한 위험관리 시스템

구축으로 적발률 20% 이상 증가 및

정상화물의 신속한 통관

LA County

(부당청구)

CalWork Stage Child Care 프로

그램 참가자에게 제공되는 보육

서비스 관련 사기 범죄 증가에

대한 대책마련 시급

사기 범죄 조직의 식별 정확도율 85%까지

증가, 연간 $31M 절감. 소셜 네트워크

분석으로 대량손실 우려 분야 예측

건강보험 공단

(부당청구)

급증한 데이터에 대한 분석력 강화

및 부당청구건 관리

진료내역 통보 및 확인 영역 도입으로

이상징후 분석 및 부당 청구 건에 대한

신속-합리적인 의사결정 시스템 제공

Page 73: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 73

Ⅱ. 빅

데이

터 기

업의

추진

현황

업무

영역

기관명

(비즈니스영역)해결과제 개선효과

국토

안보

UK Policing

Agency

효율적 인원관리 및 위험예측 범죄

수사, 통합정보 제공필요

위험기반 범죄대응, 범죄정보지능검색,

POLE정보관리

싱가포르

출입국

관리소

불법입국자, 테러 등을 일으킬 수

있는 위험자 사전 파악 및 효과적인

정책 수립

전사 통합 정보 분석 플랫폼 도입으로

위험 입국자 정보 등을 보다 신속하게

분석/예측

US 국방부

(Cyber Security)실시간 모니터링/조치 필요 실시간 In-Memory 처리

인적

관리

국방연구원

(HCM)

군 인사관리의 운영실태 분석 예측

모형 개발을 통해 과학적인 인력

계획체계 구축

국방인력계획지원체계 D-MAPSS 개발

및 국방인력 운영 분석/수요 예측 지원

시스템 구축

US 공군 라이프 사이클별 관리/예측/채용 IDEAS로 전사자원관리

국정

모니

터링

홍콩

Efficiency Center

(VOC 모니터링)

다양한 언어로 된 방대한 텍스트

문장 형태의 시민 불만사항 분석

CIS(Complaints Intelligence System)

구축을 통한 빠른 정보 확인 및 텍스트

마이닝을 통한 선제적 대응

UN Global

Pulse

(Mood 분석)

세계 경제위기가 미치는 영향에

관한 공식 통계와 SNS 데이터와

보완관계 적용

소셜 미디어 정서분석을 통한 실업률

예측 및 위기 상황 관리 능력 향상

기타

호주 통계청

(정보공유)

공공기관이 소유한 고품질의 데이터를

허가된 연구기관 및 프로젝트에

활용할 수 있도록 제공

Remote data Access를 통해 내부 통계

데이터에 대한 보안 요건 만족과 동시에

데이터 활용도 증대

싱가포르

People’s

Association

(맞춤형복지)

주민위원회 센터에서 인종/언어/

수입/연령별로 지속적인 교육, RC,

레저에 대한 대국민 서비스 제공

필요

각 계층별 서비스 제공 및 홍보를 통한

센터 가동률 증대 및 시민 만족도 증가,

효과적인 대국민 홍보 수행

POSCO

(PAM)

설비상태 정밀예지 시스템 구축으로

적정 설비 교체 시점 및 고장 원인

조기 경보

공장 설비 가동 상태 극대화 및 설비

교체에 소요되는 비용 절감/생산성

향상에 기여

CoNoCo

Phillips

(장애재난예지)

유해한 환경의 기업들에 대한

직원들의 건강/안전 보장 및 비용

절감

정보 전달 속도 향상 및 관리 능률 개선,

연간 약7억 달러의 설비 운영 비용 절감.

안전 유지 프로세스 제공

한국석유

공사

(유가예측)

급격한 유가 변동에 대응하고

고유가에 따른 소비자 부담 감소

유가정보서비스 오피넷 사이트에

다양하게 시각화된 예측 정보 제공 및

분석 환경 구축

GS EPS

(에너지

수요예측)

합리적인 전력시장 분석 및 예측

전력시장 전망 및 분석, 전력 수요 및

SMP(Standard Market Price) 예측

으로 경쟁력 강화

Page 74: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

74

테라데이타(Teradata)29의 빅데이터 전략

`▒` 테라데이타는 2011년 4월 빅데이터 분석 전문기업인 애스터 데이터(Aster

Data)를 인수하며 빅데이터 전략 강화에 주력

`▒` 테라데이타는 기존의 ‘Strategy & Operational Intelligence’ 전략과 ‘Big

Data Insight’ 전략을 통합하여 주요 빅데이터 전략을 제시

- 빅데이터 플랫폼인 ‘Aster Data’와 기존의 데이터 웨어하우징 플랫폼 간에

양방향으로 데이터를 주고받고, 분석·처리를 공유

※ Strategy & Operational Intelligence : 기존 데이터 웨어하우징(DW) 기술을 기반으로

기업의 정형화된 데이터를 통합·분석하는 전략 영역

※ Big Data Insight : 비정형화된 데이터를 정형화하고 분석하는 전략 영역

11 테라데이타(Teradata)28

28) 원문 출처 : 테라데이타, 구태훈 이사([email protected])

29) Teradata는 30년 동안 Data Warehousing과 Analytics 분야의 전문 전략과 솔루션을 제공해온

Global IT 회사로써 세계에서 가장 많은 양의 데이터를 분석하고 있는 eBay에 기술과 솔루션을

공급하는 회사. 페타 바이트(Peta byte)이상의 데이터를 관리하고 분석하는 고객사를 20개 이상

확보하여 대규모 데이터 관리 및 분석 서비스 제공 중.

Page 75: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 75

Ⅱ. 빅

데이

터 기

업의

추진

현황

Teradata의 빅데이터 솔루션, ‘Aster Data’

`▒` ‘Aster Data’는 비정형 데이터인 웹로그, 텍스트, 소셜 데이터 등을 분석하는

패턴분석, 경로분석, 그래프 분석을 제공

- 기존의 Teradata Data Warehousing은 CRM, SCM, ERP, Transaction

Data 등을 통합하고,

- SQL 기반 기술로 비정형 분석, 예측, 시공간 분석, 실시간 분석 등을

제공함

`▒` ‘Aster Data’는 Hadoop와 기존의 Teradata의 솔루션의 특장점을 적용하여

진화한 빅데이터 솔루션

- Hadoop : 데이터 변형 및 전처리 프로세싱, MapReduce

- Aster Data : 데이터 탐색 플랫폼, SQL-MapReduce

- Teradata : 통합 데이터 인프라, SQL

Teradata의 빅데이터 전략

Ad Hoc

/OLAP

CRM SCM ERP3rd

PartyWeblogs

TextSocialmedia

Machinedata

Trans

Predictive

Analytics

Spatial/

Temporal

Active

Execution

Pattern

Analysis

Path

Analysis

Graph

Analysis

Strategic & Operational

Intelligence

SQL

Analytics

SQL-Map Reduce

Analytics

Big Data Insight

Structure Multi-Structure

Page 76: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

76

<Hadoop/Aster Data/Teradata의 기술적 비교>

Requirements Aster Hadoop Teradata

MapReduce Integration

Interactive user tools

Complex analytics (e.g. time-series,

graph, social network) UDF

Multi-language support (Java, R,

Python, Perl, SAS, scripts, Bash, C#) UDF

Programming flexibility and ease

UDF

Performance

Integrated data

System management, WLM

Concurrent users 10-100 1-10 1000+

Data duration transient transient permanent

Hardware commodity commodity purpose built

Excellent Very Good Good Fair Poor

Hadoop/Aster Data/Teradata 비교

Datatransformationand processing•Image processing•Search indexes•Web crawling•MapReduce

AnalyticPlatform fordata discovery•Pattern•Path•Graph•SQL-MapReduce

IntegratedDataWarehouse•Adhoc/OLAP•Geospatial•Temporal•SQL

Page 77: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 77

Ⅱ. 빅

데이

터 기

업의

추진

현황

▒` Aster Data는 데이터 분석 플랫폼 내의 MapReduce 분석을 제공하는 분석

플랫폼

- ‘Aster Data’는 Google의 맵리듀스와 오픈 소스 진영의 하둡 프로젝트가

발표된 후 가장 먼저 상용 솔루션으로 개발됨

`▒` Aster Data 함수는 차별화된 분석 처리 기능을 강조하며, SQL-MapReduce을

통한 기능의 구현에 초점을 맞춤

<SQL-MapReduce 분석 모듈>

Modules SQL-MapReduce 함수

텍스트 분석

텍스트 데이터의

패턴을 도출

• Text Processing : 단어 발생건수, 근원식별 및 단어와 여러 단어

구문의 상대 포지션 추적

• Text Partition : 여러 행 이상의 텍스트 데이터 분석

• Levenshtein Distance : 두 단어 사이의 거리를 계산

클러스터 분석

데이터 관점의

자연 그룹핑 발견

• k-Means : 클러스터 데이터의 그룹핑의 지정된 숫자

• Canopy: k-means이 수행되는 시간 중복 집합의 분할된 데이터

• Minhash : 클러스터 분석을 위한 고차원 아이템 버킷

• Basket analysis : 단일패스의 거래기록으로부터 관련 항목의 설정

그룹핑을 생성

Aster Data 구조

분석가

패턴 매칭

SQL

관계형Row

관계형Column …

SQL-MapReduce

Java, C, Python, Perl …

플렛폼 서비스(예 쿼리 플래닝, 동적 워크로드 관리, 보안…)

그래프 통계 ELT 40개 이상의 사전 구축된 분석 모듈

가시적 IDE ; 어플리케이션 시간 개발

다양한 프로그래밍 언어

SQL-MapReduce 구조

비 관계형 및 관계형 데이터 모두 분석

선형, 증분 확장성

상품-하드웨어 기반

전용 소프트웨어, 클라우드, 혹은 어플라이언스

관계형 데이터 아키텍처는 비관계형을 위해서 확장

개발

Aster Data Architecture

수행

저장

고객 비즈니스사용자 데이터 과학자

Page 78: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

78

Modules SQL-MapReduce 함수

클러스터 분석

데이터 관점의

자연 그룹핑 발견

• Collaborative Filter : 많은 사용자의 관심정보를 수집하여 사용자의 이익을

예측

데이터 변환

고급분석을 위한

데이터 변환

• Unpack : 추가 분석을 위한 중첩 데이터 추출

• Pack : 다중데이터를 단일 컬럼으로 압축

• Antiselect : 지정된 열을 제외한 모든 열을 반환

• Multicase : 다중 케이스에 대한 행 일치를 지원하는 케이스 명세서

경로 분석

순차적인 데이터의

Row에서

패턴을 분석

• nPath : 시계열 분석과 행동 패턴분석을 위한 복잡한 순차 분석

• Sessionization : 데이터 상의 단일 패스인 시계열 데이터에서 세션을 식별

• Attribution : 신용을 분배하기 웹사이트와 광고 네트워크를 도와주는 연산자

제공

통계 분석

일반적인 통계

계산을 위한

고성능 처리

• Histogram : 생성하는 능력을 제공하기 위한 기능

• Decision Trees : 병렬 무작위 계층의 기본 구현

• Approximate percentiles and distinct counts : 특정 분산 이내의 퍼센트와

카운트를 계산

• Correlation : 서로 다른 컬럼 사이에 관계의 강도 특징 계산

• Regression : 출력 변수와 입력 변수의 집합 사이의 선형 또는 물류 회귀를

수행

• Averages : 데이터를 통해 이동, 가중, 지수 또는 볼륨 가중 평균을 계산

연관 분석

데이터 사이에

중요한 연관도 발견

• Graph analysis : 별개의 노드에서 그래프에 있는 다른 모든 노드로 최단

경로를 발견

• Tokenization : 텍스트 처리를 지원하기 위해 개별 단어로 문자열을 분할

적용 사례 및 효과

`▒` 국내에서는 Basket Analysis 및 SKU 합리화를 위해 ‘이마트 CRM 프로젝트’를

수행

- 기존의 고객 중심으로 상품을 평가하는 분석을 이마트의 모든 영수증

데이터 수준에서 분석을 수행

- 분석 결과는 마케터, 바이어, 점장 들이 활용할 수 있는 영업지원시스템에

중요 정보로 제공

※ SKU(Stock Keeping Unit) : 취급 품목 수, 전체 취급상품

Page 79: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 79

Ⅱ. 빅

데이

터 기

업의

추진

현황

`▒` 해외에서도 다양한 기업과 기관을 대상으로 ‘Aster Data’를 기반으로 한

비정형 빅데이터 분석을 수행

- 특히 Linked in 사례는 단기간에 빅데이터 분석 환경을 Aster Data로

구축해서 결과를 도출한 사례

- 인프라 구축 및 비즈니스 프로그램 구현에 Aster Data의 Prebuilt 분석

모듈을 이용해서 단기간 분석함

<Aster Data적용 분야>

Internet

사용 사례

금융 서비스 및 보험

사용 사례유통 사용 사례

통신, 미디어 및 정보

서비스 사용 사례

• 소셜 네트워킹

그래픽 분석

• 군중 소싱 분석

• 바이러스 분석

• 내용 타겟팅

• 고급 click-stream

분석

• 실시간 사기 및

링크 분석

• 시계열 데이터 분석

• 거래 감시

• 보험에 대한 다중

변량 가격 분석

• 행동 패턴 매칭

• 디지털 마케팅 속성

분석

• 온라인 소비자 행동

및 패턴 분석

• 고급 click-stream

분석

• 개인화 및 추천을

위한 온라인 타겟팅

• 디지털 마케팅 속성

• 소예측 및 입상 예측

• 디지털 미디어

마이크로 타겟팅

• 광고 최적화

Page 80: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09
Page 81: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

참고 자료

Page 82: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

82

김근태(2012), ‘Big Data 분석을 위한 기업의 Big Analytics 환경 변화’, 정보처리

학회지, Feb 2012

김상현(2011), ‘Big Data in Oracle’, ORACLE KOREA MAGAZINE, 2011

Winter.

Government Executive : Smarter Hiring. May 2011www.govexec.com/

magazine/features/2011/05/smarter-hiring/33878/

Harvard Business Press : Analytics at Work by Thomas H Davenport,

Jeanne Harris

Harvard Business Press : Competing on Analytics by Thomas H Daven-

port, Jeanne Harris

IDC : Big Data Analytics : Future Architectures, Skills and Roadmaps

for the CIO, Sep 2011

IDC : New Analytics Strategies in the ‘Big Data’ Era, Sep 2011

Jeff Kelly(2012), ‘Big Data : Hadoop, Business Analytics and Beyond’,

Wikibon

Jeff Kelly(2012), ‘Big Data Market Size and Vendor Revenues’, Wikibon

McKinsey ; Big data: The next frontier for innovation, competition and

productivity, May 2011.

SAS : In-Memory Analytics for Big Data, Jan 2012

TDWI : Big Data Analytics, Oct 2011

Wiley ; Information Revolution by Jim Davis, Gloria J. Miller, Allan Russell

Wiley :The New Know by Thornton May

[ 참고 자료 ]

Page 83: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

빅데이터 기업의 솔루션 및 서비스 추진 현황`Ⅰ 83

451 Research : TOTAL DATA - Data Management Approaches in an era

of ‘Big Data’

각종 언론 보도자료

• POSCO 빅 데이터 분석 사례

news.donga.com/3/all/20120225/44315161/1

• 석유공사 유가예측 분석 사례

www.bloter.net/archives/97155

• 미국 IRS(Internal Revenue Service)

www.informationweek.com/news/government/enterprise-apps/

232300114

• 캐나다 Public Service Commission

www.sas.com/success/psc.html

• 이라크 지뢰 탐침 SNA 분석

informationweek.com/news/software/bi/232300210

Page 84: 빅데이터 기업의 솔루션 및 서비스 추진 현황_NIA_2012.09

2012년 9월 28일 인쇄

2012년 9월 28일 발행

발행처 한국정보화진흥원

편 집 한국정보화진흥원 빅데이터 전략연구센터

제 작 신생용사촌인쇄정보(주)