31
Real Value Using Big Data And Next Step ㈜데이터스트림즈 (TEL) 82-2-3473-9077 (FAX) 82-2-3473-9084 www.datastreams.co.kr 비즈니스컨설팅본부 본부장 허은아 이사

Real Value Using Big Data And Next Step - ITDailyitdaily.kr/conference/image/track2-1.pdf · 2014-04-17 · Real Value Using Big Data And Next Step ㈜데이터스트림즈 (TEL)

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Real Value Using Big Data

And Next Step

㈜데이터스트림즈

(TEL) 82-2-3473-9077 (FAX) 82-2-3473-9084

www.datastreams.co.kr

비즈니스컨설팅본부 본부장 허은아 이사

© 2014 DataStreams Corp. All Rights Reserved.

※ Source: IDC

데이터 → 정보 → 지식 → 지혜

Data Information Knowledge Intelligence

1975~1989 1990~2004 2005~2020

High

Low

Production

reporting

and

statistics

OLAP,

query, and

data mining

BI suites and

analytic

applications

Decision

process

automation

Intelligent

process

automation

Static,

batch

reporting

Ad hoc

query and

OLAP

Data

warehousing

Templates

Data

models

ETL and

Data

quality

Collaboration

and

workflow

Dashboards

and

visualization

Scorecards

DW life-cycle

management

Alerting

Predictive

analysis

Process

awareness

Content

analysis

Event

monitoring

Data/Content

Users

Internal

developers

데이터베이스 기반 정보 활용의 진화 단계

1

© 2014 DataStreams Corp. All Rights Reserved.

ERP Systems

Web Logs etc

Call Centre Apps

Other Operational Apps

Operational Switches

Unstructured Data

File based information

Floods of Massive Data

Right Information on Right Time

Data Integration !!!

Machinery Legacy Systems

Sensors

Emails Social Data

데이터베이스 기반 정보 활용의 진화 단계

2

© 2014 DataStreams Corp. All Rights Reserved.

데이터 시대로의 진입

3

© 2014 DataStreams Corp. All Rights Reserved.

데이터의 관리 가치의 생성

예측

비정형 정형

결과

발생할 일에 대해 가장 최선의 대안은 무엇인가?

다음에 발생할 일은 무엇인가?

이 추세가 계속되면 어떻게 될 것인가?

이 결과가 나타난 이유는?

어떠한 행동이 필요한가?

문제의 원인이 어디에 있는가?

얼마나 많이, 자주, 어디에서 발생하는가?

무슨 일이 발생했는가?

최적화

예측

모델링

시계열

예측

통계

분석

경보

(ALERT)

OLAP

(검색,드릴

다운)

비정형

리포트

정형

리포트

데이터 활용의 새로운 가능성

4

© 2014 DataStreams Corp. All Rights Reserved.

IT 기술의 발전과 가격의 하락

5

© 2014 DataStreams Corp. All Rights Reserved.

처리할 데이터 량과 복잡도가 크므로 적시성을 위해 고성능 요구

비정형데이터 비중이 높다.

배치성 데이터 분석이 기본이나 즉시성 대응의 요구가 늘어나고 있다.

DBMS와 File의 데이터 구조차이 이용

균형있는 자원 사용

Main Memory

Disk I/O

상용

DBMS Free영역

시스템

어플리케이션

(TeraStream 사용)

파일영역 DB영역

I/O Channels

Processing Time

DBMS

File Processing

25만 건

7분 30초

Data Volume

기존 데이터 처리와 Big Data 처리의 차이점

6

© 2014 DataStreams Corp. All Rights Reserved.

출처 : TDWI 베스트 프랙티스 연구 보고서 SECOND QUARTER 2013

1. 빅데이터 분석 도입장벽(1/2)

귀 조직에 Hadoop 테크놀로지를 구현하는 데 있어서 가장 유력한 장애 요소는 무엇이라고 생각하십니까? (8개 이하로 선택하시오)

빅 데이터 분석을 다룰 수 있는 전문 인력과 스킬이 부족하다

비즈니스 재정 후원 부족

합당한 비즈니스 케이스의 부재

빅 데이터 분석 시스템 구축의 어려움

신기술 구현에 따른 비용 부담

관련 소프트웨어 툴의 부재와 낮은 완성도

프로젝트 착수에 필요한 정보 부족

종래의 사용자 정의 DW 아키텍쳐

메타데이터 관리 능력의 부재

최종 사용자들이 활용할 수 있도록 빅 데이터를 변환하는 데 어려움이 따른다

실시간으로 데이터를 처리하는 문제

API 선정 문제

높은 Hadoop 운영비에 따른 부담

핸드 코딩에 의한 개발 속도 저하

높은 수준의 언어 지원이 요구되는 소프트웨어 툴

대용량 데이터를 신속하게 그리고 수시로 로딩하는 문제

쿼리 처리 속도 개선 문제

빅 데이터의 확장성 문제

Hadoop 버전 간 호환성 문제

기타

응답자 256명을 대상으로 조사한 1,186개의 응답 결과에 기초함 (응답자 당 평균 4.6개)

62%

41%

40%

32%

30%

28%

27%

27%

25%

23%

22%

21%

17%

17%

16%

10%

9%

8%

3%

2%

빅데이터 분석의 평가

7

© 2014 DataStreams Corp. All Rights Reserved.

1. 빅데이터 분석 도입장벽(2/2)

빅데이터 분석의 평가

8

© 2014 DataStreams Corp. All Rights Reserved.

출처 : TDWI 베스트 프랙티스 연구보고서 SECOND QUARTER 2013

2. 빅데이터 분석(Hadoop) 활용 용도(1/2)

귀 조직의 분석 역량을 강화하는 데 HDFS가 도움이 된다고 생각하십니까?

귀 조직이 HDFS를 도입할 경우, 어떤 영역에 응용하는 것이 효과적이겠습니까? 해당 항목을 모두 선택하시오.

60% 예

모름 39%

아니오 1%

데이터 웨어하우스 보강. 특히 고급 분석 영역

웹, 머신, 센서, 소설, 기타 신종 데이터를 위한 라이브 아카이브

데이터 웨어하우징을 위한 Data Staging Area

비정형 분석을 위한 샌드박스와 기타의 데이터 관련 개발

컨텐츠, 문서, 레코드 관리를 위한 리포지토리

재래식 엔터프라이즈 데이터를 위한 라이브 아카이브

기타

78%

52%

41%

41%

35%

23%

3%

※ 응답자 수 : 236명

※ 응답자 263명을 대상으로 조사한 712개의 응답 결과에 기초함 (응답자 당 평균 2.7개)

빅데이터 분석의 평가

9

© 2014 DataStreams Corp. All Rights Reserved.

분석을 위한 빅 데이터 소스

2. 빅데이터 분석(Hadoop) 활용용도(2/2)

귀 조직이 Hadoop 테크놀로지를 구현하려 합니다. 어떤 비즈니스 프로세스와 데이터,

그리고 응용 분야가 최대의 수혜자가 될 것이라고 생각하십니까? (8개 이하로 선택하시오)

분석 : 데이터 마이닝, 통계, 고급 SQL

빅 데이터를 활용한 탐구적 분석

정보 탐구 및 디스커버리

데이터 웨어하우스 보강에 효과적

저비용 하드웨어 / 소프트웨어

데이터 시각화

전례 없이 많은 양의 데이터 확보

클릭스트림에 기초한 고객 행동 파악 / 이해

소비자 정서 분석 및 트렌딩

데이터 아카이빙

애플리케이션 또는 분석을 위한 데이터 변환

고도의 확장성

스키마-프리(Schema-Free) 데이터 스테이징

사기적발

머신 생성 데이터 (로봇, 센서, 각종 계량장치 등)

판매 및 시장 기회 파악

다양한 유형의 데이터 / 파일 지원

더 다양하고 정확한 비즈니스 인사이트 확보

빅 데이터의 활용도 및 ROI 개선

고객 이탈을 비롯한 고객 행동 파악

문제의 근본 원인 파악

고객층 세분화

시장 부문에 대한 트렌딩

비즈니스 변화에 대한 이해

리스크 평가의 정량화

기타

71%

68%

48%

33%

30%

26%

25%

24%

23%

22%

20%

20%

19%

19%

17%

17%

17%

17%

15%

13%

12%

12%

11%

11%

11%

9%

1%

빅데이터 분석의 평가

10

© 2014 DataStreams Corp. All Rights Reserved.

데이터

기술 인력 빅데이터

플랫폼

빅데이터 분석의 3요소

11

© 2014 DataStreams Corp. All Rights Reserved.

전통적인 컨설팅방법론에서 본 추진단계별 Big-3F 방법은 빅데이터 3요소를 기반과 서비스 모델을

최우선으로

도출하는 방법론입니다. Ⅵ. 추진계획 수립

1. FGI(Focus그룹 인터뷰)

3. 프로세스 분석

프로세스 맵 작성

요구사항 정의서 작성

2. 이해관계자 분석

결과분석

계획수립

대상선정 및 질의서작성

조사수행 (온라인/오프라인)

결과분석

4. 데이터 가치분석

1. 단계별

추진로드맵 수립

우선순위 도출

기대효과 도출

단기,중.장기

추진계획 수립

1. 이슈 리스트

개선과제 도출

2. 서비스

모델도출

모델개요 및 서비스 정의

모델구성 (인프라)

모델활용 시나리오

2. Value Chain 분석

(핵심/지원업무)

3. 내부 빅데이터분석

(공군보유 빅데이터)

4. 외부 빅데이터분석

(외부수집 빅데이터)

5. 기술 및

인프라 분석

1.빅데이터 환경분석

(국내·외 주요기술 및 동향)

3. 빅데이터 인프라도출

Ⅰ. 환경분석 Ⅱ. 현황분석 III. 서비스 모델 도출

빅데이터 컨설팅 방법론

12

© 2014 DataStreams Corp. All Rights Reserved.

SNS 데이터를 활용한 비즈니스 모델

한글 사용자 400만 계정이 생산하는 전체 한글 Twit을 수집한 후, KOSPI 50 종목과 관련된 Twit을

추출하고 이를 저장하여, 분석 엔진을 통하여 다양한 통계 및 분석 결과를 생성

수집영역 외부 Social data 수집 시스템 증권사

형태소 분석기

Main Keyword Extractor

랭킹 모듈

색인기(Indexer)

트위터 분석모듈

X

M

L

연동 통계 모듈

Twitter 데이터 배포기

수집키워드 관리(KOSPI 50)

관리

도구

SNS

수집기

SNS

수집기

SNS

수집기

SNS

수집기

SNS

수집기

원문 데이터 색인 데이터

원문 데이터 색인 데이터

한글 사용자

타임라인 수집

Daemon

Process

Job

Process

Job

Scheduler

배치 분석

파일

시스템

준 실시간

NoSQL

Database

외부 데이터 연동 모듈

13

© 2014 DataStreams Corp. All Rights Reserved.

빅데이터 기반 통합

검색 시스템

3

대기업 ERP 조사

역량 강화

2

맞춤형 조사정보

분석 시스템

1

Hadoop 기반의 전자증거 분석(1/2)

14

© 2014 DataStreams Corp. All Rights Reserved.

Hadoop 기반의 전자증거 분석(2/2)

15

© 2014 DataStreams Corp. All Rights Reserved.

통합 로그관리시스템

Filter

위험 평가

배치 작업

인덱싱 작업

기존 로그 DB 통합

관리

보안

차단

요청

정형데이터

제공

소셜 미디어

이상징후 탐지시스템

Big Data Platform

이상징후 패턴 고객별 성향 통계기반 신규패턴

보안시스템 탐지 이벤트

상관 분석

군집, 분류, 연관성 등 데이터

마이닝 분석 분석가

이상 징후 탐지를 위한 패턴 데이터셋 제공

데이터 마이닝 분석을 통한 다양한 분석 결과 제공

FDS

System

(시나리오 기반) 패턴 매칭

고객별 성향 매칭

보안정보 시스템정보 단말정보 금융거래

종합상황관제(24 X 365일)

실시간 예·경보

시스템 종합분석시스템

통합로그관리

시스템

DDOS탐지/분석시스템

통합관제시스템(ESM)

NameNode DataNode DataNode

기획/관리

영업/마케팅

리스크관리

추후 확장 가능

통합로그관리시스템 FDS시스템 및 Big Data 시스템 정보제공

Hadoop 기반의 실시간 이상금융거래 탐지

16

© 2014 DataStreams Corp. All Rights Reserved.

관심

• 학문적인 접근

• (외국사례 중심)

• 청와대 정보화자문단 (보고서)

• 대기업은 독자, 중견기업은

지켜보는 단계

시장주도

• 인프라 구축

• 소셜 운영 및 대응

플랫폼 • Hadoop, Open Source

2012 2013

• 창조경제, 데이터 융합

• 공공기관 사업화 발표(RFP)

• 사업성과에 대한 기대치만 높음

• 성과 미약 시 동반하락

• In-Memory, STORM

• SPLUNK 등 (비Hadoop시스템)

• 분석 시각화

• 데이터 가치 추출 (고객)

• 빅데이터

• 소셜의 진화(OS기능)

2014

다양한

국내외

플랫폼

환경(발전소, 댐) 산업(공장)

건설 (신도시) 데이터분석가

빅데이터 시장의 변화

17

© 2014 DataStreams Corp. All Rights Reserved.

미래 사회 특징 빅데이터의 역할과 가치

불확실성

리스크

스마트

융 합

• 현실세계 데이터 기반의 패턴분석, 미래전망 • 다양한 가능성 시나리오, 시뮬레이션 제공 • 다각적인 상황이 고려 된 통찰력과 유연성 확보

• 환경, 소셜 데이터 분석을 통한 이상 징후 감지 • 이슈의 빠른 분석을 통한 실시간 의사결정 지원 • 국가, 기업 경영 투명성 제고 및 비용 절감

• 상황인지, 인공지능 기반의 신규 서비스 창출 • 개인화, 지능화 기반 차세대 사업 모델 발굴 • 평판, 트렌드 분석을 통한 기업 경쟁력 확보

• 타분야간의 결합을 통한 새로운 지식의 발견 • 상관관계 이해를 통한 시행착오 최소화 • 방대한 데이터 활용을 통한 新융합 시장 창출

통찰력

대응력

경쟁력

창조력

데이터 활용의 가치

18

© 2014 DataStreams Corp. All Rights Reserved.

정형데이터 분석 솔루션과 Hadoop 생태계 비교

- 19 -

정형데이터 분석 솔루션 Hadoop 생태계 설 명

Nutch 인터넷 검색 엔진

ETL Tools

(TeraStream, Infosphere,

Infomatica)

Flume, scribe 수집 및 HDFS에 저장

Hiho , Sqoop RDBMS와 HDFS연계

Oozie Hadoop의 워크플로 스케줄러

Monitor 작업 및 HDFS 모니터링

Hive Hadoop 상위에 위치한 SQL기반 언어

Pig 데이터 흐름 기반의 스크립트 언어

Hadoop Map Reduce 분산 처리용 함수형 프로그램

HDFS Hadoop 분산 파일 시스템

Zookeeper, Avro 자원의 상태 관리 도구

Vertica, Greenplum, Sybase IQ HBASE 분산 컬럼 기반 DBMS

SPSS, SAS, Autonomy R / Mahout 향상된 UI 리포팅과 함께하는 BI툴

© 2014 DataStreams Corp. All Rights Reserved.

Legacy 시스템과 Hadoop 생태계 기술 구조와 비교 시 TCO 측면에서 Hadoop 생태계는 많은

비용적 장점을 가짐

C사

하이엔드 스토리지

15억

B사

하이엔드서버

20억

초기 인프라 구축 비용 및 TCO 비교

A사

병렬데이터베이스

(64 core)

57억

인터페이스 SW 5억 소프

트웨

하드

웨어

초기인프라 97억 유저블(Usable): 20TB

초기인프라 10억 유저블(Usable): 20TB

초기인프라 7억 유저블(Usable): 20TB

Mid-range

X86 서버(4대)

5억

국산전용솔루션 2억

스케일 아웃 구조 5년간 총 소유비용 12억

X86 서버(12대)

3억

N사

Hadoop 솔루션 7억

전자신문 12월 12일

스케일 업 구조 5년간 총 소유비용 175억

스케일 아웃 구조 5년간 총 소유비용 16억

빅데이터 분석 플랫폼 비용

20

© 2014 DataStreams Corp. All Rights Reserved.

Open Source Practical Choice : MPP/Appliance

Hadoop

NoSQL

Hbase(NoSQL)

Kasandra

Mongo DB

Teradata

Sybase

Exadata

Netizza

Vertica

Greenplum

Vectorwise, etc

• Not Always Cheap

• Reliability not

guaranteed

• Needs good

development skills

• Moderate Price

• High Reliability

• Easy to develop

• Expensive

• High Reliability

• Good Development

Environment

What is an optimal solutions In between

high-cost appliance & open sources :

?

빅데이터 분석 플랫폼 비용

21

© 2014 DataStreams Corp. All Rights Reserved.

Security Services

Infrastructure Services

Data Services

Applications Services

어플리케이션 개발 및

유지보수의 제반 기술 및

지원환경

사용자 인터페이스,

개발방법론, 개발언어,

통합개발환경(IDE),

모델링 및 설계, 형상관리 등

데이터의 저장, 접근, 공유,

보관 및 관리를 지원하기 위해

요구되는 제반 기술환경

DBMS, DW, DM, ETL,

Business Intelligence 등

각종 어플리케이션 및 IT 자원의

운영과 관리를 위한 물리적

기반환경과 기술요소

H/W 플랫폼, Operation

System, 스토리지, 저장장치 ,

서버 및 시스템 S/W,

Interface Gateway 등

IT 자원의 운영과 관리를

위한 제반 기술 및

지원도구

자산관리, 구성관리,

변경관리, 성능관리,

장애/문제관리, 전사적

아키텍처 관리 (EA) 등

IT시스템 통제관리 및 보안

관리에 관한 기술환경 및 적용

기술요소

인증 및 권한관리, 시스템

보한, 암호화, 침입탐지,

Audit, 방화벽 등

* IT 현황분석의 프레임워크를 적용하였음

System management Services

IT Infra Framework

데이터 기반

22

© 2014 DataStreams Corp. All Rights Reserved.

• H사는 부품의 공용화를 목표로 부품 데이터를 대상으로 표준화 및 거버넌스를

추진하여 1년 만에 자재 운영비용 절감의 단일 효과만으로 438억의 효과*(오픈

이후 1년)을 달성.

• 제품, 자재, 장비, 공정정보 체계 및 속성 표준화를 통해 Global 단일 View 확보로

전사 커뮤니케이션 개선.

• 장비 실물정보와 자산등록정보의 일치 및 시스템간 자동 연계로 자산관리 업무

효율성 제고

~2006/03

8만

300만

130만

40만

365만

56.2%

470만 Cleansing

57만

9%

Active

Inactive Inactive

Active

Active Part No.감소

시스템 오픈 (2006/03/06) 운영시점(2007/03)

Un-cleansed

표준화 기반의 데이터 활용 효과

23

© 2014 DataStreams Corp. All Rights Reserved.

정보시스템 운영에 따라 비즈니스의 경쟁력이 향상되어 기업의 생산성 향상에 큰 영향을 끼쳤다.

하지만 모든 기업이 정보시스템을 가지고 있는 지금 더 정확하고 예지력을 가진 정보의 생성은 다른

차별화를 가져다 준다. 이러한 경쟁력 있는 정보를 지속적으로 생성하고 이를 바탕으로 효율적인 의사

결정을 지원하는 “데이터 서비스”가 가능하기 위해서는 무엇을 해야 하는가?

[참고 문헌] Data Management International, “DMBOK(Data Management Body Of Knowledge)”, (http://www.dama.org)

Backup & Recovery*

Database Operation

Data Audit*

Data Quality

Data Security

Metadata Management

Master Data Management

Data Warehouse & BI

Contents Management

Data Integration*

Data Architecture

Data Governance

Discipline, Process,

Rule, Workflow

Data Lineage Monitoring

데이터 거버넌스 정의

24

© 2014 DataStreams Corp. All Rights Reserved.

해외 연구 기관 데이터 거버넌스 정의

Cohen(2006) 기업이 다루는 데이터의 양, 일관성, 유용성, 보안, 유효성에 관한 프로세스

Newman and Logan

(2006) 기업 자산으로서 정보를 관리,유지 활용하는데 필요한 의사 결정 권한, 프로세스,

표준, 정책, 기술,의 집합

Gartner (2010)

정보 거버넌스는 정보의 생성, 저장, 사용, 보존과 폐기 및 가치 평가에 관한 올바른

실행을 위한 의사결정 권한과 관리체계 보장을 구체화 한 것으로, 조직의 목표

실현을 가능하게 하는데 있어 정보의 효과적이고, 효율적인 사용을 보장하는

프로세스, 역할, 표준, 기준(척도)을 포함

DGI

(Data Governance

Institute)

데이터와 관련된 모든 업무를 위한 의사결정과 권한의 활동

Maria Villar and Teresa

Kushner (2008)

조직 전체의 자산으로서 데이터를 다루는 전사 차원의 종합적인 관리프로그램으로

기업의 목표 달성과 연관되어 있는 데이터를 관리하는데 핵심이 되는 정책, 표준,

프로세스, 조직, 기술 등의 집합

John Ladley and

Danette McGilvray 정보 자산의 효과적인 관리를 위해 정책, 절차, 조직체계, 역할과 책임, 세부규칙,

의사결정, 권한 등을 정의하고, 체계화하여 시행하는 것

데이터 거버넌스 정의 – 해외 사례

25

© 2014 DataStreams Corp. All Rights Reserved.

정보화 성숙에 따른 경쟁 환경 변화 : 정보활용을 통해 경쟁 우위 확보 시도

데이터 서비스 관점에서의 통합 운용성 필요

데이터를 변치 않는 정보의 자산으로 인식하고 관리의 필요성 인식

전사 데이터 관리 절차, 조직, 기술, 성과관리 등의 통제 기반의 절차 개발 필요

데이터 품질 유지를 위해 단품 솔루션 도입보다 프로세스 도입의 중요성 인식

데이터 거버넌스의 배경

26

© 2014 DataStreams Corp. All Rights Reserved.

상호 운용성 확보 데이터를 다루는 사람을 키우기

위해서는 데이터를 자주 보게

해야 하고 데이터를 만지는

것이 쉬워야 함

빅데이터의 성공은

인프라 투자를 결정하는

의사결정권자의 전폭적인 지지와

관심이 필요

쉬운 것부터, 욕심을 버리고,

지속적으로 할 수 있는 체계를 갖추는 것

일선의 적극적인 요구가

데이터분석 기술 발달에 기여

데이터 분석 전문가

27

© 2014 DataStreams Corp. All Rights Reserved.

Big Data란 용어가 단순히 인터넷에서 떠도는 소셜 데이터 뿐만이

아니라 각종 전자 디바이스나 시스템 혹은 전자화된 기계에서 발생

하는 모든 데이터를 이 범위에 넣고 있음

미래의 경쟁력으로 Big Data를 활용하기 위해서는 다양한 데이터

수집 채널, 데이터기반(Infrastructure) 구축, 비즈니스 영역을 커버

할 수 있는 전문 분석인력 확보등 데이터 활용 기반구축이 선행되어

야 함

이러한 파급 효과 때문에 국내에서도 이를 통해 가치와 고용을 창출

하려는 민간, 공공 분야의 노력이 있음

Big Data를 활용한 산업은 Cloud, Ubiquitous Network 등의 사업과

맞물려 또 다른 산업을 탄생시킬 것임

Summary

28

Q & A