24
82015 한국 소프트웨어 아키텍트 대회 2015(8) 한국 소프트웨어 아키텍트 대회 빅데이터 분석 활용을 위한 엔터프라이즈 아키텍처 가이드 2015. 07. 16 한국오라클 임상배([email protected])

빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

2015(제8회) 한국 소프트웨어 아키텍트 대회

빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 가이드

2015. 07. 16

한국오라클

임상배([email protected])

Page 2: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |

Safe Harbor Statement

The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated into any contract. It is not a commitment to deliver any material, code, or functionality, and should not be relied upon in making purchasing decisions. The development, release, and timing of any features or functionality described for Oracle’s products remains at the sole discretion of Oracle.

Page 3: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

Agenda

• 빅데이터 아키텍쳐 프레임워크

• 빅데이터와 분석 아키텍쳐 개발

• 빅데이터 참조 아키텍쳐 Overview

• 빅데이터 구축 가이드 라인

3

Page 4: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터 활용 시 가장 효율적인 분야

4

테이블 조인 복잡성

데이터 갱신 패턴

스키마 복잡도

전체 데이터 볼륨

신속성 작업 당

데이터 볼륨

처리 자유 동시작업

Big Data Analytics

Traditional RDBMS

범용 데이터 처리

1000

Structured Append Only Unstructured Transactional

100 Tables

Interactive

Batch

100 PB

10 PB

1 PB

100 TB SQL

100 TB Batch

10 PB

1 PB

100 PB

Page 5: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터 아키텍쳐 프레임워크

• Big Data & Analytics Capability Maturity Model

5

Level 0

Level 1

Level 2

Level 3

Level 4

Level 5

• 포인트솔루션 • 중복 컨텐츠 • 이질적 인프라 • 거버넌스 없음

Fragmented

Managed

Systematic

Advanced

Optimized

Innovative

• EDW 기반 메타데이터 관리

• 분석 측면 MDM

• 부서단위 데이터 허브

• 제한적 데이터 탐색

• 소스 시스템 대상 데이터 품질

• 데이터 소스 간 용어 표준화

• 운영 측면 MDM

• 통합된 인프라 • Biz & IT 협업 • 전사 수준 데이터 리터러시

• Data Reservior(하둡, NoSQL) 표준 구축

• 자동화된 일관되며 신속한 리포팅

• 산업 표준 용어 • 전사 수준 Data Reservior(w/ data factory)

• DW와 Data Reservior 통합 제공

• 분석 모델 정확도 관리까지 데이터 거버넌스 확대

DW

DW 고도화 &

Data Reservior

전사 통합 Data

Reservior

• 운영 및 리스크 조정을 개선하기 위한 분석 실행

• 상호 운용성 제공 인프라 및 중앙화된 서비스

• 비즈니스 프로세스 통합 기반 데이터 거버넌스

• Data Reservior 기반 분석팀의 C레벨 보고 체계 구축

• 모든 직무에 Predictive Analytics 내장

• 데이터 탐구를 기업의 문화로 정착

• 모든 데이터 소스 간 실시간 데이터 통합

• NLP, 텍스트 분석

• 데이터 거버넌스 프로세스 최적화

• 베스트 프랙티스 활용 강화

실효있는 분석

지시적 분석 (통찰) 정착

Page 6: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터 아키텍쳐 프레임워크

• 신규 기술 분야(빅데이터) 아키텍쳐 고려 사항

6

스킬 경험 투자

리스크 고려사항

목표 고려사항

솔루션 고려사항

실행가능성 시간 비용

비즈니스 밸류에 집중 기존 프로세스를 이용 기 투자 인프라 이용

IT 혁신의 최전선에 있는 아키텍트의 책무=>기술적 솔루션 수준을 넘어

Page 7: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• OADP(Oracle Architecture Development Process)

7

비즈니스 동인, 운영모델, 핵심 프로세스 이해 및 확인

핵심 원칙 : 명료성 달성, 비즈니스 목적과 IT 책무와의 일치

지도(指導) 원리 및 정보 표준 수립

현재 과제 및 문제점 파악

IT 자산 재사용 극대화 설계 참조 아키텍쳐 공유

To-Be 수준에 도달하기 위한 전략 개발

정보 관리 생애주기에 걸친 데이터 거버넌스 수립

Page 8: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• 오라클의 정보관리 참조 아키텍쳐: 논리 뷰

8

Vir

tua

lisa

tion

&

Qu

ery

Fe

de

ratio

n

Enterprise Performance Management

Pre-built & Ad-hoc BI Assets

Information Services

Data Ingestion

Information Interpretation

Access & Performance Layer

Foundation Data Layer

Raw Data Reservoir

Advanced Analysis & Data Science Tools

Data Engines & Poly-structured sources

Content

Docs Web & Social Media

SMS

Structured Data Sources

• Operational Data • COTS Data • Streaming & BAM

Immutable raw data reservoir Raw data at rest is not interpreted

Immutable modelled data. Business Process Neutral form. Abstracted from business process changes

Past, current and future interpretation of enterprise data. Structured to support agile access & navigation

Discovery Lab Sandboxes Rapid Development Sandboxes

Project based data stores to support specific discovery objectives

Project based data stored to facilitate rapid content / presentation delivery

Data Sources

Master & Reference Data Sources

• Raw Data Reservior layer : 변경되지 않는 특성의 Raw data 저장 계층 • Foundation layer : 비즈니스 프로세스 중립적인 히스토리컬 데이터 관리 계층

• Access & Perf. Layer : 비즈니스/특정 기능 모델, 스냅샷, 요약 정보를 지닌 분석 계층

• Discovery Lab Sandboxes : 데이터 탐험 계층

Page 9: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• 분석 성숙도 향상을 위한 점진적 접근 방식

9

Analytics 2.0

Analytics 3.0

Analytics 1.0

• 제한적인 서술적 분석 기반 보고 체계

• 제한된 범위의 표 데이터 활용

• 배치 중심 분석

• 일부 비즈니스 프로세스와 분석을 결합

• 분석 기반 경쟁

• 분석의 범위 확대 및 분석 데이터 셋 확장(구조화되지 않은 데이터 포함)

• 상업적 분야에 빅데이터 부상(浮上)

• 사업 조직에서 데이터 사이언스의 역활 인지

•수익창출을 위한 플랫폼

•심화분석 & 데이터 확대

• Test-Do-Learn 반복 가속화

•이기종데이터 & 비즈니스 프로세스 적용 분야 확대

•분석가는 데이터 디스커버리 및 영향력이 큰 비즈니스 가치에 집중.

•분석 주도 문화로 비즈니스 개조

Adapted from Tom Davenport material

작은 데이터, 서술적 분석

빅데이터 분석

데이터 경제 체득

Page 10: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• 오라클의 정보관리 참조 아키텍쳐 : 개념 뷰

10

Actionable Events

Event Engine Data Reservoir

Data Factory Enterprise Information Store

Reporting

Discovery Lab

Actionable Information

Actionable Insights

Data Streams

Execution

Innovation

Discovery Output

Events & Data

Structured Enterprise Data

Other Data

Page 11: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• 스토리지(RDBMS, NoSQL DB, Hadoop) 결정 요인

11

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

Concurrency

Complex Query Response

Times

Single Record Read/Write

Performance

Bulk Write Performance

Privileged User Security

General User Security

Governance Tools

System per TB Cost

Backup per TB Cost

Skills Acquisition Cost

RDBMS

NoSQL DB

Hadoop

Bigger numbers are better!

Page 12: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• Performance, Cost, Security

12

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

Concurrency

Complex Query Response

Times

Single Record Read/Write

Performance

Bulk Write Performance

Privileged User Security

General User Security

Governance Tools

System per TB Cost

Backup per TB Cost

Skills Acquisition Cost

RDBMS

NoSQL DB

Hadoop

Bigger numbers are better! Security

Page 13: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• 스토리지 결정 요인 내역

13

Cost

Security

Performance

• Cost of Data

• Operations / Skills

• Sensitivity of Data

• Regulatory Requirements

• Raw Query Performance

• Concurrency

Page 14: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• 스토리지 결정 요인 예제-1

14

• Data: – System and Web etc. Log Files

• Performance Metric: – Need to ingest massive quantities quickly and continuously

– No single record queries required, mostly aggregations

• Security Metric: – No PII like information

– All users

• Cost Metric: – Low cost required

– Loosing data is ok

Hadoop

Page 15: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• 스토리지 결정 요인 예제-2

15

• Data: – Manufacturing Sensor Data

• Performance Metric: – Need to ingest massive quantities quickly and continuously

– Need to see operational status across sensors

• Security Metric: – No PII like information

– All users

• Cost Metric: – Low cost required

– Support low cost long retention periods

NoSQL

Hadoop

Page 16: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• 스토리지 결정 요인 예제-3

16

• Data: – Web Store Orders / Purchases

• Performance Metric: – Relatively low volume when compared to activity logs

– Need to see individual transactions

• Security Metric: – Contains sensitive data (or links to it)

– Requires restricted access to some of the data

• Cost Metric: – Business critical

– Consistency is most important

RDBMS / NoSQL

RDBMS

Page 17: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• 스토리지 결정 요인 예제-4

17

• Data: – Web Store Recommendations (publish)

• Performance Metric: – High volume of low latency, but simple requests

– Need to see individual recommendations

• Security Metric: – No sensitive data

– Application level access (automated)

• Cost Metric: – Business critical low latency requirement

– Distributed environment

NoSQL

Page 18: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• 빅데이터 R&R

18

Roles Responsibilities

Big Data Champion 빅데이터 활용을 감독하는 역활, 초창기에는 주로 IT 부서에서 맡으며, 빅데이터를 기술적 관점에서 비즈니스 조력자로 변경되면 마케팅 & 제품 개발 임원이 맡는다.

Information Architects & Enterprise Architects

빅데이터와 분석은 기존 DW 대체가 아닌, 기존 Information Architecture의 확장이 되어가고 있다. IA는 다양해진 정보 자산 및 관련 도구들로 구성된 생태계를 지원하고 설계해야 하며, EA는 IA와 협력하여 확대된 Information Architecture을 기능을 구현하는 별도의 사일로가 아닌 크로스 플랫폼을 개발해야 한다.

Data Scientists 비즈니스 문제를 활용가능한 데이터를 이용하여 푸는데 과학적 방법을 사용한다. 통계적 모델 및 분석을 적용하고, 결과를 해석하며, 데이터 분석 결과를 적용하고 예측하는 데 사용될 수 있도록 추진한다.

Page 19: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터와 분석 시스템 아키텍쳐 개발

• 빅데이터 R&R

19

Roles Responsibilities

Business Analysts 비즈니스 지식으로 Data Scientist가 비즈니스 컨텍스트를 이해 및 분석 결과의 해석을 지원. 데이터와 모델이 복잡해질수록 Data Scientist와 Business Analysis의 협업이 매우 중요.

Hadoop Administrators 하둡 배포판과 플랫폼을 관리하는 역활을 수행

Hadoop Programmers MapReduce 코드, Pig, Spark 등을 비롯하여 빅데이터 플랫폼을 지원하는데 필요한 다양한 언어로 프로그래밍을 수행

Page 20: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터 참조 아키텍쳐 Overview

• 전통적 Information Architecture + 빅데이터

Page 21: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터 참조 아키텍쳐 Overview

• 통합 참조 아키텍쳐

21

Actionable Events

Event Engine Data Reservoir

Data Factory Enterprise Information Store

Reporting

Discovery Lab

Actionable Information

Actionable Insights

Data Streams

Execution

Innovation

Discovery Output

Events & Data

Structured Enterprise Data

Other Data

Page 22: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터 참조 아키텍쳐 Overview

• 데이터 처리 단계별 솔루션 매핑

Page 23: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

빅데이터 구축 가이드 라인

23

#1: Align Big Data with Specific Business Goals

#2: Ease Skills Shortage with Standards and Governance

#3: Optimize Knowledge Transfer with a Center of Excellence

#4: Top Payoff is Aligning Unstructured with Structured Data

#5: Plan your Discovery Lab for Performance

#6: Align with the Cloud Operation Model

• 성공적 빅데이터 아키텍쳐 구축 가이드 라인

Page 24: 빅데이터 분석 및 활용을 위한 엔터프라이즈 아키텍처 …...데이터 셋 확장(구조화되지 않은 데이터 포함) • 상업적 분야에 빅데이터 부상(浮上)

제8회 2015 한국 소프트웨어 아키텍트 대회

Q & A

24