40
빅데이터 워크로드를 위한 AWS 활용방법 김기완 | 솔루션즈 아키텍트 Amazon Web Services

AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Embed Size (px)

Citation preview

Page 1: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

빅데이터 워크로드를 위한AWS 활용방법김기완 | 솔루션즈 아키텍트Amazon Web Services

Page 2: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)
Page 3: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Ever Increasing Big Data

Volume

Velocity

Variety

Veracity

Value

Page 4: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

자주 이야기되는 주제들 – 비즈니스와 IT

우리가 빅 데이터로 해결해야 할 문제를 가지고 있습

니까?

어떻게 AWS로 데이터는 옮기고 저장할 수 있나요?

AWS에서 어떠한서비스들을 사용해야 합니까?

원하는 결과를 얻기 위해서 어떠한데이터를 수집하여야 합니까?

알려진 툴을 쓸 수있나요? 어떤 기술이 더 필요합니

까?

3rd party 빅 데이터 솔루션을 AWS에서 사용할 수 있

습니까?

Performance and Reliability

Business vs. IT

Page 5: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Monolithic Architecture

Page 6: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

빅 데이터와 Monolithic Tool

Page 7: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

빅 데이터 플랫폼 준비 – 달성하고자 하는 목표로부터

백화점 (온라인/오프라인)

매출 증대

시장 점유율 증대

고객 행복

브랜드 가치

재고 최적화

공급망 효율화

목표

Page 8: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

빅 데이터 플랫폼 준비 – 데이터 포인트 (메트릭)

PURCHASE MOVEMENT INFLUENCE

Page 9: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

데이터로부터 비즈니스 결과를 얻어낼 수 있는 플랫폼

PURCHASE

MOVEMENT

INFLUENCE

데이터 유입 /수집

데이터 소비 /시각화저장 처리 /

분석

1 40 9

5

매출 증대

시장 점유율 증대

고객 행복

브랜드 가치

재고 최적화

공급망 효율화

START HERE비즈니스로부터

Page 10: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

빅 데이터와 클라우드 컴퓨팅

• 매우 자주 엄청난 양의 데이터• 대량의, 다양하고 빠르게 유입되는 데이터• 반복적이고 실험적인 데이터 처리 및 분석• 급격한 사용량 변화• 절대적인 성능보다는 처리 시간이 중요

• 엄청난, 일반적으로 무제한의 스토리지• 다양한 컴퓨트, 스토리지, 네트워크 서비스• 반복적이고 실험적인 인프라의 배포 및 사용• 급격한 사용량 변화에 최적화된 자원 사용 및 비용 구조• 병렬 처리를 통한 처리 시간 단축

빅데이터 클라우드 컴퓨팅

Page 11: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

빅 데이터 플랫폼을 위한 AWS 서비스 구성 요소

Amazon S3

• 오브젝트 스토리지• 무제한 저장 가능• 99.999999999% 내구성• 자동화된 라이프사이클• 이벤트 기반 프로세싱

Amazon Kinesis

• 실시간 데이터 분석• 높은 처리량• 탄력성• 쉬운 사용• AWS 서비스와 통합 용이

(S3, Redshift, DynamoDB)

Amazon DynamoDB

• NoSQL DB• 완전 관리형 서비스• 데이터베이스 크기와

상관없이 10ms 미만의응답시간

Amazon Redshift

• 관계형 DW 서비스• MPP (병렬 처리)• 페타바이트 스케일• 완전 관리형 서비스

Amazon Elastic MapReduce

• 하둡 클러스터• Hive, Pig, Impala, Hbase• 완전 관리형 서비스• AWS 서비스들과 통합 용이

(S3, Redshift, DynamoDB)

Page 12: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Amazon Redshift Amazon Elastic MapReduce

데이터웨어하우스

반정형데이터

Amazon Glacier

여러 서비스들의 조합을 통하여 최적의 아키텍처를 설계

Amazon Simple Storage Service

데이터 저장소 백업/아키이빙

Amazon DynamoDB

Amazon Machine Learning

Amazon Kinesis

NoSQL 예측모델

기타어플리케이션

실시간데이터

AmazonEC2

Page 13: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Analytics on 450k subscribers using Amazon Redshift

Ad campaign effectiveness analysis platform

Financial Simulations Platform

Large scale clinical data analytic platformTrading history analyticsAnalytics on 4 PB

data warehouse

Gaming Analytics forover 15 million users

Mobile Analytics for over200M devices

Real-time CommerceRecommendation

AWS 기반 주요 빅데이터 사례

Media streaming

Securities Trading Data Archiving

Financial markets analytics

Page 14: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

디지털 모바일 데이터 플랫폼 자동화 고객 소통 IOT

데이터에 대한 탁월성 분석에 대한 탁월성

빅 데이터의 여섯 가지 일반적인 분야

Page 15: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

A full-service residential real estate brokerage

Redfin 은 수억 건의부동산 정보와

수백만의 고객 정보를관리

”Hot Homes” 알고리즘사용. 500여 종류의특성들을 분석하여

자동으로 매매 가능성을계산

“Day One” 부터 AWS 클라우드를 모든 부분에

사용

https://aws.amazon.com/solutions/case-studies/redfin/

빅 데이터 플랫폼 구축 - 비즈니스 기회 포착

Page 16: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Hot Homes

Modernization Go mobile Data platform Automation Engagement IOT

There's an 80% chance this home will sell in the next 11 days – go tour it soon.

빅 데이터 플랫폼 구축 - 비즈니스 기회 포착

Page 17: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Ingest/Collect

Consume/visualizeStore Process/

analyze

Data1 4

0 95

Amazon S3Data lake Amazon EMR

AmazonKinesis

Amazon RedShift

Answers & Insights

Hot HomesUsers

Properties

Agents

유저 프로파일에 의한 추천

Hot HomesSimilar Homes

Agent Follow-upAgent Scorecard

MarketingA/B TestingReal Time Data…

Amazon DynamoDB

BI / Reporting

빅 데이터 플랫폼 구축 - 비즈니스 기회 포착

Page 18: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

American upscale fashion retailer

노드스트롬은 미국과 캐나다에 총 323개의 스토어를 운영하고 있습니다.다른 모든 경쟁자들보다많은 지역에 많은 수의 상점을 운영하고 있습니다.

옷, 신발, 화장품 및 악세사리를 판매하는패션 리테일러

노드스트롬은 AWS에All-in 하고 있습니다.

https://aws.amazon.com/solutions/case-studies/nordstrom/

빅 데이터 플랫폼 구축 - 개인화

Page 19: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

빅 데이터 플랫폼 구축 - 개인화

Page 20: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Ingest/Collect

Consume/visualizeStore Process/

analyze

Data1 4

0 95

Outcomes & Insights

초단위의 개인화된 추천

스타일리스트들의 전문성을 모든 고객들에게 제공

비용 절감 50% 이상

Mobile Users

Desktop Users

Analytics Tools

Online Stylist

Amazon RedShift

AmazonKinesis

AWSLambda

Amazon DynamoDB

AWSLambda

Amazon S3Data Storage

빅 데이터 플랫폼 구축 - 개인화

Page 21: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Operates financial exchanges around the world

선도적인 주가지수 제공

41,000+ INDEXES다양한 지역, 종류

Provides technology, trading, intelligence,

surveillance (감독), and listing services

100여개의 데이터제품들을 250만명 이상의투자 전문가들이 98개국이상의 고객들에게 제공

빅 데이터 플랫폼 구축 - Hybrid

Page 22: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

나스닥은 혁신을 가속화하고 시장으로의 접근 속도를 높임과 동시에 분석 툴 및서비스를 최적의 성능으로 유지하면서 데이터 웨어하우스의 비용을 낮추고,수집되는 민감정보 데이터의 보안을 유지하기를 원했습니다.

• 고비용레거시 DW 시스템 ($1.16M /yr)

• 제한된 용량 (1 year of data)

• 많은 양의 데이터 (4-8B rows daily)

• 다양한 데이터 소스

OUR GLOBAL PLATFORM

CAN HANDLE MORE THAN

1 MILLIONMESSAGES/SECOND

AT SUB-40 MICROSECONDS

AVERAGE SPEEDS

빅 데이터 플랫폼 구축 - Hybrid

Page 23: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Ingest/Collect

Consume/visualizeStore Process/

analyze

Data1 4

0 95

AmazonDirect Connect

Amazon S3Data lake

Amazon RedShift

virtual private cloud

Answers & Insights

Amazon SNS

Amazon SQSClient Alerts

매일 장 종료후분석

회사별보고서

예외적인거래

Daily trades

빅 데이터 플랫폼 구축 - Hybrid

Page 24: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

빅 데이터 플랫폼 구축 – 하이브리드 구성 (NasDaQ OMX FinQloud)

FinQloud Regulatory Records Retention (R3)https://aws.amazon.com/solutions/case-studies/nasdaq-finqloud/

Page 25: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Event Sourcing

IoT Rules

Control Plane

IoT Shadow

Big Data Service

Event Processing Service

CQRS

Polyglot Users

Operations

Consumers

Consumers

사물인터넷(IoT)과 Big Data

Page 26: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

DEVICE SDK연결, 인증 및메세지교환을위한 클라이언트 라이브러리

DEVICE GATEWAYMQTT와 HTTP를 통한

디바이스 통신

AUTHENTICATION상호인증 및암호화를

통한 보안

RULES ENGINE규칙기반의메세지

변환및 AWS 서비스와의연동

AWS Services- - - - -

3P Services

SHADOW연결 유/무에 상관없이사물의 상태를 저장

APPLICATIONS

AWS IoT API

REGISTRY사물에 대한 정보 및 관리

AWS IOT 서비스 개요

Page 27: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

하나의 도구로모든 것을 통제

Page 28: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

생성

수집 및 저장

분석 및 컴퓨팅

협업및 공유

a

AmazonDynamoDB

Amazon RDS

AmazonRedshift

AWS Direct Connect

AWS Storage Gateway

AWS Import/ Export

Amazon GlacierAmazon S3Amazon

Kinesis Amazon EMR

단계별 AWS 서비스 – 수집 및 저장

Page 29: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

생성

수집 및 저장

분석 및 컴퓨팅

협업및 공유

a

Amazon EC2 Amazon EMRAmazon Kinesis

단계별 AWS 서비스 – 분석 및 컴퓨팅

Page 30: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

생성

수집 및 저장

분석 및 컴퓨팅

협업 및 공유

aAmazonRedshift

AmazonDynamoDB

Amazon RDS

S3 Amazon EC2 Amazon EMR

Amazon CloudFront

AWS CloudFormation

AWSData Pipeline

단계별 AWS 서비스 – 협업 및 공유

Page 31: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

CacheSQL

Request RateHigh Low

Cost/GBHigh Low

LatencyLow High

Data VolumeLow High

GlacierSt

ruct

ure

NoSQL

Hot Data Warm Data Cold Data

Low

High

Search

데이터 온도에 따른 올바른 데이터 저장소 선택

Page 32: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

수집 저장 분석 활용

A

iOS Android

Web Apps

Logstash

Amazon RDS

Amazon DynamoDB

AmazonES

AmazonS3

ApacheKafka

AmazonGlacier

AmazonKinesis

AmazonDynamoDB

Amazon Redshift

Impala

Pig

Amazon ML

Streaming

AmazonKinesis

AWSLambda

Amaz

on E

last

ic M

apRe

duce

AmazonElastiCache

Sear

ch

SQL

NoS

QL

Cac

he

Stre

am P

roce

ssin

gBa

tch

Inte

ract

ive

Logg

ing

Stre

am S

tora

ge

IoT

Appl

icat

ions

File

Sto

rage An

alys

is &

Vis

ualiz

atio

n

Hot

Cold

Warm

Hot

Slow

Hot

ML

Fast

Fast

Amazon QuickSight

Transactional Data

File Data

Stream Data

Not

eboo

ks

데이터 예측

Apps & APIs

Mobile Apps

IDE

Search Data

ETL

다양한 오픈 소스 및 서드 파티 도구 연계

Page 33: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

빅 데이터 플랫폼 구축 - 데이터 중심의 비즈니스

• Business Outcome – 빅 데이터 분석을 통해 얻고자 하는 비즈니스 효과 및 과제로부터 시작하여전체 디자인을 설계

• Experiment – 작게 시작하며, 최대한 많은 아이디어를 구체화하여 검증하고, 성공한 모델을 크게 확장

• Agile & Timely – 빅 데이터 처리 플랫폼을 수 분만에 빠르게 생성하고 변하는 비즈니스 요건에 맞춰빠르게 사용할 수 있는 풍부한 플랫폼 서비스의 활용

Page 34: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

빅데이터 처리 이후의 과제

Page 35: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

세 가지 종류의 데이터 분석

Retrospective분석 & 리포트

Here-and-now리얼 타임 처리 및

대쉬보드

Predictions스마트

어플리케이션

Amazon Kinesis Amazon EC2 AWS Lambda

Amazon Redshift, Amazon RDS Amazon S3

Amazon EMR

기계 학습딥러닝

Page 36: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Amazon Machine Learning 서비스 소개

• 개발자들을 위한 사용하기 쉬운 완전 관리형 서비스

• 아마존의 서비스들을 활용한 안정적이고 강력한 서비스

• AWS에 이미 저장되어 있는 데이터들을 활용한 서비스

• 수 초안에 머신 러닝 모델을 운영 환경에 적용

Page 37: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

Amazon Machine Learning - 개발자 친화성 및 간편한 예측 분석

• 직관적이고 빠르게 자동 모델생성– 데이터 추출– 모델트레이닝, 품질검사, 튜닝– 배포 및 관리

• 모델 라이프사이클을 API 및 SDK를 통해 자동화– Java, Python, .NET, JavaScript, Ruby, PHP언어 지원– AWS Mobile SDK을 통한손쉬운앱개발

• 꼭 필요한 예측 모델 제공– Binary classification : Yes / No 분류– Multiclass classification : 카테고리 분류– Regression : 숫자의값예측

Page 38: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

인공 지능서비스를 위한 AWS 서비스

p2.16xlarge- vCPU 64/ 16 GPU- 메모리: 732GiB - 병렬코어 39,636- GPU 메모리: 192GB- 대역폭: 20GB

Amazon EC2 Instance for Deep Learning

Amazon Deep Scalable Sparse Tensor Network Engine (DSSTNE)

Amazon Alexa

AWS Lambda와연계하는인공 지능음성 인식서비스

• 아마존주문 전/후예측시스템활용• 머신러닝기법을 통한 '고객이 주문

전에 배송계획예측’• 사내 총 주간 추천예측 500억회

Page 39: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

빅 데이터 플랫폼 구축 - 데이터 중심의 비즈니스

• 데이터 버스 구성 – 데이터의 수집, 저장, 분석, 시각화, 예측등 각 단계에서 데이터가 효율적으로사용될 수 있도록 데이터 버스를 효과적으로 구성

• 적합한 도구 사용 – 데이터의 엑세스 패턴, 온도, 작업 형태에 따라 올바른 저장소 및 도구를 사용

• 관리형 서비스 – 데이터 및 비즈니스 요건의 변화에 대한 빠른 대응 및 비용 효율적인 빅 데이터 환경 관리를 위하여 관리형 서비스 사용

• 다양한 실험 – 적은 비용으로 많은 실험을 수행함으로써새로운 비즈니스 요구에 빠르게 대응

Page 40: AWS Enterprise Summit :: 빅데이터 워크로드를 위한 AWS 활용방법 (김기완 솔루션즈 아키텍트)

How would you like to take your business forward today?AWS will help you!

New market demands

INNOVATION

Speed to deliver

AGILITY

Reprioritization of spend

OPTIMIZATION

다시 처음으로부터