18
Google Cloud Dataflow 구글의 데이터 파이프라인 Dataflow Junho Lee (이준호) [email protected]

구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Embed Size (px)

Citation preview

Page 1: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Google�Cloud�Dataflow구글의데이터파이프라인 Dataflow

Junho Lee�(이준호)

[email protected]

Page 2: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

$(whoami)

• Junho Lee�(이준호)�/�[email protected]• Rockplace Inc.�(2014�~�)• Solutions�Architect�!• Google�Cloud�Platform�Authorized�Trainer�"

- Google�Cloud�Platform�Fully�Qualified�Developer- Google�Certified�Professional�­ Cloud�Architect- Google�Certified�Professional�­ Data�Engineer- Google�Certified�Associate�­ G�Suite�Administrator

Page 3: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

What�is�the�Problem?

Infinitely�unbounded�data�stream�with�unknown�delay

Page 4: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Google�“Cloud�Dataflow”

• Cloud�Dataflow�is�a�fully-managed�service�for�transforming�and�enriching�data�in stream (real�time)�and�batch�(historical)�modes�with�equal�reliability�and�expressiveness.

• 구글의 “Dataflow”�모델의 구현

https://cloud.google.com/dataflow/

Page 5: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

The�“Dataflow�Model”�by

MapReduce•Large�Scale�Data�Processing

FlumeJava•Java�library�for�data-parallel�pipelines

MilWheel•Fault-Tolerant�Stream�Processing�Framework

Page 6: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

History�of�Apache�Beam

Page 7: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Dataflow�Model�➜ Beam�Model

• Google�donated�at�2016• A�unified programming�model�designed�to�provide�efficient�and�portable�data�processing�pipelines

• Multiple�Runners:• Apache�Apex• Apache�Flink• Apache�Spark• Apache�Gearpump• Google�Cloud�Dataflow …

Page 8: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Run�Everywhere

Page 9: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Cloud�Dataflow�vs�On-premise

No-Ops

https://www.safaribooksonline.com/library/view/hadoop-essentials/9781784396688/ch02s05.html

Page 10: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Worker�Lifecycle�Management

Page 11: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Dynamic�Worker�Scaling

Page 12: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Monitoring�UI

Page 13: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Centralized�Logging

Page 14: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Cloud�Dataflow�in�Bigdata�Lifecycle

CloudDatalab

Page 15: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

DEMOhttps://beam.apache.org/get-started/mobile-gaming-example/

Page 16: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Demo:�Game�­ UserScore.py

Page 17: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

Q&A

Page 18: 구글의 데이터 파이프 라인 Dataflow 락플레이스 이준호 SA

One�more�thing�­ Cloud�Dataprep