Machine Learning on AWS Hivemall on Amazon EMR Amazon Rekognition Amazon Polly Spark on Amazon EMR

  • View
    0

  • Download
    0

Embed Size (px)

Transcript

  • © 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

    アマゾンウェブサービス株式会社

    ソリューションアーキテクト 志村 誠

    2017.06.01

    Machine Learning on AWS

  • 志村 誠 (Makoto Shimura)

    所属: アマゾンウェブサービスジャパン株式会社

    業務: ソリューションアーキテクト (データサイエンス領域)

    経歴: Hadoop ログ解析基盤の開発 データ分析 データマネジメントや組織のデータ活用

  • Target / Key takeaway

    機械学習を使ってビジネスを加速させたい方

    機械学習サービスを AWS 上で構築したい方

    AWS 上で機械学習のサービスをどう構築するか

    問題ごとに AWS サービスをどう選択するか

  • 業種業態問わずさまざまなビジネスで 機械学習が活用されるようになってきている

  • Howard Hughes Corporation 利用者の物件購入性向を予測するモデルを構築

  • Zillow Group Apache Spark on EMR による各種レコメンデーション

  • AWS を活用して,機械学習を用いた サービスを展開するにはどうすればよいか

  • 本セッションのアジェンダ

    解くべき問題を明確にする

    AWS の機械学習サービス

    AWS を活用したサービスの構築

    典型的なユースケース

  • 解くべき問題を明確にする

  • 解決したいビジネス課題から出発する

    まずは自分たちのビジネスを振り返る

    ニーズがあるが実現できていない部分に注目

    機械学習から出発するのではなく

    あくまで課題を解決するためのツールと考える

  • 機械学習とはなにか

    特定事象のデータを学習し,モデルを獲得 それに基づいて判断や予測を実施する

  • 機械学習の一般的な処理の流れ

    Training

    Prediction

  • 機械学習の一般的な処理の流れ

    大量の データ

    学習 アルゴ リズム

    機械 学習 モデル

    Training

    Prediction

  • 機械学習の一般的な処理の流れ

    大量の データ

    学習 アルゴ リズム

    機械 学習 モデル

    機械 学習 モデル

    Training

    Prediction

  • 機械学習の一般的な処理の流れ

    大量の データ

    学習 アルゴ リズム

    機械 学習 モデル

    入力 データ

    機械 学習 モデル

    予測 判断 結果

    Training

    Prediction

  • 機械学習の一般的な処理の流れ

    大量の データ

    学習 アルゴ リズム

    機械 学習 モデル

    入力 データ

    機械 学習 モデル

    予測 判断 結果

    Training

    Prediction

  • ビジネス課題で機械学習を活用するためのポイント

    (大量の)良質なデータでモデルの精度が向上

    判断や予測を自動化することが可能

    大規模に展開するほど(単位)コストが下がる

  • ビジネス課題で機械学習を活用するためのポイント

    良質なデータが継続的に手に入るか?

    自動化する価値のあるクリティカルな予測か?

    費用対効果に見合うか?

  • 機械学習に向いている典型的なビジネス課題

    人間の手では不可能な量の商品 / ユーザーに対して 個別のおすすめを提供したい

    レコメンド

    24時間365日人間が監視するのはコストが非常に高い 異常が起きたらすぐに検知して対策をとりたい

    異常検知

    大量の画像をチェックするのは不可能 自動的に顔の位置や不適切な画像か等を判定したい

    画像認識

    ユーザをいくつかのセグメントに分類して セグメント別のマーケティング施策を実施したい

    クラスタリング

  • AWS の機械学習サービス

  • 4 層から構成される AWS の機械学習サービス

    AI ServicesAmazon Rekognition

    Amazon

    Polly

    Amazon

    Lex More to come

    in 2017

    AI Platform Amazon

    Machine Learning

    Amazon Elastic

    MapReduce Spark &

    SparkML

    More to come

    in 2017

    Apache

    MXNet AI EnginesTensorFlow Caffe Torch Theano CNTK Keras

    EMR/Spark ECS Lambda GreenGrass FPGA

    More to

    Come

    In 2017 HardwareP2

  • 4 層から構成される AWS の機械学習サービス

    22

    AI ServicesAmazon Rekognition

    Amazon

    Polly

    Amazon

    Lex More to come

    in 2017

    AI Platform Amazon

    Machine Learning

    Amazon Elastic

    MapReduce Spark &

    SparkML

    More to come

    in 2017

    Apache

    MXNet AI EnginesTensorFlow Caffe Torch Theano CNTK Keras

    EMR/Spark ECS Lambda GreenGrass FPGA

    More to

    Come

    In 2017 HardwareP2

  • Deep Learningに最適なP2インスタンス

    GPU アクセラレータ NVIDIA Tesla K80 を最大 16 個搭載可能

    大量の GPU を使うことで,ディープラーニングのモデル構築にか かる時間を大幅に短縮可能

    23

    Instance

    Name

    GPU

    Count

    Memory GPU

    Memory

    Network

    Performance

    P2.xlarge 1 61GiB 12 GiB High

    P2.8xlarge 8 488GiB 96 GiB 10 Gigabit

    P2.16xlarge 16 732GiB 192 GiB 20 Gigabit

  • Greengrass によるエッジコンピューティング

    オフラインでニアリアルタイムのローカルイベント処理

    AWS Lambda を利用したプログラミングモデル

    オンラインになったときにクラウドと同期

    Device

    State

    Action

    Device

    Gateway

    Messages

    Authentication

    & Authorization

    Security

  • 4 層から構成される AWS の機械学習サービス

    25

    AI ServicesAmazon Rekognition

    Amazon

    Polly

    Amazon

    Lex More to come

    in 2017

    AI Platform Amazon

    Machine Learning

    Amazon Elastic

    MapReduce Spark &

    SparkML

    More to come

    in 2017

    Apache

    MXNet AI EnginesTensorFlow Caffe Torch Theano CNTK Keras

    EMR/Spark ECS Lambda GreenGrass FPGA

    More to

    Come

    In 2017 HardwareP2

  • Deep Learning AMI で各種パッケージを手軽に利用

    26

    OS はAmazon Linux と Ubuntu の2種類

    各種フレームワークが プリインストール*

    MXNet v0.9.3 tag

    Tensorflow v1.0.1 tag

    Theano rel-0.8.2 tag

    Caffe rc5 tag

    Caffe2 v0.6.0 tag

    CNTK v2.0 beta 12.0 tag

    Torch master branch

    Keras 2.0.2 tag

    https://aws.amazon.com/marketplace/pp/B01M0AXXQB?qid=1475211685369&sr=0-1&ref_=srh_res_product_title

    https://aws.amazon.com/marketplace/pp/B01M0AXXQB?qid=1475211685369&sr=0-1&ref_=srh_res_product_title

  • AWS は MXNet を全面的にサポート

    マルチ GPU でのスケーラビリティに優れている

    AWS 社員もコミッターとして活躍

    CloudFormation で MXNet クラスタを構築するテンプレート を提供

    27 http://aws.typepad.com/sajp/2016/11/mxnet-default-framework-deep-learning-aws.html

    http://aws.typepad.com/sajp/2016/11/mxnet-default-framework-deep-learning-aws.html

  • 4 層から構成される AWS の機械学習サービス

    28

    AI ServicesAmazon Rekognition

    Amazon

    Polly

    Amazon

    Lex More to come

    in 2017

    AI Platform Amazon

    Machine Learning

    Amazon Elastic

    MapReduce Spark &

    SparkML

    More to come

    in 2017

    Apache

    MXNet AI EnginesTensorFlow Caffe Torch Theano CNTK Keras

    EMR/Spark ECS Lambda GreenGrass FPGA

    More to

    Come

    In 2017 HardwareP2

  • Amazon machine Learning

    スケーラビリティ: システムの拡張や運用を考える必要がない パッケージ化: テストデータ分割や評価手法,予測 API の提供などが組み込まれている

    29

    Amazon Redshiftアプリケーション

    Redshift上の取引データ を使ってAmazon MLで 不正取引の抽出を行い、 S3に出力される結果を Redshiftに戻して利用。

    2クラス分類 ロジスティック回帰

    多クラス分類 多項ロジスティック回帰

    回帰分析 線形回帰

  • Amazon EMR (Elastic MapReduce)

    フルマネージドな Hadoop を提供しており, クラスタの構築,構成変更,破棄まで管理可 能 HDFS ではなく S3 上のデータを直接読み書 きすることで,コンピュートとストレージを 分離可能 ワークロードに応じたクラスタを複数