MATLAB によるビッグデータ解析...2 ビッグデータ解析とその背景...

MATLAB®によるビッグデータ解析

MathWorks Japan

アプリケーションエンジニアリング部

アプリケーションエンジニア

吉田剛士

ビッグデータ解析とその背景増え続けるデータ量

ビッグデータとは

100TB ~ 10PB程度のデータ量

データが膨大になる理由

データソースの多様化と高性能化

スマートフォン位置情報監視カメラ検索情報 SNS

構造物センサー交通情報

ICカード情報金融情報買物履歴

ビッグデータ解析とその背景活用できる時代がやってきた

これまでは・・・

データをためてはいたけど

あきらめていた

これからは・・・

ためていたデータを使った解析を実施

アジェンダ

Hadoop® へのアクセス

MATLABによるデータ解析

拡張性と柔軟性を合わせ持つ開発環境

まとめ

Hadoop®とは分散処理を利用した大規模データ向けミドルウェア

Apache™ Project の１つで

– Hadoop Common

– Hadoop Distributed File System (HDFS™)

– Hadoop MapReduce

という３本柱から構成される

– Java™ がソフトウェアフレームワーク

– 複数ホストにまたがる分散ファイルシステム

Hadoop MapReduce

– HDFS上のデータに効率よくアクセスするためのフレームワーク

Hadoop®-Related Projects at Apache Javaを知らなくてもHDFSの利用可能！

HDFS™やMapReduceを応用した製品または補完製品

代表的なプロジェクト

Hive™ : Facebookによって開発されたデータウェアハウス

Pig™ : Yahoo!によって開発されたデータフロー言語および実行環境

HBase™ : GoogleのBigtableを参考にした列指向の分散データベース

Cassandra™ : Facebookによって開発された列指向の分散データベース

ZooKeeper™ : 分散アプリケーション向け高可用性協調サービス

HDFS™へのアクセス MATLABにデータインポート

連携方法 – ２つの選択肢

1. Java API + テキストファイルのインポート

2. JDBCドライバ

.txt Java

デモンストレーション Import data from Hive/HBase via JDBC driver

>> % Import data as table array

>> setdbprefs(‘DataReturnFormat’, ‘table’);

>> % Access to Hive

>> conn = database('default', ‘USERNAME', ‘PASSWORD', …

'org.apache.hive.jdbc.HiveDriver', 'jdbc:hive2://HOSTNAME:HIVE2_PORT');

>> curs = exec(conn, 'select * from HARTRAINDATA'); % Open cursor

>> curs = fetch(curs); % Import data into MATLAB workspace

>> RawData = curs.Data;

>> close(curs);

>> close(conn);

>> clear conn curs

>> whos RawData

Name Size Bytes Class Attributes

RawData 388432x54 167818570 table

※ Hbase – Phoenixの場合は conn = database('',’USERNAME',‘PASSWORD','com.salesforce.phoenix.jdbc.PhoenixDriver', ...

'jdbc:phoenix:HOSTNAME:ZOOKEEPER_PORT:/hbase');

Database Toolbox™

Table R2013bの新機能

特徴

– 変数名付データ

利点

– 変数名を使ってアクセス可能

– データが比較的コンパクト

Name Size Bytes Class

RawData 388432x54 2517039360 cell

>> RawData.time

8.3800

8.3900

8.4000

>> RawData

time actid heart_rate …

____ _____ __________ __

8.38 0 104 …

8.39 0 NaN …

Name Size Bytes Class

RawDataT 388432x54 167818570 table

アジェンダ

Hadoop へのアクセス

まとめ

デモンストレーション Physical Activity Recognition

体に取り付けたセンサーから得られる

データからの活動状態を把握

– 心拍数と３箇所に取り付けたセンサー情報

(温度、加速度(x,y,z)など17種類)から

1. 寝ている

2. 座っている

3. 立っている

という活動状態の分類を実施

– 活動状態との関係性を導き出す

t y x1 x2 x3 x4 x5 … x52

timestamp Activity ID Heart Rate

51 (= 3*17) Features y),,,( 5221 xxx f

課題データがあっても・・・

生データは前処理が必要

モデルを数式で表現することが困難

変数の数が多くても大事なのはその一部

-0.1 0 0.1 0.2 0.3 0.4 0.5 0.60

654321 ,,,,, xxxxxx nx…

取り込んだデータの確認生データはそのままでは使えない

使えないデータが無視できないほど含まれている

time actid heart_rate imu_and_

temperature imu_hand_3d_ acceleration2

imu_hand_3d_ acceleration3

8.38 0 104 30 2.37220 8.60070 …

8.39 0 NaN 30 2.18840 8.56560 …

8.40 0 NaN 30 2.37360 8.60110 …

: : : : : : …

1985.50 13 NaN 33.6250 -8.29240 3.62440 …

: : : : : : …

3143.31 18 106 34.5625 2.98428 8.00174 …

欠損値

異常値

Data Cleansing データを整えるテクニック

論理配列による高速なデータ抽出

– 論理配列とは、1 (true) / 0 (false) から配列

– 論理配列によるデータ抽出

– FIND関数を使うよりも30%程度高速

0.8147

0.9058

0.1270

0.9134

0.6324

>> x >= 0.7

>> x(x >= 0.7)

0.8147

0.9058

0.9134

様々な回帰・分類アルゴリズム試行錯誤を繰り返し普遍性の発見

Regression

Non-linear Reg. (GLM, Logistic)

Linear Regression Bagging /

Random Forest Boosting Neural Networks

Classification

Nearest Neighbor Discriminant

Analysis Naive Bayes

Support Vector Machines

Statistics Toolbox™

Neural Networks Toolbox™

Decision Tree

決定木「木」構造を用いた機械学習アルゴリズム

のが木構造

– AdaBoost

– Bagging (Bootstrap Aggregating)

– Random Forest

△: Branch

●: Leaf

△+●: Node

),,,( 21 nxxxfy f

変数が多い場合のモデル構築変数の選択

全ての変数が意味のあるデータとは限らない

– 相関の高い変数

– 分類に影響を与えない変数

変数選択の効果

– メモリの節約

– 計算パフォーマンスの向上

モデルの評価

Confusion Matrix

ROC 曲線と AUC

A B C D E F G

A 557 23 0 0 0 0 0

B 19 342 24 0 0 0 0

C 0 32 480 63 0 0 0

D 0 0 52 863 99 1 0

E 0 0 0 98 784 45 0

F 0 0 0 1 98 214 7

G 0 0 0 0 1 19 110

実際の分類

モデルによる分類

モデルではグループEに分類されたが

実際はグループFに属しているデータ

課題(再掲)

生データは前処理が必要

モデルを数式で表現することが困難

変数の数が多くても大事なのはその一部

-0.1 0 0.1 0.2 0.3 0.4 0.5 0.60

654321 ,,,,, xxxxxx nx…

MATLAB’s Solutions データに潜む普遍的ルールの発見

論理配列による高速なデータクレンジング

様々な機械学習アルゴリズムをサポート

学習結果から変数選択を行いモデルを軽量化

1x 2x 8x 19x 31x

アジェンダ

Hadoop へのアクセス

まとめ

解析に時間がかかるような場合は・・・ユーザフレンドリーな並列・分散プログラミング

12コアまでを用いた並列プログラミング

環境と関数群を提供

並列計算の初心者からMPIを使いこなす上級者向けの機能をサポート

MATLAB/Simulink®プロダクト・ファミリとの連携による並列計算機能

GPGPU へのシームレスなアクセス

Desktop Computer

Parallel Computing Toolbox™

１台で間に合わなければ・・・スケーラブルな並列・分散環境を提供

Computer Cluster

MATLAB Distributed Computing Server™

Head Node

Desktop Computer

Parallel Computing Toolbox™

アジェンダ

Hadoop® へのアクセス

まとめ

MATLABによるビッグデータ解析まとめ:バッチ解析編

HDFS™へのアクセス

– JDBC / Java API

– MATLAB Builder JA

Tips & Tricks

– テーブル配列

– データクレンジングの高速化

– PCT / MDCS によるスケールアウト

豊富な解析機能

– データ集約

– 回帰または分類モデルの構築

MATLABによるビッグデータ解析２つの流派

Batch Processing – ある程度のデータをためて処理する

対象データは大規模

処理に時間をかけてもよい

ポイントはデータストレージへのアクセス

Stream Processing – 次々生成されるデータを処理する

対象データは小規模

処理に時間はかけられない

ポイントは低遅延性

Batch Processing

Stream Processing

MATLAB によるビッグデータ解析...2 ビッグデータ解析とその背景...

Documents

ビッグデータ利活用入門 - BODIK...6 目標 1. ビッグデータの特徴ビッグデータ利活用で取り扱われるデータの特徴を、説明することができる

IoT時代のミッションクリティカルデータ連携セミナーiotシステムのデータ活用データを上げるデータをためるデータ分析異常検知

ビッグデータ利活用入門 - BODIK · 目次（ビッグデータ利活用入門） ... ビッグデータを支える技術ビッグデータ利活用を支えるictの進展や技術的なキ

流通業界におけるビッグデータの活用...2 流通とシステム No.170 2017．3流通業界におけるビッグデータの活用 IoTなどによって得られた膨大なデータ（ビッグデータ）で学習したAI

ビッグデータの活用に向けた組織のあり方•データマイニングコンテスト（カグル）などクラウドソーシングデータベースの強化 •データ化（Datafication)、データ量の増大（ビッグデータ）

HDInsight によるビッグデータソリューションの開発

ビッグデータのビジネス活用に関する規制改革要 …...データ利活用ビジネスについて（要望） 2 より厳格なデータ管理の実施を条件に、

ビッグデータ DATA LABS ビッグデータビジネスを変革する段階3：実用的な情報ビッグデータへの過程3 段階目の焦点は、コンテキスト内の情報をす

ビッグデータのライフサイクルに沿っ成長戦略を支える積極 …「Oracle Data Integrator（ODI） with Application Adaptor for Hadoop」は、データ連携ソフトであるODIの

ビッグデータ - deloitte.com · 2013/07 季刊企業リスク 84 3.ビッグデータの特性大容量のデータに対する分析ならば、従来からbi ツールのようなデータ分析ツールを利用した方法

単なるETLでは限界ビッグデータ活用の最初の難関「 … · 1 単なるetlでは限界ビッグデータ活用の最初の難関「データ統合」をどうする？

事業成果報告書 - it-college.ac.jp · ビッグデータの分析と活用～統計解析手法によるデータ分析入門～ ..... 131 ビッグデータの分析と活用～データマイニング基礎編～

ビッグデータ対応インターネットマーケティングタイトルデータ …msi.co.jp/nuopt/download/introduction/module/DWH2013_internetma… · ビッグデータ

HPCとビッグデータ・AIを融合するグリーン・クラ …HPCとビッグデータ・AIを融合するグリーン・クラウドスパコンTSUBAME3.0の概要 Overview

農業ビッグデータ活⽤によるロボティックグリーンハウスの …...農業ビッグデータ活によるロボティックグリーンハウスの実現 4.事業化の

プロパティグラフによる社会データにおける常識の …... プロパティグラフによる社会データにおける常識の考慮「ビッグデータからインテリジェンス作成」

IoT・ビッグデータ・AI等 - mhlw...ビッグデータ（big-data）：ICTの進展により生成・収集・蓄積等が可能・容易になる多種多量なデータのこと。

衛星データ ×AI によるビジネス活用によるビジネ …衛星データ×AIによるビジネス活用～衛星ビッグデータから生み出されるインサイト～

医療ビッグデータ・コンソーシアム政策提言 20161 医療ビッグデータ・コンソーシアム政策提言 2016 医療ビッグデータの抱える3つの課題と

ビッグデータ革命クラウドがコモデティ化する「奇跡」