62
ビッグデータアナリティックス (2014年度) 中村 哲 NAIST 知能コミュニケーション研究室 鈴木 優 NAIST 多元ビッグデータプロジェクト 金谷 重彦 NAIST 計算機システムズ生物学研究室 松井くにお NIFTY 株式会社

ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータアナリティックス (2014年度)

中村 哲 NAIST 知能コミュニケーション研究室

鈴木 優 NAIST 多元ビッグデータプロジェクト

金谷 重彦 NAIST 計算機システムズ生物学研究室

松井くにお NIFTY 株式会社

Page 2: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

o ビールとおむつ

「米国の大手スーパーマーケット・チェーンで販売データを分

析した結果、顧客はおむつとビールを一緒に買う傾向があるこ

とが分かった。調査の結果、子供のいる家庭では母親はかさば

る紙おむつを買うように父親に頼み、店に来た父親はついでに

缶ビールを購入していた。そこでこの2つを並べて陳列したとこ

ろ、売り上げが上昇した」

2014/10/3 Satoshi NAKAMURA@AHC,NAIST 2

Page 3: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータアナリティクス

o ビッグデータとはなんだろう?

o 大きいってどのぐらい?

o どんなデータのことなの?

o なにが研究として新しいの?

o なにがすごいの?

o じゃあ、どうやればいいのか教えてよ。

©Satoshi Nakamura, NAIST, all right reserved. 3

Page 4: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

本講義の構成

第1回 10月3日(金) 中 村 ビッグデータ解析概論

第2回 10月10日(金) 松 井 テキストマイニングとソーシャルメディアアナリシス技術

第3回 10月17日(金) 岩 爪 大規模Web情報処理と小演習

第4回 10月24日(金) 松 井 ソー シャルメディアの実データ解析と演習

第5回 10月31日(金) 鈴木 Hadoop による大規模データ処理

第6回 11月7日(金) 金 谷 健康維持のためのオミックス・プラットフォーム「バイオ・ビッグデータに挑む」

第7回 11月14日(金) 鈴木 Hadoop による大規模データ処理演習

第8回 11月21日(金) 金 谷 健康維持のためのオミックス・プラットフォーム演習

©Satoshi Nakamura, NAIST, all right reserved. 4

Page 5: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

単位の取り方

o 各講義の出席、演習、レポート

o 最終回のレポート を合計して、成績を出します。

©Satoshi Nakamura, NAIST, all right reserved. 5

Page 6: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

進め方

o グループにわかれて演習を行う

o グループ分けは2回目から

o 研究室でグループをつくって良い (相談、作業がしやすいように)

o グループは必ずしも固定しない

©Satoshi Nakamura, NAIST, all right reserved. 6

Page 7: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータアナリティクス2013

昨年度は演習の結果の一部を、

o ニフティフォーラムシンポジウムにて発表

o 情報社会学会にて発表

しました。

©Satoshi Nakamura, NAIST, all right reserved. 7

Page 8: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

本講義の構成

第1回 10月3日(金) 中 村 ビッグデータ解析概論

第2回 10月10日(金) 松 井 テキストマイニングとソーシャルメディアアナリシス技術

第3回 10月17日(金) 岩 爪 大規模Web情報処理と小演習

第4回 10月24日(金) 松 井 ソー シャルメディアの実データ解析と演習

第5回 10月31日(金) 鈴木 Hadoop による大規模データ処理

第6回 11月7日(金) 金 谷 健康維持のためのオミックス・プラットフォーム「バイオ・ビッグデータに挑む」

第7回 11月14日(金) 鈴木 Hadoop による大規模データ処理演習

第8回 11月21日(金) 金 谷 健康維持のためのオミックス・プラットフォーム演習

©Satoshi Nakamura, NAIST, all right reserved. 8

Page 9: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータアナリシス 2, 4: テキストマイニングとソーシャルメディアアナリシス技術

松井 くにお(NIFTY株式会社)

o 10月10日 o 分析とは

o なぜビックデータか

o ニフティフォーラムの紹介 o 今のコミュニティとの違い

o 全体、フォーマット、処理

o 今までの分析結果

o Rを使って分析してみよう o 宿題(テーマ課題、自由課題)

o 10月24日 o 自由課題の発表

o 発表5分 コメント5分 ×6チーム

o 総括1(発表に関して)

o 総括2(トピック)

©Satoshi Nakamura, NAIST, all right reserved. 9

Page 10: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータアナリシス 3: 大規模Web情報処理 岩爪 道昭(情報通信研究機構)

o Webは、今や我々の生活に欠くことの出来ない経済・社会インフラとなっており、実世界の写し鏡として、日々莫大な情報が流通している。本講義では、最も身近なビッグデータの一つとして、大規模なWeb情報を利活用するために不可欠な基盤技術とその応用について、具体的な研究開発事例を交えながら概説する。

o 主なトピック(予定)

• 導入:ビッグデータとしてのWeb

• 大規模Webクローリング

分散並列クローリング

• 大規模Web解析のための基盤技術

大規模Webアーカイブのためのデータストア、大規模リンク解析

• ビッグデータとしてのオープンデータ

オープン・リンクド・データ

• 大規模Web情報処理を支える計算機基盤の構築と運用 等

©Satoshi Nakamura, NAIST, all right reserved. 10

Page 11: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータアナリティクス 5, 7: Hadoop による大規模データ処理

o 担当: 鈴木 優 (NAIST)

o 概要: 大量のデータを分散処理する方法として,Hadoop を活用する方法について探る.実際に Twitter などのデータを分析することによって,新しい関係性の発見を体験する.

o 進め方: o 10/31

o Hadoop の解説.分析事例の紹介.分析対象データの紹介

o 分析テーマの設定(チーム単位)

o 11/14 o 分析プログラム実行・評価(チーム単位)

o 分析結果・感想の共有(チーム単位)

Page 12: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータアナリシス 6, 8: 健康維持のためのオミックス・プラットフォーム

「バイオ・ビッグデータに挑む」

金谷 重彦 奈良先端科学技術大学院大学・情報科学研究科・計算システムズ生物学

12

[0]バイオインフォマティクス、

ネットワークバイオロジー、ビッグデータバイオロジー、

[1]KNApSAcK: 生物種-代謝物関係データベース

[2]配合生薬(機能性食品)とヒトの効能の関係

[3]生活習慣病 予防データベース(栄養学、医学、薬膳…)

[4]料理の構築原理:雑煮とレトルトカレーの食材配合

[5]代謝物-活性データベース

[6]今後の課題 http://kanaya.naist.jp/KNApSAcK_Family/

Page 13: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータアナリティクス

o ビッグデータとはなんだろう?

o 大きいってどのぐらい?

o どんなデータのことなの?

o なにが研究として新しいの?

o なにがすごいの?

o じゃあ、どうやればいいのか教えてよ。

©Satoshi Nakamura, NAIST, all right reserved. 13

Page 14: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータとは-①

©Satoshi Nakamura, NAIST, all right reserved. 14 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

E-Science データ DNA, 病気、

気象、宇宙観測、 分子配列 等

Page 15: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータとは-②

©Satoshi Nakamura, NAIST, all right reserved. 15 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 16: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータとは-③

©Satoshi Nakamura, NAIST, all right reserved. 16 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 17: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

どのぐらいの大きさか

©Satoshi Nakamura, NAIST, all right reserved. 17 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 18: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

Web Size

©Satoshi Nakamura, NAIST, all right reserved. 18

Page 19: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

センサーの進化

©Satoshi Nakamura, NAIST, all right reserved. 19 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 20: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

なぜ今必要なのか①

©Satoshi Nakamura, NAIST, all right reserved. 20 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 21: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

参考本

©Satoshi Nakamura, NAIST, all right reserved. 21

Page 22: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

参考本

©Satoshi Nakamura, NAIST, all right reserved. 22

Page 23: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

なぜ今必要なのか

©Satoshi Nakamura, NAIST, all right reserved. 23 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 24: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータ処理の構成技術①

©Satoshi Nakamura, NAIST, all right reserved. 24 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 25: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータ処理の構成技術②

©Satoshi Nakamura, NAIST, all right reserved. 25 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 26: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータ処理の構成技術③

©Satoshi Nakamura, NAIST, all right reserved. 26

センサーデータ Blogs, E-mail Web Data Docs, PDFs Images/Videos

高速ネットワーク, データ、アクセス

クローリング、フィルタリング

データセンタ NoSQL, Hbase, Hive

大規模分散フレームワーク Hadoop, Map Reduce

大規模Webアプリケーション、HTML5

メタデータ設計

スケジューリング

開発言語、SDK

大規模プロジェクトマネジメント、PMBOK

ネットワーク・データ, セキュリティ

非構造化・ストリームデータ処理 分散OS,ファイル、並列プログラミング 翻訳、意味解析, 知識獲得構造化

評判、信頼性分析

テキスト、画像、音声 超大規模 パターン認識、機械学習

データマイニング, Linked Data, Deep QA

マルチレイヤオーバーレイネットワーク

サイバーセキュリティ, プライバシー保護技術

メディア情報処理系研究課題

コンピュータサイエンス系研究課題

プログラマ 科学者 コンサルタント ビジネスユーザ 一般ユーザ

アプリケーション例

検索/QA レコメンデーション ナビゲーション

知識獲得・抽出 関連分析 信憑性分析

Page 27: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

海外の動向

©Satoshi Nakamura, NAIST, all right reserved. 27 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 28: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

NITRD

The NITRD Program provides a framework in which many Federal agencies come together to coordinate their networking and information technology (IT) research and development (R&D) efforts.

The NITRD Program has its focus on the following research areas:

o Big Data (BD)

o Cyber Security and Information Assurance (CSIA)

o Health Information Technology Research and Development (Health IT R&D)

o Human Computer Interaction and Information Management (HCI&IM)

o High Confidence Software and Systems (HCSS)

o High End Computing (HEC)

o Large Scale Networking (LSN)

o Software Design and Productivity (SDP)

o Social, Economic, and Workforce Implications of IT and IT Workforce Development (SEW)

o Wireless Spectrum Research and Development (WSRD)

©Satoshi Nakamura, NAIST, all right reserved. 28

Page 29: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

社会的課題:人材の不足

©Satoshi Nakamura, NAIST, all right reserved. 29 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 30: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

言語の役割①: 多元データの関連づけ

©Satoshi Nakamura, NAIST, all right reserved. 30

実物1

実物2

情報1 日本語

情報2

写真 動画 発話

情報3 新聞

情報4

情報5

名前、説明、 ブログ文、 感想発話、 写真、動画

実物、商品

テキストタグ の付与

テキスト タグ

テキスト タグ

テキスト タグ

テキスト タグ

テキスト タグ

テキスト タグ

情報1’ 英語

データ、サービス提供 モデル (SaaS) E-Commerce サービス

言語 処理

Page 31: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビジネス分析手法の変遷

o ビッグデータ ⇒ ビジネスへの波及 o 金融工学、マーケティング

o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析

o 1980年から90年代 o 購入履歴データを利用して購買行動を分析

o RFM分析

o 1990年から現代 o インターネットで取得できる顧客情報とサイト内の行動を分析

©Satoshi Nakamura, NAIST, all right reserved. 31

Page 32: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

RFM分析

o RFM分析は顧客のこれまでの購買行動・購買履歴から、優良顧客の抽出などを行う顧客分析手法のひとつ。

o 企業は自社の顧客データベースおよび購入履歴を対象に、前回の購入からどれだけ時間が経っているか、これまでに何回購入したか、その人が顧客となってからいくら使ったかを基準にして分類する。

o 具体的には以下の3つの観点から指標化し、顧客を分類する。 o R(Recency:最終購買日)

o 直近でいつ買ったか

o F(Frequency:購買頻度)

o どのくらいの頻度で買っているか

o M(Monetary:累計購買金額)

o これまでにいくら使っているか

©Satoshi Nakamura, NAIST, all right reserved. 32

Page 33: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

マーケットバスケット分析

o トランザクション(取引)を分析して、同時に購入される商品の組み合わせの分析を行う。

o アソシエーション分析

o アソシエーションルール「おむつ(X)⇒ビール(Y)」

o 信頼度 = 条件節 𝑋 と結論 𝑌 をともに含むトランザクション数前提𝑋を含むトランザクション数

o 支持度 = 条件 𝑋 と結論 𝑌 を含むトランザクション数全トランザクション数

⇒ 支持度が高く、信頼度が高い関係をみつける

o アプリオリアルゴリズム o 高速に関係を見つけるアルゴリズム

2014/10/3 Satoshi NAKAMURA@AHC,NAIST 33

Page 34: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

センサーデータの分析

o スマートフォン;地理情報、センサー情報、行動データ、 facebook, twitter, 顧客データ解析

o スマート家電;

o ウェアラブルコンピュータ; 健康管理、AR

o 故障検出;運用中のデータ解析、航空機エンジン、 HEMS(Home Energy Management System)

©Satoshi Nakamura, NAIST, all right reserved. 34

Page 35: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

データの種類

① 表形式データ

② トランザクション形式データ

o POSデータ、リレーショナルデータ

③ テキスト(自然言語文)

o 社内電子文書、メール、Web、Twitter

④ 系列データ

o 時間的、空間的連続データ。センシングデータ、音声、画像など

o これら単独形式か、統合形式か

2014/10/3 Satoshi NAKAMURA@AHC,NAIST 35

Page 36: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

データマイニングのプロセス

o CRISP-DM DaimlerChrysler, NCR, SPSS, Consortium

o SEMMA SAS社 Sample, Explore, Modify, Model, Assess

o KDD Knowledge Discovery in Databases

©Satoshi Nakamura, NAIST, all right reserved. 36

Page 37: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

データマイニングのプロセス

o CRISP-DM Cross Industry Standard Process for Data Mining

① Business Understanding

② Data Understanding

③ Data Preparation

④ Modeling

⑤ Evaluation

⑥ Deployment

©Satoshi Nakamura, NAIST, all right reserved. 37

Page 38: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

データマイニングシステム

2014/10/3 Satoshi NAKAMURA@AHC,NAIST 38

データベース

観測データ

座標、音声、画像…

インタフェース部

視覚化

データマイニング

推論

知識ベース、

Wiki- pedia

Page 39: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

Data Preparation

o データ準備で必要な作業

o データの種類の規定

o データの正規化

o 欠損値の検査、操作、除去

o 外れ値の扱い

©Satoshi Nakamura, NAIST, all right reserved. 39

Page 40: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

データマイニング技術

o クラスタリングシステム

o 分類システム、パターン認識システム

o 従属性判定システム o アソシエーション分析、相関分析

o 回帰システム

o 検定技術

o 可視化システム

2014/10/3 Satoshi NAKAMURA@AHC,NAIST 40

Page 41: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

データサイエンティストリテラシー

o データ分析ソフトウェア

o Excel, R

o BI tools (SAS Enterprise Miner, IBM Cognos, Oracle Business Analytics, SAP Business Objects, Microsoft SQL, …)

o データの取得

o データベースから取得 (MySQLなどの構造化データ、非構造化データ)

o Web から取得 (APIの利用、Webページスクレイピング)

o CSV ファイルからの取得

©Satoshi Nakamura, NAIST, all right reserved. 41

Page 42: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータインフラ

o データベース

o RDBMS(Relational Database Management System)

o NoSQL (Not only SQL), Key Value Store

o データベースシステム(分散計算)

o Hadoop; Google がオリジン

o Dynamo; Amazon

o Casandra; Facebook

o MongoDB; 10gen.com

o VoltDB; M.Stonebraker, PostgreSQL

o Voldemort; LinkedIn

©Satoshi Nakamura, NAIST, all right reserved. 42

Page 43: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

Rでデータ解析

o R言語; オープンソース

o データ取得

o 統計解析 o 基本統計量、検定

o 多変量解析;主成分分析、多次元尺度構成法

o 回帰モデル;重回帰、ロジスティック回帰

o 機械学習;SVM,…

o データの可視化 o 棒グラフ、円グラフ、レーダーチャート…

©Satoshi Nakamura, NAIST, all right reserved. 43

Page 44: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

データサイエンティスト協会

o データサイエンティスト協会(2013年5月設立)

o データサイエンティストのスキル標準(DSSS)について

©Satoshi Nakamura, NAIST, all right reserved. 44

Page 45: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

データサイエンティストのスキル

o ハードスキル

o Data Understanding, Data Preparation o RDBMS, SQL, Hadoop, JAVA, HDFS, MapReduce, Hive, Linux

o Modeling, Evaluation o 統計解析、機械学習、R, Python, Perl, GUI

o ソフトスキル

o Bussiness Understanding, Data Understanding o 関係者へのヒアリング、質問力、理解力、傾聴力

o Deployment o 情報伝達力、説明力、説得力、プロジェクト推進力

©Satoshi Nakamura, NAIST, all right reserved. 45

Page 46: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

参考本

©Satoshi Nakamura, NAIST, all right reserved. 46

Page 47: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

データマイニングに必要な10のアルゴリズム

① C4.5

② K-means アルゴリズム

③ サポートベクターマシン

④ アプリオリアルゴリズム

⑤ EMアルゴリズム

⑥ ページランク

⑦ アダブースト

⑧ K-近傍分類

⑨ ナイーブベイズ

⑩ CART

よく勉強しておきましょう。

©Satoshi Nakamura, NAIST, all right reserved. 47

Page 48: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

決定木

©Satoshi Nakamura, NAIST, all right reserved. 48

Page 49: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

K-means

©Satoshi Nakamura, NAIST, all right reserved. 49

Page 50: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

SVM

©Satoshi Nakamura, NAIST, all right reserved. 50

Page 51: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

EM

©Satoshi Nakamura, NAIST, all right reserved. 51

Page 52: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

参考本

©Satoshi Nakamura, NAIST, all right reserved. 52

Page 53: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

分析とサービス

o サービス

o より早く、より簡便なユーザビリティ

o 分析

o より詳細にログをとりたい

o 両者は対立する。。。。

©Satoshi Nakamura, NAIST, all right reserved. 53

Page 54: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

データサイエンスの成功条件

o KKD と KDD o KDD: Knowledge Discovery in Databases o KKD: 勘と経験と度胸 o 両者を統合する!

o 統計的な正確さよりビジネスの成功を

o 共変関係と因果関係を見極める

o 人的ナレッジを活用する

o データ品質の検証

o データの蓄積システムを準備する

©Satoshi Nakamura, NAIST, all right reserved. 54

Page 55: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

参考本

©Satoshi Nakamura, NAIST, all right reserved. 55

Page 56: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

多元ビッグデータ解析に基づく 知の創出研究拠点事業

情報科学研究科(主担当)

バイオサイエンス研究科

物質創成科学研究科

Page 57: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

政策との関連 • 第4期科学技術基本計画: 「我が国の産業競争力の強化」、「研究情報基盤の整備」

• 平成24年10月総合科学技術会議 『ビッグデータによる新産業・イノベーションの創出に向けた基盤整備』を選定

①多元ビッグデータ解析に基づく知の創出研究 全研究科を横串に取纏めを行う拠点リーダ(PI)、研究・教育アドミニストレータ、産学アドミニストレータを配置

②ビッグデータアナリティックス教育の充実 新たに、研究科横断、産業界との連携教育プログラムを設置 (2013年度から「ビッグデータアナリティックス」を産業界と共同で情報科学研究科で開始)

多元ビッグデータ解析技術・人材育成 • 国際情報収集力 • 情報分析力 • 迅速な研究展開力、変革力

実社会とリンクした研究教育!

処理技術 • 情報収集 • 分析、統合 • 多言語翻訳 • 可視化 • セキュリティ • 計算基盤 • ネットワーク

生活社会情報 データ

情報科学研究科

物質情報 データ

物質創成科学研究科

産業界協働

実利用者、産

業界、サービスプロバイダ

新たな知の創出技術

ビッグデータ 解析技術、技術者、研究者

ビッグデータ 関連新ビジネス

ビッグデータ解析研究・教育

実験サービス

技術移転

講義演習 共同研究

成果

サービス

実データ

バイオ情報 データ

バイオサイエンス研究科

人材

新たな知の創出技術の新展開 • How型,Why型知識自動抽出

• 因果関係抽出 • 知識構造抽出 • 予測,推論,質問応答

NAIST多元ビッグデータ解析に基づく知の創出研究センターの設置を目指す

社会とリンクして研究、技術を持続的に成長させるループ

研究アドミニストレータ

産学アドミニストレータ

教育アドミニストレータ

奈良先端大では平成19年度から研究科間の垣根を超えた融合

領域の研究に取り組んでおり(次世代融合領域研究推進プロジェ

クト)、研究科の垣根を越えた研究実施体制は整っている。

社会 実装

拠点リーダー(知の融合)

奈良先端大にしかない日本有数の研究実績

実 施 体 制 3研究科のデータ(ビッグデータ)を拠点リーダ(PI)を通じて統合的に研究、新たな知を創造し、それを大学内のみならず、産業界をはじめとする社会に還元し、社会とリンクして研究、技術を持続的に成長させるループを構築し、実社会とリンクした研究教育体制を築く。

大学の変革 • 全学で共通の課題に取り組むダイナミックな体制構築

本事業は研究は当然のことながら、大学や社会の機能強化にも貢献

この体制で取り組んだ結果

実社会とリンクした研究・教育

多元ビッグデータ解析に基づく知の創出研究拠点事業

2014/10/3 57

Page 58: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ビッグデータ解析による新たな知の創出

知見

知見

高速,広帯域ネットワーク

ビッグデータ

データ データ

統計 解析

研究

• 統計解析技術の高度化に力点 • 具体的研究対象と解析研究が乖離 • 成長的なループが脆弱

知見

知見

高速,広帯域ネットワーク

ビッグデータ

データ データ

HOW型知識 WHY型知識 情報統合 推論,予測

統計 解析

新たな研究ステージへ

研究 バイオ情報,物質情報,生活社会情報

• 知の創出の研究を目的とし,バイオ、物質、情報の研究を新たなステージに。例えば, • 「個」を対象にした新たな生命科学,物質科学,情報科学への展開.種レベルから個々の細胞レベルの個体差,個人差の研究を実施,個人のデータ,状況に合わせて,その個人に最適な多元の専門知識や推論・予測知識の提供

• 未知化学物質の予測,合成経路予測,代謝ネットワーク上の位置の予測 • 実データのフィードバックによる研究の成長、データの成長を実現するループを構築

今までのビッグデータ解析研究 NAISTのビッグデータ解析による 新たな知の創出研究

現在のビッグデータ研究

新たな知の創出の研究

2014/10/3 Satoshi NAKAMURA@AHC,NAIST 58

Page 59: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

センサーデータ

Blogs, E-mail

Web Data

Docs, PDFs

Images/ Videos

高速ネットワーク データ、アクセス

クローリング、フィルタリング

データセンタ NoSQL, Hbase,

Hive

大規模分散フレームワーク

Hadoop, Map Reduce

大規模Webアプリケーション、HTML5

メタデータ設計

スケジューリング

開発言語、SDK

大規模プロジェクトマネジメント、PMBOK

ネットワーク・データ セキュリティ

非構造化・ストリームデータ処理

分散OS,ファイル、 並列プログラミング

翻訳、意味解析 知識獲得構造化

評判、信頼性分析

テキスト、画像、音声 超大規模

パターン認識、機械学習

データマイニング Linked Data, 質問応答

マルチレイヤオーバーレイネットワーク

サイバーセキュリティ

プライバシー保護技術

メディア情報処理系研究課題

コンピュータサイエンス系研究課題

プログラマ 科学者 コンサルタント ビジネスユーザ

一般ユーザ

アプリケーション

質問応答, 検索 レコメンデーション ナビゲーション

知識獲得・抽出 関連分析 信憑性分析

多元ビッグデータ解析システム

生体関連物質 機能構造要素

異性体・化学反応 生体関連物質, 構造機能相関

物性・構造 グラフマイニング

化合物精密3D構造 超分子複合体 合成法予測

物質情報: 環境,エネルギー

問題

化学式 1次元

新規 機能性 材料

環境適合性材料 開発

物質情報

Web, blog, twitter, chat

対話データ 多言語Text

動画、youtube

生活、社会情報: ライフ、イノベー

ション基盤

テキスト、音声,音響 1次元

社会、経済、生活に関する新たな知識の収集,発見,構造化,分析,翻訳,変換,検索,推論,予測、可視化、

質問応答 技術開発

生活社会情報

ゲノム多様性

転写情報 発現情報

タンパク質精密3D構造 超分子複合体

1次元 genomes

バイオ情報 生体情報 医療、食料、生命

問題

ゲノム設計 細胞設計 新規機能性材料探索

3次元 Metabolome Interactome

静止画 写真

三次元インタラクション、モーション

三次元構造、ビジョン 3次元 3体関係

2次元 2体関係

2次元 2体関係

3次元 3体関係

代謝ネットワーク 遺伝的相互作用

2次元 Transcriptome

Proteome

2014/10/3 Satoshi NAKAMURA@AHC,NAIST 59

Page 60: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

成長的ループにより産学連携

2014/10/3 Satoshi NAKAMURA@AHC NAIST 60

多元ビッグデータ解析と新たな知の創出の研究と教育

実世界 データ蓄積

実利用者 実アプリケーション

サービス公開 データベース公開

性能向上 新サービス公開

• 利用者の実使用詳細ログ • 利用者の評判,リクエスト

増加

増加

ネットワーク型 サービス

• 新たなサイエンスデータに関する知見 • 新たな特性,分析法のレポート

• フィードバック • 実ユーザ、実世界のデータの大規模な蓄積 • 持続的に性能改善を行うループ • 実ユーザの要望による迅速な新技術研究

• 社会還元 (産学アドミニストレータ) • ネットワーク型のオープンな試験サービス、データ公開による世界レベルのプレゼンス

• 完成度の高い技術、データの技術移転 • 学生主導の新サービス開発と起業の促進

• 教育 (教育アドミニストレータ) • 社会のニーズにリンクした研究開発による実学教育(Nifty, NEC)

ネットワーク型成長的ループの構築による、 • 実社会にリンクした異分野融合研究開発、教育 • リアルタイムで世界に向けたトライアルサービス、データ公開

産学アドミニストレータ 研究・教育アドミニストレータ

データ増殖

最初から実アプリケーションを想定し社会にリンク,成長的に研究,データ蓄積

Page 61: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

最後に

o “重要なことは、正しい答えを見つけることではなく、正しい問いを見つけることである”- ドラッカー

©Satoshi Nakamura, NAIST, all right reserved. 61

Page 62: ビッグデータアナリティックス - NAIST...ビッグデータアナリティクス oビッグデータとはなんだろう? o大きいってどのぐらい? oどんなデータのことなの?

ドラッカーは…

©Satoshi Nakamura, NAIST, all right reserved. 62