32
アジャイルデータサイエン 2章 データ 2014/05/27 2回「データ解析のための統計モデリング⼊⾨」読書会 @who_you_me

『アジャイルデータサイエンス』2章 データ

Embed Size (px)

Citation preview

Page 1: 『アジャイルデータサイエンス』2章 データ

アジャイルデータサイエンス

2章 データ2014/05/27

第2回「データ解析のための統計モデリング⼊⾨」読書会@who_you_me

Page 2: 『アジャイルデータサイエンス』2章 データ

お前誰よ@who_you_me株式会社ハウテレビジョン所属 (2014/04〜)

Webエンジニアになったと思ったら名刺に「エンジニア」としか書いてない⾒習いスクラムマスターCakePHPでサービス作ってる会社でひとりPythonを書いてるchefのレシピ書くのがダルいのでdockerに置き換えたいついでにdocker上⼿く使ってイケてる開発環境つくりたい

Page 3: 『アジャイルデータサイエンス』2章 データ

1章のおさらいデータサイエンスの世界でもアジャイルに開発したい!そのためには、各種ツール群をうまく活⽤しよう⾞輪の再発明はしない巨⼈の肩に乗る

Page 4: 『アジャイルデータサイエンス』2章 データ

2章の内容本書で扱うデータメールデータ

データの保存SQL or NoSQL

分析の視点

Page 5: 『アジャイルデータサイエンス』2章 データ

はじまりはじまり〜

Page 6: 『アジャイルデータサイエンス』2章 データ

本書で扱うデータメールデータ

⾝近ほどほどの容量

エンロンの公開アーカイブが有名だよね

http://www.enronemail.com/

Page 7: 『アジャイルデータサイエンス』2章 データ

ペタバイトのスケールで使われているのと同じツール群を、⼿元のマシンで

使ってみるスモールスタートスケールアップ

Page 8: 『アジャイルデータサイエンス』2章 データ

データの特徴半構造データ

厳密には定義されていない構造をもち,その中にテキストなどの⾮構造化データを含んでいる.例えば,XMLデータなどは,全体は⽊構造のタグ構造をもつが,そのタグの中⾝は⾮構造化データであるテキストである.

http://ibisforest.org/index.php?半構造データ

Page 9: 『アジャイルデータサイエンス』2章 データ

メールXMLHTMLそこまで厳密じゃないけど、タグとか改⾏を⽬印に構造化されている

Page 10: 『アジャイルデータサイエンス』2章 データ

半構造データの保存SQLは以下のような場合に向いているデータが始めから構造化されているどのような処理をするか最初から決まっていて、変更がない

Page 11: 『アジャイルデータサイエンス』2章 データ

現実のデータは構造化されておらず、汚いどんな処理が必要か決まっていない

Page 12: 『アジャイルデータサイエンス』2章 データ

そんな場合はNOSQL

Page 13: 『アジャイルデータサイエンス』2章 データ

とはいえ、半構造なんだから、それなりに構造化しておきたいよね

Page 14: 『アジャイルデータサイエンス』2章 データ

シリアライズ⽣のレコードにスキーマで構造を当てはめ、複数の⾔語、ツールからアクセスできるようにする処理

ThriftProtocol buffersAvro

Page 15: 『アジャイルデータサイエンス』2章 データ

アジャイルなので、すぐにリリースして継続的に改善のサイクルを回すなので、スキーマも単純なものからスタートし、随時追加していくそのため、⽣のデータは専⽤のフィールドに残しておいたほうが良い

Page 16: 『アジャイルデータサイエンス』2章 データ

データパイプライン半構造データはこんな流れで処理する

Page 17: 『アジャイルデータサイエンス』2章 データ
Page 18: 『アジャイルデータサイエンス』2章 データ
Page 19: 『アジャイルデータサイエンス』2章 データ

SQLは宣⾔的⾔語「こんなデータをください!」と要求する

NoSQLなので、⼿続き的に記述する「こんな⾵に処理してください!」と要求する

Page 20: 『アジャイルデータサイエンス』2章 データ

データに対する視点どんな視点でデータを調べ、マイニングするべきか

Page 21: 『アジャイルデータサイエンス』2章 データ

ネットワーク

Page 22: 『アジャイルデータサイエンス』2章 データ

詳しく知りたい⼈は昔勉強会やった時の資料を⾒てね^^

http://d.hatena.ne.jp/fuyumi3/20130723/1374582748

Page 23: 『アジャイルデータサイエンス』2章 データ

時系列

Page 24: 『アジャイルデータサイエンス』2章 データ

⾃然⾔語処理

Page 25: 『アジャイルデータサイエンス』2章 データ

確率

Page 26: 『アジャイルデータサイエンス』2章 データ

以上

Page 27: 『アジャイルデータサイエンス』2章 データ

次回予告

Page 28: 『アジャイルデータサイエンス』2章 データ

3章 アジャイルなツール群

Page 29: 『アジャイルデータサイエンス』2章 データ

PythonAvroPigMongoDBElastichsearch (sを⼤⽂字にすると怒られる)FlaskBootstrapD3.js

Page 30: 『アジャイルデータサイエンス』2章 データ

これらをセットアップして使ってみよう

Page 31: 『アジャイルデータサイエンス』2章 データ

1章で終わるわけないだろ!!!

Page 32: 『アジャイルデータサイエンス』2章 データ

おしまい