『アジャイルデータサイエンス』2章 データ

Preview:

Citation preview

アジャイルデータサイエンス

2章 データ2014/05/27

第2回「データ解析のための統計モデリング⼊⾨」読書会@who_you_me

お前誰よ@who_you_me株式会社ハウテレビジョン所属 (2014/04〜)

Webエンジニアになったと思ったら名刺に「エンジニア」としか書いてない⾒習いスクラムマスターCakePHPでサービス作ってる会社でひとりPythonを書いてるchefのレシピ書くのがダルいのでdockerに置き換えたいついでにdocker上⼿く使ってイケてる開発環境つくりたい

1章のおさらいデータサイエンスの世界でもアジャイルに開発したい!そのためには、各種ツール群をうまく活⽤しよう⾞輪の再発明はしない巨⼈の肩に乗る

2章の内容本書で扱うデータメールデータ

データの保存SQL or NoSQL

分析の視点

はじまりはじまり〜

本書で扱うデータメールデータ

⾝近ほどほどの容量

エンロンの公開アーカイブが有名だよね

http://www.enronemail.com/

ペタバイトのスケールで使われているのと同じツール群を、⼿元のマシンで

使ってみるスモールスタートスケールアップ

データの特徴半構造データ

厳密には定義されていない構造をもち,その中にテキストなどの⾮構造化データを含んでいる.例えば,XMLデータなどは,全体は⽊構造のタグ構造をもつが,そのタグの中⾝は⾮構造化データであるテキストである.

http://ibisforest.org/index.php?半構造データ

メールXMLHTMLそこまで厳密じゃないけど、タグとか改⾏を⽬印に構造化されている

半構造データの保存SQLは以下のような場合に向いているデータが始めから構造化されているどのような処理をするか最初から決まっていて、変更がない

現実のデータは構造化されておらず、汚いどんな処理が必要か決まっていない

そんな場合はNOSQL

とはいえ、半構造なんだから、それなりに構造化しておきたいよね

シリアライズ⽣のレコードにスキーマで構造を当てはめ、複数の⾔語、ツールからアクセスできるようにする処理

ThriftProtocol buffersAvro

アジャイルなので、すぐにリリースして継続的に改善のサイクルを回すなので、スキーマも単純なものからスタートし、随時追加していくそのため、⽣のデータは専⽤のフィールドに残しておいたほうが良い

データパイプライン半構造データはこんな流れで処理する

SQLは宣⾔的⾔語「こんなデータをください!」と要求する

NoSQLなので、⼿続き的に記述する「こんな⾵に処理してください!」と要求する

データに対する視点どんな視点でデータを調べ、マイニングするべきか

ネットワーク

詳しく知りたい⼈は昔勉強会やった時の資料を⾒てね^^

http://d.hatena.ne.jp/fuyumi3/20130723/1374582748

時系列

⾃然⾔語処理

確率

以上

次回予告

3章 アジャイルなツール群

PythonAvroPigMongoDBElastichsearch (sを⼤⽂字にすると怒られる)FlaskBootstrapD3.js

これらをセットアップして使ってみよう

1章で終わるわけないだろ!!!

おしまい