『アジャイルデータサイエンス』２章データ

アジャイルデータサイエンス

２章データ2014/05/27

第2回「データ解析のための統計モデリング⼊⾨」読書会@who_you_me

お前誰よ@who_you_me株式会社ハウテレビジョン所属 (2014/04〜)

Webエンジニアになったと思ったら名刺に「エンジニア」としか書いてない⾒習いスクラムマスターCakePHPでサービス作ってる会社でひとりPythonを書いてるchefのレシピ書くのがダルいのでdockerに置き換えたいついでにdocker上⼿く使ってイケてる開発環境つくりたい

１章のおさらいデータサイエンスの世界でもアジャイルに開発したい！そのためには、各種ツール群をうまく活⽤しよう⾞輪の再発明はしない巨⼈の肩に乗る

２章の内容本書で扱うデータメールデータ

データの保存SQL or NoSQL

分析の視点

はじまりはじまり〜

本書で扱うデータメールデータ

⾝近ほどほどの容量

エンロンの公開アーカイブが有名だよね

http://www.enronemail.com/

ペタバイトのスケールで使われているのと同じツール群を、⼿元のマシンで

使ってみるスモールスタートスケールアップ

データの特徴半構造データ

厳密には定義されていない構造をもち，その中にテキストなどの⾮構造化データを含んでいる．例えば，XMLデータなどは，全体は⽊構造のタグ構造をもつが，そのタグの中⾝は⾮構造化データであるテキストである．

http://ibisforest.org/index.php?半構造データ

メールXMLHTMLそこまで厳密じゃないけど、タグとか改⾏を⽬印に構造化されている

半構造データの保存SQLは以下のような場合に向いているデータが始めから構造化されているどのような処理をするか最初から決まっていて、変更がない

現実のデータは構造化されておらず、汚いどんな処理が必要か決まっていない

そんな場合はNOSQL

とはいえ、半構造なんだから、それなりに構造化しておきたいよね

シリアライズ⽣のレコードにスキーマで構造を当てはめ、複数の⾔語、ツールからアクセスできるようにする処理

ThriftProtocol buffersAvro

アジャイルなので、すぐにリリースして継続的に改善のサイクルを回すなので、スキーマも単純なものからスタートし、随時追加していくそのため、⽣のデータは専⽤のフィールドに残しておいたほうが良い

データパイプライン半構造データはこんな流れで処理する

SQLは宣⾔的⾔語「こんなデータをください！」と要求する

NoSQLなので、⼿続き的に記述する「こんな⾵に処理してください！」と要求する

データに対する視点どんな視点でデータを調べ、マイニングするべきか

ネットワーク

詳しく知りたい⼈は昔勉強会やった時の資料を⾒てね^^

http://d.hatena.ne.jp/fuyumi3/20130723/1374582748

時系列

⾃然⾔語処理

確率

以上

次回予告

３章アジャイルなツール群

PythonAvroPigMongoDBElastichsearch (sを⼤⽂字にすると怒られる)FlaskBootstrapD3.js

これらをセットアップして使ってみよう

１章で終わるわけないだろ！！！

おしまい

『アジャイルデータサイエンス』２章データ

Technology

9 章：データの品質

第２章なぜ発達心理学を学ぶのか？

２章：成層圏の成り立ちとしての放射について

データ構造とアルゴリズム論第２章　配列（構造）を使った処理

Osg サンフランシスコ２

2-2. 点群データから高さデータを集計する - MAPCOM2章 3章 4章 5章 6章 7章ポイントクラウドと闘う 1章ポイントクラウドを乗り越える大量画像

Puisi lama－２

第２章言語プログラミングの言語

統計データから見た自殺の現状第２版

Windows Azure AppFabric 第２章

アドベンチャー日本語　２２課ー３　単語

輪読　第２章イノベーションのタイプと活用法

ホーエル『初等統計学』第８章４節～６節　仮説の検定（２）

『VectorScript実践セミナー』第２回【図形データの操作方法】

アルゴリズムイントロダクション第２章主にソートに関して

物理化学　第２章　１　 Ver. 1.0

１０章　短期の経済分析 ( ２ )

活動指針（第２期）添付資料データ集

２．データのまとめ方

章抽象データ型とオブジェクト指向群－3 編－4 章（，

『アジャイルデータサイエンス』２章 データ

『アジャイルデータサイエンス』２章データ