20160416 Azure Data Lakeのはまりどころ

Preview:

Citation preview

Azure Data Lakeのはまりどころ

2016/04/16

Global Azure Boot Camp

大田 一希

自己紹介

• 名前:大田 一希(かずき)

• Twitter:@okazuki

• 犬派猫派:犬派

• 肩書?:Microsoft MVP for Windows Development

• Blog:かずきのBlog@hatenahttp://blog.okazuki.jp

• OSS:ReactivePropertyhttps://github.com/runceel/ReactiveProperty

お約束事項

• 記載の内容は個人の見解であり、所属する企業を代表するものではありません。

Data Lake Store

• Azureのなんでも入るデータストア

• エクスプローラライクな構造でデータを持てる

• 画像もテキストもバイナリもなんでも入る

• 素敵!魔法の入れ物!

Data Lake Analytics

• Data Lake Storeに対してU-SQLというSQLとC#が混ざったような言語で分析ができる

• 大量ファイルを一括で処理できる

• ビックデータ分析に向いてそう

• 素敵!こんなの待ってた!

じゃぁ使ってみようか

case1

• ちょっとCSV置いてU-SQLで分析してみようかな

case1

('ω'乂)<ダメー

case1

• ヘッダー付きCSVはU-SQLで読み込めない…

• 最近Stream AnalyticsからData Lake Storeへ出力可能になったがヘッダーつきCSVを出力してくれるという…

case2

• SHIFT_JIS見れるじゃん?分析してみようか。

case2

('ω'乂)<ダメー

case2

• SHIFT_JISはU-SQLで読み込めない…

• UTF-8にしましょう

case3

• 気を取り直してビックデータ分析だ!ちょっと列数の多いデータを読み込もう。

case2

('ω';)<…

case3

• 列の数だけEXTRACT句で列挙しないといけない…(300列あるとそれだけで300行)• @src = EXTRACT

column1 string,column2 string,…column299 string,column300 stringFROM “hoge/fuga/piyo.csv”USING Extractors.Csv();

つらい

case4

• UTF-8だし手頃な大きさのCSVだしU-SQL書くぞ!

case4

('ω'乂)<ダメー

case4

• パスに日本語名があるとU-SQLでエラーになる

まとめ

まとめ

• 色々とはまりどころのある奴ですが、はまると出来る子です※ただし1クエリに数分かかる

• 上手に使って幸せなData Lakeライフを!

Recommended