Upload
naoyuki-kataoka
View
726
Download
0
Embed Size (px)
Citation preview
Lightning-fastな ライトニングトーク
1分で自己紹介
片岡 直之 @katty0324
株式会社シロク
キッチンはありませんが、 オフィスに炊飯器があります。
Lightning-fastな ライトニングトーク
本日のテーマ
Lightning-Fast Cluster Computing
Sparkを使った事がある方?
(Sparkに興味ない人用) Lightning-fastな鯵のおろし方
鯵をまな板の上に載せます。 ぜいごを取り、胸ビレから頭を落とします。
腹に包丁を入れ、内臓を取ります。 背側から中骨まで包丁を入れ、続いて腹側からも包丁を入れます。
ツマを用意し、皿に盛り付けて、出来上がりです。
Apache Sparkとは?
分散処理エンジン
汎用で、SQL、ストリーム処理、機械学習などの応用が可能。
HDFS、Cassandra、HBase、S3など、さまざまなデータソースを元に分析が可能。
Java、Scala、PythonのAPIを備えていて、簡単に使える。
Hadoopより100倍くらい速い。
なぜSparkか?
汎用で高速
etc…
Distributed SQL Query Engine for Big Data
A Fast and General Engine for Large-Scale Data Processing.
処理 処理 ・・・
処理 処理 ・・・
試してみる
Sparkのパフォーマンスを 見てみたい。
・・・ EC2 EC2 EC2 EC2
spark-shell
・・・ EC2 EC2 EC2 EC2
spark-shell
rpmでMesosをインスール
Mesos Slaveの起動 (MasterのIPを指定)
Mesos Masterの起動
・・・ EC2 EC2 EC2 EC2
spark-shell
Sparkのインスール (パッケージを展開しているだけ)
Sparkの設定
・・・ EC2 EC2 EC2 EC2
spark-shell
spark-shellの起動 (マスターにMesosを指定)
分散の効果検証
1から10億までの総和を求める。
1から10億までの総和
宣伝
エンジニアの皆様、 株式会社シロクは、
エンジニアを求めています!
キッチンはありませんが、 オフィスに炊飯器があります。