初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜

初めての SparkStreaming~Kafka+SparkStreaming の紹介 ~

2015.09.09 R&D Team: tanaka.yuichi

自己紹介とか

金融系・組み込み系・コミュニティサービス・ゲーム・広告等の各システムを経てDMM へ。DMM.com ラボにおいて、検索システムの刷新、レコメンドエンジンの新規開発など、基盤技術の開発を担当しております。サーバーサイド、フロントエンド、ミドルウェア、インフラと領域問わず、提案から構築・実装まで幅広くやらせてもらっています。その他 OSS の contributor 等もやっております。

株式会社 DMM.com ラボCTO 室

こんなのやったりしてます

リアルタイムなトレンド To アイテムのレコメンド

メニュー

• SparkStreaming の概要• Kafka の概要• DMM での構成サンプル• ちょっとだけコード• パフォーマンスの話と困りごと・ハマりどころ

今日話そうと思ってる事

SparkCore についての説明

Cluster Manager

Data Source

Stream

Cassandra

SparkDStream の説明

RDDs のまとまりを DStream として扱います

RDD と似た関数を持っていて、下記のような Stream データをn 秒で分けてバッチ処理をする仕組み

SparkStreaming の Input について

Basic Source

SocketTextStream(Tcp)

FileStream(HDFS,S3)

Advanced Source

Twitter

Kinesis

今日は Kafka+Streaming の話

Kafka の簡単な紹介

Apache Kafka

Pull 型のキューイングシステム• 高速• スケーラブル• 耐久性• 分散システム

Group2

Kafka の簡単な紹介

TopicA#partition0

TopicA#partition1

TopicA#partition2

Consumer1#group1

Consumer2#group1

Consumer3#group2

Group1

BrokersConsumers

DMM で何をやってるのか

余談・蛇足・閑話休題

DMM × 行動解析Σ( ⌓꒪ ꒪ ) え“！！

人にされて嫌な事を人にしたらダメってばっちゃが言ってた

DMM の SparkStreaming 周辺の図概要

ちょっとだけコード (Kafka の Stream 作成部分）object ActivitySummary{ def main(args: Array[String]){

val conf = new SparkConf().setAppName("ActivitySummary") val ssc = new StreamingContext(conf,Seconds(5))

val kafkaParams = Map[String,String](“metadata.broker.list” -> “172.27.xxx.xx:9092, ・・・ ") val kafkaStream = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParams,Set("raw_tracking"))

ちょっとだけコード ( 集計処理の抜粋）

// 中間データから PV を数えるよ！ val pv = middle_data .filter(_._1.contains("_pv_")) .map(x => x._1.substring(0,x._1.lastIndexOf("_"))) .countByValue()

//pv の移動平均用 val window_pv = middle_data .filter(_._1.contains("_pv_")) .map(x => "window_" + x._1.substring(0,x._1.lastIndexOf("_"))) .countByValueAndWindow(Seconds(60),Seconds(5))

// 中間データから uu の重複排除 var uu = middle_data .filter(_._1.contains("_uu_")) .map(x => x._1) .transform(rdd => rdd.distinct()) .map(x => x.substring(0,x.lastIndexOf("_"))) .countByValue()

ちょっとだけコード (Streaming からの書き出し抜粋）class KafkaProducer private(brokerList:String){ val props:Properties = new Properties() props.put("metadata.broker.list",brokerList) props.put("serializer.class", "kafka.serializer.StringEncoder") props.put("request.required.acks", "1") val config:ProducerConfig = new ProducerConfig(props) val producer:Producer[String,String] = new Producer[String,String](config) def send(topicName:String,msg:String){ val data:KeyedMessage[String,String] = new KeyedMessage[String,String](topicName,msg) producer.send(data) } def close(){}}object KafkaProducer{ private val kProducer = new KafkaProducer(“172.27.100.14:9092, ・・・ ") def getInstance():KafkaProducer ={ kProducer } def apply():KafkaProducer ={ getInstance }}

パフォーマンスの話

そもそも SparkStreaming のパフォーマンスってどう見るの？

パフォーマンスの話

そもそも SparkStreaming のパフォーマンスってどう見るの？

困った話

Spark1.3 で kafka の directStream 使うと ReceiverStatistics が出ない（ 1.4 で直ってる？）

MaxRatePerPartition の設定がし辛い

Kafka+Streaming のパフォーマンスで詰まった話

spark-submit コマンドで Streaming の jar を投げる際、２つの executor が作成されます。

Driver

Executor

Kafka#partition0

Kafka#partition1

Kafka#partition2

Kafka#partition3

Kafka#partition4

--executor-cores 1 # 各 Executor に割り当てる Core 数--num-executors 2 #Executor 自体の数

対応例

Driver

Executor

Kafka#partition0

Kafka#partition1

Kafka#partition2

Kafka#partition3

Kafka#partition4

--executor-cores 1 # 各 Executor に割り当てる Core 数--num-executors 5 #Executor 自体の数

Executor

そもそもパフォーマンスを見ようと思って困った話CDH の YARN アプリケーション画面

SparkStreamingのアプリ

Spark のアプリ

そもそもパフォーマンスを見ようと思って困った話CDH の YARN アプリケーション画面（チャート）

色々なチャートが見れる1 つの job にどれだけ時間がかかったか？ Streaming アプリ

通常の Spark アプリ

以上2015.09.09

R&D Team: tanaka.yuichi

初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜

Technology

Handling Data Flows of Streaming Internet of Things Datauu.diva-portal.org/smash/get/diva2:956406/FULLTEXT01.pdf• Apache Spark Streaming, Version 1.6.0 • Apache Storm, Version

Spark Streaming: Hands-on Session - uniroma2.it · Apache Spark • Fast and general-purpose engine for large -scale data processing – Not a modified version of Hadoop – The leading

Spark SQL, Spark Streaming - cvut.cz · Spark SQL a DataFrames (DataSets) › Rozšíření k tradičnímu RDD přístupu › Datová struktura DataFrame = RDD se sloupci – obdoba

Lab 3: Introduction to Spark Streaminghy562/labs20/Lab6-Spark...Outline Big Stream Analysis Streaming & Real Time Processing Streaming Systems λ vs k What is Spark Streaming Core

Apache Spark: Untersuchung der Möglichkeiten zur ...Spark+Masterthesis... · Apache Spark: Untersuchung der Möglichkeiten zur verteilten Datenverarbeitung und Analyse von Streaming

Is spark streaming based on reactive streams?

ビッグじゃなくても使えるSpark Streaming

Spark Streaming - University of California, Berkeleyampcamp.berkeley.edu/wp-content/uploads/2013/02/large...Spark Spark Streaming batches)of)Xseconds) live)datastream) processed)results)!

Real-Time Data Pipelines with Kafka, Spark, and Operational Databases

Kafka spark - cassandra

A >R4K>Ö+ /Ñ Û Cœº动车缉查布控大数据平台介绍.pdf · ORACLE X86 500 EJ 1000 Kafka Spark Streaming HBase/HDFS Map/ Reduce OracleäE

Strem処理(Spark Streaming + Kinesis)とOffline処理(Hive)の統合

Big Data Technologien - BICCnet...Prof. Dr. Jens Albrecht Big Data 30 Streaming Frameworks Storm Flink Spark Streaming Delivery Guarantees at least once exactly once exactly once Latency

HPBigData2015 PSTL kafka spark vertica

Spark streamingを使用したtwitter解析によるレコメンドサービス例

Centre de Calcul de l’Institut National de Physique ...} Flink like SPARK Batch, streaming, …} SPARK New stream features SQL can be run on streams (Bullet) Checkpoints improve

Sisteme Distribuite - Laborator 13mike.tuiasi.ro/labsd13.pdf · 2020. 5. 18. · Apache Kafka şi Apache Spark 3 Spark SQL Spark SQL este un modul al framework-ului Spark pentru procesarea

Datastax Cassandra + Spark Streaming

Extending Spark Streaming to Support Complex Event Processing

Spark Streaming + Amazon Kinesis