Spark Streaming + Amazon Kinesis

1. Spark Streaming + Amazon Kinesis @imai_factory

2. Spark Streaming Spark KafkaKinesis RDDDStream FRP

3. Conclusion KinesisConsumer Spark Streaming SQL Kinesis

4. RDD @t1 RDD @t2 RDD @t3 DStream Time RDD @t4 RDD @t5 DStream

5. Programming with DStream val conf = SparkConf()! val ssc = StreamingContext(conf, Seconds(1))! ! val lines = lines.ssc.socketTextStream(localhost,9999)! val words = lines.flatMap(_.split( ))! ! val pairs = words.map(word => (word, 1))! val count = pairs.reduceByKey(_ + _)! count.print()! ! ssc.satrt()! ssc.awaitTermination()!

9. DStream Flume Kafka Kinesis Twitter File Socket Data sources

10. Amazon Kinesis / Kafka

11. Amazon Kinesis Amazon Kinesis Datastream Store,Shue&Sort Consumer apps Consumer apps Consumer apps Process

12. Spark Streaming +Amazon Kinesis Amazon Kinesis Datastream Store,Shue&Sort Process

13. Spark Streaming +Amazon Kinesis KinesisSpark Kinesis +SparkSQL KinesisConsumer

14. Building Amazon Kinesis Consumer app Amazon Kinesis Datastream Store,Shue&Sort API, SDK KCL AWS Lambda Process SparkKinesisStormkinesis-spout KCL StormSpark

15. Amazon Kinesis Datastream Store,Shue&Sort Process Run SparkSQL on Kinesis Stream SQL

16. Run SparkSQL on Kinesis Stream import org.apache.spark.streaming.kinesis.KinesisUtils! ! val kinesisStreams = (0 until numStreams).map { i =>! KinesisUtils.createStream(! ssc, streamName, endpointUrl, kinesisCheckpointInterval,! InitialPositionInStream.LATEST, StorageLevel.MEMORY_ONLY! )! }! val unionStreams = ssc.union(kinesisStreams)! val words = unionStreams.flatMap(...)!

17. import org.apache.spark.streaming.kinesis.KinesisUtils! ! val kinesisStreams = (0 until numStreams).map { i =>! KinesisUtils.createStream(! ssc, streamName, endpointUrl, kinesisCheckpointInterval,! InitialPositionInStream.LATEST, StorageLevel.MEMORY_ONLY! )! }! ! val unionStreams = ssc.union(kinesisStreams)! ! val words = unionStreams.flatMap(...)! Run SparkSQL on Kinesis Stream Dstream DstreamUNION DstreamTransformation

18. words.foreachRDD(foreachFunc = (rdd: RDD[String], time: Time) => {! ! val sqlContext = SQLContextSingleton.getInstance(rdd.sparkContext)! ! sqlContext.read.json(rdd).registerTempTable("words")! ! val wordCountsDataFrame =! sqlContext.sql(select level, count(*) as total ! from words! group by level)! ! println(s"========= $time =========")! wordCountsDataFrame.show()! ! })! DStream Run SparkSQL on Kinesis Stream JSON

19. Conclusion KinesisConsumer Spark Streaming

20. PluggableInputDStream KinesisReceiver KinesisClientLibrary Worker thread KinesisUtils.createStream(! ssc, streamName, endpointUrl, kinesisCheckpointInterval,! InitialPositionInStream.LATEST, StorageLevel.MEMORY_ONLY! )! DynamoDB Table Kinesis Stream Under the hood GetRecords Checkpoint

21. One more thing: Amazon EMR now supports Apache Spark! EMR Spark 2015/06/23 Spark1.3.1

22. One more thing: Amazon EMR now supports Apache Spark! Amazon Kinesis Amazon EMR +

Spark Streaming + Amazon Kinesis

Technology

Lambda Architecture with Spark, Spark Streaming, Kafka, Cassandra, Akka and Scala

深入浅出AWS 机器学习服务...EMR Apache Flink on EMR Spark Streaming on EMR Hadoop / Spark Streaming Analytics Tools Amazon Redshift Data Warehouse Amazon DynamoDB NoSQL Database

Tango Kinesis

Amazon Kinesis Video Streams - 開発者ガイド...Amazon Kinesis Video Streams 開発者ガイド Amazon Kinesis ビデオストリームとは? Amazon Kinesis ビデオストリーム

Is spark streaming based on reactive streams?

Spark Streaming - University of California, Berkeleyampcamp.berkeley.edu/wp-content/uploads/2013/02/large...Spark Spark Streaming batches)of)Xseconds) live)datastream) processed)results)!

Presentation Title Here - Amazon S3€¦ · Amazon S3 Data Lake Batch Analytics Amazon Kinesis Streams & Firehose Hadoop / Spark Amazon Redshift Data Warehouse Amazon DynamoDB & ElastiCache

Skalierbare Datenanalyse mit Apache Spark: Implementation ...edoc.sub.uni-hamburg.de/haw/volltexte/2015/3043/pdf/BA_Kirchner.pdf · Komponente (Spark Streaming Library) und einer

Amazon Kinesis Data Firehose€¦ · Amazon Kinesis Data Firehose Guía para desarrolladores Flujo de datos Para los destinos de Amazon Redshift, los datos de streaming se entregan

KX VaporSafekinesis.co.uk/wp-content/uploads/downloads/2013/05/KX...Kinesis Ltd kinesis.co.uk Kinesis Inc kinesis-usa.com Kinesis GmbH (formerly Abimed) kinesisgmbh.de Kinesis Australia

ビッグじゃなくても使えるSpark Streaming

Spark Streamingを活用したシステムの検証結果と設計時のノウハウ

Spark Streaming on AWS -S3からKinesisへ-

Revista Kinesis 59

Lab 3: Introduction to Spark Streaminghy562/labs20/Lab6-Spark...Outline Big Stream Analysis Streaming & Real Time Processing Streaming Systems λ vs k What is Spark Streaming Core

Big Data Technologien - BICCnet...Prof. Dr. Jens Albrecht Big Data 30 Streaming Frameworks Storm Flink Spark Streaming Delivery Guarantees at least once exactly once exactly once Latency

Extending Spark Streaming to Support Complex Event Processing

Spark Streaming の基本とスケールする時系列データ処理 - Spark Meetup December 2015/12/09

Catalogo Kinesis

Kinesis Video Streams - docs.aws.amazon.com · Using Kinesis Video Streams with WebRTC, you can easily build applications for live peer-to-peer media streaming, or real-time audio