2016 Ideathon Big Data Introduction

Preview:

Citation preview

William TaiAug 26, 2016

60 分鐘學會用 Big Data 爬天氣資訊 來想明天該買什麼菜

WELL… THE PURPOSE MAY BE…

1. 協助 Idea 的發想發展

2. 協助 Idea 的執行 (Prototyping)

WELL… THE PURPOSE MAY BE…

1. 協助 Idea 的發想發展

2. 協助 Idea 的執行 (Prototyping)

3. Share My Learned/Learning Interests

WELL… THE PURPOSE MAY BE…

1. 協助 Idea 的發想發展

2. 協助 Idea 的執行 (Prototyping)

3. Share My YOUR Learned/Learning Interests

WHO I AM …1. William Tai2. PLS Partner Integration Team

• Integration• Marketplace• API Management

3. Interests in Technology• AWS/Docker• Spark/Machine Learning

AGENDA

1. Big Data 是什麼 ? 業界遇到什麼問題 , 都拿 Big Data 來做些什麼 ?2. Web Crawler 101 - 單機作業 (Python/Java/R) - 單機上開發 Spark - 透過 Spark Cluster 進行平行運算3. 基本概念 - Map and Reduce - 讀 Spark 時 , 常會碰到這個字 : "Lambda" function - Spark 官方文件4. 還有其他那些正經用途

BIG DATA 是什麼 ? 業界遇到什麼問題 , 都拿 BIG DATA 來做些什麼 ?

http://www.iis.sinica.edu.tw/~swc/talk/data_science_overview.html

http://www.ibmbigdatahub.com/infographic/four-vs-big-data

http://www.iis.sinica.edu.tw/~swc/talk/data_science_overview.html

https://www-935.ibm.com/services/multimedia/use_of_big_data.pdf

I THINK IT IS ABOUT THE POWER OF…

分散式儲存系統 分散式運算叢集

http://www.slideshare.net/chaoyu0513/hadoop-con-2015-hadoop-enables-enterprise-data-lake

Hadoop con 2015 hadoop enables enterprise data lake

http://fredbigdata.blogspot.tw/2013/06/big-data-lifecycle.html

USE CASES

http://www.iis.sinica.edu.tw/~swc/talk/data_science_overview.html

http://www.iis.sinica.edu.tw/~swc/talk/data_science_overview.html

https://www.youtube.com/watch?v=yym4DGfZDt8

WHAT IS SPARK?

https://weidongzhou.wordpress.com/2015/09/08/hadoop-hdfs-mapreduce-and-spark-on-big-data/

https://thestack.com/world/2015/04/29/faster-reporting-with-hadoop/

WEB CRAWLER 101天氣與菜價

農產品批發市場交易行情站

http://amis.afa.gov.tw/veg/VegProdDayTransInfo.aspx

1. 整理 /產出資料表列2. 運算與處理

http://opendata.cwb.gov.tw/index

http://funtop.tw/vegetable-price/

即時與長期菜價變化資訊

https://www.taiwanstat.com/realtime/vegetable-price/

THE STEPS WE JUST WALKED THROUGH

1. 整理 /產出資料表列2. 運算與處理3. 儲存結果4. 設計呈現

I THINK IT IS ABOUT THE POWER OF…

分散式儲存系統 分散式運算叢集

WEB CRAWLER 101COOKPAD

- Demo -

將 COOKPAD WEB CRAWLER 改為使用 SPARK

- 作業 -

HOW SPARK WORKSWORD COUNT

- Demo -

http://www.slideshare.net/chaoyu0513/etu-solution-day-2014-16-9-trackdimpalaandspark

基本概念- MAP AND REDUCE- LAMBDA FUNCTION

>>> REDUCE(LAMBDA X,Y: X+Y, [47,11,42,13]) 113

http://www.python-course.eu/lambda.php

WORD COUNT GOES TO AWS

- Demo -

Confidential © 2013 Trend Micro Inc. 47

Confidential © 2013 Trend Micro Inc. 48

SPARK 指令執行spark-submit --driver-memory 2g  --verbose --master local --executor-memory 2048m --num-executors 1 WordCount_HarryPoter_S3.py

spark-submit --driver-memory 18g  --verbose --master spark://52.197.150.195:7077 --executor-memory 4096m --num-executors 20 WordCount_HarryPoter_S3.py

其他正經用途

http://muyueh.com/seeall/

https://www.taiwanstat.com/statistics/

http://www.ithome.com.tw/guest-post/107900

RESOURCE

http://2016.hadoopcon.org/wp/?page_id=8

SPARK SUMMIT 2014 TRAINING ARCHIVE

http://spark-summit.org/2014/training

https://courses.edx.org/courses/course-v1:BerkeleyX+CS105x+1T2016/info

Recommended