Upload
william-tai-safe-spc
View
63
Download
0
Embed Size (px)
Citation preview
William TaiAug 26, 2016
60 分鐘學會用 Big Data 爬天氣資訊 來想明天該買什麼菜
WELL… THE PURPOSE MAY BE…
1. 協助 Idea 的發想發展
2. 協助 Idea 的執行 (Prototyping)
WELL… THE PURPOSE MAY BE…
1. 協助 Idea 的發想發展
2. 協助 Idea 的執行 (Prototyping)
3. Share My Learned/Learning Interests
WELL… THE PURPOSE MAY BE…
1. 協助 Idea 的發想發展
2. 協助 Idea 的執行 (Prototyping)
3. Share My YOUR Learned/Learning Interests
WHO I AM …1. William Tai2. PLS Partner Integration Team
• Integration• Marketplace• API Management
3. Interests in Technology• AWS/Docker• Spark/Machine Learning
AGENDA
1. Big Data 是什麼 ? 業界遇到什麼問題 , 都拿 Big Data 來做些什麼 ?2. Web Crawler 101 - 單機作業 (Python/Java/R) - 單機上開發 Spark - 透過 Spark Cluster 進行平行運算3. 基本概念 - Map and Reduce - 讀 Spark 時 , 常會碰到這個字 : "Lambda" function - Spark 官方文件4. 還有其他那些正經用途
BIG DATA 是什麼 ? 業界遇到什麼問題 , 都拿 BIG DATA 來做些什麼 ?
http://www.iis.sinica.edu.tw/~swc/talk/data_science_overview.html
http://www.ibmbigdatahub.com/infographic/four-vs-big-data
http://www.bnext.com.tw/article/view/id/35807
150 × 141 - zh.wikipedia.org
http://www.iis.sinica.edu.tw/~swc/talk/data_science_overview.html
https://www-935.ibm.com/services/multimedia/use_of_big_data.pdf
I THINK IT IS ABOUT THE POWER OF…
分散式儲存系統 分散式運算叢集
http://www.slideshare.net/chaoyu0513/hadoop-con-2015-hadoop-enables-enterprise-data-lake
Hadoop con 2015 hadoop enables enterprise data lake
http://fredbigdata.blogspot.tw/2013/06/big-data-lifecycle.html
USE CASES
http://www.iis.sinica.edu.tw/~swc/talk/data_science_overview.html
http://www.iis.sinica.edu.tw/~swc/talk/data_science_overview.html
https://www.youtube.com/watch?v=yym4DGfZDt8
WHAT IS SPARK?
https://weidongzhou.wordpress.com/2015/09/08/hadoop-hdfs-mapreduce-and-spark-on-big-data/
https://thestack.com/world/2015/04/29/faster-reporting-with-hadoop/
WEB CRAWLER 101天氣與菜價
農產品批發市場交易行情站
http://amis.afa.gov.tw/veg/VegProdDayTransInfo.aspx
1. 整理 /產出資料表列2. 運算與處理
http://opendata.cwb.gov.tw/index
http://funtop.tw/vegetable-price/
即時與長期菜價變化資訊
https://www.taiwanstat.com/realtime/vegetable-price/
THE STEPS WE JUST WALKED THROUGH
1. 整理 /產出資料表列2. 運算與處理3. 儲存結果4. 設計呈現
I THINK IT IS ABOUT THE POWER OF…
分散式儲存系統 分散式運算叢集
WEB CRAWLER 101COOKPAD
- Demo -
將 COOKPAD WEB CRAWLER 改為使用 SPARK
- 作業 -
HOW SPARK WORKSWORD COUNT
- Demo -
http://www.slideshare.net/chaoyu0513/etu-solution-day-2014-16-9-trackdimpalaandspark
基本概念- MAP AND REDUCE- LAMBDA FUNCTION
>>> REDUCE(LAMBDA X,Y: X+Y, [47,11,42,13]) 113
http://www.python-course.eu/lambda.php
WORD COUNT GOES TO AWS
- Demo -
Confidential © 2013 Trend Micro Inc. 47
Confidential © 2013 Trend Micro Inc. 48
SPARK 指令執行spark-submit --driver-memory 2g --verbose --master local --executor-memory 2048m --num-executors 1 WordCount_HarryPoter_S3.py
spark-submit --driver-memory 18g --verbose --master spark://52.197.150.195:7077 --executor-memory 4096m --num-executors 20 WordCount_HarryPoter_S3.py
其他正經用途
http://muyueh.com/seeall/
https://www.taiwanstat.com/statistics/
http://www.ithome.com.tw/guest-post/107900
RESOURCE
http://2016.hadoopcon.org/wp/?page_id=8
SPARK SUMMIT 2014 TRAINING ARCHIVE
http://spark-summit.org/2014/training
https://courses.edx.org/courses/course-v1:BerkeleyX+CS105x+1T2016/info