14
輕輕鬆鬆寫網路爬蟲 鍾傑倫

輕輕鬆鬆用 Nodejs 寫網路爬蟲

  • Upload
    -

  • View
    2.100

  • Download
    0

Embed Size (px)

Citation preview

輕輕鬆鬆寫網路爬蟲

鍾傑倫

範例專案

• https://github.com/chungchiehlun/WebSpider

• site : express 與爬蟲程式寫成的網站服務

• spider : 爬蟲程式

攻略⽬目標

爬蟲三步驟

• 分析網⾴頁

• 開始寫爬蟲程式

• 解析爬到的內容

https://www.vanilla-air.com/reservation/ibe/ibe/booking

chrome developer tools

觀察瀏覽器(client)與 server 如何溝通

分析結論

• 需要拿到 cookie :

GET request 取得

• 需要送出完整版表單:

POST request 完整表單

認識 https.request

var https = require(‘https’)

Start Coding

解析資料

• 把爬到的資料存下來: fs

• 解析爬到的⽂文件: cheerio

快完成了

Finish !!

感謝您的聆聽

歡迎您⼀一起讓這專案變得更好