GDG İstanbul Şubat Etkinliği - Sunum

Web Crawling Web Scraping

cuneytykaya

cuneyt.yesilkaya

Cüneyt Yeşilkaya

......... 20102012

Agenda

● Web Crawling● Web Scraping● Web Crawling Tools● Demo (Crawler4j & Jsoup)● Crawling - Where to Use

Web Crawling

Browsing the World Wide Web in a methodical, automated manner or in an orderly fashion.

Web Scraping

Computer software technique of extracting information from websites.

Web Crawling Tools

Selecting Crawler ?

● Multi-Threaded Structure● Max Page to Fetch● Max Page Size● Max Depth to Crawl● Redundant Link Control● Politeness Time● Resumable● Well-Documented

Crawler4j

Yasser Ganjisaffar

Microsoft Bing & Microsoft Live Search

Demo - Crawler4j (1/3)

myCrawler.java myController.java

myCrawler.java

import edu.uci.ics.crawler4j.crawler.WebCrawler; public class myCrawler extends WebCrawler { @Override public boolean shouldVisit(WebURL url) { return url.getURL().startsWith("http://www.gdgistanbul.com"); } @Override public void visit(Page page) { String url = page.getWebURL().getURL(); }}

myController.java

int numberOfCrawlers = 4; CrawlConfig config = new CrawlConfig(); config.setPolitenessDelay(250); config.setMaxPagesToFetch(100); PageFetcher pageFetcher = new PageFetcher(config); RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher); CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer); controller.addSeed("http://www.gdgistanbul.com"); controller.start(myCrawler.class, numberOfCrawlers);

Demo - Jsoup (1/2)Jsoup : nice way to do HTML Parsing in Java

● scrape and parse HTML from a URL, file, or string● find and extract data, using DOM traversal or CSS selectors● manipulate the HTML elements, attributes, and text

Demo - Jsoup (2/2)Document doc = Jsoup.connect("http://en.wikipedia.org/").get();Elements newsHeadlines = doc.select("#mp-itn b a");

String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html);

Element content = doc.getElementById("content");Elements links = content.getElementsByTag("a");for (Element link : links) {

String linkHref = link.attr("href");String linkText = link.text();

}Elements links = doc.select("a[href]");Elements media = doc.select("[src]");

Where to Use

● Search Engines (GoogleBot)● Aggregators

○ Data aggregator○ News aggregator○ Review aggregator○ Search aggregator○ Social network aggregation○ Video aggregator

● Kaarun Product Collector

www.kaarun.com

All Friends

Products for each Facebook Like

cyesilkaya.wordpress.com & @cuneytykaya & tr.linkedin/cuneyt.yesilkaya

Teşekkürler...

GDG İstanbul Şubat Etkinliği - Sunum

Documents

FAALİYET RAPORLARI · Marka Şehir Bolu ve 5. ... Eğitimi Çalıştay ... 13 Şubat 2016 Dünya Radyo Günü Etkinliği ..... 118. 8 Kültürel İfadelerin Çeşitliliğinin Korunması

Avantajlı MIMAKI Günleri SDS Farkı İle · Avantajlı MIMAKI Günleri etkinliği, 23-27 Şubat tarihleri arasında SDS’nin İstanbul Anadolu Yakası’ndaki şubesinde ve 01-05

Computacion gdg

GDG Angular 2

GDG - Accessibility

ギャップキャリパ英文 180222BluetoothBOX.pdfGDG-4F-S1 GDG-3R-S1 GDG-F-S1 GDG-P-S2 GDG-4F-J1 Base Structure 4 Flat Points 3 Ball Points Flat Resin / Flat 4 Flat Points Arm

KOMPLIT GDG

Watch face gdg jf

GDG Bolivia (2013)

3D Printing - GDG

MongoDB GDG

GDG 10 Teknologi Kebumian

0LFURVRIW 7HDPV - download.microsoft.com...Úfþgtg gdg fþ @ g" ,fßfûfÿf¸ # g" ° fçföf¸ p1ßfþgtg gdg fþ ¡ sg" ° fçg fé g fïfÿ /²&gfåg fïgxgggvfÛg p1ßfþgtg gdg

Alternatif Bütünde Farklılık Etkinliği

ŞUBAT | 2019 · 1 Şubat Cuma 2 Şubat Cumartesi 3 Şubat Pazar

İlkizler Anaokulu · Web view2018/01/04 · NASREDDİN HOCA TUTUMLULUK SORUMLULUK KAVRAMLAR MÜZİK ETKİNLİĞİ OYUN ETKİNLİĞİ TÜRKÇE DİL ETKİNLİĞİ GECE-GÜNDÜZ ŞİŞMAN-ZAYIF

Gdg induco 2015

GDG Timisoara

GDG Aracaju: Introdução

GDG Women no GDG Summit Brasil 2014