12
Screen scrappaus Datan hankinta ja käyttö 06.06.22 Johan Laitinen

Datajournalismi scrappaus

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Datajournalismi scrappaus

Screen scrappausDatan hankinta ja käyttö

10.04.23 Johan Laitinen

Page 2: Datajournalismi scrappaus

Lähtökohta

Optimaalinen lähtökohta: Mitä dataa halutaan? Data avointa

Yleinen lähtökohta: Mitä dataa saadaan? Osa datasta avointa Omat scrappaukset

10.04.23 Johan Laitinen

Page 3: Datajournalismi scrappaus

Prosessi

Kolme vaihetta Hankinta (import)

Aineiston tallentaminen Käsittely (processing)

Aineiston muokkaaminen käytettävään muotoon Datan louhinta

Tulos (output) Valikoidun datan tallennus

10.04.23 Johan Laitinen

Page 4: Datajournalismi scrappaus

Datan hankinta

Saako dataa valmiina jostain? Valmiit rajapinnat Tehtävä itse - Eduskunnan äänestysdata – biomi

http://biomi.org/eduskunta/eduskunta.html Kuka takaa toimivuuden?

Onko datan tulo jatkuvaa? Vuosittainen tilinpäätös vs. Kunnan

päätöksentekodata vs. blogitekstit

10.04.23 Johan Laitinen

Page 5: Datajournalismi scrappaus

Datan prosessointi

Mitä dataa haetaan?

Missä muodossa data on? Rakenteellinen / rakenteeton

Mihin muotoon data pitäisi saada? XML, JSON, CSV?

10.04.23 Johan Laitinen

Page 6: Datajournalismi scrappaus

Case: Tampereen kaupunki

10.04.23 Johan Laitinen

Page 7: Datajournalismi scrappaus

Case: Tampereen kaupunki

wget --convert-links --post-data='kirjaamo=&text=Keskusareena&pvm1=&pvm2=&ktu=&djn=&dvu=’ http://193.111.93.11/ktwebbin/dbisa.dll/ktwebscr/epj_asil2.htm

Curlissa ei –convert-links –vipua --> liitteet hankala saada

10.04.23 Johan Laitinen

Page 8: Datajournalismi scrappaus

Case Tampereen kaupunki

Otetaan mielenkiintoiset datat talteen

10.04.23 Johan Laitinen

Page 9: Datajournalismi scrappaus

Case Tampereen kaupunki

10.04.23http://demo.avanto.in

Johan Laitinen

Page 10: Datajournalismi scrappaus

Työkaluja

Datan hankinta Wget / curl php ScraperWiki

Datan käsittely Antiword – pdf/doc txt Regex – datan etsintään, valikointiin http://kex.venko.net/perusta/ - sanojen perusmuotoistaminen

(Tuomas Salo)

Datan varastointi Node.js

Prosessin automatisointi / cron

10.04.23 Johan Laitinen

Page 11: Datajournalismi scrappaus

Hyvä muistaa

Skriptien tulisi kuormittaa palvelimia mahdollisimman vähän (vältetään tahaton DoS)

Miten skripti hoitaa ongelmatilanteet?

Merkistö: välilyönnit, viivat, ääkköset voivat aiheuttaa ongelmia

Verifioidaan data scrappaukseen jälkeen! Etenkin jatkuvassa ajossa olevien skriptien tapauksessa

10.04.23 Johan Laitinen

Page 12: Datajournalismi scrappaus

Kysymyksiä tai kommentteja?

Kiitoksia mielenkiinnosta!

10.04.23 Johan Laitinen