27
Tilastokeskuksen big data -hankkeet Pasi Piela 19.11.2015, Big Data -seminaari

Tilastokeskuksen big data -hankkeet, Pasi Piela

Embed Size (px)

Citation preview

Tilastokeskuksen big data -hankkeet

Pasi Piela 19.11.2015, Big Data -seminaari

Sisältö

1. Määrittelyä

2. Iso data maailmalla: YK, Komissio, ESS, jäsenmaat

3. Iso data Tilastokeskuksessa

4. Ison datan toimintaympäristö

5. Aineistot

6. Projektit

7. Muita näkökulmia? Ison datan haasteet.

17.11.2015 Pasi Piela, VE2

Määrittelyä

- Jatkuvasti päivittyvä suuraineisto, jota täytyy pilkkoa pieneksi,

jotta sitä voi käsitellä ja visualisoida.

– Periaatteessa teknologisen kehityksen taso määrittää big

datan: mikä on pientä, mikä suurta.

– Iso data on helppo ymmärtää. Sitä ei voi sivuuttaa käsitteen

abstraktista olemuksesta huolimatta.

– Rekisteri ei ole big dataa, mutta olisiko kuitenkin

väestötilastojen tietovarasto (Herttua) Kiinassa big dataa?

• Joka tapauksessa sen käsittely vaatisi ison datan

teknologioita.

- yritysten ja kansalaisten elämän digitalisoitumisen tuloksena

syntyvää datamassaa

17.11.2015 Pasi Piela, VE3

Hallinnollisten aineistojen

käyttöönoton historiaa tuntevat

huomaavat kuitenkin yhtäläisyyksiä

haasteissa big dataankin.

Määrittelyä tilastotoimessa

- Tilastotoimen kannalta määritelmä on selkeä. Taksonomioita on

olemassa ja niitä on helppo laatia (ks. Tieto&trendit –artikkeli).

- Tilastokeskus on ottamassa omiin kyselyihinsä mukaan;

määritelmä TSK:n Termipankin mukainen

- Big datasta aggregoitu aineisto ei ole big dataa vai onko?

- Tilastotoimen kannalta iso data tarkoittaa luonnollisesti nopeutta.

- Toisaalta tämä hype motivoi meitä kohti uusia tietolähteitä

tuotantoa rikastamaan.

17.11.2015 Pasi Piela, VE4

Tavoitteet tilastotoimessa

Uusien, aiemmin käyttämättömien tietolähteiden implementoinnilla

pyritään:

- alentamaan tiedonhankinnan kustannuksia (suorantiedonkeruun

korvaaminen),

- parantamaan tilastojen laatua (esim. nopeutus tai kattavuus),

- mahdollistamaan uusien tilastojen tuotantoa,

- tuottamaan tilastotietoa täydentävää tietoa (esim.

kuluttajabarometrin vs. sosiaalisen median sentimenttimittarit),

- korvaamaan asetelmapohjaista tilastotuotantoa mallipohjaisella

tuotannolla (mallien kalibrointi).

Onko hype jo ohi?

– Ei todellakaan, ei tilastotoimessa.

17.11.2015 Pasi Piela, VE5

17.11.2015 Pasi Piela, VE6

Iso data maailmalla: YK

- agendalla Data Revolution

- YK:n työryhmä tulee keskittymään kolmeen pääkohtaan:

mobiilidata, sosiaalinen media sekä satelliittikuvannus ja

paikkatietodata.

- Tilastotoimelle tärkein UNECE:n Big Data Projects

– Irlannin tilastovirastoon luotu sandbox (hiekkalaatikko) big

data –aineistoille (tai käytännössä sen kaltaisille karsituille

aineistoille eri maista)

– http://www1.unece.org/stat/platform/display/bigdata/Big+Data+Inventory

– UNECE toimii yhteistyössä myös Eurostatin ja sitä kautta

Euroopan tilastojärjestelmän (ESS) kanssa.

17.11.2015 Pasi Piela, VE7

Iso data maailmalla: Komissio

- Päätahona: DG CNECT (Directorate-General Communications,

Networks, Content and Technology): strategiana Towards a

thriving data-driven economy

- Keskeinen mm. Liikenne ja viestintäministeriölle

– Kansallinen big data –strategia

– Tilastokeskus on mukana

- järjestää vuosittain European Data Forumin

– Big Open Linked Data.

– Yliopistot, yksityinen sektori ja julkinen sektori keskustelevat

– Tilastovirastot lähinnä loistaneet poissaolollaan

– Edellinen oli Luxemburgissa eilen

17.11.2015 Pasi Piela, VE8

Iso data maailmalla: Komissio

- Päätahona: DG RTD (Research and Innovation)

– Horizon 2020 –tutkimuksen puiteohjelma

– 80 miljardia euroa vuosille 2014-2020

– Ajankohtaista työohjelma 2016-2017

– Tilastotoimen kannalta relevantit haut:

• http://www.cros-portal.eu/content/horizon-2020

- Komission in-house tiedeosasto JRC (Joint Research Center)

touhuaa todellisten big datojen kimpussa, mutta on myös

tilastollisessa mielessä kiinnostunut isosta datasta.

- Näiden lisäksi monia muita tahoja ja Komission ulkopuolisia EU:n

toimielimiä, kuten Euroopan keskuspankki, jolla tilastotoimen

kannalta kiinnostavia projekteja.

17.11.2015 Pasi Piela, VE9

Iso data maailmalla: Euroopan

tilastojärjestelmä

- TK jäsenenä: ESS Task-force on Big Data in Official Statistics

- Tärkein julkaisu tähän mennessä: tiekartta ESS:lle (ESSC:n

hyväksymä)

– ESS Big Data Action Plan and Roadmap 1.0

- Keskeisenä pilottiprojektit ja rahoitus

– Framework Partnership Agreements (FPA) →Special Grant

Agreement (SGA)

– FPA:t eivät sido. Rahoitus SGA:n kautta. 1-2 SGA:ta per FPA

ja vain FPA:ssa mukana oleville.

17.11.2015 Pasi Piela, VE10

Iso data maailmalla: jäsenmaat

- Hollanti (viisi päätoimista big data –työläistä)

- Irlanti

- Slovenia

- Italia

- Britannia

- Viro (Tarton yliopisto)

17.11.2015 Pasi Piela, VE11

Iso data teemana Tilastokeskuksessa

- Lainsäädäntö: tiedonkeruuvaltuudet

- Kansainvälinen toiminta

- Kouluttaminen ja konsultointi

- Big data -työryhmä

- Big data Tilastokeskuksen omiin kyselyihin mukaan

- Sosiaalinen media: ajankäyttö, viestintä, aineistolähde

- Mobiiliteknologia

- Big Data Forum Finland, BiFF (TIEKE)

- Omat projektit

17.11.2015 Pasi Piela, VE12

17.11.2015 Pasi Piela, VE13

Ison datan toimintaympäristö

Tilastokes-kuksen big

data

YK ja UNECE (sekä EKP, OECD ym.)

Euroopan tilasto-

järjestelmä ESS

Internet

Teknologia-toimittajat ja palveluiden

tarjoajat

Yksityisen sektorin

tietovaranto-jen omistajat

Julkisen sektorin

tietovaranto-jen haltijat

VM

Julkishallinto ja kansalliset strategiat ja

verkostot

Valtori

Yliopistot

Taksonomia

1/2

17.11.2015 Pasi Piela14

No. Aineistolähde Aineiston tyyppi Tilastollinen soveltamisalue

1 Teleliikenne Mobiilidata Matkailutilastot

Väestötilastot

2 Internet Web-haut Työvoimatilastot

Muuttoliike

Verkkokaupat Hintatilastot

Yritysten verkkosivut Tietoyhteiskuntatilastot

Yritysrekisteri

Avoimet työpaikat verkossa Työllisyystilastot

Kiinteistöjen myynti-

ilmoitukset verkossa

Hintatilastot (asuntojen

hinnat)

Sosiaalinen media Kuluttajien luottamus

Komission Beyond GDP –

ohjelmaan liittyvä

hyvinvoinnin ja

onnellisuuden mittaaminen

Tietoyhteiskuntatilastot

3 Sensorit Liikenteen automaattiset

mittausasemat

Liikennetilastot

Kuljetustilastot,

tavaraliikennetilastot

Etäluettavat sähkömittarit Energiatilastot

Satelliittikuvat Maankäyttötilastot

Maataloustilastot

Ympäristötilastot

Laivojen automaattinen

tunnistusjärjestelmä (AIS)

Liikennetilastot

Päästötilastot

Taksonomia

2/24 Prosessin

generoima data

Lentoreitit Liikennetilastot

Päästötilastot

Kauppojen hintaskanneri- ja

myyntidata

Hintatilastot

Kulutustutkimus,

kotitalouksien kulutus

Taloudellinen transaktiodata Kulutustutkimus

5 Joukkouttaminen

(crowdsourcing)

Osallistava paikkatieto, VGI

(OpenStreetMap,

Wikimapia, Geowiki)

Maankäyttö

Yhteisölliset

valokuvakokoelmat, CPC

(Flickr, Instagram,

Panoramio)

17.11.2015 Pasi Piela15

Ison datan aineistot

- Etäluettavien sähkömittareiden keräämä data

– Fingridin datahub tulossa

- Internet-hinnat, web-hintatiedonkeruu (web-scraping)

- Kauppojen kanta-asiakasaineistot

- Kauppojen kassapääteaineistot

- Luottokorttien transaktiotiedot ja pankkien aineistot

- Now casting

- Sosiaalinen media (palveluntarjoajana Suomessa Futusome)

- Liikenteen sensoridata

- Mobiilidata

- Muut kansalliset aineistot

17.11.2015 Pasi Piela, VE16

ESSnet Big Data -projekti

Leader Participants

17.11.2015 Pasi Piela, VE17

Mobiilidata: soveltamisalueet

- Suomeen saapuvien ulkomaalaisten määrien, matkojen kestojen

ja matkakohteiden tilastointi

- Suomalaisten matkojen määrien, kestojen ja kohteiden

tilastoinnin laadun parantaminen

- Työssäkäynti ja pendelöinti: erityisesti Viron ja Suomen välillä

- Muita: esim. kausivaihtelut yö- ja päiväväestössä ym…

17.11.2015 Pasi Piela, VE18

Mobiilidatapilotti

17.11.2015 Pasi Piela, VE19

Työmatka-aikalaskennat

17.11.2015 Pasi Piela, VE20

Työmatka-aikalaskennat

Type Median Mean Q1 Q3 QCD

Linear (km) 6.10 13.43 2.08 15.40 0.76

Route (km) 8.91 17.04 3.13 20.40 0.73

Time (min.) 11.72 16.83 5.67 21.13 0.58

• Based on the travel time optimisation.

• Q1 = 25th percentile, Q3 = 75th percentile

• The means are of 0 – 200 km distances

• Deviation measure here:

• QCD = (Q3 – Q1) / (Q3 + Q1)

• Quartile coefficient of dispersion

Commuting time

Quartile coefficientof dispersion

0.50 - 0.67

0.68 - 0.78

0.79 - 0.85

0.86 - 0.90

0.91 - 0.96

Commuting time

Median in minutes

4.1 - 6.8

6.9 - 8.8

8.9 - 10.8

10.9 - 15.8

15.9 - 25.8

Commuting time for populations of the sub-regions

(LAU 1)

Commuting time

Median in minutes

4.1 - 6.8

6.9 - 8.8

8.9 -10.8

10.9 - 15.8

15.9 - 25.8

Commuting time

Median in minutes

4.1 - 6.8

6.9 - 8.8

8.9 -10.8

10.9 - 15.8

15.9 - 25.8

Commuting time by the Urban-rural classification

• Populations in Inner-urban areas (left) and in Rural areas close to

urban areas (right) by the sub-regions.

Matka-aika pyöräillen työpaikalle

pääkaupunkiseudulla

17.11.2015 Pasi Piela, VE25

Mediaani, min.

- 21

22 - 33

34 - 43

44 - 55

56 -

0 105 kilometriä

Ison datan –haasteet

- Uusi paradigman muutos (asetelmapohjaisesta mallipohjaiseen

lähestymistapaan)?

- Kaikki haluavat avointa tietoa, mutta entä open business data?

- Tuleeko datalle hintalappu? Kuinka pitkälle dataa voi saada

hyvällä yhteistyöllä?

- Lainsäädäntö: tilastolaki ja tietoyhteiskuntakaari

- ”Asennemuutos! Yritys ja erehdys sallittava. Kaiken ei tarvitse olla

valmista.” Big data voi olla väliaikaista ja epätarkkaa.

- Kansallinen big data –strategia: julkishallinnon yhteistyömuodot ja

strategia tiedonvallankumouksessa!

- Rahoituslähteet

17.11.2015 Pasi Piela, VE26

Muita näkökulmia?

- Tutustukaa Tieto&trendit Talous- ja hyvinvointikatsauksen

numeroon 2.

- Seuraavana: Hintatiedonkeruuprojekti – Tuukka Saranpää

Kiitos!

[email protected]

17.11.2015 Pasi Piela, VE27