15
Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta DRAFT 0.9

Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

Embed Size (px)

DESCRIPTION

Antti Poikolan tekemä selvitys HRI-hankkeelle. Aiheena julkishallinnon avoimen datan kysyntä ja tarjonta. Toimenpidesuositukset HRI-hankkeelle tiedon avaamiseksi.

Citation preview

Page 1: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta

DRAFT 0.9

Page 2: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

Sisällys

Table of ContentsSelvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta.......................................................1

Sisällys.............................................................................................................................................2Johdanto...........................................................................................................................................31. Datan avaamisen strategiat..........................................................................................................4

Todistusaineisto...........................................................................................................................4Kyselyt ja käyttäjäpalaute...........................................................................................................4Matalalla roikkuvat hedelmät......................................................................................................5Korkea investoinnin tuottoaste....................................................................................................6Tietojärjestelmien luonnollinen uusiutuminen............................................................................6Hallinnon sisäinen datan käyttö..................................................................................................6

2. Avoin data kaupunkien palvelukehityksessä................................................................................7Skenaarioita avoimen datan ekosysteemistä...............................................................................8

3. Datasettien luokittelu...................................................................................................................94. Julkishallinnon avoimen datan kysyntä.....................................................................................125. Toimenpidesuosituksia HRI -hankkeelle...................................................................................13Liitteet............................................................................................................................................15

Liite 1: Erilaisia yleisen tason luokitteluita...............................................................................15Liite 2: 300 avoimen datan sovellusta ja ideaa.........................................................................15

Page 3: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

JohdantoTämä on Helsinki Region Infoshare (HRI) -hanketta varten tehty selvitystyö julkishallinnon avoimien datasettien tarjonnasta ja saatavuudesta maailmalla. Katsaus toimii strategisena työkaluna HRI hankkeelle. Luvussa 1. Datan avaamisen prioriteetit esitetään viisi eri strategiaa, joiden mukaan voidaan kohdistaa voimavaroja ja priorisoidaan eri datasettien avaamista.

Julkishallinnon datan avaaminen edistyy maailmalla nopeasti ja myös sovelluspuolella tapahtuu jatkuvaa kehitystä. Tutkimuksessa on kartoitettu, miten avoimia datasettejä on luokiteltu eri maiden ja kaupunkien datakatalogeissa, sekä millaisia sovelluksia ja palveluita näiden datasettien pohjalta on toteutettu ja millaisia palveluideoita on esitetty. Kartoitus ei pyri olemaan kaiken kattava, vaan tarkoituksena on luoda jäsennysrunko, jota voidaan täydentää jatkuvasti ja jota vasten voi verrata HRI -hankkeen myötä avattuja datasettejä ja niiden pohjalta syntyneitä sovelluksia.

Tavoitteena on, että luvut 2. Avoin data kaupunkien palvelukehityksessä, 3. Datasettien luokittelu ja 4. Julkishallinnon avoimen datan kysyntä toimivat selkeänä jäsentelynä datasettien tämänhetkisestä kysynnästä ja luokittelusta erityisesti kuntien ja kaupunkien kontekstissa. Jäsennyksen pohjalta voidaan tulkita avoimen datan nykyistä tarjontaa eri aineistotyyppien (esim. tilastot, reaaliaikainen data, jne.) tai teemojen (esim. liikenne, turvallisuus, terveys, jne.) suhteen. Vastaavasti sovelluspuolella voidaan tulkita millaisille tietoaineistoille tuntuisi olevan eniten kysyntää.

Raportin tekstikappaleisiin liittyy suosituksia, jotka on kirjattu oranssilla kunkin kappaleen kohdalle ja avattu laajemmin kappaleessa 5. Toimenpidesuosituksia HRI -hankkeelle.

Page 4: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

1. Datan avaamisen strategiatYleensä datan avaamiseen liittyvät projektit alkavat kysymyksellä "Mitä meidän pitäisi avata ensimmäisenä?" tai "Mitkä ovat kaikkein tärkeimpiä datasettejä avattaviksi?" Tässä osiossa esitetää kuusi strategiaa, joita voidaan käyttää vastaamaan edellämainittuihin kysymyksiin. Neljä ensimmäistä strategiaa on soveltaen suomennettu Civic Commons -wikistä1, joka on laadukas ja tutustumisen arvoinen lähdeaineisto muiltakin osin. Kaksi viimeistä strategiaa: Tietojärjestelmien luonnollinen uusiutuminen ja Hallinnon sisäinen datan käyttö ovat käytännön kautta löydettyjä lisäyksiä.

Suositus 1: Hyödynnetään eri strategioiden tasapainoisesti datan avaamisen priorisoinnissaSuositus 2: Julkistetaan datan avaamisen strategiat ja prioriteetit

TodistusaineistoTodistusaineistoa avoimen julkishallinnon datan todellisesta käytöstä voidaan kerätä sen jälkeen, kun aineistoja on julkaistu esimerkiksi seuraamalla lataamistilastoja.

Epäsuorasti kysyntää voidaan arvioida olemassaolevien prosessien ja tietojärjestelmien tuottamien seurantatietojen perusteella. Moniin palveluprosesseihin, tietojärjestelmiin ja verkkosivustoihin on jo rakennettu mekanismeja käyttäjämäärien ja tietopyyntöjen seurantaan. Esimerkiksi kirjaamojen ja akaspalvelujärjestelmien kautta rekisteröidyt kyselymäärät eri aihepiireistä kertovat asukkaiden yleisimmistä tiedontarpeista. Myös verkkosivujen hakutilastot ja hakukoneanalyysit ovat hyvä tietolähde.Taulukko 1: Esimerkkejä Google Insights hakutilastoista seuraaville hakusanoille: tilastokeskus, Helsingin kaupunki, tilasto ja tietokeskus. Hakusanan alla on esitetty relevantteja poimintoja top-10 listalta kyseiseen sanaan liittyvistä muista hakusanoista, joita ihmiset ovat syöttäneet Googleen. Esimerkiksi tilastokeskusksen yhteydessä googlesta on usein haettu elinkustannusindeksiä ja asuntojen hintoja.

Tilastokeskus Helsingin kaupunki Tilasto TietokeskusURL: http://www.google.com/insights/search/#q=tilastokeskus

URL: http://www.google.com/insights/search/#q=helsingin%20kaupunki

URL: http://www.google.com/insights/search/#q=tilasto

URL: http://www.google.com/insights/search/#q=tietokeskus

elinkustannusindeksi työpaikat sää Savon tietokeskusasuntojen hinnat avoimet työpaikat asuntojen hinnat Turun tietokeskusväestö vuokra-asunnot lämpötilat Helsingin tietokeskuspalkat sosiaalivirasto palkka Sotkamon tietokeskus

Suositus 3: Kerätään ja julkaistaan lataustilastoja systemaattisesti

Kyselyt ja käyttäjäpalauteYksinkertainen strategia käyttäjätarpeiden kartoittamiseksi on kysyä eri kohderyhmiltä (kaupunkilaiset, tutkijat, journalistit, luottamushenkilöt, virkamiehet, yrittäjät), mistä datasta he olisivat kiinnostuneita tai minkä tiedon saatavuuttaa ja uudelleenkäytettävyyttä tulisi ensisijaisesti parantaa. Kysely kannattaa suorittaa laajemmin avoimen datan hankkeen alkuvaiheessa. Myöhemmin kannattaa tarjota jatkuvaluonteinen palaute- ja vuorovaikutuskanava ja mahdollisesti tehdä kohdennetumpia kyselyitä esimerkiksi tietylle kohderyhmälle suunnattujen tilaisuuksien yhteydessä. Berliinin kaupunki toteutti 2010 syksyllä kyselyn, jossa vastaajat saivat valita mielestään kolme tärkeintä datavarantojen luokkaa listalta, jossa oli 20 vaihtoehtoa.

1Civic Commons -wiki http://wiki.civiccommons.org/Open_Data_Priorities

Page 5: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

Kuva 1: Berliinin kaupungin toteuttamassa kyselyssä suosituimmat datat julkaistaviksi (kun laskettiin yhteen ykkös- kakkos- ja kolmosäänet) olivat 1. City planning, 2. Administration, 3. Environment, pollution, 4. Control, 5.Infrastructure ja 6. Citizen.

Kaikki vaihtoehdot (20 kpl) aakkosjärjestyksessä:Administration, Citizen, City markets, City Planning, Control , Crime, Customers consulting, Education, Environment, pollution, Events , Family, Health, Infrastructure, Law, Living, Opening hours, Pets, Public transport, Recycling+Waste, Traffic.

Ennakkoon tehtyjen kyselyiden tuloksia tulkittaessa pitää huomioida se, että ihmiset osaavat kysyä vain aineistoja, joidenka olemassaolo on tunnettu ja suurelle yleisölle tietyn aineiston tarve saattaa nousta ilmeiseksi vasta sen jälkeen, kun joku on osoittanut toimivalla sovelluksella tai visualisaatiolla datan hyödyllisyyden. Toisin sanottuna tietyn aineiston suosio nykyhetkessä ei välttämättä vastaa aineiston tärkeyttä.

Esimerkkinä ravintoloiden hygieniatarkastusten tulokset ovat olleet kysyttyjä aineistoja sen jälkeen, kun joku ensimmäisenä keksi tehdä mobiilisovelluksen, jossa tämä tieto voidaan yhdistää ravintoloista tietoja ja suosituksia näyttäviin sijaintipohjaisiin mobiilisovelluksiin. Jälkikäteen ajateltuna tiedon hyödyllisyys ja käyttötarkoitus ovat ilmeisiä, mutta etukäteen tämä aineisto tuskin olisi ollut kovin korkealla "suosittuimmuuskyselyssä".

Suositus 4: Kerätään vapaaehtoisia taustatietoja käyttäjiltä sähköpostilistalle liittymisen yhteydessäSuositus 5: Tehdään yleinen käyttäjätarvekyselySuositus 6: Tehdään eri kohderyhmille suunnattuja kyselyitä

Matalalla roikkuvat hedelmätUseinmiten hallinnon organisaatioilla on joitakin helpommin saatavilla olevia datasettejä, joidenka avaamiseen ei liity suuria teknisiä, eikä käyttöoikeuksien määrittämiseen liittyviä haasteita ja jotka ovat sisällöltään kokonaisuudessaan selkeästi julkisia. Tällaiset aineistot kannattaa julkiasta avoimen datan periaatteiden mukaisesti, vaikka niihin ei kohdistuisi ennakkoon erityisen suurta kysyntää. Julkaisemalla "matalalla roikkuvia hedelmiä" voidaan kerätä arvokasta kokemusta datan avaamisprosessista. Lisäksi monet ennalta epäkiinnostaviksi tulkitut datasetit saattavat herättää yllättävää kiinnostusta, mikäli niiden saatavuus tehdään helpoksi. Esimerkkinä tällaisesta on New Yorkin puurekisterin julkaisu, joka johti sinänsä mielenkiintoisen Trees near you -miobiilisovelluksen kehittämiseen.

Yksittäisten ja satunnaisten datasettien julkaiseminen ei kuitenkaan missään tapauksessa ole yksistään riittävä strategia. Etenkin, mikäli toiminta on lyhytjänteistä on riskinä tuottaa pettymyksiä dataa julkaisseille organisaatioille: "julkaisimme tämän datasetin jo puoli vuotta sitten, eikä kukaan ole kiinnostunut siitä".

Page 6: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

Suositus 7: Dokumentoidaan tarinamuodossa helppo ja haastava datanavaamistapaus

Korkea investoinnin tuottoasteSiinä missä matalalla roikkuvien hedelmien strategiassa julkaistaan sitä, minkä julkaisu on helppoa ja kustannuksiltaan matalaa pyritään korkean investoinnin tuottoasteen strategiassa vertaamaan julkaisun vaikeutta (kustannuksia) saavutettaviin hyötyihin. Investoinnin hyödyt voivat tulla muun muassa yleisen hyödyllisyyden (esimerkiksi Reittiopas ja syntyneet mobiilisovellukset), turvallisuuden, kustannussäästöjen tai taloudellisen aktiivisuuden kautta. Esimerkiksi säädatan ja karttaaineistojen osalta kohtuullisilla avaamisen kustannuksilla mahdollistetaan suhteessa varsin laaja käyttötapausten kirjo.

Strategian haasteena on, että monien sinänsä ilmiselvien hyötyjen, kuten hallinnon läpinäkyvyyden lisääntymisen tai paremmin faktatietoihin pohjautuvan valmistelun ja päätöksenteon arvottaminen rahallisesti on vaikeaa ellei mahdotonta ja hyvin usein investoinnin tuotot eivät tule samalle taholle, kuin kustannukset. Myös tämän strategian kohdalla on pidettävä mielessä, että suurimmat tuotot saattavat tulla ennakoimattomalta taholta. Esimerkiksi ennakkoon arvioituna vähäpätöisen oloinen ympäristödata saattaa olla merkittävässä vaikkapa syöpätutkimuksessa.

Suositus 8: Identifioidaan sovellusaluekohtaisesti (Luku 4) kullakin alueella merkittävä datasetti, jonka avaamista tarkastellaan investointina

Tietojärjestelmien luonnollinen uusiutuminenAineistojen saattaminen teknisesti ja laillisesti uudelleenkäytettäviksi uusien tietojärjestelmien hankinnan yhteydessä ei välttämättä aiheuta merkittäviä lisäkustannuksia. Varsin järkeenkäypä strategia onkin muodostaa toimintatapa, jolla varmistetaan, että avoin data tulee mukaan kaikkiin uusiin tietojärjestelmähankintoihin.

Strategian haittapuolena on se, että sitä käytetään hanakasti argumenttina kaikkia muita strategioita vastaan: "meillä on juuri ensivuonna alkamassa tämä suuri järjestelmäuudistus, jonka yhteydessä tämä varmasti voidaan ottaa esille". Jotta aineistojen avaaminen voidaan tehdä oikein ja kunnolla järjestelmäuudistusten yhteydessä kannattaa kokemuksia kerätä jo ennen sitä. Järjestelmäuudistuksenkaan yhteydessäkään tehty rajapinta ei ole edullinen, jos se toteutesta joudutaan muuttamaan jälkikäteen.

Suositus 9: Tarjotaan virastoille ja yksiköille oikeaaikaista konsultaatiota hankintaprosesseissaSuositus 10: Dokumentoidaan hankintacaseja, joissa avoin data on huomioitu

Hallinnon sisäinen datan käyttöHallinnon sisäinen datan käyttö tulisi mieltää oikeastaan yhtenä kohdealueena esimerkiksi tieteellisen käytön, kaupallisen käytön, tutkivan journalismin jne. rinnalla. Esimerkiksi datan tarvekyselyitä voidaan tehdä hallinnon sisällä ja hallinnon sisäistä datan käyttöä voidaan seurata erilaisten todistusaineistojen perusteella. Tässä hallinnon sisäinen käyttö on kuitenkin esitetty erillisenä lähestymistapana, koska sen yhteydessä aiemmin esiteltyä "korkea investoinnin tuottoaste" strategiaa voidaan soveltaa tehokkaammin.

Tarkasteltaessa mitä julkisia tietovarantoja useat eri viranomaiset jo hyödyntävät tai voisivat hyödyntää on mahdollista löytää sellaisia aineistoja, joiden avaamiseen kannattaa investoida ja investoinnin tuotot myös realisoituvat suoremmin esimerkiksi saman kaupungin sisällä. Samalla, kun tehdään tai suunnitellaan tiedonvaihtoa viranomaisten välillä kannattaa julkiset aineistot avata kaikkien hyödynnettäväksi, tämä lisää aineistojen löydettävyyttä ja saattaa jopa lisätä kyseisen aineiston käyttöä hallinnon sisällä.

Page 7: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

2. Avoin data kaupunkien palvelukehityksessäTämä luku pyrkii antamaan yleisen viitekehyksen siihen, mikä on avoimen datan rooli nimenomaan kaupungeissa ja kunnissa. Kuvassa 2. esitetty malli on kehitetty Sitran Julkishallinnon johtamisen ohjelman tuottaman Kuntien palveluevoluutiomallin2 pohjalta.

Alkuperäinen malli kuvaa ihmisten, kunnan ja palvelutuottajien välistä vuorovaikutusta. Nämä ovat kuntien toiminnan kannalta keskeiset toimijaryhmät, joiden välillä myös tiedon tulisi liikkua ja rikastua mahdollisimman tehokkaasti. Avoimesta tiedosta puhuttaessa ei tietenkään pidä rajoittua vain näihin toimijaryhmiin, vaan sama data jaetaan myös kaikille muille tahoille, kuten tutkimuslaitoksille, muulle julkishallinnolle, muille kun kuntapalveluja tuottaville yrityksille, sekä kansalaisjärjestöille ja vapaaseen käyttöön.

Palveluevoluutiomalliin on lisätty tiedon koostaminen ja jakaminen omaksi toiminnaksi korostamaan sitä, että avoimen datan ekosysteemissä kaikki toimijat voivat käyttää ristiin toistensa tuottamaa dataa. Datan ja tiedon julkaiseminen ja hyödyntäminen helpottuu, kun sen koostamiseen ja jakamiseen on toimivat käytännöt ja infrastruktuuri.

Mallin pohjalta on mahdollista luoda yhdeksä kuntakontekstissa olevaa erilaista avoimen datan käytön ja tuotannon skenaariota.

Kuva 2: Avoimen datan rooli kunnan palveluevoluutiossa. Mallin pohjalta on mahdollista muodostaa erilaisia skenaarioita siitä, kuka tuottaa ja kuka käyttää ja rikastaa kenenkin tuottamaa dataa.

2 http://www.slideshare.net/Uusijohtajuus/sitra-palveluevoluutio-konsepti

Page 8: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

Skenaarioita avoimen datan ekosysteemistäLätökohtana on, että ihmiset, kunta ja palveluntuottajat voivat kaikki tuottaa ja rikastaa tietoa, sekä käyttää itsensä ja toistensa tuottamaa ja rikastamaa tietoa.

• Ihmiset voivat tuottaa (ja korjata) tietoa: ehdotukset, palaute, huomiot, asiantuntijatieto...• Ihmiset käyttävät tietoa: osallistuminen, palveluiden vertailu, vertaistieto...• Kunta tuottaa tietoa: tilastot, asianhallinta, suunnitelmat, rekisterit...• Kunta käyttää tietoa: päätöksenteko, suunnittelu, mallinnus...• Palveluiden tuotannossa syntyy tietoa: tilastot, prosessidata, kustannustieto, paikkatieto...• Palveluiden tuotannossa käytetään tietoa: palvelukehitys, optimointi, ohjaus...

Taulukko 2: Yhdeksän esimerkkiskenaariota, jossa eri toimijaryhmät (ihmiset, palvelun tuottajat ja kunta) käyttävät saman ryhmän ja muiden ryhmien tuottamaa tietoa.Vihreällä pohjalla on skenaariot, joissa tiedon käyttäjänä ovat ihmiset, violetilla pohjalla skenaarioissa tietoa käyttää palveluiden tuottajat ja vaaleansinisellä pohjalla tiedonkäyttäjänä on kunta.

Skenaario Kuvaus Esimerkki

A: Vertaistieto Ihmiset käyttävät ihmisten tuottamaa tietoa

Avoimissa palautekanavissa ihmisiä usein kiinnostaa toisten vertaisten kirjoitukset.

B: Viestintä kuntalaisille Ihmiset käyttävät kunnan tuottamaa tietoa

Valmistelu ja päätösprosessien tiedot (pyötäkirjat yms.)

C: Viestintä asiakkaille Ihmiset käyttävät palveluntuottajan tuottamaa tietoa

Aukioloajat, toimipisteiden yhteystiedot tai vaikka reaaliaikainen tieto aurauskaluston sijainnista GPS-paikannuksella

D: Palveluprosessin seuranta Palveluntuottajat käyttävät palveluntuottajien tuottamaa tietoa

Esimerkiksi kirjastot seuraavat omia ja toisten kirjastojen lainaustilastoja hankintojen ohjauksessa.

E: Asiakaspalaute Palveluntuottajat käyttävät ihmisten tuottamaa tietoa

Palveluntuottajat voivat parataa toimintaansa ja jopa kilpailla laadulla, mikäli asiakaspalautetta on avoimesti käytettävissä.

F:Kunnan tieto palveluiden kehityksessä

Palveluntuottajat käyttävät kunnan tuottamaa dataa

Esimerkiksi yksityinen hoivapalveluyritys voi skaalata toimintaansa kunnan tuottamien väestö- ja hoivatarvetilastojen avulla.

G: Valmistelu ja päätösprosessien seuranta

Kunta käyttää kunnan tuottamaa tietoa Kunnan eri virastot voivat synkronoida toimintaansa käyttämällä ristiin toistensa tietovarastoja.

H: Asukkaiden tieto Kunta käyttää ihmisten tuottamaa tietoa

Asukkaiden kokemuksellista tietoa voidaan hyödyntää esimerkiksi asuinalueiden suunnittelussa.

I: Palveluiden laadunvalvonta Kunta käyttää palveluntuottajien tuottamaa tietoa

Kunta seuraa ulkoisten palveluntuottajien kanssa tehtyjen sopimusten toteutumista ja valmistautuu hankintapäätöksiin kerättyyn tietoon perustuen.

Suositus 11: Tuetaan pilottitoteutusten syntymistä eri skenaarioiden (Taulukko 2.) mukaisilta alueiltaSuositus 12: Tarkastellaan, mitä muita merkittäviä tiedon käyttäjäryhmiä (esim. tutkimuslaitokset ja media) on ja toteutetaan tuettuja pilotteja myös heidän kanssaan

Page 9: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

3. Datasettien luokitteluDatasettien luokittelun tavoitteena olisi luoda kaupunkien tietovarantoihin selkeä yleiskatsaus ja otsikointi, joka kattaisi ne hyvinkin erilaiset aineistot, joita kaupungit organisaatioina hallinnoivat.

Julkishallinnon datasta puhuttaessa tulee yleensä ensimmäisenä mieleen tunnetut perusrekisterit, kuten väestörekisteri, kiinteistörekisteri jne. sekä kenties tilastotiedot ja säätiedot. Myös kartta-aineistot ja paikkatieto on melko laajasti tunnettua ja jotkut muistavat mainita erilaiset liikennetiedot. Hallinnon data-aineistoja ei Suomessa, eikä maailmalla ole kattavasti kartoitettu, eikä valmiita luokitteluita kaupunkien dataseteille löytynyt.

Brett Camperin toteuttama Puut lähelläsi (Trees Near You) -palvelu sai kunniamaininnan New Yorkin kaupungin avoimen datan hyödyntämiseskilpailussa 2010. Ilmainen iPhone-sovellus kertoo käyttäjälle sijainnin perusteella tietoja yli 500 000 elävästä puustä New Yorkin kaupungissa. Sovellus yhdistelee puhelimesta saatavaa GPS-sijaintitietoa, Wikipedia-artikkeleita puulajeista ja kaupungin avoimesti julkaisemaa puurekisteriä. Tämä on kuvaava esimerkki siitä, kuinka paljon potentiaalisesti hyödyllistä dataa on olemassa mutta jonka olemassaoloa ei yleensä tule ajatelleeksikaan.

Tarvittava luokittelu on esitetty allaolevassa kuvassa keskellä keltaisessa palkissa. Luokittelun lisäksi asian yleisen hahmottumisen kannalta olisi erittäin hyödyllistä yhdistää datan sovellukset ja käyttökohteet ja yksittäiset datasetit toisiinsa yleisen luokittelun kautta. Tämä voitaisiin myös visualisoida esimerkiksi datakatalogin yhteydessä.

Kuva 3: Malli datan käyttötarkoitusten (sininen) ja datasettien (vihreä) visualisoinnista yleisen luokittelun (keltainen) avulla.

Page 10: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

Paras tutkimuksessa löydetty hallinnon datavarantojen luokittelu on Mepsir -tutkimuksen jaottelu, joka pohjautuu Euroopan unioinin PSI-direktiivin kattamiin alueisiin. Tätä jaottelua on verrattu eri datakatalogien ja muiden löydettyjen luokittelujen kanssa (Liite 1.). Monissa datakatalogeissa ei noudateta mitään erityistä luokittelua, vaan eri tietovarannot on asiasanoitettu enemmän tai vähemmän vapaasti.

Luokittelun tuottaminen voisi olla mahdollista myös alhaalta ylöspäin tekemällä aineistojen kuvailuihin tai asiasanoituksiin koneellinen semanttinen analyysi ja klusterointi.

HRI -hankkeen kannalta olennaista on pystyä tarjoamaan datan uudelleenkäyttäjille myös näkemys siitä kokonaisuudesta, mitä tietovarantoja kaupungilla on hallussaan (vaikka ne eivät vielä olisi avoimia). Käytännössä kaikki maailmalla olevat julkishallinnon datakatalogit listaavat ainoastaan jo avoimena olevia datasettejä, mikä on erittäin suuri puute.

Kuva 4: Karkea näkemys kokonaisuudesta julkishallinnon avoimen datan osalta. Kaikki hallinnon tuottama data ei ole julkista (tietosuoja, yleinen turvallisuus jne. -kysymysten takia). Nykyisin mysöskään kaikki julkinen data ei ole avointa, eli koneellisesti ja laillisesti uudelleenkäytettävää. Tavoitteena olisi, että mahdollisimman suuri osa hallinnon tuottamasta lain mukaisesti julkisesta aineistosta olisi saatavilla myös avoimena datana. Luonnollisesti avointa dataa voivat tuottaa myös muut, kuin hallinnon toimijat.

Yhdenkin kunnan hallinnoimien julkisten tietovarantojen kokonaisuus on hyvin monitahoinen ja vaikeasti hamottuva, eikä oikein kenelläkään ole nykyisin selvää käsitystä siitä, mitä kaikkea dataa kunnalla on. Eri tietoaineistojen olemassaolon tunteminen on ensimmäinen askel, niiden hyötykäytössä. On hyvin vaikea löytää edistyneilläkään hakutoiminnoilla sellaista, minkä olemassaolosta ei ole tietoa.

Tähän kokonaiskuvan haasteeseen pyrkii vastaamaan kuvan 3. malli, jossa sekä toteutetut sovellukset, että avoimet ja vielä avaamattomat, mutta kuitenkin julkiset tietovarannot on linkitetty toisiinsa yleisen tason selkokielisten luokkien kautta. Näin sovelluksia ja datasettejä voi selailla ja tehdä löytöjä, vaikkei etukäteen tietäisikään tarkalleen, mitä on hakemassa.

Luokittelun valinta on aina haastava tehtävä. Tavoitteena voidaan pitää noin 10-20 luokkaa, joille on kirjoitettu lauseen tai kahden mittaiset kuvaukset. Yksittäinen datasetti kuuluu yhteen tai

Page 11: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

useampaan luokkaan. Yksittäinen sovellus käyttää yhtä tai useampaa datasettiä ja perii niiden luokat. Sovellus voi olla myös ulkomainen, jolloin se ei välttämättä käytä mitää tiettyä datasettia HRI-katalogista, mutta se voidaan silti linkittää tiettyihin luokkiin.

HRI-katalogissa on nykyisin käytössä sekä luokittelu että avainsanat eli tagit. Näiden rinnakkaiskäyttö on mahdollista ja jopa suositeltavaa, mutta luokitusta tulisi kehittää ja avainsanottaminen tulisi mahdollistaa kaikille käyttäjille, jolloin se alkaisi kehittyä folksonomian tavoin. Taulukossa 3. on ehdotettu joitain muutoksia nykyiseen HRI-luokitukseen. Suurin puute nykyisessä luokituksessa on, että luokat ovat hyvin epätasapainoisia (luokkaan kuuluvien datasettien määrällä mitattuna) ja ilmeisesti kaikkia ainaistoja ei ole luokiteltu mihinkään luokkaan (luokkien sisältämien aineistojen yhteismäärä 259, on huomattavasti vähemmän, kuin 547 datasettiä, joka on ilmoitettu aineistojen kokonaismääräksi). Lähimpänä mallina on käytetty Findikaattori- palvelun luokituksia, sekä JHS145 suositusta.Taulukko 3: HRI datakatalogin nykyinen luokitus (suluissa luokkan kuuluvien datasettien määrä) ja ehdotus luokitukseskis, joka pohjautuu eri datakatalogeissa käytettyihin luokkiin (Liite 1.).

Lyhenne HRI-luokitus Huomioita HRI-luokista Ehdotus

HOU Asuminen (19) ok Asuminen

DEM Demokratia ja osallistuminen (1) ok Demokratia ja osallistuminen

GEO Kartat (1) Kartat ja paikkatieto (JHS145) Kartat ja paikkatieto

EDU Koulutus (4) ok Koulutus

CUL Kulttuuri (1) ok Kulttuuri

TRA Liikenne (1) ok Liikenne

PLA Rakennukset (1) Kaavat ja kiinteistöt (JHS145) Kaavat ja kiinteistöt

CON Rakentaminen (24) ok Rakentaminen

INC Tulot ja kulutus (4) Toimeentulo (Findikaattori) Toimeentulo

LAB Työmarkkinat (45) ok Työmarkkinat

POP Väestö ja väestönmuutokset (155) Väestö (Findikaattori) Väestö

ENV Ympäristö (3) Ympäristö ja luonto (JHS145) Ympäristö ja luoto

ECO Talous (Findikaattori) Talous

ENE Energia (Findikaattori) Energia

EVE Tapahtumat Tapahtumat

HEA Terveys (Findikaattori) Terveys

INF Infrastruktuuri Infrastruktuuri

LAW Laki ja oikeusturva (JHS 145) Laki ja oikeusturva

SER Palvelut Palvelut

Suositus 13: Kerätään datakatalogin metatietokantaan tietoja myös aineistoista, jotka eivät vielä ole avoimiaSuositus 14: Toteutetaan datakatalogiin visuaalinen luokitus, joka linkittää yhteen datasettejä ja sovelluksiaSuositus 15: Tehdään automaattinen semanttinen analyysi datasettien metatietoihin ja muodostetaan tämän perusteella järkeviä luokkalinkityksiäSuositus 16: Esitellään yksittäisiä sovelluksia yhteydessä niihin datasetteihin tai ainakin yleisiin luokkiin, mitä dataa sovellus käyttää (tai tuottaa)Suositus 17: Yksittäisten datasettien esittely massasta erillään

Page 12: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

4. Julkishallinnon avoimen datan kysyntä

Kuva 5: Julkishallinnon avoimen datan kysyntää voidaan kuvata sovellusalueilla, jotka ovat osittain päällekkäisiä. Esimerkiksi samainen sovellus voi olla tietokantajournalismia ja tukea läpinäkyvyyttä ja osallistumista. Nämä kukan terälehtien muotoon asetetut sovellusalueet eivät vastaa käyttäjäryhmiä (kuten hallinto, yritykset, kansalaiset, tutkijat), vaan niitä toiminta-alueita, joilla avoimesta datasta voi olla hyötyä.Esimerkiksi tutkimusta ja tuotekehitystä voidaan tehdä niin yrityksissä, hallinnossa, kuin tutkimuslaitoksissakin.

Suositus 18: Järjestetään Sreen Scraping -tapahtuma, jolla kannustetaan sovelluskehittäjiä hyödyntämään dataa ja tarjoamaan scrapattua dataa edelleenSuositus 19: Tarkastellaan mahdollisuutta tarjota screen scrapatulle datalle uudelleenkäytön salliva lisenssiSuositus 20: Valmistellaan HRI-kunnille "avoimen datan deklaraatio", joka voidaan viedä valtuustojen hyväksyttäväksiSuositus 21: Toteutetaan Apps for Cities Finland -kilpailu

Page 13: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

5. Toimenpidesuosituksia HRI -hankkeelleSuositus 1: Hyödynnetään eri strategioiden tasapainoisesti datan avaamisen priorisoinnissa

Suositus 2: Julkistetaan datan avaamisen strategiat ja prioriteetit

Suositus 3: Kerätään ja julkaistaan lataustilastoja systemaattisesti

Suositus 4: Kerätään vapaaehtoisia taustatietoja käyttäjiltä sähköpostilistalle liittymisen yhteydessä

Suositus 5: Tehdään yleinen käyttäjätarvekyselyToteutetaan ”Berliinin mallin” mukainen kevyt kysely yleisen luokittelun (Luku 3.) mukaisista luokista, minkä luokkien datalle on kiinnostusta eri kohderyhmissä?

Suositus 6: Tehdään eri kohderyhmille suunnattuja kyselyitäYleisen kyselyn lisäksi eri käyttäjäryhmille esim. hallinnon toimijat voidaan tehdä hieman syvällisempiä kyselyitä, joidenka osana on yleinen käyttäjäkysely, mutta sen lisäksi on muutama kohderyhmäspecifinen kysymys. Näitä voidaan tehdä kohderyhmille suunnatuissa tilaisuuksissa, kuten HsOpen (journalistit), MindTrek (yrittäjät)

Suositus 7: Dokumentoidaan tarinamuodossa helppo ja haastava datanavaamistapausSekä datan haltijoita, että uudelleenkäyttäjiä voisi palvella totuudenmukaiset kuvaukset siitä, mitä asioita aivan käytännössä pitää ratkaista jonkin tietovarannon avaamisessa, esim. pitääkö ostaa konsulttityönä teknisiä muutoksia jne. HRI:n toiminnassa näitä caseja tulee varmasti vastaan, joten suositus on kirjoittaa muutama niistä auki ja julkaista.

Suositus 8: Identifioidaan sovellusaluekohtaisesti (Luku 4) kullakin alueella merkittävä datasetti, jonka avaamista tarkastellaan investointinaLähestymällä datan avaamista puhtaasti sovellusalueiden kautta voidaan tietoisesti päästä irti pelkän ”matalalla roikuvien hedelmien” strategian käytöstä. Voi olla, että jotkut identifioiduista dataseteistä on käytännössä mahdottomia avata, mutta kenties tällä tavalla paljastuu jokin datasetti, jonka avaamiseen kannattaa panostaa. Esimerkiksi budjetti- ja transaktidatan avaaminen palvelisi sekä tietokantajournalismia, päätöksentekoa, että läpinäkyvyyttä.

Suositus 9: Tarjotaan virastoille ja yksiköille oikeaaikaista konsultaatiota hankintaprosesseissaVarmistetaan avoimen datan toteutuminen meneillään olevissa ja tulevissa tietojärjestelmäuudistuksissa. Tämän toteutumiseksi voi riittää pienikin konsultaatio oikeaaikaisesti hankintaprosessissa, mutta edellytyksenä on meneillään olevien ja suunnittelilla olevien hankkeiden järjestelmällistä seurantaa, että tiedetään, milloin ja kenen kanssa kannattaa pitää pieni avoimen datan palaveri.

Page 14: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

Suositus 10: Dokumentoidaan hankintacaseja, joissa avoin data on huomioitu

Suositus 11: Tuetaan pilottitoteutusten syntymistä eri skenaarioiden (Taulukko 2.) mukaisilta alueiltaTietojenkäsittelyn ohjelmatyöt muun muassa Aalto Yliopistossa ja Helsingin yliopistossa ovat kustannustehokkaita mahdollisuuksia tuottaa Suomalaisia esimerkkisovelluksia.

Suositus 12: Tarkastellaan, mitä muita merkittäviä tiedon käyttäjäryhmiä (esim. tutkimuslaitokset ja media) on ja toteutetaan tuettuja pilotteja myös heidän kanssaanKaupunkidataa hyödyntäviä tutkimussuuntauksia ovat muun muassa: kiinteistötalous, liikennesuunnittelu, yhdyskuntasuunnittelu, kaupunkimaantiede, sosiaali- ja terveystutkimus jne. Tietokantajournalismista voi etsiä yhteistyömahdollisuuksia mediatalojen kanssa. Vuoden 2012 kunnalisvaalit on tapahtuma, jonka yhteydessä voi olla mahdollista tehdä näkyviä pilottitoteutuksia. Yhtenä suuntauksena kannattaa etsiä sellaista pilottikohdetta, jossa jokin data voitaisiin avata käyttöön ja kaupunkilaiset voisivat rikastaa sitää niin, että siitä olisi hyötyä kaupungille. Esimerkiksi, jos kaupunkisuunnitteluvirastolla on tietoja rakennuksista (pohjapiirrustuksia, sijainteja, 3d-malleja) voisivat kansalaiset älypuhelimilla kuvata omasta mielestään viihtyisiä ja rumia ympäristöjä ja yhdistää niitä olemassaolevaan tietoarkistoon.

Suositus 13: Kerätään datakatalogin metatietokantaan tietoja myös aineistoista, jotka eivät vielä ole avoimiaKaikkien nykyisten datakatalogien suuri puute on se, että ne eivät tee näkyväksi vielä avaamattomia tietokantoja. Erityisesti ei kannata panostaa siihen, että etsii vielä avaamattomia tietoaineistoja katalogia varten, mutta sitä mukaan, kun niitä tulee vastaan ne pitäisi lisätä katalogiin. Tässä olisi myös crowdsourcing-lähestymistapa hedelmällinen.

Suositus 14: Toteutetaan datakatalogiin visuaalinen luokitus, joka linkittää yhteen datasettejä ja sovelluksiaLinkitetään visuaalisesti datasetit ja sovellukset toisiinsa yleisen luokittelun kautta (Kuva 3.). Luokittelu ei poissulje tarvetta ja mahdollisuutta käyttää myös vapaammin asiasanoja tai tageja. Esimerkiksi wordpress -blogialusta tukee sekä tageja, että luokkia.

Suositus 15: Tehdään automaattinen semanttinen analyysi datasettien metatietoihin ja muodostetaan tämän perusteella järkeviä luokkalinkityksiäLuvussa 3. esitettyä yleistä luokittelua voidaan tarkentaa ajamalla semanttinen klusterointi HRI-katalogissa oleville datasettien metadatoille. Menetelmällä voidaan tarkastella myös datasettien samankaltaisuutta ja tuottaa asiasanoituksia automaattisesti.

Suositus 16: Esitellään yksittäisiä sovelluksia yhteydessä niihin datasetteihin tai ainakin yleisiin luokkiin, mitä dataa sovellus käyttää (tai tuottaa)Monissa katalogeissa on esitelty sovelluksia, mutta niitä ei ole linkitetty varinaisiin datasetteihin ainakaan kovin näkyvästi. Toisaalta linkittäminen yksittäisiin datasetteihin (esim. vuoden 2005 sademäärät) ei ole informatiivista kokonaisuuden hahmottamisen kannalta. Linkittäminen yleiseen luokitteluun helpottaisi myös sovellusten vertailua kansainvälisesti.

Suositus 17: Yksittäisten datasettien esittely massasta erilläänTehdään datakatalogin yhteydessä "viikon datasetti" -tyyppisiä nostoja, joissa esitellään yksittäinen datasetti yhteydessä sovelluksiin, jotka sitä käyttävät tai erilaisiin maailmalta löytyneisiin sovelluksiin, jotka käyttävät vastaavaa dataa.

Suositus 18: Järjestetään Sreen Scraping -tapahtuma, jolla kannustetaan sovelluskehittäjiä hyödyntämään dataa ja tarjoamaan scrapattua dataa edelleen

Page 15: Selvitys julkishallinnon avoimen datan kysynnästä ja tarjonnasta hri_raportti

Suositus 19: Tarkastellaan mahdollisuutta tarjota screen scrapatulle datalle uudelleenkäytön salliva lisenssiTuodaan screen scrappaus mukaan hyväksyttynä nopeana avaamisen keinona.

Suositus 20: Valmistellaan HRI-kunnille "avoimen datan deklaraatio", joka voidaan viedä valtuustojen hyväksyttäväksiTämä on maailmalla yleinen malli, nostaa poliittista kiinnostusta asiaa kohtaan.

Suositus 21: Toteutetaan Apps for Cities Finland -kilpailuTällä kertaa kannattaa hakea jo toteutuksia, eikä enää ideoita. Annetaan syötteeksi jo kehitetyt ideat (apps tietokanta), jos tätä ennen on saatu aktivoitua porukkaa screen scrappaamaan relevantteja datasettejä, niin tarjonta voisi olla jo laajempaa. Kannattaa myös tiedottaa EU:n laajuisesta Open Data Challenge -kilpailusta ja sallia samalla tai parannetulla ehdotuksella osallistuminen Suomen kilpailuun.

Liitteet

Liite 1: Erilaisia yleisen tason luokitteluita

Liite 2: 300 avoimen datan sovellusta ja ideaa

Liite 3: Englanninkielinen blogiartikkeli