Open Data Handleiding

Open Data HandleidingPraktijkgerichte handleiding voor de publicatie en het beheer van Open Data met behulp van het Vlaams Open Data Portaal

Contactpersoon:

Noël Van Herreweghe

Programma-manager Open Data bij de Vlaamse overheid

http://overheid.vlaanderen.be/opendata

[email protected]

VOORWOORD

Open Data zijn gegevens of informatie die door de overheid verzameld worden in het kader van haar openbare taak, waar geen of mini-male beperkingen op rusten, die elektronisch beschikbaar zijn en gebruik maken van open standaarden.

Bij de Vlaamse overheid zijn Open Data de norm. De Vlaamse overheid beschikt over een schat aan informatie op uiteenlopende terrei-nen. Naar aanleiding van de omzetting van de (herziene) PSI-richtlijn zullen deze gegevens grotendeels en in toenemende mate voor her-gebruik ter beschikking komen. Hergebruik van overheidsinformatie houdt in dat gegevens voor zowel niet-commerciële als commerciële doeleinden kunnen gebruikt worden, gratis of tegen een billijke vergoeding. Hergebruik bestaat vandaag ook al, maar kan een enorme impuls krijgen wanneer overheidsinformatie vrijelijk als Open Data ter beschikking komt.

Het ontsluiten van informatie als Open Data is relatief nieuw en brengt allerlei vragen met zich mee, bijvoorbeeld over het belang van Open Data, de technische implicaties en de van toepassing zijnde wetgeving. Voorlichting, overleg en communicatie zijn daarom erg belangrijk.

Vlaanderen is één van de koplopers in Europa met betrekking tot het beschikbaar stellen van overheidsdata en –informatie. Zowel op strategisch, inhoudelijk als juridisch en technisch vlak zijn de nodige stappen gezet om de vrijgave van Open Data te faciliteren en aan te moedigen.

Deze handleiding bevat de belangrijkste achtergrondinformatie over Open Data, samen met concrete richtlijnen voor het effectief ter beschikking stellen van Open Data.

Noël Van Herreweghe, programma-manager Open Data bij de Vlaamse overheid

Inhoudsopgave1 INTRODUCTIE 4

1.1 Open Data? 4

1.2 Open Data bij de Vlaamse overheid 4

1.3 Omzetting psi-richtlijn 6

1.4 Vlaams Open Data portaal 6

1.5 Waarom een Open Data handleiding? 7

2 SELECTEER UW DATASET(S) 8

2.1 Voorafgaande juridische toetsing 8

2.2 Criteria en prioriteiten 10

3 KIES EEN MODELLICENTIE 12

3.1 Voorafgaande beslissing omtrent vergoedingen 12

3.2 Voorafgaande beslissing omtrent de mogelijke categorieën van gebruik 13

3.3 Keuze van een modellicentie 13

4 ONTSLUIT UW BRONGEGEVENS 15

4.1 Achterliggende gedachte: gebruik van ETL technieken 15

4.2 Scenario’s voor het ontsluiten van brongegevens 16

4.3 OntsluitingvangeografischegegevensinVlaanderen 25

5 STRUCTUREER UW DATASET(S) 29

5.1 Minimale vereisten 29

5.2 Standaarden, open formaten en API’S 30

5.3 Maturiteitsmodel voor Open Data 33

6 PUBLICEER UW DATASET(S) 34

6.1 Voorafgaande toetsing 34

6.2 Functionele vereisten voor een Open Data portaal 34

6.3 Functionele match van het Vo Open Data portaal 35

6.4 Voordelen van het Vo Open Data portaal 36

6.5 Visualisatie van datasets 37

7 DOCUMENTEER UW DATASET(S) 39

7.1 ‘Open Data’ contactpunt 39

7.2 Contactadres voor informatie en feedback 39

7.3 (Her)gebruiksvoorwaarden 40

7.4 Vergoedingen 40

7.5 Garanties betreffende de beschikbaarheid 41

7.6 Bijsluiter 41

7.7 Taal van de website 42

8 MAAK UW DATASET(S) VINDBAAR 43

8.1 Metadata 43

8.2 Hoe dataset(s) registreren op het Vo Open Data portaal 45

8.3 Overzicht rollen Vo Open Data portaal 48

8.4 Open Data portaal functionaliteit voor een gebruiker 49

8.5 Open Data portaal functionaliteit voor een beheerder 53

8.6 CKAN testplatform 60

9 EVALUEER UW OPEN DATA PRAKTIJK 61

BIJLAGE 1 MASTER DATA MANAGEMENT 62

BIJLAGE 2 TOEVOEGEN VAN METADATA 65

BIJLAGE 3 METADATA RICHTLIJNEN 73

BIJLAGE 4 LINKED OPEN DATA – INTRODUCTIE 78

BIJLAGE 5 HOE EEN DCAT-AP COMPATIBELE FEED AANLEVEREN ALS INSTANTIE? 83

BIJLAGE 6 BINDENDE AFSPRAKEN COÖRDINATIECOMITÉ VDI VAN 29 JANUARI 2015 87

BIJLAGE 7 BINDENDE AFSPRAKEN COÖRDINATIECOMITÉ VDI VAN 12 MAART 2015 91

BIJLAGE 8 AANBEVELINGEN 94

4

Open Data Handleiding

1/ Introductie

1 INTRODUCTIE

1.1 OPEN DATA? De Vlaamse overheid wil een open overheid zijn die transparant en participatief is. Zij wil samen met burgers en bedrijven werken aan een

beter beleid en kwaliteitsvolle dienstverlening. De Vlaamse overheidsinstanties beschikken over een enorme schat aan data die kan worden

opengesteld naar burgers, bedrijven en organisaties.

Open data zijn gegevens die door de overheid verzameld worden in het kader van haar openbare taak en waar geen of minimale beperkingen

op rusten. Bovendien zijn die gegevens elektronisch beschikbaar en wordt gebruik gemaakt van open standaarden.

Open Data heeft verschillende voordelen:

◼ Open data zorgt voor grotere transparantie over de werking van de overheid.

◼ Opendatazorgtookvoormeerefficiëntiezowelbinnenentussenoverhedenalsbijbedrijvenenorganisatiesexternaandeover-

heid.

◼ Open data leidt tot slot ook tot innovatie en het ontstaan van nieuwe en vernieuwende producten en diensten.

Open Data stimuleert ondernemerschap, biedt instrumenten voor alternatieve besluitvorming en draagt bij tot het ontwikkelen van een Vlaamse

kenniseconomie.

Open Data heeft ook meerwaarde voor de overheid zelf, zoals een betere publieke dienstverlening, administratieve lastenverlaging en een verhoog-

de interactie en samenwerking met burgers, bedrijven en organisaties. Het centraal aanbieden van Open Data zal ook aanleiding geventoteffici-

entiewinsten voor de overheidsinstanties zelf en bijdragen tot een verhoging van de datakwaliteit.

1.2 OPEN DATA BIJ DE VLAAMSE OVERHEID

1.2.1 CONCEPTNOTA

Op 23 september 2011 keurde de Vlaamse Regering een conceptnota open data (VR 2011 2309 DOC 0959) goed. Die bevat een aantal strategi-

sche krachtlijnen die Vlaanderen kunnen doen aansluiten bij de koplopers betreffende open data, zoals de Verenigde Staten en het Verenigd

Koninkrijk. Aanleiding voor deze conceptnota was het eindrapport van de ViA rondetafel ‘i-vlaanderen: de Vlaamse overheid interactief’ op 17

december 2010.

1.2.2 STRATEGISCHE KRACHTLIJNEN

1/ Open data wordt de norm binnen de Vlaamse overheid Geslotendatakanenkelmitsexplicieteverantwoording;

2/ Hergebruik van open data is toegestaan

Ook voor commerciële doeleinden, gratis of tegen een billijke vergoeding. Open data maakt hierbij gebruik van eenvoudige, gestandaar-

diseerdelicentiemodellen;

3/ Open data maakt gebruik van open standaarden

Opendatamaaktgebruikvanopenformatenenopeninterfaces;

4/ Open data uit authentieke gegevensbronnen waar het kan

DeuitbouwvanVlaamseauthentiekegegevensbronnenzalaanleidinggeventotbetrouwbareenkwaliteitsvolleoverheidsdata;

5/ Open data volgens een integrale benadering

Ook de lokale overheden in Vlaanderen zijn belangrijke leveranciers van data. Bovendien mag de link met het federale niveau niet

vergetenworden.Samenwerkingoverdebestuurslagenheenbiedteensterkemeerwaarde;

6/ Bedrijfsinformatie Vlaamse overheid in een centraal repertorium Datasets over de Vlaamse overheid kunnen na een concrete beslissing van de Vlaamse Regering als open data ter beschikking gesteld.

5


1/ Introductie

1.2.3 MODELLICENTIES

Voor het hergebruik van open data werden modellicenties ontwikkeld door de Vlaamse overheid.

◼ Een Creative Commons Zero verklaring, waarbij de instantie afstand doet van haar intellectuele eigendomsrechten voor zover dit

wettelijk mogelijk is. Hierdoor kan de gebruiker de data hergebruiken voor eender welk doel, zonder een verplichting op naamsvermel-

ding.

◼ Gratis open data licentie: onder deze licentie doet de instantie geen afstand van haar intellectuele rechten, maar mag de data voor

eender welk doel hergebruikt worden, gratis en onder minimale restricties.

◼ Open data licentie tegen billijke vergoeding: onder deze licentie stelt de instantie nog steeds haar data ter beschikking voor een-

der welk hergebruik, maar wil zij voor alle soorten hergebruik een billijke vergoeding ontvangen.

◼ Gratis open data licentie voor niet-commercieel hergebruik: deze licentie regelt het gratis niet-commercieel hergebruik van data.

De hierna volgende licentie wordt dan toepasselijk voor het commercieel hergebruik.

◼ Open data licentie tegen billijke vergoeding voor commercieel hergebruik: deze licentie vormt de tegenhanger van de gratis licen-

tie voor niet-commercieel hergebruik en wordt steeds samen met de vorige licentie gebruikt.

Voor alle entiteiten van de Vlaamse overheid geldt het volg-of-verklaar-principe: de ‘Gratis open data licentie’ wordt standaard gebruikt

voor het ter beschikking stellen van datasets die vallen onder het toepassingsgebied van het decreet betreffende het hergebruik van over-

heidsinformatie. Enkel indien dit voldoende gemotiveerd wordt, kunnen de andere licenties worden toegepast.

Voor overheidsinformatie die niet gevat is door het decreet geldt het volg-of-verklaar-principe niet, hoewel ook in deze gevallen het gebruik

van een ‘Gratis open data licentie’ wordt aanbevolen.

De licenties kunnen door ook door andere instanties in Vlaanderen gebruikt worden, ook op lokaal niveau.

1.2.4 URI-STRATEGIE

Als groeimodel voor een open data praktijk bij de overheden in Vlaanderen kan verwezen worden naar het vijf sterren model voor open

data zoals voorgesteld door Tim Berners-Lee.

★ Data is beschikbaar op het web (ongeacht het formaat) onder een open licentie

★ ★ Data is beschikbaar op het web in een machine-leesbaar gestructureerd formaat (bv. Excel i.p.v. een afbeelding van een tabel)

★ ★ ★ Zelfde als (2) en data is beschikbaar in een open formaat (bv. CSV i.p.v. Excel)

★ ★ ★ ★ Zelfde als (3) en gebruik van URI’s (‘Uniform Resource Identifier’) om objecten of concepten te identifice-ren zodat kan verwezen worden

★ ★ ★ ★ ★ Zelfde als (4) en link data met andere data zodat deze verrijkt worden

De Vlaamse overheid streeft naar minimaal 3 sterren open data.

Op termijn wil de Vlaamse overheid (voor de voornaamste datasets) evolueren naar 4 en 5 sterren en datasets publiceren als Linked Open

Data (LOD).

Om 4 en 5 sterren open data te bereiken, moet voldaan zijn aan volgende principes:

1/^GebruikvanURI’somzakenteidentificeren

2/^Gebruik van HTTP URI’s zodat objecten en concepten opgezocht kunnen worden (“dereferenced”) door personen

3/^Geef bruikbare informatie terug wanneer iemand een URI opzoekt en maak hiervoor gebruik van open standaarden (zoals RDF en

SPARQL)

4/^Link naar gerelateerde objecten en concepten aan de hand van hun URI’s bij het publiceren van datasets

Dit betekent concreet dat de Vlaamse overheid aan de scholen, hospitalen, gebouwen, … waarvan overheden in Vlaanderen ‘authentieke’ data

beheren en die zij willen publiceren als Linked Open Data, een URL moeten toekennen. De URI-strategie van de Vlaamse overheid biedt

daarvoor een aantal patronen en richtlijnen. Bovendien bevat het een aantal goede praktijken voor het gebruik van vocabularia bij het publi-

ceren van Linked Open Data.

6


1/ Introductie

1.2.5 REGEERAKKOORD 2014-2019

In het regeerakkoord 2014-2019 is de ambitie van de Vlaamse Regering om overheidsinformatie als open data ter beschikking te stellen opge-

nomen en versterkt: “Open data is de norm bij de Vlaamse overheid en wordt versneld geïmplementeerd”.

1.3 OMZETTING PSI-RICHTLIJNHet decreet over het hergebruik van overheidsinformatie en het decreet over het elektronische bestuurlijke gegevensverkeer (het zogenaamde

‘e-gov decreet’) werden aangepast naar aanleiding van de herziening van de Europese richtlijn over het hergebruik van overheidsinformatie

(‘PSI-richtlijn’). Op 3 juni 2015 werd het wijzigingsdecreet aangenomen in het Vlaams Parlement en op 12 juni 2015 bekrachtigd door de Vlaam-

se Regering (B.S. 30 juni 2015).

De Europese Commissie wil aan de hand van de herziene PSI-richtlijn een aantal barrières wegwerken zodat hergebruik van overheidsinfor-

matie op grote schaal ingang kan vinden. De aanpassing van het wetgevend kader zal bovendien de overheden in Vlaanderen laten aansluiten

bij de groeiende open data beweging in Europa.

Het wijzigingsdecreet bevat volgende elementen die relevant zijn voor open data:

◼ Invoering van een algemeen recht op hergebruik vanbestuursdocumenten(incl.datasets),tenzijvooreenaantalspecifiekegevallen

zoalsbepaaldinhetdecreet;

◼ De vergoeding voor hergebruik wordt in regel beperkt tot de marginale kosten voor vermenigvuldiging, verstrekking en versprei-

ding.Uitzonderingenzijnmogelijkineenbeperktaantalgevallen;

◼ Uitbreiding van het toepassingsgebied met bibliotheken (met inbegrip van universiteitsbibliotheken), musea en archieven. Zij volgen

echtereenafwijkendregime:geenverplichting,hogerevergoedingdanmarginalekostenenexclusiviteitsovereenkomsteninhetkader

vandigitaliseringsprojectenzijntoegelaten;

◼ Gebruik van modellicenties met minimale voorwaarden voor hergebruik door alle overheden in Vlaanderen tenzij dit om juridische,

technischeofandereheelgegronderedenennietkan;

◼ Er wordt zoveel als mogelijk gebruik gemaakt van open en machine-leesbare formaten;

◼ Er worden maatregelen genomen die het zoeken naar voor hergebruik beschikbare informatie (incl. datasets) vereenvoudigen, zoals

overzichtslijstenenportaalsites;

◼◼ ◼Om ook de uitwisseling van bestuursdocumenten (incl. datasets) tussen overheden te vereenvoudigen, wordt het decreet over het

elektronische bestuurlijke gegevensverkeer (‘e-gov decreet’) gewijzigd.

In de eerste helft van 2016 zal het gewijzigde decretale kader voor hergebruik van overheidsinformatie en open data verder worden geopera-

tionaliseerd aan de hand van een uitvoeringsbesluit. Dit besluit zal onder meer één of meerdere modellicenties voor hergebruik vastleggen,

criteria voor vergoedingen hoger dan de marginale kosten voor vermenigvuldiging, verstrekking en verspreiding bepalen als de gebruiksvoor-

waarden voor de uitwisseling van bestuursdocumenten tussen instanties onderling.

1.4 VLAAMS OPEN DATA PORTAALHet Vlaamse Open Data Portaal1 is de gouden gids voor open data van overheden in Vlaanderen. Op termijn zullen hier alle voor hergebruik

beschikbare datasets ter beschikking worden gesteld.

In deze handleiding vindt u concrete instructies hoe u het Open Data Portaal kunt gebruiken voor het publiceren van datasets (hoofdstuk

6)enhettoevoegenvanmetadata(hoofdstuk8).Daarnaastleestuookhoegeografischegegevensviahunmetadatadoorstromennaarhet

Open Data Portaal (hoofdstuk 4.3).

1 http://opendata.vlaanderen.be/

http://opendata.vlaanderen.be/

7


1/ Introductie

Het coördinatiecomité VDI heeft op 29 januari 2015 volgende ‘bindende afspraken’ goedgekeurd met betrekking tot het gebruik van het

Vlaams Open Data Portaal:

◼ Publicatie op het portaal is verplicht voor datasets waarover de Vlaamse administratie en lokale en provinciale besturen beschik-

kenendievallenonderhettoepassingsgebiedvanhetdecreetbetreffendehethergebruikvanoverheidsinformatie;

◼ Publicatie op het portaal wordt sterk aanbevolen voor datasets waarover andere instanties dan de Vlaamse administratie, lokale

en provinciale besturen beschikken en die vallen onder het toepassingsgebied van het decreet betreffende het hergebruik van over-

heidsinformatie;

◼ Publicatie op het portaal wordt sterk aanbevolen voor datasets die NIET vallen onder het toepassingsgebied van het decreet

betreffende het hergebruik van overheidsinformatie en waarvoor een instantie de nodige rechten heeft om hergebruik toe te staan,

TENZIJ de openbaarmaking ervan is uitgesloten ingevolge het decreet betreffende de openbaarheid van bestuur

Een overzicht van alle bindende afspraken met betrekking tot Open Data goedgekeurd door het coördinatiecomité VDI is opgenomen in bijla-

ge 6 gevoegd bij deze handleiding.

Het Open Data Portaal maakt gebruik van CKAN-software voor het publiceren van datasets. CKAN is beschikbaar als open source software en

wordt veelvuldig gebruikt voor op het opzetten van dataportalen door overheden wereldwijd. Het portaal voorziet bovendien in een integra-

tie van CKAN en The Datatank. The Datatank software biedt mogelijkheden voor conversie naar verschillende formaten. Ook The Datatank is

beschikbaar als open source software.

1.5 WAAROM EEN OPEN DATA HANDLEIDING?Deze handleiding wil instanties helpen bij het ontsluiten van gegevens als Open Data en een concreet stappenplan aanbieden dat als leidraad

kan dienen: vanaf het selecteren van gegevens tot het realiseren van een Open Data stroom, vanaf de bron tot de publicatie van Open Data op

het Vlaamse Open Data Portaal.

Een eerste versie van de handleiding werd online ter beschikking gesteld in 2013. Op de website van het agentschap informatie Vlaanderen2 wordt

regelmatig een aangepaste versie gepubliceerd waarbij rekening wordt gehouden met de laatste stand van zaken.

Het coördinatiecomité VDI heeft op 29 januari 2015 volgende ‘bindende afspraken’ goedgekeurd met betrekking tot het gebruik van deze

handleiding:

◼ Bij publicatie op het portaal wordt het stappenplan gevolgd zoals beschreven in de open data handleiding van de Vlaamse over-

heid;

◼ Bij publicatie op het portaal worden de technische afspraken gevolgd zoals beschreven in de open data handleiding van de Vlaam-

seoverheid;

◼ Bij publicatie op het portaal gebeurt het uitwisselen van metadata volgens de DCAT-AP standaard en conform de richtlijnen zoals

beschreven in de open data handleiding van de Vlaamse overheid.



2 http://overheid.vlaanderen.be/opendata

http://www.vlaanderen.be/opendata

8


2/ Selecteer uw dataset(s)

2 SELECTEER UW DATASET(S)Een van de opmerkingen is vaak dat men niet goed weet welke datasets er (eerst) moeten ontsloten worden en in welke volgorde. In dit hoofdstuk

geven we een aantal tips om deze selectie vanuit jullie standpunt te helpen maken.

2.1 VOORAFGAANDE JURIDISCHE TOETSING Vooraleer de data open te stellen voor het publiek, moet de instantie nagaan of er geen juridische belemmeringen zijn voor deze openstelling.

Hierbij moet in eerste instantie gedacht worden aan drie categorieën van belemmeringen: de intellectuele eigendomsrechten, de regels betreffende

de verwerking van persoonsgegevens en de mogelijke uitzonderingen op de openbaarheid van bestuur.

2.1.1 INTELLECTUELE EIGENDOMSRECHTEN

Wanneer er intellectuele eigendomsrechten rusten op de data die een instantie wil ter beschikking stellen, moet de instantie nagaan of zij de

rechthebbende is van die data of op één of andere manier het recht heeft verworven om de data te publiceren. Indien dit niet het geval is, moe-

ten de nodige rechten eerst worden verkregen door middel van een overeenkomst met de rechthebbende. Voor ambtenaren of werknemers kan dit

geregeld worden in het statuut of de arbeidsovereenkomst3.

Voor datasets, documenten of ander materiaal dat op bestelling wordt gecreëerd door een private partij voor de instantie, moet de overdracht

van de intellectuele eigendomsrechten geregeld zijn in een overeenkomst. Het is dan ook aan te raden dat de instantie in elke overeenkomst met

(of overheidsopdracht aan) een derde partij voor het maken van auteursrechtelijk beschermd materiaal een bepaling opneemt waarin de nodige

rechten worden verleend aan de instantie om het materiaal als Open Data ter beschikking te stellen. Het kan daarbij enerzijds gaan om een vol-

ledige overdracht van de rechten, zodat de instantie de rechthebbende wordt. Anderzijds kan er ook voor gekozen worden (bijvoorbeeld omdat

de volledige overdracht te duur zou zijn, of omdat de private aannemer het materiaal ook zelf wil gebruiken) om een licentie op het verstrekken

van de data te eisen. In het eerste geval kan men stellen dat de instantie ‘eigenaar’ wordt van het materiaal, terwijl in het tweede geval de instan-

tie het recht krijgt om de data te verspreiden, maar de aannemer ‘eigenaar’ blijft.

Aanbeveling 1: Verifieer welke intellectuele eigendomsrechten rusten op de data die u ter beschikking wil stellen. Indien de instantie niet de rechthebbende is van deze intellectuele eigendomsrechten, sluit ze een overeenkomst af met de huidige rechthebbende. Voeg in elke toekomstige overeenkomst of overheidsopdracht met derde partijen voor het creëren van datasets of documenten een bepaling toe waarin de instantie de nodige rechten verkrijgt om de resultaten als Open Data beschikbaar te maken.

2.1.2 UITZONDERINGEN OP DE OPENBAARHEID VAN BESTUUR

Ook al is de instantie volledig eigenaar van de data, dit houdt niet automatisch in dat zij deze ter beschikking mag stellen van het publiek.

De bescherming van andere rechtmatige belangen kan in sommige gevallen vereisen dat de data niet publiek worden gemaakt. Deze belangen

worden opgesomd in het decreet van 26 maart 2004 betreffende de openbaarheid van bestuur. Voor elke dataset waarvan beschikbaarstelling als

Open Data wordt overwogen, moet dus eerst worden nagekeken of de uitzonderingen van het openbaarheidsdecreet gelden. In de volgende geval-

len mogen de data niet worden beschikbaar gemaakt:

1/Alsdeopenbaarmakingafbreukdoetaaneengeheimhoudingsverplichtingvande instantie;

2/Als de openbaarmaking afbreuk doet aan de bescherming van de persoonlijke levenssfeer (tenzij de betrokken persoon met de openbaar-

making instemt)4;

3/Als de openbaarmaking afbreuk doet aan het geheim van de beraadslagingen van de Vlaamse Regering en de verantwoordelijke over- he-

dendieervanafhangen,deorganenvanhetVlaamsParlementofvaneeninstantieinVlaanderen;

4/Als het om bestuursdocumenten gaat die uitsluitend ten behoeve van de strafvordering of de vordering van een administratieve sanctie

werdenopgesteld;

3 Voor de ambtenaren die onder het VPS vallen, is dit al zo. Zie het Besluit van de Vlaamse Regering van 13 januari 2006 houdende vaststelling van de rechtspositie van het personeel van de diensten van de Vlaamse overheid, B.S. 27 maart 2006.4 Deze uitzondering overlapt gedeeltelijk met de regeling betreffende de verwerking van persoonsgegevens (cf. infra).

9



5/Als het om bestuursdocumenten gaat die uitsluitend ten behoeve van de mogelijke toepassing van tuchtmaatregelen worden opgesteld,

zolangdemogelijkheidomeentuchtmaatregeltenemenblijftbestaan;

6/Als het om bestuursdocumenten gaat die informatie bevatten die door een derde werd verstrekt zonder dat hij daartoe verplicht werd

endiehijuitdrukkelijkalsvertrouwelijkheeftbestempeld(tenzijdiepersoonmetdeopenbaarmakinginstemt);

7/Wanneerhetbelangvandeopenbaarmakingnietopweegttegeneeneconomisch,financieelofcommercieelbelangvaneeninstantiein

Vlaanderen;

8/Wanneer het belang van de openbaarmaking niet opweegt tegen het vertrouwelijk karakter van de internationale betrekkingen van

Vlaanderen, of de betrekkingen van Vlaanderen met de supranationale instellingen, met de federale overheid en met andere gemeenschap-

penengewesten;

9/Wanneer het belang van de openbaarmaking niet opweegt tegen het vertrouwelijk karakter van commerciële en industriële informatie,

wanneer deze informatie beschermd wordt om een gelegitimeerd economisch belang te vrijwaren (tenzij degene van wie de informatie

afkomstigismetdeopenbaarheidinstemt);

10/Wanneer het belang van de openbaarmaking niet opweegt tegen de rechtspleging in een burgerlijk of administratief rechtsgeding en de

mogelijkheideeneerlijkprocesteverkrijgen;

11/Wanneer het belang van de openbaarmaking niet opweegt tegen de vertrouwelijkheid van het handelen van een instantie voor zover

die vertrouwelijkheid noodzakelijk is voor de uitoefening van de administratieve handhaving, de uitvoering van een interne audit of de

politieke besluitvorming;

12/Wanneer het belang van de openbaarmaking niet opweegt tegen de openbare orde en de veiligheid.

Voor milieu-informatie gelden een aparte reeks uitzonderingen, die echter vergelijkbaar zijn met de bovenstaande belangen5

Aanbeveling 2: controleer of met de beschikbaarstelling van de data geen belangen worden geschonden die beschermd wor-den in het decreet van 26 maart 2004 betreffende de openbaarheid van bestuur.

5 Zie artikel 15 van het decreet van 26 maart 2004 betreffende de openbaarheid van bestuur:§ 1. De in artikel 4 genoemde milieu-instanties wijzen de aanvraag tot openbaarmaking af, voorzover die betrekking heeft op milieu-informatie, indien ze van oordeel zijn dat het belang van de openbaarheid niet opweegt tegen de bescherming van één van de volgende belangen:- debeschermingvandepersoonlijkelevenssfeer,tenzijdebetrokkenpersoonmetdeopenbaarmakinginstemt;het geheim van de beraadslagingen van de Vlaamse regering en van de verantwoordelijke overheden die ervan afhangen, het geheim van de beraadslagingen van de organen van het Vlaams Parlement, evenals het bij wet of decreet bepaalde geheim van de beraadslagingen van de organen van de instanties, genoemd inartikel4,§1,3°tot10°;- het vertrouwelijk karakter van bestuursdocumenten die uitsluitend ten behoeve van de strafvordering of de vordering van een administratieve sanctie werdenopgesteld;- het vertrouwelijk karakter van bestuursdocumenten die uitsluitend ten behoeve van de mogelijke toepassing van tuchtmaatregelen werden opgesteld, zolangdemogelijkheidomeentuchtmaatregeltenemenblijftbestaan;- de bescherming van de informatie die door een derde werd verstrekt zonder dat hij daartoe verplicht werd en die hij uitdrukkelijk als vertrouwelijk heeft bestempeld,tenzijdiepersoonmetdeopenbaarmakinginstemt;- het vertrouwelijk karakter van de internationale betrekkingen van het Vlaamse Gewest of de Vlaamse Gemeenschap en van de betrekkingen van het Vlaamse Gewest of de Vlaamse Gemeenschap met de supranationale instellingen, met de federale overheid en met andere gemeenschappen en gewesten;- het vertrouwelijk karakter van commerciële en industriële informatie, wanneer deze informatie beschermd wordt om een gelegitimeerd economisch belang tevrijwaren,tenzijdegenevanwiedeinformatieafkomstigis,metdeopenbaarheidinstemt;- de rechtspleging in een burgerlijk of administratief rechtsgeding en de mogelijkheid een eerlijk proces te verkrijgen:- de vertrouwelijkheid van het handelen van een milieu-instantie, voor zover die vertrouwelijkheid noodzakelijk is voor de uitoefening van de administratie-vehandhaving,deuitvoeringvaneeninterneauditofdepolitiekebesluitvorming;- deopenbareordeenveiligheid;- de bescherming van het milieu waarop de informatie betrekking heeft.§ 2. Voor zover de verzochte informatie betrekking heeft op emissies in het milieu, zijn de in § 1, 1°, 2°, 5°, 7°, 9° en 11°, genoemde uitzonderingsgronden niet van toepassing. Voor de in § 1, 3°, 4°, 6°, 8° en 10°, genoemde uitzonderingsgronden wordt in aanmerking genomen of de verzochte informatie betrekking heeft op emissies in het milieu.§ 3. Voor informatie, bedoeld in het samenwerkingsakkoord van 21 juni 1999 tussen de federale Staat, het Vlaamse Gewest, het Waalse Gewest en het Brussels Hoofdstedelijk Gewest betreffende de beheersing van de gevaren van zware ongevallen waarbij gevaarlijke stoffen betrokken zijn, zijn de in § 1, 9° en 11°, genoem-de uitzonderingen niet van toepassing.

10



2.1.3 BESCHERMING VAN PERSOONSGEGEVENS

Volgens de conceptnota van de Vlaamse overheid gaat Open Data over het ter beschikking stellen van niet-persoonsgebonden overheidsgegevens.

Voor elke beschikbaar making van bepaalde datasets moet dus worden nagegaan of deze datasets geen persoonsgegevens bevatten. Wanneer dit het

geval is, wordt de data in principe niet beschikbaar gemaakt als Open Data.6Hetbegrip‘persoonsgegevens’wordtalsvolgtgedefinieerd:“iedere

informatiebetreffendeeengeïdentificeerdeofidentificeerbarenatuurlijkepersoon”.7 Eenidentificeerbaarnatuurlijkpersoonisopzijnbeurt“een

persoondiedirectofindirectkanwordengeïdentificeerd,metnameaandehandvaneenidentificatienummerof van éénofmeerspecifieke

elementen die kenmerkend zijn voor zijn of haar fysieke, fysiologische, psychische, economische, culturele of sociale identiteit”.

Aanbeveling 3: controleer voor de data worden beschikbaar gemaakt of zij geen persoonsgegevens bevatten.

2.2 CRITERIA EN PRIORITEITENBij het selecteren van datasets voor publicatie als Open Data moet / kan een instantie rekening houden met volgende criteria:

◼ Wettelijke vereisten: Zijn er wettelijke vereisten die opleggen dat gegevens als Open Data ter beschikking worden gesteld? Omge-

keerd: zijn er juridische belemmeringen die dit onmogelijk maken?

◼ Eerder gepubliceerde gegevens: Is de informatie al openlijk beschikbaar of moet deze nog worden opengesteld?

◼ Waarde van de gegevens: Zijn de gegevens nuttig voor sociaal engagement en/of hebben ze commerciële waarde?

◼ Bereik van de gegevens: Zijndegegevensbedoeldvoorhetgrotepubliekofvoorspecifiekedoelgroepen?

2.2.1 WETTELIJKE VEREISTEN

Indien er een wettelijke verplichting bestaat om gegevens als Open Data vrij te geven, is het evident dat de betrokken instantie hiervoor het

nodige doet. Zie paragraaf 1.3 voor het wettelijk kader waarbinnen hergebruik van overheidsinformatie en in het bijzonder het ter beschik-

king stellen van Open Data mogelijk gemaakt wordt.

Zie paragraaf 2.1 met betrekking tot de voorafgaande juridische toetsing vooraleer een dataset te selecteren en als Open Data ter beschikking

te stellen. Wanneer beperkingen inzake intellectuele eigendomsrechten, openbaarheid van bestuur of bescherming van persoonsgegevens de

vrijgave als Open Data onmogelijk maken, zijn hierna volgende criteria voor selectie van de betrokken datasets niet meer relevant.

2.2.2 EERDER GEPUBLICEERDE GEGEVENS

Gegevens die al elektronisch beschikbaar zijn, kunnen relatief snel en gemakkelijk ook als Open Data gepubliceerd worden. Voorbeelden hiervan zijn:

kadastrale gegevens, topografischekaarten,verkeersinformatie en meteogegevens.

2.2.3 WAARDE VAN DE GEGEVENS

Gegevens met maatschappelijke relevantie komen voor Open Data in aanmerking. Voorbeelden hiervan zijn wetten en parlementaire stukken (bv. gege-

vens van stemming vertegenwoordigers), gegevens voorafgaand aan de verkiezingen (bv. programma’s van politieke partijen) en gegevens van e-gover-

nment en e-participatie campagnes (bv. openbare raadplegingen, crowdsourcing).

Hetzelfde geldt voor gegevens met wellicht meer commerciële waarde. Voorbeelden hiervan zijn wegenkaarten, real-time verkeersinformatie en re-

al-time weerinformatie.

Een interessante en uitgebreide studie over de meerwaarde van Open Data van de EU8 (gepubliceerd in november 2015) geeft een duidelijk beeld op

de meerwaarde van Open Data naar de verschillende sectoren toe. Deze studie toont ook aan dat er vooral interesse is in de volgende gegevens:

6 DeverhoudingtussenOpenDataendebeschermingvanpersoonsgegevensiszeercomplex.DeVlaamseregeringheeftdanookprincipieeldekeuzegemaakt om persoonsgebonden gegevens buiten beschouwing te laten en deze niet als Open Data beschikbaar te stellen. Op deze manier wordt de beschermingvanpersoonsgegevensmaximaalgewaarborgd.7 Artikel 1§1 Wet van 8 december 1992 tot bescherming van de persoonlijke levenssfeer ten opzichte van de verwerking van persoonsgegevens, B.S. 18 maart 1993.8 Zie http://www.europeandataportal.eu/sites/default/files/edp_creating_value_through_open_data_0.pdf

http://www.europeandataportal.eu/sites/default/files/edp_creating_value_through_open_data_0.pdf

11



2.2.4 BEREIK VAN DE GEGEVENS

Sommigegegevenszijnspecifiekgerichtophetgrotepubliekendusextrainteressant.Voorbeeldenhiervanzijnverkeersinformatie,openbaar

vervoersgegevens, verkiezingsgegevens.

Andere gegevens zijn essentieel voor kleine groepen van mensen en nichemarkten. Voorbeelden hiervan zijn informatieoverfaciliteitenenfinanciële

steun voor mensen met speciale behoeften, economische statistieken en rechterlijke beslissingen.

2.2.5 PRIORITEITEN GOEDGEKEURD DOOR HET COÖRDINATIECOMITÉ VDI VAN 29 JANUARI 2015

Op basis van de doelstellingen m.b.t. het hergebruik van overheidsinformatie zoals opgenomen in de beleidsnota BZ 2014-20199 en de aanbe-

velingen m.b.t. de implementatie van de PSI-richtlijn zoals geformuleerd door de Europese Commissie10, is op het coördinatiecomité VDI van 29

januari 2015 een prioriteitenlijst vastgesteld en als ‘bindende afspraak’ gevalideerd:

Bij publicatie van open data op het Vlaams open data portaal wordt in eerste instantie een prioriteitenlijst gevolgd zoals gevalideerd binnen

het coördinatiecomité VDI. De volgorde van de verschillende categorieën in deze lijst heeft geen belang.

◼ Geografische data: bv. datasets die vallen onder het GDI-decreet: adressen (CRAB), vervoersnetwerken (GRB-wegen), gebouwen

(GRB-gebouwen), landgebruik (RUPs), nutsdiensten (riolering), gebiedsbeheer (beschermingszones), …

◼ Milieudata: bv. datasets m.b.t. afval, brongebruik, emissies naar oppervlaktewater, energie, luchtemissies, …

◼ Mobiliteitsdata: bv. datasets m.b.t. het goederenvervoer, personenvervoer, verkeersinformatie, verkeersveiligheid, …

◼ Economische data: bv. bedrijvenregister (VKBO), cijfermateriaal over de economische situatie in Vlaanderen, overheidsinkomsten

en –uitgaven, …

◼ Andere statistische data: bv.demografischegegevens,inspectiegegevens,Vlaamseregionaleindicatoren(VRIND),…



Aanbeveling 4: publiceer prioritair gegevens als Open Data volgens de prioriteitenlijst goedgekeurd op het coördinatiecomité van 29 januari 2015.

9 http://www.bestuurszaken.be/nieuws/beleidsnota-bestuurszaken-2014-2019 10 http://ec.europa.eu/information_society/newsroom/cf/dae/document.cfm?action=display&doc_id=6421

http://www.bestuurszaken.be/nieuws/beleidsnota-bestuurszaken-2014-2019

http://ec.europa.eu/information_society/newsroom/cf/dae/document.cfm?action=display&doc_id=6421

12


3/ Kies een modellicentie

3 KIES EEN MODELLICENTIE Om het gebruik van Open Data zo veel mogelijk te stimuleren, en tegelijk de instanties te ondersteunen bij het beschikbaar maken van hun data,

heeft de Vlaams overheid modellicenties opgesteld die door alle instanties kunnen worden gebruikt. De combinatie van meerdere datasets wordt

bemoeilijkt door de mogelijke verschillende licentievoorwaarden die erop van toepassing kunnen zijn. Het gebruik van uniforme licentievoorwaar-

den zorgt er voor dat Open Data optimaal kunnen worden gebruikt en kunnen leiden tot vernieuwende en waardevolle toepassingen. Bovendien

besparen de instanties tijd en inspanningen door het gebruik van de eenvoudige licenties opgesteld door de Vlaamse overheid. De Vlaamse overheid

heeft deze modellicenties op een dergelijke wijze opgesteld dat ze door alle instanties in Vlaanderen, ook op lokaal niveau, kunnen worden gebruikt

voor het beschikbaar maken van hun data. Door het gebruiken van deze licenties bouwen de instanties mee aan een open overheid die participa-

tie en innovatie ondersteunt.

Noot: Voor geografische gegevens geldt dat het voorstel van keuze van een licentie dient voorgelegd aan de stuurgroep GDI-Vlaanderen: De stuurgroep GDI-Vlaanderen bepaalt de voorwaarden voor het hergebruik van geografische informatie (Art 8 §4 van het decreet tot wijziging van het decreet van 27 april 2007 betreffende het hergebruik van overheidsinfor-matie en het decreet van 18 juli 2008 betreffende het elektronische bestuurlijke gegevensverkeer). Voor meer info over het ontsluiten van geografische gegevens in Vlaanderen, zie paragraaf 4.3 van deze handleiding.

3.1 VOORAFGAANDE BESLISSING OMTRENT VERGOEDINGEN De conceptnota Open Data vertrekt van het basisprincipe dat Open Data gratis of tegen een billijke vergoeding moet kunnen worden hergebruikt.

De instantie moet dus voor elke dataset beslissen of zij deze gratis wil beschikbaar maken of een billijke vergoeding wil vragen.

Onder het huidige regelgevende kader wordt de vergoeding voor hergebruik van Open Data in regel beperkt tot de marginale kosten voor

vermenigvuldiging, verstrekking en verspreiding. Uitzonderingen zijn mogelijke (waarbij een hogere vergoeding kan gevraagd worden) in een

aantalspecifiekegevallen.

Uitzonderingen zijn enkel mogelijk wanneer instanties verplicht zijn inkomsten te genereren om een aanzienlijk deel van de kosten van de

uitoefening van hun publieke taken te dekken, voor documenten waarvoor de betrokken instantie verplicht is voldoende inkomsten te genere-

ren om een aanzienlijk deel van de kosten te dekken of documenten van bibliotheken, musea en archieven.

Tijdens het coördinatiecomité van 12 maart 2015 werden volgende bindende afspraken goedgekeurd met betrekking tot het vragen van een

vergoeding voor Open Data:

◼ Voor open data waarbij een vergoeding op basis van marginale kosten als bovengrens geldt, zal de betrokken instantie geen ver-

goeding vragen voor vermenigvuldiging, verstrekking en verspreiding via elektronische middelen.

In lijn met de richtsnoeren van de Europese Commissie (2014/C 240/01) zal voor open data in regel geen vergoeding gevraagd worden aange-

zien het ter beschikking stellen van open data steeds in een online omgeving gebeurt.

Wanneer een vergoeding op basis van gemaakte kosten mogelijk is en een instantie hier uitdrukkelijk voor kiest, gelden vooraf bepaalde ob-

jectieve, transparante en controleerbare criteria bij de berekening van de vergoeding voor open data. Deze criteria gelden niet voor datasets

van bibliotheken, musea en archieven en van instanties die vallen buiten het toepassingsgebied van het decreet.

Voor de berekening van een vergoeding op basis van gemaakte kosten gelden volgende criteria:

◼ De kosten op basis waarvan de vergoeding wordt berekend vallen onder één van de volgende categorieën: kosten voor productie,

verzamelen,anonimiseren,infrastructuur,kopiëren,behandeling,overlegoflevering;kunnengeverifieerdwordenaandehandvan

kwantificeerbaregegevens;zijngezuiverdvaninkomstenverkregentijdenshetproductieproces;wordenelkjaarbeoordeeldendever-

goeding aangepast op basis van vraag en aanbod en worden al dan niet vermeerderd met een redelijk rendement op de investering.

◼ Vooropendatawaarbijeenredelijkrendementopdeinvesteringwordtaangerekendisditeenpercentagedatmaximaal5%hoger

ligt dan de vaste rentevoet van de ECB

InlijnmetderichtsnoerenvandeEuropeseCommissie(2014/C240/01)wordt“redelijkrendement”beperkttoteenpercentagedatmaximaal

5%hogerligtdandevasterentevoetvandeECB.

Wanneer gekozen wordt voor het vragen van een vergoeding, moet de instantie ook zorgen voor een procedure voor het betalen van die vergoe-

ding door de gebruikers. Dit houdt onder meer in dat de betalingswijze moet worden vastgelegd, een rekeningnummer moet worden voorzien, e.d.

13



Noot: Bij de operationalisering van het decreet van 27 april 2007 betreffende het hergebruik van overheidsinformatie (ge-wijzigd op 12 juni 2015) zullen aan de hand van een uitvoeringsbesluit objectieve, transparante en controleerbare criteria worden vastgesteld voor de berekening van de vergoedingen hoger dan de marginale kosten voor vermenigvuldiging, ver-strekking en verspreiding. In afwachting hiervan kunnen hoger vermelde criteria worden gebruikt. Van zodra dit uitvoe-ringsbesluit van kracht is zal dit onderdeel van de handleiding verder worden aangevuld.



Aanbeveling 5: Bepaal of voor het hergebruik van de data een vergoeding zal worden gevraagd. Communiceer het bedrag (in-dien mogelijk), de berekeningsgrondslag en de verantwoording voor een vergoeding hoger dan de marginale kosten (indien van toepassing) duidelijk op het portaal. Organiseer de procedure voor de betaling van de vergoeding.

3.2 VOORAFGAANDE BESLISSING OMTRENT DE MOGELIJKE CATEGORIE-EN VAN GEBRUIK

Een instantie kan een onderscheid te maken tussen commercieel en niet-commercieel gebruik met betrekking tot de vergoeding. De afgrenzing

van commercieel en niet-commercieel gebruik is niet altijd even eenvoudig, en het algemene principe van Open Data gaat ervan uit dat geen

verschil wordt gemaakt tussen soorten gebruik. Daarom wordt de instanties in eerste instantie aangeraden geen onderscheid te maken tussen ver-

schillende soorten gebruik.

Indien de instantie toch om bepaalde redenen genoodzaakt is een onderscheid te maken tussen commercieel en niet-commercieel gebruik van de

Open Data, is het belangrijk dat een duidelijke omschrijving van het begrip commercieel wordt opgesteld en meegedeeld aan de potentiële ge-

bruikers. Voor deze omschrijving kan worden aangeknoopt bij de concepten van het winstoogmerk en de handelaar. Elke natuurlijke persoon of

rechtspersoon die beroepshalve daden van koophandel verricht, wordt geacht de data voor commerciële doeleinden te gebruiken (tenzij hij het

tegendeel kan bewijzen).

Aanbeveling 6: indien het onderscheid tussen de vergoeding voor commercieel en niet-commercieel hergebruik noodzakelijk is, leg een duidelijke omschrijving van het begrip ‘commercieel’ vast, waarbij het gebruik door een handelaar met winstoog-merk als commercieel wordt beschouwd.

3.3 KEUZE VAN EEN MODELLICENTIEDe modellicenties voor Open Data en bijhorende juridische nota zijn beschikbaar op de website van het departement / agentschap Informatie

Vlaanderen.11

Aan de hand van de beslissingen omtrent de soorten gebruik en de mogelijke vergoedingen kunnen de instanties een keuze maken uit vijf licentie-

modellen (waarbij licentie 4a en 4b altijd samen moeten worden gebruikt):

1/ Een Creative Commons Zero12 verklaring, waarbij de instantie afstand doet van haar intellectuele eigendomsrechten, voor zover dit

wettelijk mogelijk is13. Hierdoor kan de gebruiker de data hergebruiken voor eender welk doeleinde, zonder een verplichting op naamsver-

melding.

2/ Gratis Open Data Licentie: onder deze licentie doet de instantie geen afstand van haar intellectuele rechten, maar mag de data voor

eender welk doel hergebruikt worden, gratis en onder minimale restricties.

3/ Open Data Licentie tegen Billijke Vergoeding: onder deze licentie stelt de instantie nog steeds haar data ter beschikking voor eender

welk hergebruik, maar wil zij voor alle soorten hergebruik een billijke vergoeding ontvangen.

4a/ Gratis Open Data Licentie voor Niet-Commercieel Hergebruik: om te voldoen aan het principe van Open Data, moet de data beschik-

baar zijn onder minimale restricties voor zowel niet-commercieel als commercieel hergebruik. Eventueel kan wel een onderscheid gemaakt

worden tussen de vergoedingen, wanneer de instantie dit wenst. Voor commercieel hergebruik kan dan een billijke vergoeding worden

gevraagd, terwijl niet-commercieel hergebruik gratis wordt gemaakt. Deze licentie betreft het gratis niet-commercieel hergebruik. Licentie

4b wordt dan toepasselijk voor het commercieel gebruik

11 https://www.bestuurszaken.be/open-data-bij-de-vlaamse-overheid#modellicenties 12 http://www.creativecommons.org/about/cc0 13 Zie punt 3.2 van de juridische nota bij de modellicenties met betrekking tot de geldigheid van de CC0-verklaring

http://www.creativecommons.org/about/cc0

14



4b/ Open Data Licentie tegen Billijke Vergoeding voor Commercieel Hergebruik: wanneer een onderscheid wordt gemaakt op basis van het

commercieel karakter van het hergebruik voor het vragen van een vergoeding, vormt deze licentie de tegenhanger van de Gratis Licentie

voor Niet-Commercieel Hergebruik.

Hierbij zijn dus de volgende combinaties mogelijk voor een bepaalde dataset:

◼ CC0voorelkmogelijkhergebruik;

◼ Eengratislicentievoorelkmogelijkhergebruik;

◼ Eenlicentietegenbillijkevergoedingvoorallesoortenhergebruik;

◼ De combinatie van een gratis licentie voor niet-commercieel hergebruik en een licentie tegen billijke vergoeding voor commercieel

hergebruik14.

Al deze licenties zijn niet-transactioneel en moeten dus niet worden ondertekend door de licentienemer. Door het gebruiken van de data stemt hij

in met de voorwaarden. Hierdoor kan de data volledig anoniem worden hergebruikt. Mogelijk wordt de identiteit van de gebruiker wel gevraagd

in het kader van de betalingsprocedure voor het gebruik van de data tegen een billijke vergoeding. In dat geval blijft echter het verdere herge-

bruik van de data nog anoniem.

De keuze voor één licentie voor elk mogelijk hergebruik is de beste oplossing om het eenvoudig karakter van de licentiemodellen te bewaren. De

combinatie van twee licenties zou enkel moeten worden toegepast indien dit door de instanties echt noodzakelijk wordt geacht.

Noot: Bij de operationalisering van het decreet van 27 april 2007 betreffende het hergebruik van overheidsinformatie (ge-wijzigd op 12 juni 2015) zullen aan de hand van een uitvoeringsbesluit nadere regels bepaald worden voor het gebruik van één of meerdere modellicenties door instanties in Vlaanderen. Van zodra dit uitvoeringsbesluit van kracht is zal dit on-derdeel van de handleiding verder worden aangevuld.

Aanbeveling 7: Gebruik voor het beschikbaar maken van de Open Data de modellicenties van de Vlaamse overheid. Kies bij voorkeur voor één licentie voor alle soorten hergebruik, zonder onderscheid tussen commerciële en niet-commerciële doel-einden.

14 De combinatie van een gratis licentie voor commercieel gebruik en een licentie tegen een billijke vergoeding voor niet-commercieel gebruik is theo-retisch mogelijk, maar zal in de praktijk hoogstwaarschijnlijk niet voorkomen

15


4/ Ontsluit uw brongegevens

4 ONTSLUIT UW BRONGEGEVENSIn dit hoofdstuk worden een aantal scenario’s beschreven hoe je gegevens uit een bronsysteem haalt, omvormt tot een (open) dataset en aanbiedt

ophetOpenDataportaal.Inhoofdstuk4.3staatdespecifiekflowbeschrevenvoorgeografischegegevensinVlaanderen.

Heel wat overheidsinstanties publiceren nu al veel data in jaarverslagen, rapporten of andere documentatie. De gegevens die hierbij horen

kunnen in vele gevallen als dataset gepubliceerd worden. We zien dus een onmiddellijk resultaat mogelijk als alle instanties deze gegevens ook als

dataset ter beschikking stellen. Maar er zitten ook veel data in bronsystemen opgesloten. In dit geval zullen een aantal stappen ondernomen moeten

worden om de gegevens op een consistente manier te ontsluiten en als dataset te registreren op het Open Data portaal, liefst automatisch. Om dit

op een standaard manier aan te pakken, hebben we een aantal scenario’s ontwikkeld die hierbij als referentie kunnen dienen.

Door scenario’s uit te werken in combinatie met bestaande standaard technologieën, onderkennen we doorgaans een groot aantal use cases uit de

praktijk en komen zo tot een standaard aanpak als beste praktijk. Deze scenario’s vormen het startpunt om de meest typische datastromen naar

datasetsomtezetten,ditvoorzowelgeografischealsniet-geografischegegevensbronnen.

4.1 ACHTERLIGGENDE GEDACHTE: GEBRUIK VAN ETL TECHNIEKENInspiratie voor deze scenario’s hebben we gehaald uit de Business Intelligence / Data Warehousing (BI / DWH) wereld. Daar worden reeds vele

jaren technieken toegepast om informatie uit bronsystemen of databases te halen, (gedeeltelijk) op te kuisen, consistent te maken en te publiceren.

Dit proces noemt men het ETL proces:

De technologie (i.e. ETL software) die hierbij gebruikt wordt, kan ook gebruikt worden voor het ophalen, opkuisen, consistent maken en publiceren

van datasets. Deze tools bieden immers mogelijkheden om informatie voor te bereiden op analyse of verwerking.

Het zijn grotendeels dezelfde stappen en processen (incl. technologie) die nodig zijn om de gegevens als dataset te publiceren. Enkel de laatste stap, het

laden van gegevens in een datawarehouse omgeving wordt vervangen door een andere stap nl. het registreren van de dataset (en de metadata

die er bij hoort) in het Open Data portaal.

16



Dat betekent dat we voor een Open Data grotendeels dezelfde technieken (i.e. ETL processen, methoden en technologie) kunnen hergebruiken

of inzetten die een instantie in vele gevallen al in huis geeft. Of anders gezegd, voor het opmaken van een dataset zijn geen nieuwe technieken,

processen of tools vereist.

Indiendezeaanpakgevolgdwordt,zaldeconsistentievandeinterngebruiktegegevensendeexternaangebodendatasets(i.e.OpenData)makkelijker

bewaakt kunnen worden. Onsadviesisdusomzoveelmogelijkverdertebouwenopbestaandetechnologieentelkenseenstapjeextratevoorzienom

de desbetreffende gegevens ook als Open Data te kunnen publiceren.

4.2 SCENARIO’S VOOR HET ONTSLUITEN VAN BRONGEGEVENSZoals gezegd gaan we een aantal standaard scenario’s beschrijven die kunnen dienen als inspiratie om gegevens op een consistente manier

naareendatasettebrengen.Opditmomentzienwedevolgendescenario’svoorniet-geografischegegevensinVlaanderen:

1/Vertrekken van een bestaande publicatie:deinstantieextraheertdegegevensuiteenbestaandepublicatie(bv.gegevensvervatineentabelofgrafiek)enpubliceertdieapartals(open)dataset;

2/Vertrekken van een bestaande dataset: de instantie heeft bepaalde gegevens reeds opgemaakt, die nu ook als (open) dataset kun-

nengepubliceerdworden;

3/Vertrekken van een bestaande database: in dit scenario halen we de gegevens rechtstreeks uit een database van een applicatie

die door de instantie zelf is ontwikkeld en publiceren we bepaalde gegevens, mits de nodige omvormingen en controles, als een (open)

dataset;

4/Vertrekken van een bestaand bronsysteem of pakket: vaak gebruiken instanties een commercieel pakket die een eigen databa-

se heeft. Die gegevens zijn vaak niet rechtstreeks benaderbaar of zitten in een vreemde vorm opgeslagen die door de leverancier is

bepaald. In dit scenario gebruiken we technieken om die gegevens uit het pakket op te halen, om te vormen en als (open) dataset te

publiceren. Het verschil met scenario 3 is dat de pakketten vaak eisen dat je de gegevens via andere wegen ontsluit (bv. API of tools

eigenaanhetpakket),maarvaakkunnendieookmetklassiekeETLtoolsontslotenworden;

17



5/Vertrekken van verschillende bronnen en consolideren van gegevens: dit scenario ligt dicht bij een courante datawarehouse

techniek, waarbij gegevens uit verschillende bronnen worden verzameld en in tijdelijke tabellen worden opgeslagen. Van hieruit worden

dan de feitelijke datawarehouses opgeladen. Het opladen zelf kan dan vervangen worden door een publiceren van een (open) dataset.

Descenario’sstaanbeschrevenineenvolgordemetoplopendecomplexiteit.Scenario1 lijkt ons het meest toegankelijk voor alle instanties, zeker

omdat er wel wat publicaties periodiek worden vrijgegeven. Voor ieder volgend scenarioneemtdecomplexiteittoeomdathetuitgangspuntis

datdegegevensmindereenvoudigteontsluitenzijnenaldusextrastappen nodig zijn om tot een (open) dataset te komen. Elk scenario steunt

ook op de elementen die verder in dit document worden beschreven, namelijk wat er nodig is om de gegevens consistent te maken en kwaliteits-

vol te ontsluiten.

VoorhetpublicerenvangeografischegegevensinVlaanderenkuntuinhoofdstuk4.3terecht.

4.2.1 SCENARIO 1: VERTREKKEN VAN EEN PUBLICATIE

Wat

In dit scenario vertrekken we van een bestaand proces waarin gegevens worden verzameld en bewerkt alvorens ze in een publicatie worden opge-

nomen.

Denk hierbij aan al de publicaties die een overheid ter beschikking stelt15 en de hoeveelheid gegevens die hiervoor verzameld zijn en uiteindelijk

in de publicatie worden opgenomen. Die gegevens zijn het resultaat van een aantal processtappen die door 1 of meerdere instanties zijn uitgevoerd

vooraleerzefinaalzijn.EenvoorbeeldhiervanisVRIND16. In deze publicatie zijn heel wat cijfergegevens verwerkt die ook als dataset interessant

zijn voor verdere analyse en / of verwerking.

Wanneer

Omdat instanties nu eenmaal heel wat gegevens verzamelen voor allerlei publicaties, lijkt ons dit het meest eenvoudige scenario te zijn voor het

publiceren van (open) datasets. Het zijn immers reeds gepubliceerde gegevens die we ombuigen tot een dataset, waar relevant uiteraard.

Dit scenario kan dan ook gebruikt worden:

◼ Voor nieuwe publicaties, waarbij van bij het begin een stap wordt opgenomen in het productieproces om de gegevens ook als

(open)datasetbeschikbaartemaken;

◼ Voorbestaandepublicatieswaarbijhetbestaandeprocesopdejuisteplaatszaluitgebreidwordenmeteenextrastapomeen

(open) dataset mogelijk te maken.

Eenmaal je het proces hebt opgezet om uit de publicatie een (open) dataset op te halen en te publiceren, kan je dit herhaaldelijk toepassen. Zo

wordt dan ook de (open) dataset bijgewerkt bij een aanpassing van de publicatie.

Hoe

EssentieisdaterinhetproceseenextrastapwordtvoorzienomdedataookalsOpenDatateontsluiten,ziefiguurhieronder:

15 Zie bijvoorbeeld http://www.vlaanderen.be/nl/publicaties 16 http://www.vlaanderen.be/nl/overheid/werking-vlaamse-overheid/hoe-werkt-de-vlaamse-overheid/vrind-2012-cijfergegevens-en-indicato-ren-over-de-vlaamse-samen-leving

http://www.vlaanderen.be/nl/publicaties

http://www.vlaanderen.be/nl/overheid/werking-vlaamse-overheid/hoe-werkt-de-vlaamse-overheid/vrind-2012-cijfergegevens-en-indicatoren-over-de-vlaamse-samen-leving

http://www.vlaanderen.be/nl/overheid/werking-vlaamse-overheid/hoe-werkt-de-vlaamse-overheid/vrind-2012-cijfergegevens-en-indicatoren-over-de-vlaamse-samen-leving

18



We hebben in dit geval dus enkel een aantal “PUBLISH” activiteiten uit te voeren. Hierbij een overzicht van uit te voeren stappen:

EXTRACT

Niet van toepassing in dit scenario

TRANSFORM

Niet van toepassing in dit scenario

PUBLISH

Eenmaal de gegevens zijn afgezonderd, moeten ze bewerkt worden om aan de criteria van Open Data te voldoen:

༳ Metadata verzamelen

༳ Dataset publiceren (bij voorkeur automatisch)

༳ Licentiemodel kiezen

༳ Op het platform eventuele conversies aanbieden en eventueel ook een API.

༳ Feedback lus opzetten, zorgen dat instantie te bereiken is voor opmerkingen

༳ Voor regelmatige updates zorgen

De laatste stap is dan de gegevens als dataset te registreren op het Open Data Portaal, conform de richtlijnen die in een ander hoofdstuk

van dit document worden toegelicht.

Voorbeeld

Een voorbeeld van dit scenario zijn de gegevens uit de VRIND publicatie, zie website17 en tekst:

“VRIND, de Vlaamse Regionale Indicatoren, is een jaarlijkse uitgave van de Studiedienst van de Vlaamse Regering over de resultaten van het

Vlaamse beleid en de impact hiervan op de samenleving en de omgeving.

VRIND geeft aan de hand van cijfermateriaal een beeld van wat de Vlaamse overheid doet, op welke beleidsdomeinen ze actief is en met

welke resultaten. Voor elk domein geeft VRIND ook een schets van de recente sociaal-culturele, economische, ecologische en demografische

ontwikkelingen in Vlaanderen”

De gegevens worden typisch verzameld en samengesteld als onderdeel van de jaarlijkse publicatie cyclus. De gegevens die in VRIND gebundeld zijn,

worden (bijna) allemaal ook reeds ontsloten via lokale statistieken18.

DitwasweliswaarzonderrekeningtehoudenmetOpenData.Daaromwerdeenextrastapingelastindelaatstefasevanhet proces, waarbij

eerstdefinaledatasetsapartwerdengezet.Daarnaiseenscriptgeschrevendiedemetadatavanelkvandedatasetsaanvult en de datasets regis-

treert op het Open Data portaal.

Deze werkwijze kan herhaald worden voor iedere publicatie en de gegevens kunnen manueel (indien relatief weinig datasets en / of weinig fre-

quente wijzigingen) of automatisch opgeladen worden.

4.2.2 SCENARIO 2: VERTREKKEN VAN EEN DATASET

Wat

Heel wat instanties publiceren momenteel al heel wat informatie op hun website in een downloadbaar formaat zoals XLS ( indien PDF of een

ander niet machinaal leesbaar formaat, zie scenario 1). Ook zien we dat er al veel investeringen zijn gebeurd om “viewers” te bouwen waarmee

die informatie online kan geraadpleegd of gevisualiseerd worden (bv. BIVO, VOBIP publiek19) Dit impliceert dat de instantie al een proces of IT onder-

steuning heeft om die informatie voor te bereiden, te publiceren en te bekijken.

17 http://www4dar.vlaanderen.be/sites/svr/Monitoring/Pages/2008-06-vrind.aspx18 http://aps.vlaanderen.be/lokaal/lokale_statistieken.htm19 http://vobippubliek.vlaanderen.be/cognos10

http://www4dar.vlaanderen.be/sites/svr/Monitoring/Pages/2008-06-vrind.aspx

http://aps.vlaanderen.be/lokaal/lokale_statistieken.htm

http://vobippubliek.vlaanderen.be/cognos10

19



Metditscenariowillenweeenextrastaptoevoegendiedegegevensookklaarmaaktvoorpublicatieals(open)dataset.Dat betekent dat er een

minimaalaantalextrazakenmoetengebeuren,zoalsmetadatabeschrijvenenderegistratieophetOpenDataPortaal.

Wanneer

We veronderstellen dat een aantal instanties blijvend informatie via downloads of “viewers” ter beschikking zal stellen en dat Open Data een

extra kanaal is voor het vrijgeven van deze informatie. Dat betekent dat het onderliggende proces zal blijven bestaan en uitgebreid zal worden

met eenextrastapdieadditioneelook(open)datasetsregistreertophetOpenDataportaal.

Hoe

Zoals gesteld, veronderstellen we dat er een proces bestaat waarin de gegevens nu al worden klaargemaakt voor publicatie. We stellen voor een

extrastapin te bouwen in dit proces om de gegevens om te bouwen tot een (open) dataset die liefst in dezelfde beweging geregistreerd wordt

op het Open Data Portaal.

In sommige gevallen zien we dat er naast de publicatie al publieke data wordt opgemaakt en met een bepaalde (web) viewer toepassing ter be-

schikking gesteld. Meestal voldoet deze publieke data echter niet volledig aan de criteria van Open Data, maar met minimale moeite en extra

stappen kan dit wel een goede basis zijn om er snel een (open) dataset van te maken.

Ditscenariohoudtechterrekeningmeteenaantalextra stappen ten opzichte van het bestaande proces.

EXTRACT

Gegevensapartisolerenenfilterenuitdedatabaseineeneenduidigedataset.

Ditkaneventueeleenextrastapvereisenomgegevens rechtstreeks uit de database te halen. Het kan ook zijn dat we voor de dataset ande-

re gegevens selecteren (bv. minder velden, geanonimiseerd) dan in het bestaande proces. Indien de gegevens uit de publicatie al voldoen aan

de criteria van Open Data, dan hoeft deze stap uiteraard niet.

TRANSFORM

Dit omvat een gedegen kwaliteitscontrole en het consistent maken van de gegevens, zoals in elke datawarehouse omgeving wordt gedaan. Bij-

voorbeeld door eenduidige benaming van velden en vooral de inhoud (bv. geen cryptische afkortingen, geen 0 of 1 voor geslacht, adressen

consistent, namen voluit en in zelfde formaat, enzovoort).

We veronderstellen echter dat deze controles en acties ook al in het bestaande verwerkingsproces zitten, dus eventueel moeten die stappen

daar mee afgestemd worden. Het is geenszins de bedoeling om steeds een apart proces naast het bestaande te creëren. Ervaring leert echter

datermeestalspecifiekegegevensgemaaktwordenvooreengeselecteerdpubliek (lees: met toegangsrechten, niet publiek). Voor Open Data

kandatnatuurlijkniet,duszullenerinbepaaldegevallenextrastappennodigzijnomde gegevens klaar te maken. Indien de gegevens uit

de publicatie al door een gelijkaardig proces zijn gegaan en voldoen aan de criteria van Open Data, hoeft deze stap uiteraard niet.

PUBLISH

In ieder geval zijn volgende stappen altijd nodig in dit scenario, van zodra de dataset is opgemaakt:

༳ Metadataverzamelen;

༳ Licentiemodelkiezen;

༳ Datasetpubliceren(bijvoorkeurautomatisch);

༳ OphetplatformeventueleconversiesaanbiedeneneventueelookeenAPI;

20



༳ Feedbacklusopzetten,zorgendatinstantietebereikenisvooropmerkingen;

༳ Voor regelmatige updates zorgen.

Voorbeeld

Een mooi voorbeeld zijn de werkloosheidscijfers gepubliceerd op deze website20 en kunnen daar ook als XLS kunnen gedownload worden. Het

basisidee is dan dat deze datasets ook op het Open Data portaal ter beschikking kunnen / moeten komen en periodiek en automatisch bijge-

werkt worden (i.e. publicatie van de nieuwste gegevens). Via de website hebben mensen toegang tot de gegevens volgens de mogelijkheden van de

“viewer” die ingebouwd is en soms download opties biedt (vanuit Open Data perspectief).

Een tweede voorbeeld is (de publieke versie van) BIVO (dashboard Bedrijfsinformatie) waar al een visualisatie component is voorzien, op basis van

Cognos Viewer. Ook deze “viewer” biedt een aantal mogelijkheden, rechtstreeks van de website te gebruiken en beperkte download opties (vanuit

Open Data perspectief).

In beide voorbeelden stellen we voor om de relevante gegevens ook volledig op te zetten als een volwaardige (open) dataset en aldus te registre-

ren op het Open Data platform.

4.2.3 SCENARIO 3: VERTREKKEN VAN EEN DATABASE

Wat

In heel wat gevallen zitten de gegevens in een database opgeslagen die gemaakt is ter ondersteuning van een applicatie om een bedrijfsproces voor

de instantie te onderschrijven. Dat is meteen het vertrekpunt van dit scenario, namelijk gegevens uit een database ophalen en deze omvormen

naar een dataset.

De meeste databases gebruiken een structuur om gegevens op te slaan die niet meteen voor Open Data geschikt is. Alles is er immers op gericht om

gegevens snel naar de applicatie te brengen in het kader van een opvraging, toevoeging of verwijderen van bestaande gegevens. Deze structuur

noemtmetvaakOLTP(=onlinetransactionprocessing)enisvaakrelationeelvanopzet:gegevenszijninverschillendetabellen gelinkt met elkaar

via een relatie (key).

De basis van dit scenario is dus dat de gegevens eerst uit de database van de applicatie gehaald moeten worden, alvorens ze klaargemaakt worden

voorpublicatieals(open)dataset.Erisduseenextraverwerkingsprocesnodigomdezegegevensoptehalenenomtevormenof consistent te

maken.

Wanneer

De assumptie in dit scenario is dat we een applicatie hebben die intern is ontwikkeld op één van de bestaande interne omgevingen (bv. Java, .NET,

APEX, etc) en de database is één van de standaarden binnen de instantie (bv. Oracle, SQLServer, PostGress). Indien dit niet het geval is, dan stellen we

voor om met scenario 4 verder te gaan.

20 http://www.werk.be/cijfers

http://www.werk.be/cijfers

21



We gaan er ook van uit dat de vorige scenario’s niet van toepassing zijn als vertrekpunt. Er zullen dus gegevens eerst moeten onttrokken worden

uit databases alvorens te ontsluiten als Open Data.

Hoe

Inditscenariokomendetechniekenvan“Extract”en“Transform”volopvanpas,omdatergeenbestaandverwerkingsprocesisomvante vertrek-

ken of in te haken. We vertrekken dan ook rechtstreeks van een database (via een query of tools).

Een kanttekening hierbij is dat we dit soort “technische” bewerkingen niet gelijkstellen met de “inhoudelijke” bewerkingen die meestal in de

“Transform”stapgebeuren.Denkhierbijaancomplexetransformatieszoalsbv.hetaaneenschakelenvandeopeenvolgendeinschrijvingenvan een leer-

lingen uit verschillende systemen (lager, secundair, hoger, ...) om de volledige studieloopbaan te construeren. Het resultaat is het gevolg van meerdere

technische bewerkingen en stappen dat een logisch of inhoudelijk geheel vormt. Er kan dus meer dan 1 technische stap nodig zijn om de transfor-

matie uit te voeren.

EXTRACT

DemeestedatabasesystemenhebbenstandaardtechniekenomtabellenuittelezenenalsflatfilebeschikbaartemakenVoorbeeldenzijn:

༳ Oracle:viaEXPORTtool;

༳ Microsoft:SQLServerImportandExportWizard;

༳ MySQL:viamysqldumptool;

༳ Postgres: SQL Dump procedure.

Wanneer gegevens frequent wijzigen kan als alternatief een programma geschreven worden die via ODBC of JDBC drivers de gegevens uitleest

uithetDBMS.ODBC(ofdirectSQLwatinfeitehetzelfdeis)zaltoelatenommeercomplexeextractie-logicategebruiken.

TenslottekanookgebruikgemaaktwordenvandemogelijkhedenbinnenelkeETLtoolset.Praktischgezienishetvoorcomplexetransfor-

maties ook vaak aangewezen om de data, al dan niet tijdelijk, op te slaan in een staging databank en hierop dan verder te werken om de

definitievedatasetterealiseren.

Bij dergelijke procedures spelen altijd 2 dimensies:

༳ Ofwelaltijddevolledigeinhoudvandedatabaseoverhalenenpublicerenalsdataset;

༳ Ofwel enkel de wijzigingen / delta ten aanzien van de vorige versie downloaden en samenvoegen met de dataset.

TRANSFORM

Dit omvat een gedegen kwaliteitscontrole van de gegevens, zoals in elke datawarehouse omgeving wordt gedaan. Bijvoorbeeld door eendui-

dige benaming van velden en inhoud (geen cryptische afkortingen gebruiken, geen 0 of 1 voorgeslachtmaarbijvoorbeeldM= Man gebruiken,

adressen consistent opslaan, namen voluit schrijven en in hetzelfde formaat, enzovoort).

Omdat we in dit scenario niet kunnen veronderstellen dat er al een proces is, moeten deze transformatie stappen hier uitgevoerd worden.

In deze fase kunnen ook inhoudelijke verwerkingen gebeuren, zoals het anonimiseren van gegevens, of het samenvoegen van datasets om tot

een eenduidige granulariteit te komen.

HetisverkiesbaaromdegeëxtraheerdegegevenszosnelenfrequentmogelijknaarOpenDatatevertalen,zodatgebruikersenburgers

maximaaloverdelaatstenieuwereferentiegegevensbeschikken.Zekerwanneerhetoversnelwijzigendegegevensgaat.Ditheeft als gevolg dat

ook de transformaties die deze gegevens ondergaan in feite reproduceerbaar zijn en bij voorkeur automatisch moeten kunnen gebeuren.

PUBLISH

Nadat de gegevens klaar zijn voor publicatie als Open Data, rest ons nog de volgende stappen:

22



༳ Metadata verzamelen

༳ Dataset publiceren (bij voorkeur automatisch)

༳ Licentiemodel kiezen

༳ Op het platform eventuele conversies aanbieden en eventueel ook een API.

༳ Feedback lus opzetten, zorgen dat instantie te bereiken is voor opmerkingen

༳ Voor regelmatige updates zorgen

Voorbeeld

We verwijzen naar het Dataroom project bij MOW als een mooi voorbeeld van hoe een database is gebouwd die enerzijds de nodige data

verzameld vanuit verschillende bronsystemen en anderzijds de data verrijkt met metadata en automatisch als Open Data publiceert op het

platform.

4.2.4 SCENARIO 4: VERTREKKEN VAN EEN BRONSYSTEEM

Wat

Het vertrekpunt in dit scenario is dat de instantie een of meerder operationele systemen of pakketten heeft van waaruit Open Data gegevens

kunnen bekomen worden, mits een aantal bewerkingen, al of niet met tussenkomst van de leverancier of de dienstenleverancier die het pakket

beheert voor de instantie.

Deextracomplexiteitishierdusdatmenmeteenpakkettemakenheeft,waarbijhetnietistoegelatenomrechtstreeksdedatabasediebijhet

pakket hoort te benaderen.

Wanneer

Dit scenario is van toepassing wanneer de gegevens in een (commercieel) pakket zitten, waarbij soms niet rechtstreeks met de database kan

gepraat worden, ten minsten niet op de manier die in scenario 3 zijn aangegeven.

Ditscenarioisookvantoepassingalsdeinstantieeendienstbetrektvaneenderdepartij(bv.SoftwareAsAService),waarbijdedienstex-

tern wordt aangeboden (bv. Cloud toepassing).

Hoe

Dit scenario is een uitbreiding van het vorige, met het verschil dat hier de database niet rechtstreeks benaderbaar is, zoals hieronder is voorge-

steld:

Het advies bij een pakket is om gegevens nooit 1 op 1 te kopiëren en te publiceren. Vaak zijn de databases en veldnamen cryptisch omschreven en is

de structuur van de database zo ontworpen dat het enkel voor online transacties is geoptimaliseerd. Bij upgrades wijzigt de structuur meestal

en kan je dus herbeginnen.

EXTRACT

We gaan er van uit dat de instantie met de leverancier van het pakket kan bespreken hoe de gegevens kunnen ontsloten worden:

༳ Via een procedure die bij het pakket hoort. Vaak leveren pakketleveranciers een programma of script die de gegevens kan

uitlezen, zelfs met bepaalde parameters. Aangezien deze procedure door de leverancier is geschreven en onderhouden (bv. bij upgra-

devanhetpakket),hebjezekerheiddatdezeprocedure“forwardenbackwardcompatibleis”;

༳ Via APIs, indien het pakket dit aanbiedt. Dit betekent dat je een programma zal moeten schrijven die de APIs aanroept om

23



de gegevens te verkrijgen. Let op: sommige APIs kunnen ook bewerkingen uitvoeren op de gegevens vooraleer ze aan te bieden, bv.

consolideren,aggregeren,enzovoort;

༳ Via een nieuw programma of script die de gegevens rechtstreek uitleest uit de database van het pakket. Men is dan wel

afhankelijk van het database design van de leverancier, dat per versie of upgrade wel eens durft te wijzigen. Dat betekent dat je

het programma dan iedere keer moet aanpassen. Deze aanpak is dan ook niet aan te bevelen.

༳ Bij dergelijke procedures spelen altijd 2 dimensies:

༳ Ofwelaltijddevolledigeinhoudvandedatabaseexporterenenpublicerenalsdataset;

༳ Ofwel enkel de wijzigingen / deltatenaanzienvandevorigeversieexporterenensamenvoegenmetdedataset.

TRANSFORM

Dit omvat de transformatie en een gedegen kwaliteitscontrole van de gegevens, zoals in elke datawarehouse omgeving typisch wordt

gedaan. Bijvoorbeeld door eenduidige benaming van velden en inhoud (bv. geen cryptische afkortingen, geen 0 of 1 voorgeslacht,M= Man,

adressen consistent, namen voluit en in zelfde formaat, enzovoort).

Omdat we in dit scenario niet kunnen veronderstellen dat er al een proces is, moeten al deze transformatie stappen hier uitgevoerd wor-

den. In deze fase kunnen ook inhoudelijke verwerkingen gebeuren, zoals het anonimiseren van gegevens, of het samenvoegen van datasets

om tot een eenduidige granulariteit te komen.

PUBLISH

Nadat de gegevens klaar zijn voor publicatie als Open Data, rest ons nog de volgende stappen:







Voorbeeld

Een voorbeeld zijn adresgegevens, die vaak in commerciële pakketten (bv. CRM systeem) of eigen applicaties worden bijgehouden. Het ontsluiten van

deze gegevens zal moeten gebeuren door middel van een procedure binnen het pakket of door een programma te schrijven die de API oproept en

de DB uitleest. Dit is de makkelijkste stap. Het consistent maken van adresgegevens is de volgende stap en vaak ziet men nog verschillende forma-

ten opduiken bij publicatie. Daarom raden we aan om hiervoor een bestaande modelleringsafspraak te gebruiken. Voor contactgegevens verwij-

zen we dan ook graag naar de OSLO standaarden21.

Op het moment van schrijven hebben we nog geen enkele dataset die door deze stappen is gegaan.

4.2.5 SCENARIO 5: VERTREKKEN VAN VERSCHILLENDE BRONSYSTEMEN

Dit is een scenario voor ervaren instanties met Business Intelligence en datawarehouse technieken. Het scenario gaat er van uit dat de instantie al

wat datawarehouses en rapporteringsomgevingen lopende heeft en dat er heel wat ervaring is met het ontsluiten van gegevens uit verschillende

bronnen.Alle“Extract”en“Transform”techniekenentoolszijnalingebruikenhierinkunnenwedezehergebruiken.

Wat

Vaak zijn gegevens die gepubliceerd worden in een datawarehouse het resultaat van een hele reeks bewerkingen, zowel naar inhoud toe als naar

aggregatie toe. Eerst worden de relevante gegevens uit verschillende bronnen gehaald en consistent opgeslagen in een “Operational Data Store” (ODS)

omgeving. Voor Open Data heeft dit als voordeel dat deze gegevens niet meer apart uit de bronsystemen moeten gehaald worden. Een ODS is ook

de laagste vorm van granulariteit van de gegevens, dus een ideale bron om alle gegevens hier te ontsluiten.

21 http://purl.org/oslo/

http://purl.org/oslo/

24



Daarna worden gegevens vaak bewerkt in fases en tussentijds opgeslagen in “staging” tabellen. Hierop lopen dan verschillende programma’s om de

gegevens verder te aggregeren en consistent te maken alvorens op te laden in een datawarehouse. Voor Open Data kunnen we ook vertrekken van

een Staging tabel en daar dan de dataset uit opmaken. Het grote voordeel is dan dat al de correcties en bewerkingen van de gegevens al gebeurd

zijn.

Wanneer

WegaanerhiervanuitdatdeITafdelingvaneeninstantiemaximaalhergebruikmaaktvaneenaantalbestaandevoorzieningen. Dit scenario

is dus geldig als er al een ODS omgeving is en / of er een aantal Staging tabellen zijn als vertrekpunt. Het IT team kan dan gebruik maken van de

“Extract”en“Transform”programma’somzometeenconsistentedatasetstemaken.Welishetzo, dat het IT team dan ook de aggregatie en gra-

nulariteitmoetnakijkenofaanpassenomdedatasetszofijnmogelijktehouden.EventueelmoetduseenaparteofspecifiekeStagingtabelvoor

Open Data gemaakt worden..

Hoe

De volgende stappen zijn relevant:

EXTRACT

WegaanerinditscenariovanuitdatalleExtractfunctionaliteitbinnendebestaandeBIofDWHvoorhandenis.

TRANSFORM

Ook hier gaan we uit van de bestaande BI of DWH omgevingen. Alle datasets kunnen dan uit de laatste Staging tabellen gehaald worden.

EventueelmoetenkeleenspecifiekeStagingTabelvoorOpenDataopgemaaktworden,datistebekijkeninfunctievan de granulariteit.

PUBLISH

Nadat de gegevens klaar zijn voor publicatie als Open Data, resten ons nog de volgende stappen:







Voorbeeld

EenvoorbeeldvaneenuitgebouwdeBIenDWHomgevingvindenwebijDepartementOnderwijs&Vorming,meerbepaaldinhetKenniscentrum

project. Daar zijn alle tools en technieken zoals hier beschreven voorhanden.

Aanbeveling 8: kies een scenario voor het ontsluiten van brongegevens met het oog op de publicatie als Open Data en pas dit toe.

25



4.3 ONTSLUITING VAN GEOGRAFISCHE GEGEVENS IN VLAANDEREN

4.3.1 POSITIONERING

In dit document hebben we tot nu toe een generieke aanpak voorgesteld op basis van de ETL-technieken om gegevens te ontsluiten. Voor

bepaaldedatastromenzoalsgeografischegegevenskunnenerextrastappenofanderespecifiekestappennodigzijnomdezegegevenste

ontsluiten.Daaromhebbenwedezeextrasectietoegevoegddieinzoomtopdeverwerkingvangeografischegegevens(GIS,GEO)naareen

Open Data portaal.

OpbasisvanonzealgemeneETL-tekening,hebbenwehethierdusspecifiekoverdatabanken,bestandenendatawarehousesdieruimtelijke

informatie bevatten (een locatie, zoals een adres of een XY-coördinaat) en als input bron dienen voor het ontsluiten van geo-informatie, zoals

hieronder is weergegeven:

We zien deze aanpak vooral relevant voor scenario 3, 4 en 5, waar een volledig ETL-proces zal doorlopen worden voor het ontsluiten en pu-

bliceren van geodata. De algemene ETL-technieken en -scenario’s die in dit document zijn beschreven, blijven geldig voor de verwerking van

geografischegegevens,alleenzalerextraaandachtzijnvoordespecifiekeEuropeseINSPIRE22 –verplichtingen en Vlaamse GDI23-richtlijnen

die hiervoor bestaan. Vanuit INSPIRE en GDI worden immers standaarden voor datamodellen, protocollen, formaten en metadata aangereikt

waarmeegeografischegegevensontslotenmoetenworden.

In het kader van Open Data zullen deze richtlijnen ook geldig blijven. De tekst in dit hoofdstuk van dit document is afgecheckt met deze

richtlijnen,maaromdemogelijkeimpactvandezerichtlijnenteduidengevenweeenleidraadmeediedebeheerdersvangeografischeinfor-

matie kunnen hanteren bij het publiceren van hun gegevens.

4.3.2 LEIDRAAD VOOR PUBLICATIE VAN GEOGRAFISCHE GEGEVENS

In1995werdhetsamenwerkingsverbandvoorgeografischeinformatieinVlaanderenopgestart,hethuidigeGDI-Vlaanderen.Hetsamenwer-

kingsverbandheefttotdoeldeaanmaak,hetbeheer,deuitwisseling,hetgebruikenhethergebruikvangeografischegegevensbronnenen

geografischedienstenteoptimaliseren.AlleVlaamseinstantiesmakendeeluitvanhetsamenwerkingsverbandGDI-Vlaanderen.Destuurgroep

GDI-Vlaanderen is het sturende orgaan van het samenwerkingsverband. Informatie Vlaanderen staat in als de operationele coördinator van

deGeografischeData-Infrastructuur(GDI).

Om gegevens vlot uitwisselbaar te maken tussen overheidsinstanties enerzijds en tussen overheidsinstanties en burgers, bedrijven en orga-

nisaties anderzijds worden deze gegevens toegevoegd aan de GDI. Voor toevoeging aan de GDI dient formeel een dossier tot toevoeging te

worden ingediend bij de stuurgroep GDI-Vlaanderen. Als norm geldt dat al de milieu-gerelateerde datasets en diensten, in het beheer van

deelnemers aan GDI-Vlaanderen, moeten toegevoegd worden aan de GDI (conform artikel 12 van het GDI-decreet24). Andere datasets (z.g.

22 http://inspire.ec.europa.eu/23 http://www.geopunt.be/nl/voor-experts/gdi-vlaanderen24 https://www.agiv.be/over-agiv/wettelijk-kader/gdi-decreet

http://www.geopunt.be/nl/voor-experts/gdi-vlaanderen

https://www.agiv.be/over-agiv/wettelijk-kader/gdi-decreet

26



niet-INSPIRE-datasets) die beheerd worden door deelnemers aan GDI-Vlaanderen, moeten niet verplicht worden toegevoegd aan de GDI, tenzij

de stuurgroep GDI-Vlaanderen heeft vastgesteld dat de onderlinge uitwisseling ervan nodig is voor het uitvoeren van taken van algemeen

belang. In het kader van de procedure voor toevoegen aan de GDI zal de stuurgroep GDI-Vlaanderen ook de voorwaarden voor het hergebruik

(bijvoorbeeld als Vlaamse Open data) vaststellen.

GeografischedatadienietmoetenwordentoegevoegdaandeGDIzullenookeenhergebruiksregelingmoetenkrijgen,waarbijookeenproce-

dure via de stuurgroep GDI-Vlaanderen moet gevolgd worden.

Om na te gaan of jouw data onder de bepalingen van de INSPIRE-richtlijn of het GDI-decreet vallen en wat er dan precies van jou wordt

verwacht kan je volgende leidraad hanteren.

Bepalenvanhettypegeografischegegevensbron:

༳ Is INSPIRE van toepassing op mijn data?

Controleer of jouw data valt onder één of meerdere thema’s uit de bijlagen19 van de INSPIRE-richtlijn. Bij twijfel controleer je de

verordeninginzakeinteroperabiliteit(diededataspecificatiesbetreft).Indiendithetgevalis,zijndeINSPIRE-enGDI-richtlijnen

vantoepassing.DedatadienttoegevoegdtewordenaandeGeografischeData-Infrastructuur.DestuurgroepGDI-Vlaanderen

heeft het laatste woord in de beoordeling of een dataset al dan niet onder de INSPIRE-richtlijn valt.

De stuurgroep GDI-Vlaanderen legt de regeling voor hergebruik vast, op voorstel van jouw organisatie.

༳ JedatastaatnietindeINSPIRE-lijst,maarisweleendoordeGDI-Vlaanderenstuurgroepgeïdentificeerderelevantebron.

In dit geval zijn de GDI-richtlijnen eveneens van toepassing. De data dient toegevoegd te worden aan de GDI. De stuurgroep

GDI-Vlaanderen legt de gebruiksvoorwaarden en de regeling voor hergebruik vast.

༳ Andere data:

De beheerder is niet verplicht om de INSPIRE-- of GDI-richtlijnen te volgen. Indien de beheerder en/of de gebruikers van mening

zijn dat de gegevens waardevol zijn voor een brede doelgroep, is het toch aan te bevelen om de data toe te voegen aan de GDI.

LosvanhettoevoegenaandeGDI,geldtvoorgeografischedatadatdestuurgroepGDI-Vlaanderendevoorwaardenvoorherge-

bruik vaststelt.

Indien de gegevensbron toegevoegd wordt aan de GDI dienen minimaal volgende verdere stappen doorlopen te worden:

Aanmaken van metadata volgens de ”GDI-Vlaanderen Best Practices voor Metadata25” en publicatie van deze metadata in de Geopunt-catalo-

gus.

◼ VoorINSPIRE-dataenauthentiekeVlaamsegeografischegegevensbronnen:hetaanbiedenvangeografischeraadpleegdiensten;

◼ VoorINSPIRE-dataenauthentiekeVlaamsegeografischegegevensbronnen:hetaanbiedenvangeografischeoverdrachtsdiensten;

◼ VoorINSPIRE-data:HarmonisatievanhetdatamodelmetdeovereenkomstigeINSPIRE-dataspecificatie26.

4.3.3 TECHNISCHE IMPACT

Dehuidigewetgevingenrichtlijnenvoordepublicatievangeografischeinformatiebeogeneenoptimaledigitaleuitwisselingvandezein-

formatie.DeEuropeseINSPIRE-richtlijnisinwerkinggetredenin2007.DevertalingvandezewetgevingnaareenVlaamsecontext,onderde

vormvanhetGDI-decreet,kwaminvoegein2009.Voorgeografischeinformatiedieonderhetbereikvanditafsprakenkadervalt:

◼ dienthetdatamodelgeharmoniseerdtewordenmetdeINSPIRE-dataspecificaties;

◼ dientdemetadatagedocumenteerdtewordenvolgensdeGDI-VlaanderenBestPracticesvoorMetadata;

◼ dient gebruik gemaakt te worden van gestandaardiseerde webservice-interfaces voor de publicatie.

25 http://www.geopunt.be/voor-experts/metadata/metadata-best-practices-en-richtlijnen 26 http://inspire.ec.europa.eu/index.cfm/pageid/2

http://www.geopunt.be/voor-experts/metadata/metadata-best-practices-en-richtlijnen

http://inspire.ec.europa.eu/index.cfm/pageid/2

27



DeonderstaandefiguurgeefteenoverzichtvandecomponentendiedeeluitmakenvandeGDI-architectuur:

4.3.4 IMPACT OP HET ETL-PROCES

Tot2005wasETLvoorgeografischeinformatie(SpatialETL)inhoofdzaakhetspeelveldvandegroteGIS(GeografischInformatiesysteem)soft-

wareleveranciers.Doordetoenamevanhetbelangvanlocatiegebondeninformatiedelaatstejarenheeftdeondersteuningvoorgeografische

informatie inmiddels ook zijn weg gevonden naar de meeste toonaangevende commerciële en open source DBMS (MS SQL Server, Oracle, IBM

DB2,PostgreSQL,MySQL,…).DezeDBMSbiedenondersteuningvoorhetopslaanenbeherenvangeografischegegevensenbeschikkenovereen

basisset aan ruimtelijke functies om deze gegevens in te laden en verwerken. Aangezien deze functionaliteit in het DBMS geïntegreerd is, is het

eenuitbreidingvandebestaandeETL-functiesenkanudegeografischegegevensopeenzelfdemanierbenaderenenverwerkenalsuwandere

gegevens.Voordatabeheerdersdieenkelpuntenlocaties(x,y)opslaanalsattribuutvaneenobject,zaldezebasisondersteuningindemeeste

gevallen volstaan.

IndienunoodhebtaanmeergeavanceerdeSpatialETL(modeltransformatie,geocoderen,projecteren,generalisatie,etc.)ofcomplexereda-

tatypes (3D, raster, …) wenst te ondersteunen is de kans groot dat de beschikbare set aan ETL-functionaliteit ontoereikend is. In dit geval kan

u terugvallen op gespecialiseerde commerciële en open source software voor GIS (Quantum GIS, Gaia, ArcGIS, MapInfo, …) en Spatial ETL (FME,

GDAL/OGR, GeoKettle, …).

4.3.5 IMPACT OP METADATA

Om uw data en elektronische diensten binnen het samenwerkingsverband GDI-Vlaanderen te kunnen delen, dient u deze te beschrijven aan

de hand van metadata. De INSPIRE-richtlijn legt een minimaal aantal velden vast die moeten beschreven worden conform de ISO-standaard

voor metadata (ISO19115 voor dataset(series), ISO 19119 voor webservices, ISO 19139 voor het implementatievoorschrift). Deze Europese regle-

menteringwerdvoorVlaanderenvertaaldnaarBestPracticesvoorhetdocumenterenvanmetadatavoorgeografischeinformatie.Wanneeru

deze Best Practices volgt, voldoet u ook meteen aan de ISO en INSPIRE vereisten.

OmdeaanmaakenhetbeheervanmetadatavoorgeografischeinformatietefaciliterenwordtbinnenGeopunt,hetportaalvoorgeografische

informatie van de Vlaamse overheid, een webtoepassing aangeboden om uw metadata te documenteren (het Geopunt-metadatacenter).

Demetadata-omgevingbeschiktnaasteengrafischewebinterfaceookovereenmetadataservice-API.DezeAPIvolgtdedoorINSPIREaanbe-

volen Open Geospatial Consortium (OGC) standaard voor de publicatie van metadata (“Catalog Service for the Web” of CSW-standaard).

Elke dag worden de metadata van alle dataleveranciers binnen GDI-Vlaanderen gesynchroniseerd met de Geopunt-catalogus. Op deze manier

wordteenglobaaloverzichtverkregenvanhetaanbodaangeografischeinformatiebinnenhetGDI-Vlaanderennetwerk.

DeOpenDatacatalogusgaatopregelmatigetijdstippendeGeopunt-catalogusgaanoogsten,meteenfilterophettrefwoord“VlaamseOpen

data”.OpdezemanierstroomtdemetadatavanhetaanbodaangeografischeopendatanaadloosdoornaardeOpenDatacatalogus.Alsda-

ta-beheerder hoef je dus slechts eenmalig je gegevens via metadata te beschrijven en stromen de “open” datasets (op basis van het trefwoord)

vanzelf door naar het Vlaamse Open Data Portaal.

28



4.3.6 IMPACT OP HET PUBLICEREN VAN DATA

INSPIRE en GDI-Vlaanderen voorzien verschillende manieren om data elektronisch te publiceren. Er wordt onderscheid gemaakt tussen raad-

pleeg- en overdrachtsdiensten (INSPIRE View Services en Download Services).

Raadpleegdienstenrichtenzichinhoofdzaakopeenlaagdrempeligeintegratievandegeografischeinformatieineencartografische(web)

toepassing. Op basis van een locatie kan de gebruiker een kaartuitsnede onder de vorm van een beeld (jpg, png, gif) opvragen. Om INSPIRE en

GDI-Vlaanderen conforme raadpleegdiensten te kunnen aanbieden, dient de technische richtlijn voor raadpleegdiensten27 gevolgd te worden.

Deze richtlijn is gebaseerd op de OGC Web Map Service (WMS) en Web Map Tile Service (WMTS) implementatiestandaarden.

Deoverdrachtsdienstenzijnvoorzienvoorhetopvragenvandegeografischedatazelf.Demogelijkheidbestaatomdataaantebiedenals

een aflaadbaar bestand of via een directe toegang tot de databank. Om INSPIRE en GDI-Vlaanderen conforme overdrachtsdiensten te kunnen

aanbieden, dient de technische richtlijn voor overdrachtsdiensten28 gevolgd te worden. Deze richtlijn is gebaseerd op de OGC Web Feature Ser-

vice (WFS) voor directe toegang tot de databank, en op de IETF ATOM-standaard voor de publicatie van aflaadbare bestanden. Een WFS is een

interfacevoorhetopvragenenaanleverenvangeografischevectoriëledata.Degegevenswordenaangeleverdonderdevormvaneenvoor

geografischegegevensspecifiekXML-schema,beterbekendalsGML(GeographyMarkupLanguage).Indienergeopteerdwordtomdedataals

aflaadbaar bestand te delen, dient een ATOM-feed opgezet te worden die een overzicht biedt van de beschikbare bestanden. INSPIRE beveelt

hetgebruikvanGMLaanalsbestandsformaatvoordeuitwisselingvangegevens,daarnaastkanookgebruikgemaaktwordenvanShapefile,

DXF en KML (Keyhole Markup Language) als formaat om data uit te wisselen.

Voor meer informatie kunt u terecht bij Informatie Vlaanderen via [email protected].

27 http://inspire.ec.europa.eu/documents/Network_Services/TechnicalGuidance_ViewServices_v3.0.pdf 28 http://inspire.ec.europa.eu/index.cfm/newsid/10801

mailto:[email protected]

http://inspire.ec.europa.eu/documents/Network_Services/TechnicalGuidance_ViewServices_v3.0.pdf

http://inspire.ec.europa.eu/index.cfm/newsid/10801

29


5/ Structureer uw dataset(s)

5 STRUCTUREER UW DATASET(S)Vooraleer we datasets registreren op het Open Data platform dienen deze datasets te voldoen aan een aantal minimale vereisten met betrekking

tot kwaliteit en consistentie. In wat volgt worden aanbevelingen geformuleerd welke bestandsformaten of API’s te gebruiken om uw data te

publiceren. Tot slot wordt een maturiteitsmodel voor Open Data toegelicht.

Noot: voor datasets aangemeld bij GDI (Geografische Data Infrastructuur) Vlaanderen gelden de ‘best practices en richt-lijnen’ zoals goedgekeurd door de GDI-stuurgroep. Dit zowel voor wat de kwaliteit en consistentie van de datasets betreft als voor het formaat dat gebruikt wordt om GDI-datasets als open data ter beschikking te stellen. GDI-datasets worden in regel ter beschikking gesteld als WMS of WFS Webservices (API) of als downloadbaar bestand in een open formaat (bvb. Shapefile, GML, KML, …). Voor meer info over het ontsluiten van geografische gegevens in Vlaanderen, zie paragraaf 4.3 van deze handleiding.

5.1 MINIMALE VEREISTEN In deze paragraaf worden er een aantal minimale vereisten bij het selecteren van datasets vooropgezet. Deze vereisen zijn opgemaakt vanuit de

volgende dimensies:

◼ Kwaliteit:hetgeheelvantechnischeeigenschappenwaaraaneenOpenDatastroomminimaalmoetvoldoen;

◼ Consistentie: bewaken van de innerlijke technische samenhang van de gepubliceerde gegevens.

Indevolgendeparagrafenwordenerenkelepraktischetipsgegevenhoedezevereistenkanrealiseren.Dezetipszijnnietexhaustief noch in een

bepaalde volgorde te lezen.

5.1.1 KWALITEIT

Om de technische kwaliteit van een Open Data stroom te bewaken moet iedere dataset moet voldoen aan volgende criteria:

◼ Iedere Open Data stroom moet een enige en unieke “header row” hebben met een eenduidige beschrijving van de kolommen, in het

Nederlands of Engels.

De “header row” moet de eerste lijn van de dataset vormen en ook niet meer dan 1 lijn beslaan. De titel is eenduidig, kort en

mag geen spaties bevatten. Er moet zoveel mogelijk beroep gedaan worden op de standaard vocabularia om de titel te nomine-

ren, zie verder in dit document.

◼ Voor CSV bestanden leggen we de nadruk om een internationaal aanvaard scheidingsteken tussen de velden (“delimiter”) te gebruiken.

Een komma symbool (“,”) wordt aanbevolen. Om verwarring te vermijden wordt ook aangeraden voor numerieke velden geen komma (“,”)

maar een punt (“.”) te gebruiken als decimaal teken.

◼ Iedere Open Data stroom moet voldoende metadata beschrijving hebben en minimaal voldoen aan de verplichte velden die in de

handleidingzijnopgenoemd;

◼ Iedere Open Data stroom moet voorzien in een proces om op regelmatige tijdstippen nieuwe of aangepaste gegevens te publiceren (up-date proces). Historische gegevens zullen uiteraard stabiel blijven, maar kunnen ook ieder maand, jaar of andere periode aangevuld worden;

◼ Iedere Open Data stroom moet een versienummerkrijgenzodatdezeeenduidigkangeïdentificeerdwordenenmogelijkeaanpassingen

kunnen getraceerd worden (i.e. versiebeheer).

5.1.2 CONSISTENTIE

Alle Open Data die gepubliceerd wordt, moet zoveel mogelijk consistent zijn over alle datastromen en instanties heen. Als het niet kan over de

instanties heen, dan minstens op niveau van de instantie zelf. Alle adressen moeten bijvoorbeeld altijd en voor iedereen op dezelfde manier ontslo-

tenworden,anderszaleengebruikeroffirmahiermoeilijkeengeconsolideerdbeeldvankunnenvormen.

30



Open Data moeten inzichtelijk zijn:

༳ ElkegebruikervanOpenDatamoetdeuniekeoorsprongvandegegevensbegrijpen;

༳ Bepaaldestatusvandegegevens(draft,gevalideerd);

༳ Hergebruikwatalbestaatbinnendeinstantieaan(meta)beschrijvingenvangegevens;

༳ Beschrijf het data model en metadata van in het begin.

Open Datastromen moeten juist en volledig(binnendecontext) zijn:

༳ Bepaal(ofbouw)validatieregelsopbasisvandedatazelf;

༳ Checkdummy&defaultwaarden(bv.M/V);

༳ Doeeenaantalbasiscontrolesenverbetereventuelefoutenaandebron(vb.adres);

༳ Identificeerverkeerdeofontbrekendevelden;

༳ Kijk naar optimalisatie en vermijd dubbele gegevens op te nemen.

Open Data moet controleerbaar zijn:

༳ Zetkwaliteitstestenopvooriederestapinhetproces;

༳ Zet volume testen op om te vermijden dat Open Data stromen te groot worden. Open Data wordt typisch klein gehouden

met het oog op hergebruik in mobiele applicaties. Indien de stroom groter wordt (bv. voor GIS gegevens), vermeld dit duidelijk

ophetOpenDataplatformofindemetadata;

༳ Scheid online en batch verwerking, zodat de ontsluiting van Open Data stromen niet te belastend is voor de infrastructuur

binnen de entiteit.

Open Data moet tenslotte ook veilig zijn:

༳ Vertrouwelijkegegevensuitfilteren;

༳ Privacywetgevingrespecteren;

༳ Anonimiserenvangegevens;

༳ Aggregeren indien nodig (granulariteit).

Aanbeveling 9: Controleer minimale criteria inzake kwaliteit en consistentie alvorens een dataset wordt gepubliceerd op het Open Data platform.

5.2 STANDAARDEN, OPEN FORMATEN EN API’S

5.2.1 DATAMODELLERING

De kracht van Open Data zit hem niet alleen in het publiceren van de dataset, maar ook dat we datasets kunnen combineren met elkaar. Om

dit goed te kunnen doen, is het van het allergrootste belang dat er aandacht wordt besteed aan semantiek en het datamodel dat gebruikt

wordt om de dataset vorm te geven. Een adres kan pas kwaliteitsvol gecombineerd worden met een adres uit een andere dataset indien het

datamodelachterhetadreshetzelfdeis,maximaalovereenkomt,ofopzijnminstgekendis.

Jammer genoeg zien we dat er weinig aandacht gespendeerd wordt aan het zoeken en gebruiken van generieke data modellen over de instan-

ties heen. Vaak zien we dat elke instantie een eigen data model maakt en gebruikt om datasets te publiceren, zelfs als het over dezelfde soort

informatie gaat (bv. adressen).

31



Zeker als we straks evolueren naar Linked Open Data wordt semantiek nog belangrijker en is het gebruikte datamodel cruciaal. Nu zijn er wel

semantische tools die de link zelf proberen te leggen tussen verschillende vormen van een adres (om dit voorbeeld opnieuw te gebruiken),

maar die algoritmen zijn niet feilloos.

Bij het publiceren van datasets hoort dus een verantwoordelijkheid om het juiste datamodel voor de dataset te kiezen. In feite wijken we hier

niet af van reeds gekende principes rond datamodellering. In het geval van Open Data is de keuze van het juiste datamodel nog belangrijker,

omdat de wereld nu je klant is.

Bij de verantwoordelijkheid rond datamodellering hoort ook de nood om met andere instanties te communiceren over gebruikte datamodel-

len en zelfs afspraken te maken met elkaar over het gebruik van generieke datamodellen. Dit alles pleit voor een overheidsbrede Master Data

Management aanpak. We verwijzen in dit verband ook naar de bijlage rond MDM.

Gelukkig bestaan er heel wat standaarden voor het modelleren van data. Ook binnen de Vlaamse overheid zijn er hierrond al wat afspraken

gemaakt, zoals bijvoorbeeld de OSLO standaarden.

Hieronder een lijst van Europese of internationale afspraken die kunnen toegepast worden op (open) datasets:

◼ Algemene vocabularia:

༳ DCMI

http://dublincore.org

༳ OSLO

http://www.v-ict-or.be/kenniscentrum/OSLO.

༳ Andere standaard data vocabularia

http://schema.org/docs/schemas.html

◼ Om mensen te beschrijven:

༳ vCard

http://en.wikipedia.org/wiki/VCard

༳ Core Person Vocabulary

https://joinup.ec.europa.eu/asset/core_person/description

◼ Om organisaties te beschrijven:

༳ Registered Organisation Vocabulary

http://www.w3.org/TR/vocab-regorg/

༳ Core Business Vocabulary

https://joinup.ec.europa.eu/asset/core_business/news/publication-core-business-vocabulary-regorg-w3c-standards-track

◼ Om adressen te beschrijven:

༳ vCard


༳ Core Location Vocabulary

https://joinup.ec.europa.eu/asset/core_location/release/100

◼ Voor het beschrijven van overheidsdiensten:

༳ Core Public Service Vocabulary

https://joinup.ec.europa.eu/asset/core_public_service/description

http://dublincore.org

http://www.v-ict-or.be/kenniscentrum/OSLO

http://schema.org/docs/schemas.html


https://joinup.ec.europa.eu/asset/core_person/description

http://www.w3.org/TR/vocab-regorg/

https://joinup.ec.europa.eu/asset/core_business/news/publication-core-business-vocabulary-regorg-w3c-standards-track


https://joinup.ec.europa.eu/asset/core_location/release/100

https://joinup.ec.europa.eu/asset/core_public_service/description

32



◼ Voor het melden van niet-dringende problemen of suggesties

༳ Open311.org

http://open311.org/

Aanbeveling 10: gebruik zoveel mogelijk een standaard data model voor de informatie die je wil vrijgeven als Open Data.

5.2.2 OPEN FORMATEN

Bij de Vlaamse overheid willen we minimaal datasets publiceren die voldoen aan de 3 sterren beschrijving volgens het maturiteitsmodel voor

Open Data (zie verder). Dit betekent dat we gestructureerde data willen aanbieden in een bestandsformaat dat open (non-proprietary) is.

Open formaten voor gestructureerde data zijn onder andere:

◼ CSV (http://en.wikipedia.org/wiki/Comma-separated_values);

◼ TSV (http://en.wikipedia.org/wiki/Tab-separated_values);

◼ XML (http://www.w3.org/XML);

◼ JSON (http://www.json.org/);

◼ ODF (http://en.wikipedia.org/wiki/OpenDocument);

◼ RDF/XML, turtle, N-triple, JSON-LD (http://en.wikipedia.org/wiki/Resource_Description_Framework).

Open formaten voor geodata zijn onder andere:

◼ Shapefile(http://en.wikipedia.org/wiki/Shapefile);

◼ GeoJSON (http://geojson.org/);

◼ GML (http://www.opengeospatial.org/standards/gml);

◼ KML (https://developers.google.com/kml/);

◼ WKT (http://en.wikipedia.org/wiki/Well-known_text).

Aanbeveling 11: gebruik zoveel mogelijk een open formaat zoals CSV voor niet geografische gegevens en GML of Shapefile voor geografische gegevens.

5.2.3 CONVERSIEMOGELIJKHEDEN

Gestructureerde data die niet in een open formaat (vb. XLS) beschikbaar zijn, kunnen toch als 3 sterren Open Data ter beschikking worden ge-

steld door gebruik te maken van conversie software zoals op het Vo Open Data portaal is geïmplementeerd (op basis van The DataTank, TDT).

Voor meer informatie over het gebruik van The Databank (TDT) voor conversie naar open formaten zie 8.5.3.

Aanbeveling 12: maak zoveel mogelijk gebruik van de conversie mogelijkheden zoals standaard aangeboden op het Vo Open Data portaal.

5.2.4 API’S

U kan ook overwegen om uw datasets niet (of niet uitsluitend) aan te bieden via datadumps maar aan de hand van een API. Een API heeft

immers het voordeel dat:

◼ alleen die data worden teruggegeven die van belang zijn voor de afnemer op basis van een query, door gebruik te maken van een

http://open311.org/

http://en.wikipedia.org/wiki/Comma-separated_values)

http://en.wikipedia.org/wiki/Tab-separated_values)

http://www.w3.org/XML)%3B

http://www.json.org/)%3B

http://en.wikipedia.org/wiki/OpenDocument)%3B

http://en.wikipedia.org/wiki/Resource_Description_Framework)

http://en.wikipedia.org/wiki/Shapefile)%3B

http://geojson.org/)%3B

http://www.opengeospatial.org/standards/gml)%3B

https://developers.google.com/kml/

http://en.wikipedia.org/wiki/Well-known_text)

33



filter,voorgesorteerdvolgensbehoefte,…;

◼ de meest actuele data kunnen worden teruggegeven.

Een mogelijk nadeel is natuurlijk dat als de API / service niet beschikbaar is (technische storing…), de gegevens ook niet meer opgevraagd

kunnen worden door de afnemer.

Indien u zelf een API wil bouwen, raden wij aan een RESTful Web API aan te bieden en toegang te verlenen tot de service zonder het gebruik

van een API key.

Voor een goede beschrijving van REST en een RESTful web API verwijzen we naar in voetnoot vermelde link29.

Door de integratie van The Datatank (TDT) software in het Open Data portaal (CKAN), wordt er naast de CKAN API ook een TDT API aangebo-

den volgens de hierboven aangehaalde principes. U vindt de API documentatie van de The Datatank software via in voetnoot vermelde link30.

Aanbeveling 13: indien u zelf een API bouwt, raden wij aan een RESTful Web API aan te bieden en toegang te verlenen zonder het gebruik van een API key. In het geval van een geografische dataset, raden we U aan om een WMS of WFS API te gebruiken.

5.3 MATURITEITSMODEL VOOR OPEN DATA Overheidsinstanties kunnen bij het aanbieden van Open Data steeds verbeteringen aanbrengen en groeien in consistentie en kwaliteit van de

gegevens. Om dit inzichtelijk te maken, introduceren we een maturiteitsmodel waar in graadmeters staan beschreven om een hoger niveau

van kwaliteit te bewerkstelligen.

Het 5-sterren maturiteitsmodel voor Open Data van Tim Berners-Lee31 geeft al een aantal kwaliteitskenmerken aan. We hebben dit model

uitgebreidmeteenaantalextrarichtlijnenwaaraan(open)datasetsbestaanvoldoen.Uiteraardhoefteeninstantienietmeteenvoorhet

5-sterren Open Data te kiezen, op dit moment ligt het ambitieniveau op 3-sterren Open Data.

Het overzicht van de verschillende maturiteitsniveaus alsook een aantal bijkomende richtlijnen die elders in dit document worden bepleit zijn

hieronder kort weergegeven:

Maturiteitsniveau Originele uitleg (Engels) Bijkomende richtlijnen

make your stuff available on the Web (whate-

ver format) under an open license

Informatie zonder fouten en met basis kwaliteitschecks (per

dataset) publiceren op het Vo Open Data platform, aangevuld

met alle metadata vereisten

make it available as structured data (e.g.,

Excelinsteadofimagescanofatable)

Idem 1 ster, maar nu ook met minimale consistentie checks

over de datasets heen (i.e. op niveau van publicerende instan-

tie)

use non-proprietary formats (e.g., CSV instead

ofExcel)

Idem 2 sterren, maar informatie wordt ontsloten onder een

data management proces met bewaking van de gestelde kwa-

liteit en consistentie checks (i.e. op niveau van publicerende

instantie)

use URIs to identify things, so that people

can point at your stuff

Idem 3 sterren, informatie wordt gepubliceerd op basis van

een Data Quality process, conform de URI strategie zoals in

een afzonderlijk document beschreven (minstens op niveau

van de publicerende instantie)

link your data to other data to provide con-

text

Idem 4 sterren, informatie wordt gepubliceerd op basis van

Enterprise Data Quality met EA Governance, conform de

URI strategie zoals in een afzonderlijk document beschreven

minstens op niveau van de publicerende instantie, liefst op

algemeen niveau)

29 http://en.wikipedia.org/wiki/Representational_State_Transfer#RESTful_web_services30 http://docs.thedatatank.com/4.0/consuming_data31 http://5stardata.info/

http://docs.thedatatank.com/4.0/consuming_data

http://5stardata.info/

34


6/ Publiceer Uw Dataset(s)

6 PUBLICEER UW DATASET(S)Wanneer een instantie een Open Data portaal wil opzetten, dienen keuzes gemaakt te worden vanuit verschillende invalshoeken, gaande van

welke functionaliteiten men wenst aan te bieden over de keuze van een software pakket tot het inschatten van de kosten van het opzetten

vaneeneigeninfrastructuurversushetmeeliftenmetbestaandeoplossingenzoalshetVoOpenDataportaal,ev.viaGeopuntvoorgeografi-

sche gegevens in Vlaanderen.

Om de instantie toe te laten deze keuzes weloverwogen te maken, beschrijven we in dit hoofdstuk de functionele vereisten die iedere oplos-

sing(minimaal)moetnastreven.WelichtendaarnatoehoehetVoOpenDataportaalhieraanvoldoetenhoeinstantieshetplatformmaxi-

maal kunnen (her)gebruiken.

Noot: Datasets die gedeeld worden binnen GDI (Geografische Data Infrastructuur) Vlaanderen dienen NIET RECHTSTREEKS gepubliceerd te worden op het Vo Open Data portaal. GDI-datasets worden conform de ‘best practices en richtlijnen’ voorzien van de nodige metadata en ontsloten via Geopunt (www.geopunt.be). Indien bovendien binnen de GDI-stuurgroep afspraken zijn gemaakt met betrekking tot het hergebruik van deze datasets (bvb. keuze van een licentie) zal aan deze datasets een keyword ‘Vlaamse open data’ worden toegevoegd. Op basis van dit keyword worden de betrokken datasets (incl. metadata) AUTOMATISCH geharvest naar het Vo Open Data portaal. Voor meer info over het ontsluiten van geogra-fische gegevens in Vlaanderen zie paragraaf 4.3 van deze handleiding.

6.1 VOORAFGAANDE TOETSING Elke instantie moet de nodige technische middelen voorzien om de datasets effectief beschikbaar te maken voor het publiek. Het gaat hierbij

om:

◼ Keuze van het domein: de instantie kan ervoor kiezen om haar eigen website te gebruiken voor de beschikbaarstelling van de data,

ofzijkanditdoenviaeenapartewebsitemeteeneigendomeinnaam;

◼ Registreren van datasets op portaal: de instantie kan ervoor kiezen datasets ter beschikking te stellen via download of het aanbie-

denvaneenAPI;

◼ Keuze van de hosting: de instantie moet bepalen of de data op haar eigen servers wordt bewaard en toegankelijk gemaakt wordt,

danwelofzijhiervoorgebruikmaaktvanserversvaneenderdepartij;

◼ Het beheer van de website en / of het portaal: iemand moet worden aangesteld die de website of het portaal beheert. Daarbij

moet ook bepaald worden welke graad van beschikbaarheid men wil garanderen, en welk niveau van monitoring en beveiliging van de

websitenodigis;

◼ Het onderhoud van de diensten: indien data wordt beschikbaar gesteld via services, moet iemand worden aangesteld die de be-

schikbaarheid, functionaliteit en performantie van de diensten opvolgt en garandeert.

◼ Om de keuze voor de instantie beter te duiden, hebben we een overzicht toegevoegd van de functionaliteiten die meest gangbaar

zijn bij het aanbieden van een Open Data portaal.

6.2 FUNCTIONELE VEREISTEN VOOR EEN OPEN DATA PORTAALMomenteel zien we de volgende functionele vereisten als minimaal bij het aanbieden van een Open Data portaal:

◼ Website content: het uitbouwen van een website of pagina’s om het Open Data programma te kaderen, te beschrijven en te ver-

wijzen naar andere initiatieven. Hieronder verstaan we ook de mogelijkheid om pagina’s te veranderen, bijvoegen of schrappen naar

gelang de noodzaak van de instantie.

◼ Publiceren en beheren van datasets: functionaliteit om datasets te publiceren en te beheren. Onder “publiceren” verstaan we

het opnemen in het register en het vindbaar maken van de dataset voor iedereen, dus ook de metadata velden horen hierbij. Onder

“beheren” verstaan we bijwerken van gegevens (nieuwe versie) tot en met verwijderen van een dataset uit het register. Dit allemaal

via een gebruiksvriendelijke interface. Hier hoort ook het beheer van administrators bij, niet iedereen moet zomaar datasets kunnen

verwijderen, een afbakening van rollen en verantwoordelijkheden is noodzakelijk. In verband met metadata vermelden we hier dat alle

metadatavelden100%afgestemdmoetenzijnmetdestandaardendieinhetVoOpenDatahandboekstaanvermeld.

http://www.geopunt.be

35



◼ Vinden van datasets en distributies: het terugvinden van datasets en distributies geldt als een van de belangrijkste kenmerken van

een Open Data platform. Hoe rijker deze functionaliteit is uitgebouwd, hoe makkelijker mensen en organisaties hun weg gaan vinden

in de lijst van gepubliceerde datasets. We onderscheiden hierbij volgende karakteristieken:

༳ Metadata: functionaliteit om via metadata velden datasets terug te vinden. Volledig afgestemd met de standaarden die

in het Vo Open Data handboek staan vermeld. Dit geldt zowel voor datasets als distributies

༳ Full-text search: mogelijkheden om datasets te zoeken via een GUI interface, liefst via verschillende criteria

༳ API: mogelijkheden om via een API rechtstreeks met het platform te communiceren om datasets of metadata uit te

lezen. Kan ook een query zijn die een set resultaten terug geeft.

◼ Hosten van distributies: functionaliteit die het mogelijk maakt om dezelfde dataset in verschillende formaten te hosten op het

platform, steeds onder dezelfde register naam. Bv. Een dataset die zowel in XLS als in CSV op het platform komt te staan, maar in se

dezelfde informatie bevat.

◼ Opslaan en beheer van data: functionaliteit om naast het register en de metadata beschrijving ook de dataset zelf te kunnen

hosten en rechtstreeks downloadbaar te maken. Dit betreft dus opslag mogelijkheden en ook databeheer tools om dit onder controle

te houden en te meten hoeveel storage er nodig is.

◼ Formaat conversies: heel wat overheidsinstellingen blijken informatie te hebben in formaten die geen open standaard zijn (bv.

XLS), wat de publicatie als Open Data hindert. Verder vragen Open Data gebruikers verschillende formaten voor verschillende doelein-

den. Het aanbieden van automatische formaat conversie functionaliteit is dan ook essentieel voor het stimuleren van het (her)gebruik

van de gepubliceerde datasets. Gelukkig bestaan hier degelijke technische oplossingen voor.

༳ Data: functionaliteit om een opgeladen dataset automatisch door het platform te laten vertalen en aanbieden in andere

formaten.

༳ API: functionaliteit die het toelaat om een dataset dynamisch te converteren op aanvraag, via een API.

◼ Visualisatie: functionaliteit om de dataset te visualiseren moet aanwezig zijn. Op zijn minst zien we dit onderverdeeld in de volgen-

de categorieën:

༳ Tabel: waar relevant moet de technologie functionaliteit ondersteunen om de Open Datasets rechtstreeks in tabel vorm

te visualiseren. Voor GIS datasets geldt dit onder de vorm van een visualisatie op kaart (zie hieronder)

༳ Grafiek:waarrelevantmoeterfunctionaliteitzijnomdedatasetingrafiekvormtekunnentonen,automatischgegene-

reerddoordetechnologie.Eenbasissetvangrafiekvormen(bv.Staaf,cirkel,…)moetaanwezigzijn.

༳ Kaart: functionaliteit om een GIS dataset te kunnen tonen op een kaart, al of niet gebruik makende van kaarten van

derden (bv. Google Maps)

◼ Prijs: we streven naar een zo laag mogelijke prijs voor het Open data portaal, liefst gebaseerd op Open Source componenten die in

het Open Data landschap gemeengoed zijn op het moment van schrijven

6.3 FUNCTIONELE MATCH VAN HET VO OPEN DATA PORTAALHet Vo Open Data portaal werd door het Vo Open Data team opgebouwd en staat gratis ter beschikking van alle entiteiten van de Vlaamse

overheid en de lokale besturen. Alle gestelde functionaliteit wordt hierbij centraal aangeboden. Hierbij een detail overzicht:

◼ Website content: Ja (CKAN). Het Vo Open Data portaal biedt de nodige GUI schermen op basis van CKAN software aan om aan de

slag te gaan om open datasets te registreren of bestaande te wijzigen. Er werden door de Vo beperkte uitbreidingen voorzien om aan

te sluiten bij het VO Open Data Handboek. Het Vo Open Data team zal instaan voor het beheer en updaten van deze schermen.

◼ Publiceren en beheren van datasets: Ja (CKAN). Het Vo Open Data portaal biedt heel wat functionaliteit om datasets te publiceren

en te beheren, op basis van de CKAN software. Er zijn momenteel geen uitbreidingen anders dan de CKAN standaard schermen voor-

zien,maardankanwelkomen.HetVoOpenDatateamzalblijveninstaanvoorhetbeheervandieextraschermen.

◼ Vinden van datasets en distributies: Ja (CKAN). Het Vo Open Dat platform biedt voldoende mogelijkheden om datasets en distri-

buties te vinden. Deze zijn gebaseerd op de CKAN software mogelijkheden. Er zijn momenteel geen uitbreidingen anders dan de CKAN

standaardschermenvoorzien,maardankanwelkomen.HetVoOpenDatateamzalblijveninstaanvoorhetbeheervandieextra

schermen.

36



◼ Metadata: Ja (CKAN). Het Vo Open Data portaal biedt een volledig conform beeld op metadata zoals in het Vo Open Data handboek

beschreven.

◼ Full-text search: Ja (CKAN). Het Vo Open Data portaal biedt voldoende mogelijkheden om datasets en distributies te vinden via een

full-tekst search. Deze zijn gebaseerd op de CKAN software mogelijkheden. Er zijn momenteel geen uitbreidingen anders dan de CKAN

standaardschermenvoorzien,maardankanwelkomen.HetVoOpenDatateamzalblijveninstaanvoorhetbeheervandieextra

schermen

◼ API: Ja (CKAN). Het Vo Open Data portaal biedt voldoende mogelijkheden om datasets en distributies te gebruiken via een API. Deze

zijn gebaseerd op de CKAN software mogelijkheden. Er zijn momenteel geen uitbreidingen anders dan de CKAN standaard schermen

voorzien,maardankanwelkomen.HetVoOpenDatateamzalblijveninstaanvoorhetbeheervandieextraschermen

◼ Hosten van distributies: Ja (CKAN). Het Vo Open Data portaal biedt voldoende mogelijkheden om distributies te hosten. Deze zijn

gebaseerd op de CKAN software mogelijkheden. Er zijn momenteel geen uitbreidingen anders dan de CKAN standaard schermen voor-

zien,maardankanwelkomen.HetVoOpenDatateamzalblijveninstaanvoorhetbeheervandieextraschermen

◼ Opslaan en beheer van data: Ja, mits afspraak. De installatie van het Vo Open Data portaal kan voorzien worden om datasets ook

op te slaan. Enkel na uitdrukkelijk akkoord van het Vo Open Data team, beperkt in volume en beperkt in de tijd.

◼ Formaatconversies: Ja (TDT). Het Vo Open Data portaal voorziet in een integratie met The Datatank (TDT) software, waarbij auto-

matischeformaatconversieswordenaangebodenalsstandaardfunctionaliteit.Ditiseenextratroefkaarttenopzichtevandeandere

oplossingen. Het Vo Open Data team werkt nauw samen met iMinds en OKFN om de volgende versies van TDT mee te voorzien op het

Vo Open Data platform.

༳ Data: Ja (TDT). Data formaatconversies zijn mee voorzien door het integreren van de TDT in CKAN en op het Vo Open

Data platform

༳ API: Ja (TDT). Idem data

◼ Visualisaties: Ja (CKAN). Het Vo Open Data portaal biedt voldoende mogelijkheden om datasets te visualiseren. Deze zijn gebaseerd

opdeCKANsoftwaremogelijkheden.HetVoOpenDatateamzalblijveninstaanvoorhetbeheervandieextraschermenofmogelijkhe-

den.

◼ Tabel, Grafiek, Kaart: Ja (CKAN). Idem “Visualisatie”

◼ Prijs: Gratis. Er worden geen kosten doorgerekend aan wie dan ook voor het aansluiten en gebruik van het Vo Open Data platform,

inclusief technische server installatie. Ook de uitbreidingen op de CKAN software zijn door de Vo centraal betaald en gratis ter beschik-

kingvaneenderwiewilgebruikmakenvanditportaal.HetVoOpenDatateamzalextramogelijkhedenblijvenondersteunenenstaat

open voor opmerkingen die het algemeen belang van Open Data verder onderbouwen.

6.4 VOORDELEN VAN HET VO OPEN DATA PORTAALHet portaal van de Vo is open gesteld voor alle instanties en dient als centraal register voor alle open datasets in Vlaanderen. Instanties

kunnen hun datasets meteen op het Vo Open Data portaal registreren. Ze hoeven geen eigen software te voorzien of installeren en kunnen

meteen instappen in het bestaande aanbod van de Vo. Instanties krijgen ook een eigen plekje (via groepscode in CKAN) zodat hun datasets

gemakkelijk terug te vinden zijn en ze aldus toch een eigen pagina of beeld kunnen bieden aan hun burgers. Vanuit de eigen website kan een

link geplaatst worden naar het Vo Open Data portaal.

Dit biedt een zeer lage instapdrempel voor instantie die hun eerste stapjes willen nemen naar en met Open Data. Het portaal en de functiona-

liteit is klaar en iedereen kan direct instappen. Er zijn voor de instantie geen kosten, anders dan voorbereiding van de dataset, die er in elke

oplossing zijn.

Er is ook geen nood aan eigen software en men kan voluit meegenieten van de code en add-ons die er zijn en verder worden ontwikkeld voor

de Vo centraal.

Dezeoplossingbiedtdanookeenmaximaalhergebruikvandebestaandeomgevingvolgensdegeldendestandaarden(incl.handboeken

licenties).

37



De voordelen voor een instantie kunnen we als volgt samenvatten:

◼ Biedt een zeer lage instapdrempel

◼ Maximaalhergebruikvaneenbestaandegeneriekeoplossingdieallefunctionaliteitbiedtzoalsisvooropgesteldenactiefverder

uitgebouwd wordt

◼ Geen éénmalige of reccurente kosten om gebruik te kunnen maken van het bestaande Vo portaal

◼ Eigen groepscode mogelijk vanuit CKAN

◼ Elk instantie kan doorgroeien naar een andere oplossing wanneer relevant

6.5 VISUALISATIE VAN DATASETS Naast het registreren van datasets op het portaal om ze vindbaar te maken voor iedereen, kan men zich de vraag stellen wat voor informatie

er in die datasets zelf zit en hoe je dit op een eenvoudige manier kan visualiseren. Enerzijds zijn de datasets natuurlijk bedoeld voor bedrijven

en individuen die hier een applicatie willen mee bouwen, maar anderzijds is het interessant om een eerste inzicht te bieden aan iedereen die

de dataset op het platform wil evalueren. Daarom zetten we ook in op het visualiseren van de datasets.

Binnen CKAN zijn een aantal basis visualisatiemogelijkheden voorhanden om de dataset te bekijken. Voor iedere dataset die geschikt is (*), zijn

volgende mogelijkheden voorzien:

◼ Tabel: als de dataset in een CSV of XLS format is opgemaakt, dan zal CKAN de inhoud weergeven in tabelvorm. De gebruiker kan

nogverderfilterenopbepaaldekolommenofwaardesenookkolommenwegfilteren.DitisdemeesteenvoudigeoptiedieCKANbiedt.

XLS datasets die aangevuld zijn met niet machine leesbare informatie (bv. titels, omschrijvingen, etc) zal CKAN niet altijd correct kun-

nen verwerken.

◼ Grafiek:degebruikerkandedatasetookineeneenvoudigegrafiekbekijkenendeassenkiezenuitdekolommenvandedataset

◼ Kaart:indiendedatasetgeografischecoördinatenvanobjectenbevat(latitudeenlongitude),kunnendezeautomatischopeen

kaart worden getoond. CKAN gebruikt daarvoor de OpenStreet kaarten.

◼ Afbeelding:ookbepaaldegrafischeformaten(bv.JPG)kunnengetoondworden.

◼ Specifiek: binnen CKAN kunnen via APIs eigen viewers geïnstalleerd en opgezet worden. Momenteel hebben we voor Vo nog geen

enkele dergelijke installatie opgezet.

(*) het is in het allergrootste belang dat een dataset zo machine leesbaar is als het kan zijn. Indien niet verstoort dit het visualiseren

vandedataset.Wevragendanookmetaandrangomderichtlijneninditverbandzoalsopgenomeninhethandboekmaximaalte

volgen.

OokvoordiedatasetsdiegebruikmakenvanTheDatatankzijnerextra(basis)visualisatiesmogelijk.Zozalstandaarddeinhoudvande

dataset worden weergegeven in XML, maar kan je online en in real-time het formaat laten wijzigen naar bv JSON of PHP, waar relevant.

Onderstaande schermafdruk geeft een voorbeeld:

38



We erkennen echter dat de visualisaties binnen zowel CKAN als The Datatank slechts basis zijn en tot doel hebben om een eerste verkenning

van de datasets toe te laten.

VoorwieverderwilgaandanwatCKANtebiedenheeft,zijnereenveleopties.HeelwatlandenhebbenzelfextensiesaanCKANtoegevoegd

die via de GITHUB pagina’s van CKAN terug te vinden zijn. Een ervan is het samenwerkingsverband met WEAVE32. Deze organisatie heeft een

adapter gemaakt die toelaat rechtstreeks op datasets die in CKAN staan geregistreerd te werken (CSV en XLS) om visualisaties te maken. Dit is

echter een van de vele manieren om buiten CKAN met visualisaties om te gaan.

Heel vaak worden datasets gevisualiseerd binnen applicaties die gebouwd worden door derde partijen. Maar er zijn ook platformen en web-

sites voorhanden waarmee je zelf visualisaties kan bouwen en zelfs delen met de wereld. Hierbij een aantal adviezen om hiermee aan de slag

te gaan:

◼ Wie een overzicht wil van een aantal open source platformen en tools, verwijzen we graag naar de websites zoals vermeld in

voetnoot33 34. Deze sites bieden een goed overzicht van waar je terecht kan voor visualisaties. De links verwijzen naar platformen waar

je direct (en vaak gratis) aan de slag kan en je visualisatie te delen met de wereld.

◼ Verder hebben de belangrijkste Business Intelligence tools (vb. Oracle BI Viewer, COGNOS BI Viewer, Tableau, etc.) enorm veel moge-

lijkheden om datasets te visualiseren in een rapporteringsomgeving. Tableau Public biedt bijvoorbeeld gratis een (basis)oplossing om

datasets op te laden en je visualisatie te delen met de wereld35.

◼ SpecifiekvoorstatistischeverwerkingvandatasetsverwijzenwenaarhetOpenCubeproject36.

◼ Wie zelf aan de slag wil en code wil ontwikkelen om de datasets statistisch te verwerken, verwijzen we naar “R” als programmeer-

taal, waarrond ook heel wat tools en ontwikkelomgevingen zijn ontwikkeld, zoals bijvoorbeeld RStudio37.

Dit is slechts een kleine bloemlezing uit de mogelijkheden die er vandaag reeds bestaan. We raden alle instanties aan om vertrouwd te raken

met visualisatie mogelijkheden en er zoveel mogelijk ofwel zelf mee aan de slag te gaan of hun datasets zo te publiceren dat ze eenvoudig

mogelijk in andere visualisatie omgevingen kunnen opgeladen worden. Dit laatste bereik je door alle richtlijnen van dit handboek te volgen en

in het bijzonder de datasets zo machine vriendelijk te houden.

De kracht van visualisaties wordt natuurlijk substantieel groter als we onze datasets als Linked Open Data (LOD) vrijgeven. Hiermee kunnen

de datasets immers direct als URI’s binnen genomen worden in de applicatie of visualisatie.

32 http://www.oicweave.org/index.php?page=demos33 http://www.creativebloq.com/design-tools/data-visualization-71240234 http://opendata-tools.org/en/visualization/35 https://public.tableau.com/s/36 http://opencube-project.eu/37 https://www.rstudio.com/products/RStudio/

http://www.oicweave.org/index.php?page=demos

http://www.creativebloq.com/design-tools/data-visualization-712402

http://opendata-tools.org/en/visualization/

https://public.tableau.com/s/

http://opencube-project.eu/

https://www.rstudio.com/products/RStudio/

39


7/ Documenteer uw dataset(s)

7 DOCUMENTEER UW DATASET(S)U hebt uw dataset nu gepubliceerd als datadump of via een API. Houd er rekening mee dat het voor een potentiële gebruiker van uw data niet

altijd gemakkelijk is om te evalueren of uw data mogelijks relevant zijn.

Om die reden is het aangewezen binnen uw organisatie een contactpunt ‘Open Data’ aan te duiden en aan de potentiële gebruiker van de data

een contactadres voor informatie en feedback mee te delen. Bovendien is het van belang de potentiële gebruiker te informeren over de ge-bruiksvoorwaarden, de (eventuele) vergoedingen en de garanties betreffende de beschikbaarheid. Tot slot is het van belang ook een pagina (of

bijsluiter) te publiceren die de gepubliceerde gegevens van de nodige context voorziet. Hierbij is het aangewezen deze informatie ter beschikking

te stellen in meerdere talen.

Noot: GDI-datasets worden conform de ‘best practices en richtlijnen’ voorzien van de nodige metadata en ontsloten via Geopunt (www.geopunt.be). Bovendien worden GDI-datasets waarvoor het hergebruik is ingeregeld automatisch geharvest naar het Vo Open Data portaal. Niettemin is het ook voor deze datasets nuttig na te gaan of hierna vermelde elementen reeds voldoende gedocumenteerd zijn in de metadata, want de inhoud van de ISO / INSPIRE / GDI-Vlaanderen Best Prac-tices-metadata elementen wordt gemapt naar deze DCAT-AP en vervolgens CKAN-metadata-elementen. Voor meer info over het ontsluiten van geografische gegevens in Vlaanderen zie paragraaf 4.3 van deze handleiding.

7.1 ‘OPEN DATA’ CONTACTPUNT Hoewel het openstellen van overheidsdata geen grote taak is en enkel een beperkte inspanning en tijdsinvestering zal vragen van de instantie, kan

deinstantiedezetaakefficiënterlatenverlopendoorhetaanwijzenvanéénpersoonofdienstdieverantwoordelijkisvoorhetOpen Data beleid

binnen de instantie. Deze verantwoordelijkheid wordt gewoonlijk opgenomen door de persoon of dienst die verantwoordelijk is voor het interne

informatiebeleid van de instantie, zodat een gestroomlijnd beleid kan worden gevoerd. Indien een andere persoon of dienst wordt aangewezen,

houdt deze nauw contact met de verantwoordelijke voor het interne informatiebeleid.

Naast de functie van beleidsverantwoordelijke voor Open Data, wordt ook aangeraden een contactpunt Open Data aan te duiden, al kan dit na-

tuurlijk dezelfde persoon of dienst zijn. Deze persoon of dienst kan op drie manieren een rol spelen als aanspreekpunt rond Open Data. Ten eerste

is een Open Data contactpunt intern belangrijk voor de stroomlijning van het Open Data beleid, maar kan het ook grote voordelen bieden bij de

organisatie van datastromen binnen de instantie zelf. Doordat het contactpunt op de hoogte is van welke data er binnen de instantie aanwezig

is, kan het ervoor zorgen dat data maar één keer wordt geproduceerd of aangekocht en verder wordt gedeeld binnen de instantie. Ten tweede

kan het contactpunt zorgen voor een directe relatie met de Vlaamse overheid, waardoor de instantie haar vragen omtrent Open Data aan de

Vlaamse overheid eenvoudig kan stellen, en andersom de Vlaamse overheid ook weet tot wie zij zich kan wenden om ondersteuning te bieden bij

het Open Data beleid. Ten derde heeft het Open Data contactpunt een belangrijke functie ten opzichte van de burger: ook al is de data eenvoudig

beschikbaar, het blijft immers steeds mogelijk dat burgers nog bepaalde vragen hebben omtrent het formaat van de data, de herkomst ervan, e.d.

Hiervoor is het belangrijk dat de burger duidelijk weet waar hij terecht kan met dergelijke vragen.

Aanbeveling 14: duid een persoon of dienst aan die verantwoordelijk is voor het Open Data beleid in de instantie. Creëer een Open Data contactpunt voor communicatie binnen de instantie, met de Vlaamse overheid en met de burger.

7.2 CONTACTADRES VOOR INFORMATIE EN FEEDBACK Ook al is een dataset duidelijk omschreven in de bijbehorende metadata, de hergebruiker zal nog steeds nood hebben aan bijkomende informatie,

bijkomende vragen willen stellen of fouten of onvolkomenheden in de data willen melden. Hiervoor heeft de hergebruiker uiteraard een adres

nodig waar hij terecht kan voor dergelijke vragen of meldingen. De instantie kan hiervoor zorgen door een e-mail adres op de website te plaatsen

waar men terecht kan voor informatie en/of feedback, of een webformulier te creëren dat online kan worden ingevuld.

De beantwoording van de vragen en/of opmerkingen maakt deel uit van de taak van het ‘Open Data contactpunt’. Om het gebruik van de data,

en in het bijzonder het leveren van feedback aan te moedigen, is het belangrijk dat de vragen en/of opmerkingen van de burger op korte termijn

worden beantwoord.

Aanbeveling 15: plaats een contactadres of web formulier op de website voor het vragen van verdere informatie of het ge-ven van feedback door de hergebruikers van de data.

http://www.geopunt.be

40



7.3 (HER)GEBRUIKSVOORWAARDENIn de voorbereidende fase heeft de instantie gekozen voor een bepaalde licentie onder dewelke zij haar data wil beschikbaar stellen. Om zo veel

mogelijk harmonisatie en vereenvoudiging te bewerkstelligen, wordt bij voorkeur gebruik gemaakt van de Vlaamse modellicenties. Niet alleen

wordt fragmentatie vermeden en wordt het gebruik van Open Data optimaal gestimuleerd, ook zorgt dit ervoor dat de instantie niet zelf moet

investeren in het opstellen van eigen gebruiksvoorwaarden.

Wanneer de Vlaamse modellicenties worden gebruikt, moet de instantie op een duidelijk zichtbare plaats aangeven dat de data worden beschik-

baar gemaakt onder de toepasselijke ‘Vlaamse Open Data Licentie’, met daarbij een link naar de vindplaats van de licentie op de website van de

Vlaamseoverheid.Indiendeinstantiewenstdatdehergebruikerseenspecifiekebronvermeldingtoepassen,moetzijdezeooktoevoegen. Voorbeel-

den van een licentiebepaling worden hieronder weergegeven voor de verschillende mogelijke licenties:

◼ “[Naam van de dataset] wordt ter beschikking gesteld onder een CC0 verklaring. De volledige tekst van de Engelse verklaring vindt u via

in voetnoot vermelde link38.

◼ “[Naam van de dataset] is eigendom van [naam instantie]. [Naam van de dataset] wordt beschikbaar gemaakt onder de Vlaamse Gratis

Open Data Licentie [link naar de licentie]. Bij elk gebruik moet de volgende bronvermelding worden opgenomen: [vereiste bronvermelding].

Voor verdere informatie, gelieve u te wenden tot [contact adres]”.

◼ “[Naam van de dataset] is eigendom van [naam instantie]. [Naam van de dataset] wordt beschikbaar gemaakt onder de Vlaamse Open

Data Licentie tegen Billijke Vergoeding [link naar de licentie]. Bij elk gebruik moet de volgende bronvermelding worden opgenomen: [vereis-

te bronvermelding]. Voor verdere informatie, gelieve u te wenden tot [contact adres]”.

◼ “[Naam van de dataset] is eigendom van [naam instantie]. [Naam van de dataset] wordt beschikbaar gemaakt voor niet-commercieel ge-

bruik onder de Vlaamse Gratis Open Data Licentie [link naar de licentie] en voor commercieel gebruik onder de Vlaamse Open Data Licentie

tegen Billijke Vergoeding [link naar de licentie]. Bij elk gebruik moet de volgende bronvermelding worden opgenomen: [vereiste bronvermel-

ding]. Voor verdere informatie, gelieve u te wenden tot [contact adres]”.

DooropeenspecifiekemanierteverwijzennaardeVlaamseOpenDataLicentie,kanwordenverkregendatGoogleenanderezoekmotoren weten

dat naar een licentie wordt verwezen, en dat het materiaal onder die licentie wordt ter beschikking gesteld.39 Hiervoor moet in html worden

verwezennaardeOpenDataLicentieviahet“rel=license”attribuutindelinknaardelicentie.

De modellicenties zullen naast de juridische tekst ook in een machine-leesbare versie beschikbaar worden gemaakt, zodat Google, andere zoekmoto-

ren en webcrawlers de licentie (en de voorwaarden ervan) ook automatisch kunnen herkennen.

Aanbeveling 16: gebruik de modellicenties van de Vlaamse overheid en plaats een link ernaar in de licentiebepaling bij de data, met gebruik van de “rel=licence” attribuut.

7.4 VERGOEDINGENHierboven werd reeds uiteengezet welke mogelijkheden de instanties hebben om voor hun Open Data een vergoeding te vragen. Bij de implemen-

tatie hiervan is het essentieel dat de hergebruiker een duidelijk beeld krijgt van hoeveel hij zal moeten betalen voor het gebruik van de data, en

dat de betaling snel en op een transparante wijze kan gebeuren.

Het bedrag van de vergoeding moet op een duidelijke plaats bij de dataset worden aangegeven. Wanneer dit bedrag bijvoorbeeld een vast bedrag

is voor de volledige dataset, kan het bedrag worden vermeld naast de dataset. Wanneer het bedrag wordt berekend in functie van bijvoorbeeld

het volume van de data dat wordt gebruikt, moet op een transparante wijze de berekening van de vergoeding worden uiteengezet. Dit kan

bijvoorbeeldgebeurendoorindemetadataofbijdeverwijzingnaardelicentieeenlinknaareeninformatieficheoverde vergoeding te voorzien.

Dezeinformatiefichemaaktgeendeeluitvandelicentie,maarwordtals“bijsluiter”toegevoegd.Opdezemanierkan zij op een meer flexibelemanier worden gewijzigd. Uiteraard moet wel rekening worden gehouden met de rechtszekerheid van de gebruiker, en mag de prijs enkel worden

aangepast mits een duidelijke en tijdige waarschuwing. De informatie over de vergoeding moet omvatten: de berekeningswijze en de motivatie

vandegevraagdevergoeding;endevergoedingswijze.

Het vragen van een vergoeding houdt ook in dat de hergebruiker pas toegang krijgt tot de data wanneer hij betaald heeft. Bijgevolg moet een

registratiesysteem worden opgezet, waarbij de hergebruiker het paswoord voor toegang tot de data of de dienst pas krijgt wanneer de betaling

werd ontvangen door de instantie. De bepaling hieromtrent op de website zou er als volgt kunnen uitzien:

38 http://creativecommons.org/publicdomain/zero/1.0/legalcode. Een vertaling van de CC0 verklaring vindt u op http://creativecommons.org/publicdomain/zero/1.0/39 Zie http://microformats.org/rel-license.

http://creativecommons.org/publicdomain/zero/1.0/legalcode

http://creativecom-/

http://microformats.org/rel-license

41



“Om toegang te krijgen tot de data, gelieve het aanvraagformulier [link naar online formulier of word-formulier dat moet worden doorgemaild] in te vullen en het bovenstaande bedrag te storten op rekeningnummer [...] met vermelding [...]. Zodra de betaling werd ontvangen, krijgt u een paswoord toegestuurd waarmee u toegang krijgt tot de gegevens”.

Deinstantiekanookoverwegenomeenbetalingviakredietkaartteaanvaarden,waarnaonmiddellijknadeverificatievandebetalingtoegang

kan gegeven worden tot de data.

Aangezien de hergebruiker er op moet kunnen vertrouwen dat de prijs op de website de juiste is, moet telkens wanneer de prijs eventueel zou

worden gewijzigd duidelijk worden aangegeven vanaf en tot wanneer de prijzen geldig zijn.

Aanbeveling 17: indien een vergoeding wordt gevraagd, toon de gebruiker op een duidelijke wijze hoeveel hij moet betalen en hoe hij de betaling moet uitvoeren om toegang te krijgen tot de data of dienst.

7.5 GARANTIES BETREFFENDE DE BESCHIKBAARHEID Wanneer de data online via een bulk download worden ter beschikking gesteld, is het natuurlijk belangrijk dat deze data effectief beschikbaar

zijn en dat er geen ‘dode linken’ zijn of dat de website niet online is. De continuïteit wordt echter nog veel belangrijker wanneer de data via

een dienst wordt beschikbaar gemaakt en bijvoorbeeld via een API of een plugin wordt geïntegreerd in een dienst of applicatie van de gebruiker.

Daarom is het belangrijk dat de gebruiker wordt geïnformeerd over het ‘service level’ van de dienst die wordt verschaft. Wanneer de data via een

derde partij-verstrekker wordt ter beschikking gesteld, is het belangrijk dat het mogelijke ‘service level’ wordt afgestemd tussen de instantie en de

verstrekker, en zal de verstrekker de aangewezen partij zijn om de service level engagement op te stellen.

Het is in beginsel niet vereist om deze service level engagement in de licentie te incorporeren. Aangeraden wordt dat de instantie de informatie

eerderverschaftalseen“bijsluiter”ofeen“informatiefiche”bijdedienst,viaeenlinknaardebetrokkeninformatieofviademetadata, zodat

deze geen deel uitmaakt van de bindende licentie en ook eenvoudiger eenzijdig kan gewijzigd worden door de instantie wanneer de omstandighe-

deneromvragen.Devolgendeelementenkunnenwordenopgenomenindezeinformatiefiche:

◼ Een inspanningsverbintenis om de dienst permanent te laten functioneren, maar geen garantie op permanente 24/7 beschikbaarheid

(eventueeleengarantievanbv.90%beschikbaarheid);

◼ Een waarschuwing dat de service stopgezet kan worden (bij voorkeur mits een voldoende lange “waarschuwingstermijn” of overgangs-

periode);

◼ Eenindicatievanderesponstijdvandeservice;

◼ Eenindicatievandecapaciteitvandedienstbetreffendevb.aantalgelijktijdigeverzoeken;

◼ Een waarschuwing dat de toegang tot de dienst zal worden afgesloten ingeval van overbelasting of misbruik door een gebruiker, met

eenomschrijvingvanwatalsoverbelastingwordtbeschouwd(vb.95%vanderequestskomtvanééngebruiker).

Het is niet verplicht om dergelijk service level engagement op te nemen. Bovendien heeft dergelijke informatie ook niet steeds evenveel zin of be-

lang: wanneer een link naar een bulk download niet meer werkt, zal het service level immers enkel inhouden dat de instantie de link corrigeert

wanneer zij op de hoogte gebracht wordt van het probleem. In elk geval, wanneer geen service level engagement wordt vastgelegd voor een distri-

butiekanaal van de data, wordt geacht dat de instantie als een goede huisvader alle redelijke inspanningen levert om de data te verschaffen.

Aanbeveling 18: indien de data via een dienst wordt beschikbaar gemaakt, plaats een “informatiefiche” of service level engagement bij de dienst met uitleg over de performantie van de dienst en de verwachtingen die de gebruiker mag hebben van de werking van de dienst.

7.6 BIJSLUITER Om foute interpretaties en minsverstanden te vermijden is het van belang dat de hergebruiker over voldoende informatie beschikt om de

contextvaneendatasetgoedinteschatten.Omdieredenwordtaangeradenbijelkedataset(ofgroepvandatasets)een‘bijsluiter’toete

voegen die deze informatie bevat. Dit kan eenvoudig een link naar een webpagina met deze informatie toe te voegen en al dan niet in de

metadata bij de dataset op te nemen.

42



Een bijsluiter geeft idealiter antwoord op volgende vragen:

◼ Welke objecten worden in de dataset beschreven (personen, organisaties, events, …)?

◼ Welke eigenschappen en relaties (i.e. logisch datamodel) worden gebruikt om objecten te beschrijven?

◼ Watisdescopeendegranulariteitvandedataset,zowelgeografischalsindetijd?

◼ Welke codes worden gebruikt en wat is de betekenis ervan?

◼ Waarom en volgens welke methode is deze data verzameld?

◼ Wie heeft deze data verzameld, met welke frequentie en wie beheert de data vandaag?

◼ Voor welke doeleinden en op welke manier wordt de data gebruikt?

Enkele voorbeelden van een bijsluiter:

◼ http://aps.vlaanderen.be/sgml/largereeksen/704.htm met een toelichting bij de dataset “Participatie aan Pop -of Rockconcert door

Vlamingen naar geslacht”

◼ http://epp.eurostat.ec.europa.eu/portal/page/portal/population/introduction voor een toelichting bij “EU bevolkingscijfers”.

Aanbeveling 19: maak voor elke van uw datasets een begeleidende pagina die in duidelijk verstaanbare taal aangeeft waar-over de data gaan, waarom ze zijn verzameld en waarvoor ze gebruikt worden.

7.7 TAAL VAN DE WEBSITE Uiteraard blijft de eerste taal waarin de data, diensten, licenties en informatie moeten worden getoond het Nederlands. Gelet op de groeiende

nood aan data voor grensoverschrijdende toepassingen, wordt het echter steeds belangrijker om de data portalen en websites rond Open Data

ook in andere talen ter beschikking te stellen. Voor zover mogelijk, wordt de instanties aangeraden om dan ook een minimale informatievoorzie-

ning in het Engels te organiseren.

Om hieraan tegemoet te komen, zal de Vlaamse overheid ook een Engelse versie van de Open Data Licenties ter beschikking stellen waarnaar door

de instanties kan worden verwezen.

Aanbeveling 20: plaats informatie over de data ook in het Engels op de website of verwijs naar de Engelse versie van de Vlaamse Open Data licenties.

http://aps.vlaanderen.be/sgml/largereeksen/704.htm

http://epp.eurostat.ec.europa.eu/portal/page/portal/population/introduction

43


8/ Maak uw dataset(s) vindbaar

8 MAAK UW DATASET(S) VINDBAAR8.1 METADATA

Voor het zoeken (en vinden) van datasets wordt sterk gebruik gemaakt van metadata. In alle gevallen zal er een laag van metadata nodig zijn

om de bewuste dataset vindbaar te maken, zowel binnen het Vlaamse Open Data portaal zelf als op geaggregeerde portaalsites (België, EU).

Noot: Datasets die gedeeld worden binnen GDI (Geografische Data Infrastructuur) Vlaanderen worden conform de ‘best practices en richtlijnen’ voorzien van de nodige metadata. Indien bovendien binnen de GDI-stuurgroep afspraken zijn gemaakt met betrekking tot het hergebruik van deze datasets (bvb. keuze van een licentie) zal aan deze datasets een key-word ‘Vlaamse open data’ worden toegevoegd. Op basis van dit keyword worden de betrokken datasets (incl. metadata) automatisch geharvest naar het Vo Open Data portaal. Voor deze datasets is het bijgevolg niet nodig de hierna beschre-ven procedure te doorlopen. Als data-beheerder hoef je dus slechts eenmalig je gegevens via metadata te beschrijven en stromen de “open” datasets (op basis van het trefwoord) vanzelf door naar het Vlaamse Open Data Portaal. Hierbij wordt de inhoud van de ISO / INSPIRE / GDI-Vlaanderen Best Practices-metadata elementen gemapt naar DCAT-AP en vervol-gens CKAN-metadata-elementen. Voor meer info over het ontsluiten van geografische gegevens in Vlaanderen, zie para-graaf 4.3 van deze handleiding.

8.1.1 WAT IS METADATA?

Volgens Wikipedia is metadata de term om de karakteristieken van bepaalde gegevens te beschrijven. Het zijn dus eigenlijk data over data.

De metadata bij een bepaald document (i.e. de gegevens) kunnen bijvoorbeeld zijn: de auteur, de datum van schrijven, de uitgever, het aantal

pagina’sendetaalwaarindegegevenszijnopgesteld.Hetexplicietopslaanvanmetadatabijdedatawaarhetbetrekkingopheeft,heeftals

voordeel dat de data makkelijker gevonden kan worden. Zo kan men in een zoekmachine die gebruik maakt van metadata bijvoorbeeld on-

middellijkzoekennaardocumentengeschrevendooreenbepaaldeauteur.Metfulltext-zoeken,duszondergebruiktemakenvanmetadata,is

dit moeilijker doordat ieder document waarin de naam van de auteur voorkomt gevonden wordt. Dit kunnen er veel meer zijn dan de docu-

menten die daadwerkelijk door de persoon geschreven zijn.

8.1.2 HOE METADATA OPMAKEN?

De creatie van metadata voor datasets kan enerzijds worden ondersteund door (semi-) automatische processen, bijvoorbeeld:

◼ Documenteigenschappengegenereerdinhulpprogramma’s,bijvoorbeeldAanmaakdatum;

◼ Ruimtelijkeentemporeleinformatiezoalsvastgelegddoorcamera’s,sensoren...;

◼ Informatie vanuit de publicatie werkstroom, bijvoorbeeld de locatie of URL van de bron.

Anderzijds vereisen sommige kenmerken menselijke tussenkomst of opmaak:

◼ Waargaandegegevensover(bv.onderwerpofbronvaninformatie);

◼ Hoekandezedatasetgebruiktworden(bv.linkmeteenmodellicentie);

◼ Waarkanjemeerinformatieoverdebronzelfvinden(bv.linknaareenwebsiteofanderdocument);

◼ Attributendiedestatusvandedatasetbeschrijven(bv.draft,terreview,nognietgevalideerd,tijdelijk);

◼ Contactinformatie(bv.waarjemeerinformatieoverdebronkanvinden);

◼ Feedback lus (bv. contactadres waar gebruikers eventuele opmerkingen of suggesties kunnen melden).

Ook de aanpak voor het onderhouden van metadata moet aangepast zijn aan de gepubliceerde gegevens. Als de gegevens niet veel wijzigen,

kunnen metagegevens relatief stabiel blijven en in bulk aangepast worden (bv. e-mail adres voor feedback lus). Als gegevens vaak veranderen

(bv. real-time sensorgegevens of verkeersinformatie), dan moeten de metagegevens nauw worden gekoppeld aan de werkstroom en wijzigin-

gen moeten vrijwel ogenblikkelijk worden doorgevoerd.

44



8.1.3 METADATA STANDAARDEN

In de wereld van Open Data zijn er een heel aantal standaarden rond metadata beschreven en zowat iedere overheid heeft een eigen beleid

inzake metadata. Daarom zetten we eerst de belangrijkste standaarden op een rijtje:

◼ DCAT – AP:De“DCATApplicationprofilefordataportalsinEurope”(DCAT-AP)iseenmetadataspecificatiegebaseerdopdeData

Catalogue vocabulary (DCAT). DCAT wordt gepositioneerd als de standaard om datasets te beschrijven in Europa. In het AP (i.e. Appli-

cationProfile)stukjewerdenadditionelebeschrijvingeneneigenschappenvananderebekendevocabulariahergebruiktwaarnood-

zakelijk. Het doel van DCAT – AP is om aggregatie van datasets over de portalen in Europe heen mogelijk te maken, wat betekent dat

de gebruiker veel makkelijker datasets kan terugvinden over de landsgrenzen en sectoren heen. Dit wordt ook wel het “oogsten” van

datasets genoemd. Het Vo Open Data team volgt de verdere ontwikkelingen met betrekking tot DCAT-AP nauwgezet op en zal ten ge-

pastentijdederichtlijnenindithandboekverderverfijnen.

◼ INSPIRE: Reeds in 2007 – en dus voor het Open Data gebeuren – werden er al afspraken gemaakt rond het publiceren en delen van

geografischegegevensbinnenEU.Inditverbandzijnookrichtlijnenopgemaaktvoormetadata.Heelwatgeografischedatazijngepu-

bliceerd met deze metadata. INSPIRE metadata richtlijnen kunnen gemapt worden op DCAT-AP.

◼ GeoDCAT-APiseenextensievandeDCAT-APstandaardvoorhetbeschrijvenvangeografischedatasetsofWebAPI’s.Debedoeling

isomgeografischegegevensbeschikbaaralsOpenDatabeterdoorzoekbaartemakenoverdelandsgrenzenensectorenheen.Deze

standaardisgeenvervangingvoorINSPIRE,eerdereenaanvullingomdeinstantiestoetelateneengeografischedatasetmetINSPIRE

metadata eenduidig en relatief eenvoudig om te zetten naar de DCAT-AP standaard en aldus het delen van dergelijke informatie te

bevorderen, ongeacht op welk data portaal de dataset initieel werd geregistreerd en gepubliceerd.

◼ CKAN: ook de applicatie CKAN heeft een eigen metadata model, dat nog niet aansluit bij een van voormelde standaarden. Het CKAN

metadata model is eerder beperkt en kan aangevuld worden via de vrije velden. Voor de eerste stappen richting Open Data is dit model

ruimvoldoende.BinnenCKANiserweleenextensiebeschikbaardiehettoelaatomDCATmetadatabinnentenemenentevertalen

naar het CKAN model.

8.1.4 STANDPUNT ROND METADATA VOOR VO OPEN DATA PORTAAL

Binnen Europa is de consensus om zoveel mogelijk naar DCAT–AP als metadata standaard te gebruiken. Het standpunt van de Vo is dan ook

om zo dicht mogelijk de DCAT–AP standaard te volgen en op termijn volledig conformiteit na te streven. Maar, we beseffen ook dat het CKAN

platform deze standaard momenteel nog niet volledig ondersteund. Daarom hebben we een mapping gemaakt (zie Bijlage 3) tussen CKAN en

DCAT-AP om de instantie duiding te geven welke velden er ingevuld moeten worden in CKAN om in lijn te zijn met de DCAT-AP standaard. Via

dezepragmatischeaanpakwordtgestreefdnaarmaximalealineëringmetDCAT-AP.

8.1.5 TOEPASSINGSGEBIED

Eendatasetiseenidentificeerbareverzamelingvangestructureerdegegevens.Voordatasetsishetdusbelangrijkomdemetadatazotedefi-

niëren dat de gebruiker goed kan inschatten waar de verzameling over gaat, welke tijdsspanne er in afgedekt wordt, enz. Met deze informatie

kan de gebruiker dan beslissen om de dataset in zijn geheel te downloaden en verder te gebruiken.

Een Web API (Application Programming Interface) laat computer programma’s of programmeurs toe om via het web een query af te vuren op

eendataset.IndiendeinstantieverkiestomtoegangtotdedatasetviaeenWebAPItelatengebeuren,wordtverzochtomextrainformatie

te voorzien om duidelijk te maken hoe je deze Web API gebruikt, welke parameters er nodig zijn en wat de waarden zijn voor elke parameter,

wat eventuele error codes zijn en liefst ook een voorbeeld hoe de Web API te gebruiken. Naast de beschrijving van de Web API zelf, blijft een

beschrijving van de onderliggende dataset nodig, zodat de gebruiker ook weet welke data er aangeboden wordt via de Web API. Via het me-

chanisme van de bijsluiter vragen we dat de instantie hier aandacht aan besteed in de metadata.

Sommige instanties verkiezen om zowel een dataset als een Web API aan te bieden. In dat geval verzoeken we de instanties om 2 distributies

binnen dezelfde dataset te registreren op het Open Data portaal, één voor de dataset zelf en één voor de Web API.

8.1.6 METADATA RICHTLIJNEN

Metadataiscruciaalomdatasetscorrecttekunnenidentificerenenvindbaartemakenoveralleportaalsitesheen.Daaromstellenwevoor

dat elke instantie voor elke gepubliceerde dataset een inspanning doet om een minimale set van metadata te voorzien.

45



In 2013 zijn afspraken gemaakt tussen de Vlaamse overheid, de Federale overheid, de andere gewesten en een aantal steden zoals Gent en

Antwerpen om zoveel mogelijk een consistent beleid hierin te voeren. Naar aanleiding van een grondige herwerking van de handleiding in

2016werdendemetadatarichtlijnenverderverfijnd,onderandereomeenaantalbijkomendevelden‘verplicht’testellenentegelijkconsis-

tentteblijvenmetdelaatsteversievanhetDCAT-APprofiel(v1.1)40 zoals opgesteld binnen het ISA programma van de Europese Commissie.

Het toepassen van deze richtlijnen geeft als positief gevolg dat waar je ook je dataset publiceert, deze dataset in principe ook op andere por-

taalsites eenvoudig en zelfs automatisch teruggevonden kan worden. Hierdoor kan elke instantie kiezen waar een dataset te publiceren (bv.

federale instanties op het Federale Open Data portaal, Vlaamse instanties en lokale besturen op het Vlaamse Open Data portaal) maar kunnen

deze datasets toch geoogst worden op een andere (overkoepelende) portaalsite.

De verplichte velden in de CKAN software zijn:

CKAN Veld (NL) Veld (EN) Link met DCAT standaarden Tip

Titel Title dct:title (dcat:Dataset) Bevat een eenduidige titel van de dataset.

Omschrijving Description dct:description (dcat:Dataset) Bevat de omschrijving van de dataset, in tekst vorm. Probeer de

omschrijving zo kort, maar ook zo relevant mogelijk te houden.

Het is niet de bedoeling hier de werking van een entiteit of afde-

ling toe te lichten, enkel te duiden wat voor data hiermee beschik-

baar wordt gesteld.

Licentie License dct:license (Dataset) Het licentiemodel waar onder deze dataset wordt gepubliceerd.

Kies een van de waarden uit de dropdown selectie. De waarden

stemmen overeen met de standaardmodellen de die de Vlaamse

overheid heeft voorzien.

Inbijlage3hebbenweeenvoorstelopgenomenhoewedeandereenzelfsvrijeveldenvandeCKANsoftwarekunnengebruikenommaximaal

compatibel te zijn met de DCAT-AP standaard. Per veld geven we aan hoe dit in de CKAN software te benoemen en te gebruiken.

HelaasisDCAT-APnognietafdwingbaarindeCKANsoftwareendientbijhetdefiniërenvandevrijeveldenbijzondereaandachtgeschonken

worden aan een correcte schrijfwijze. De Vlaamse overheid blijft in contact met het CKAN ontwikkelingsteam om in de toekomst deze lacune

aan te pakken.

Aanbeveling 21: Om een vlotte uitwisseling van dataset beschrijvingen mogelijk te maken, raden wij aan zoveel mogelijk velden uit het op Belgisch niveau afgesproken DCAT profiel te gebruiken, zelfs binnen CKAN via vrije velden indien nodig. Zie bijlage 3 voor een overzicht.

8.2 HOE DATASET(S) REGISTREREN OP HET VO OPEN DATA PORTAALNu we wat meer vertrouwd zijn geraakt met hoe we metadata positioneren binnen het Open Data gebeuren, is het tijd om dit in de praktijk

te brengen. In dit hoofdstuk beschrijven we 3 methoden om datasets (en de metadata die erbij hoort) te registreren op het Vo Open Data

portaal,naastdeautomatischestroomvanuitGeopuntvoordegeografischegegevensinVlaanderen.

◼ Manueel: via het doorlopen van een aantal schermen in CKAN, kan je manueel en zonder veel moeite een dataset en de bijhorende

metadata registreren (of een bestaande dataset aanpassen). Alle handelingen gebeuren online, van het linken naar de dataset tot het

invullen van de metadata.

◼ Automatisch (via PUSH script): een geautoriseerde programmeur kan vanuit de eigen omgeving een script of programma lanceren

die de API van CKAN aanroept en hiermee een registratie van een dataset realiseert.

◼ Automatisch (via PULL script): indien de dataset op een eigen omgeving conform de DCAT-AP standaard is beschreven, kan de

registratie automatisch verlopen via een script, waarbij de datasets en hun metadata volledig automatisch op het Open Data portaal

worden geregistreerd (of bestaande datasets incl. metadata worden aangepast).

40 https://joinup.ec.europa.eu/asset/dcat_application_profile/asset_release/dcat-ap-v11

https://joinup.ec.europa.eu/asset/dcat_application_profile/asset_release/dcat-ap-v11

46



Defiguurhierondergeeftditvisueelweer:

OnzevoorkeurligtbijhetmaximaalautomatiserenvanelkeregistratiebewegingenditconformdeDCAT-APstandaard(viaPULLscript),

maar er zijn omstandigheden die aanleiding kunnen geven tot het kiezen voor de manuele procedure of het PUSH script. In de volgende pa-

ragrafen zal telkens ingegaan worden op de verschillende mogelijkheden en in welke gevallen deze relevant kunnen zijn voor de publicerende

instantie.

We gaan er telkens van uit dat de publicerende instantie vertrekt van een eigen website of webserver met daarop de dataset zelf. Het Vo

OpenDataportaalzaldusinregelgeenfysischeopslagcapaciteitaanbieden.DatlaattoedatelkeinstantiezijnOpenDatarealisatiesextrain

de verf kan zetten en / of inpassen in de eigen dienstverlening, eventueel omkaderd met andere informatie of systemen (bv. publieke rappor-

teringscomponent).

Wel hebben we de ambitie om een overkoepelende verzamelplaats te zijn voor alle (open) datasets van elk bestuursniveau waar dan ook in

Vlaanderen. Dit geeft als voordeel dat andere instanties of gebruikers via het Open Data portaal een compleet overzicht krijgen van wat er

beschikbaar is.

8.2.1 METHODE 1: DATASETS TOEVOEGEN AAN CKAN – VIA GUI

Binnen CKAN kan een beheerder (zie verder) een aantal schermen doorlopen om een dataset te registreren of een bestaande aan te passen.

Dit noemen we de “manuele methode” omdat elke vorm van input manueel gebeurt.

We raden deze methode aan indien het aantal datasets beperkt is (i.e. tot 10 datasets). Ook als de Open Data set relatief stabiel blijft (i.e. geen

wijzigingen in inhoud metadata zoals bij historische informatie) kan deze methode interessant zijn. Deze methode vereist geen verdere IT

tussenkomst of inspanningen om scripts te ontwikkelen. Anderzijds is elke vorm van input in de CKAN schermen ook onderhevig aan fouten.

Vooralalsdebeheerderextrametadataveldenviavrijeveldenwiltoevoegen,isenigeoplettendheidaangeraden,aangezienCKANditniet

verder controleert. Een beheerder kan op elk moment via de hierna beschreven methodes enige vorm van automatisering introduceren.

8.2.2 METHODE 2: DATASETS TOEVOEGEN AAN CKAN - AUTOMATISCH VIA EIGEN SCRIPT

Indien het aantal datasets dat geregistreerd moet worden toeneemt (i.e. groter dan 10) of het aantal mutaties op bestaande datasets in fre-

quentie toeneemt (bv. maandelijks aanpassen), zal enige vorm van automatisatie steeds de voorkeur genieten. Dat betekent dan dat de be-

heerder een script schrijft (of laat schrijven) om de interactie met het Open Data portaal aan te gaan.

InfeitezalbijdezemethodedeAPIvanCKANwordenaangeroepenviadeinstructie“CREATE_PACKAGE”.Inbijlageiseenpraktischvoorbeeld

47



hiervan te vinden.

DemeesteeenvoudigemanieromdeCKANAPIaanteroepenisviaeenCURLscript.CURLiseenopensourcecommandlineexecutiontaal

die een API kan aanroepen samen met de nodige parameters en een payload met de metadata beschrijving. Uiteraard moet je eerst als be-

heerder zijn toegevoegd op het portaal en dit script uitvoeren aan de hand van je persoonlijke API sleutel.

Deze methode is interessant als de beheerder dit wil inplannen in de eigen processen om de datasets op te maken en te publiceren als Open

Data.Eenextrastapinhetprocesheeftalsresultaateenautomatischeregistratie(ofaanpassingvaneenbestaanderegistratie)ophetOpen

Data portaal. De beheerder heeft volledige controle binnen zijn eigen omgeving hoe dit programmatorisch uit te werken en in te plannen.

Daarom noemen we dit ook een “PUSH” script, de beheerder zelf initieert de dataset registratie vanuit de eigen omgeving.

Samengevat is deze methode te verkiezen boven de manuele methode als het aantal datasets of het aantal mutaties van bestaande datasets

stijgt over tijd. De beheerder heeft volledige controle over de keuze van de technologie en het tijdstip waarop dit ingepland wordt. Het nadeel

van deze methode is dat de beheerder zelf de nodige stappen moet inbouwen (of laten inbouwen) binnen de eigen instantie en IT omgeving

om dit te realiseren.

8.2.3 METHODE 3: DATASETS TOEVOEGEN AAN CKAN - AUTOMATISCH VIA CKNEXT EXTENSIE

HeelwatinstantieszijnondertussengoedbekendmetOpenDataenhebbenvaakdenodigeexpertiseentechnologieinhuisgehaaldomhet

publicatieproces volledig te automatiseren. Tegelijkertijd zien we dat heel wat instanties klaar zijn om de DCAT-AP standaard geheel te onder-

steunen. We verwelkomen deze trend en hopen dat dit op termijn de standaard wordt binnen de Vlaamse overheid en bij de lokale besturen.

Speciaal voor de instanties die voor hun datasets DCAT-AP ondersteunen, is deze methode ontwikkeld. Hierbij maken we gebruik van de CKA-

NEXTextensiediespeciaalisontwikkeldomDCAT-APmetadataintelezenentemappenopCKAN.

AandehandvandeCKANEXTextensiekunnenopvoorafbepaaldetijdstippendatasetsen/ofAPIsautomatischwordenopgehaald.Dat

betekentdatwede“PULL”techniektoepassen:vanuithetOpenDataportaalwordenopvoorafbepaaldetijdstippen(bv.1xpermaandofper

dag) alle datasets en / of APIs, inclusief bijhorende metadata opgeladen.

Voor entiteiten die DCAT-AP hebben geïmplementeerd, raden we aan om enkel via een PULL script te werken. Dit biedt immers de grootste

vormvanconsistentieenvermijdtfoutendoorhetgebruikvandeCKANEXTextensie.

48



8.3 OVERZICHT ROLLEN VO OPEN DATA PORTAALBinnen het Open Data portaal bestaan er verschillende rollen in CKAN om datasets (en geassocieerde metadata) te vinden en / of te beheren:

◼ “reader”: oftewel gebruiker: iedereen kan vrij de datasets en metadata raadplegen, zelfs zonder geregistreerd te zijn op het plat-

form.Eengebruikerkanzichookregistrerenophetplatformwaardooreenbeperktesetvanextrafunctionaliteitterbeschikkingkom.

Enkel een geregistreerde gebruiker kan daarna als editor gepromoveerd worden, zie hieronder

◼ “editor”: oftewel beheerder. Deze rol kan objecten in CKAN lezen, aanpassen, verwijderen of toevoegen (via de schermen of via API).

Eengebruikermoeteerstgeregistreerdzijnophetportaalomalsbeheergepromoveerdteworden;

◼ “admin”: bepaalde leden van het Vo Open Data team hebben de rol van administrator.Dezeledenkunnendanextrabeheerstakenuitvoeren, zoals het toevoegen van beheerders (of veranderen van autorisaties van bestaande beheerders), beheer van organisaties of

groepen (aanmaken, wijzigen, schrappen), zowel via de schermen als via de verschillende APIs die CKAN hier biedt.

Voor meer informatie over deze rollen verwijzen we naar de documentatie van CKAN zelf, terug te vinden via de in voetnoot vermelde link41.

In de volgende paragrafen gaan we dieper in op de rol van een beheerder en gebruiker inclusief de schermen die zij te zien krijgen.

Debeheerderkrijgtimmersextrarechtenombewerkingenuittevoerenbinnenzijnorganisatie.Dezerechtenbestaanuit:

◼ Datasetsen/ofAPIs(enbijhorendemetadata)toevoegenen/ofaanpassenaanhetOpenDataportaalviademanuelemethode;

◼ Datasets en / of APIs (en bijhorende metadata) toevoegen en / of aanpassen aan het Open Data portaal via de automatische

“PUSH”methode.DebeheerdervoertdaneenscriptuitvanuitzijnomgevingdiedeCKANAPI“CREATE_PACKAGE”uitvoert;

◼ Informatieoverdeorganisatiewaartoedebeheerderbehoortwijzigen(naamwijzigen,icoontoevoegen,etc.);

◼ Anderegebruikerspromoverentotbeheerderbinnendeeigenorganisatie;

◼ Alle functionaliteit van een gebruiker, t.t.z., functionaliteit om datasets te bekijken, te downloaden en feedback te geven.

We raden aan om per instantie 1 beheerder aan te duiden. Deze persoon zal nauw betrokken worden bij de verdere ontwikkeling van het

portaal en gelden als eerste aanspreekpunt.

Je wordt beheerder door contact op te nemen met het Vo Open Data team via [email protected] met duidelijke vermelding voor welke

organisatiejedatasetswilttoevoegenofwijzigen.Naverificatiekrijgjeeenmailterugmetbevestiging.Debeheerderisvanafdatmomenten

voor die bepaalde organisatie (en alleen die organisatie) verantwoordelijk voor het correct beheer van alle dataset registraties, via de hoger

geschetste methodes, tot en met het correct invullen van metadata velden conform de DCAT-AP standaard en de richtlijnen in dit verband

opgenomen in het Open Data handboek.

41 http://docs.ckan.org/en/ckan-1.8/index.html

mailto:[email protected]

http://docs.ckan.org/en/ckan-1.8/index.html

49



8.4 OPEN DATA PORTAAL FUNCTIONALITEIT VOOR EEN GEBRUIKERDe belangrijkste component van het Open Data portaal is de CKAN software die de gebruiker in staat stelt om datasets te zoeken, te bekijken

en te downloaden. In dit hoofdstuk gaan we wat dieper in op de functionaliteit die het platform biedt voor een gebruiker.

Het Open Data portaal is voor elke gebruiker te bereiken via http://opendata.vlaanderen.be/ en volgend scherm komt dan tevoorschijn:

Centraal staat een “Zoek je Data” balk waarmee je gericht datasets kan zoeken. Verder naar beneden zie je een overzicht van de populaire

tags en nog verder naar beneden – niet getoond in de afdruk hierboven – de populaire datasets en onlangs bijgewerkte datasets.

In de linkerhoek bovenaan, vind je de algemene stijlkenmerken die voor alle Vo websites gelden (home, zoek), daar gaan we verder niet op in.

Als je op “overview” klikt, dan komen er 3 opties ter voorschijn zoals hieronder is afgebeeld:

Hieronder wordt beschreven wat er gebeurd als je op een van deze opties klikt:

◼ Dataset: geeft een lijst van alle datasets die op het platform geregistreerd zijn. Dit is de standaard insteek van het platform. De

gebruikerheeftverschillendefilterparametersterbeschikking(rechtsbovenaanhetschermviaeendropdownbox)enkanookzoeken

naardatasets(zielinkerkantvanhetschermonder“verfijnuwzoekresultaat”).Standaardstaandedatasetsgesorteerdnaarrelevantie,

want betekent dat de meest recent geregistreerde datasets eerst komen te staan.


50



◼ Organisatie: geeft een overzicht welke organisaties er reeds op het platform datasets geregistreerd hebben en van daaruit toegang

tot welke datasets er zijn per die geselecteerde organisatie. De gebruiker kan ook zoeken naar de juiste organisatie of sorteren op een

andere manier.

Laten we nu iets dieper kijken wat een gebruiker kan doen, eenmaal hij/zij een dataset heeft geselecteerd, op welke wijze dan ook. Na de

keuze van een dataset, komt men op volgend scherm voor (illustratief voor het handboek, bevat niet alle opties):

51



Wat kan je allemaal zien op dit scherm:

◼ Allereerst zie je welke binnen welke organisatie en met welk licentie model deze dataset is gepubliceerd

◼ Indien het data formaat GEO van karakter is, zal er een kaartje tevoorschijn komen met een visualisatie van de informatie in de

dataset.

◼ Hieronder staan de tags vermeld die zijn ingegeven tijden registratie.

◼ Daarna volgt een beschrijving van de dataset. Er wordt slechts een klein gedeelte getoond. Indien er meer informatie is, zal er een

tekst “Lees meer” verschijnen. Als je hier op klikt, krijg je dan de ganse tekst te zien.

◼ Onder de titel “Data en hulpbronnen”, zie je welke distributies beschikbaar zijn van de dataset. Indien er meerdere distributies zijn,

worden die onder elkaar getoond, zoals hieronder is weergegeven (willekeurig voorbeeld, enkel bedoeld ter illustratie):

◼ Per distributie zie je aan de rechterkant een vinkje staan. Als je hier op klikt, komen 2 opties tevoorschijn:

༳ Preview: het tonen van de dataset in een apart venster

༳ Download: het downloaden starten van de dataset zelf in het formaat zoals vermeld

◼ Danvolgtonderdetitel“Extrainformatie”dealgemenemetadataveldenvermeld,eventueelaangevuldmetdeeigenenzelfinge-

vulde metadata velden.

◼ Ten slotte zie je onder “Activiteitenstroom” een logboek van de laatste bewerkingen van deze dataset.

◼ Als je op 1 van de distributies klikt, dan verschijnt volgend (illustratief) scherm:

52



Volgende informatie is ter beschikking (van onder naar boven op het scherm:

◼ Een verwijzing naar de dataset die bij deze distributie hoort, met daarnaast een “Download” knop om de dataset rechtstreeks van

de bron op te halen voor download of als API.

◼ Eenkorteuitlegdiespecifiekbijdedistributiehoort

◼ Onderdetitel“DataExplorer”,kanjeeenpreviewvandeinhoudvandedistributiezien.Nietalleformatenwordenhierweergege-

ven.

◼ Indien de functionaliteit van The Datatank is aangeklikt tijdens registratie, zal CKAN een poging doen om de inhoud in dit venster

tetonen.Eventueelkomenerextraformaatknoppentevoorschijndiededatasetdynamischomzettennaarhetnieuweformaat.

◼ Indien The Datatank functionaliteit niet is aangeklikt tijdens registratie, dan zal CKAN een poging doen om de dataset als een tabel

of map weer te geven, afhankelijk van het formaat. (zie bovenstaande schermafdruk).

◼ Op dit scherm staat ook een “DOWNLOAD” knop waarmee je de dataset kan gaan downloaden

◼ Indien er meerdere distributies zijn geregistreerd, dan krijg je hieronder een overzicht van de verschillende distributies van deze

dataset, onder de titel “Data en hulpbronnen”, zoals hieronder illustratief is weergegeven:

53



◼ Onder de titel “ADDITIONELE INFORMATIE” vind je nu een overzicht van de metadata die is ingegeven tijdens registratie van de dis-

tributie zelf. Indien er door de instantie nog meer metadata velden zijn ingevuld, dan kan je via de knop “TOON MEER”deextraveldente zien krijgen.

8.5 OPEN DATA PORTAAL FUNCTIONALITEIT VOOR EEN BEHEERDER

8.5.1 CKAN – MANUELE METHODE: HOE

Het Vo Open Data portaal is voor elke beheerder te bereiken via http://opendata.vlaanderen.be/

Volgend scherm komt dan tevoorschijn:


54



Om de functionaliteit van een beheerder beschikbaar te maken, moet je eerst inloggen op het portaal. Indien je nog niet bekend bent op het

platform, moet je eerst en eenmalig registreren en de procedure volgen om als beheerder op het portaal erkend te worden. Als je op de knop

registreren klikt, krijg je volgend scherm:

Zoals vermeld op de site, zal je na registratie het Vo Open data team moeten contacteren om je rechten te geven op een organisatie.

Telkens je vanaf nu inlogt, zal je als beheerder binnen de toegekende organisatie herkend worden, zie scherm hieronder:

De gebruikersnaam en wachtwoord zijn uniek voor het Vo Open Data portaal. Er is geen sterke authenticatie (bv. Via token of e-ID) voorzien.

Indien je je wachtwoord wil wijzigen of als je dit vergeten hebt, kan je de knop “Wachtwoord vergeten?” gebruiken, je krijgt dan een e-mail

met de juiste procedure om je wachtwoord te veranderen.

Nadat je bent ingelogd, krijg je een dashboard scherm met centraal een overzicht van je laatste bewerkingen en een aantal tabs om bewer-

kingen uit te voeren, zoals hieronder afgebeeld:

55



Je kan dit scherm te allen tijde oproepen door op het “dashboard” teken achter ja naam te klikken. Zie tekens rechtsboven op elk scherm na

inloggen, zoals hieronder is weergeven:

Standaard kom je in de tab “NEWS FEED” terecht, die je een overzicht van elke wijziging die je recent aan het platform hebt aangebracht. Via

“Bewerk instellingen” kan je je eigen instellingen (naam, e-mail, paswoord, nieuwe API sleutel) veranderen. Hiervan is geen schermafdruk opge-

nomen.

De 2 tabs “MIJN ORGANISATIES” en “MIJN GROEPEN” zijn enkel voor de admins bedoeld en niet verder beschreven in deze handleiding.

Als je op de tab “MJN DATASETS” klikt, krijg je een overzicht van al de datasets die je zelf hebt toegevoegd op het portaal.

Hier is nu een nieuwe knop tevoorschijn gekomen: “DATASET TOEVOEGEN”. Deze knop start de functie om een nieuwe dataset toe te voegen,

wat je door een aantal opeenvolgende schermen zal leiden. Laten we deze stappen en schermen even samen doorlopen:

Het eerste scherm dat je te zien krijgt, is (schermafdruk in 2 delen):

56



Volgende velden zijn in te vullen:

◼ TITEL: een unieke titel van de dataset (bv. Statistieken van ongevallen op snelwegen in Vlaanderen). Dit veld is verplicht en moet zo

kort en toch zo beduidend zijn als mogelijk voor de gebruikers. Moeilijke afkortingen of vakjargon zijn sterk af te raden. Elke titel moet

uniekzijnenkandusmaar1xtoegekendworden.OpbasisvandetitelzalhetplatformeenuniekeURLgenererendiejerechtstreeks

naar de beschrijving van deze dataset zal brengen

◼ OMSCHRIJVING: een korte omschrijving waar de dataset over gaat. Dit is naast de titel het eerste wat een gebruiker zal zien en

verdient dus bijzondere aandacht. De kunst is om eenvoudig en kort de inhoud weer te geven, zodat de gebruiker kan inschatten

waarover de data gaat. Indien de omschrijving meertalig moet zijn, stellen we voor om als eerste lijn “English Tekst follow below” te

vermelden, dan eerst de tekst in het Nederlands te schrijven en daaronder dezelfde tekst in het Engels. Je kunt hier aan de hand van de

‘markdown optie’ ook tekst accentueren of in grotere font plaatsen.

◼ TAGS:hierkanje(eigen)tagsdefiniërendiedegebruikerkaningevenalsthematischzoekcriteria(vb.onderwijs,werkloosheid,mo-

biliteit, etc.). De tags zijn vrij te kiezen en in te geven en we stellen voor om een meerdere relevante tags in te geven. Voor de gebruiker

is dit handig om snel de datasets rond 1 onderwerp te kunnen selecteren via een tag.

◼ LICENTIE: Hierin wordt het licentiemodel gekozen uit de lijst waaronder de dataset zal gepubliceerd worden.

◼ ORGANISATIE: Dit veld geeft de organisatie weer waaronder de dataset zal geplaatst worden. Aangezien een beheerder enkel bin-

nen zijn eigen organisatie datasets kan registreren, is dit veld dus op vooraf ingevuld, vast en niet aanpasbaar.

◼ ZICHTBAARHEID: keuze tussen ‘privé’ of ‘publiek’. Een dataset kan geregistreerd worden maar nog niet publiek zichtbaar zijn. In dat

geval wordt de keuze ‘privé’. Enkel beheerders of geregistreerde gebruikers kunnen dan de dataset vinden, niet het grote publiek. Indien

de dataset voor iedereen beschikbaar is, wordt de keuze ‘publiek’. Dit kan handig zijn als je een reeks datasets wil publiceren gelinkt

aan een event waar de datasets worden aangekondigd. In dat geval kan je ze op ‘privé’ plaatsen en net voor de lancering veranderen

naar ‘publiek’

◼ BIJSLUITER: Dit bevat een verwijzing naar een gedetailleerd document dat kan geraadpleegd worden om de dataset beter te be-

grijpen,bvhoeishettotstandgekomenenmetwelkdoel,welkeformulesen/offilterserzijngebruikt,enzovoort.Zekerbijhetter

beschikking stellen van een API dringen we aan op het maken van een bijsluiter die alle mogelijke parameters, de resultaten en even-

tueleerrorcodesbeschrijft,zodatdeprogrammeurhiervlotmeeaandeslagkan.DitveldverwijstdusnaareenexterneURLwaarde

bijsluiter te downloaden is. Indien er geen bijsluiter is, dan wordt dit veld blanco gelaten.

◼ VERSIE: Vaak zijn de datasets onderhevig aan evolutie en door het meegeven van een versie nummer kan dit afgedekt worden.

Hiermee kunnen verschillende datasets in tijd via een versie nummer toch nog naaste elkaar blijven bestaan. De beheerder staat vrij

omeenversiestructuurtekiezen.Letop:detitelvandedatasetmoetsteedsuniekblijvenenhetversienummeriseenextraindicatie.

Dus, vaak zien we dat er ook in de titel een aanduiding van afdekking (bv in tijd) wordt meegegeven.

◼ EIGENAAR/CONTACTPUNT: In dit veld wordt de eigenaar van de dataset vermeld. Dat is vaak de naam van de organisatie of instan-

tie die de dataset heeft opgemaakt.

◼ AUTEUR EMAIL: als een gebruiker een vraag wil stellen over de dataset, dan kan dit aan de hand van dit e-mail adres. Het is dus het

e-mail adres van de organisatie of instantie die de dataset heeft opgemaakt.

◼ BEHEERDER: sommige instanties maken een onderscheid tussen de eigenaar / contactpunt en de beheerder van de dataset. Indien

dit relevant is, dan kan je in dit veld de beheerder van de dataset vermelden. Dit is vooral voor grote instanties relevant, waar meerde-

re afdelingen of beheerders elk een aantal datasets beheren. Indien niet relevant, wordt hier vaak de eigenaar / contact punt overgeno-

men.

◼ BEHEERDER EMAIL: analoog aan het e-mail adres van de auteur, wordt hier het e-mail adres van de beheerder vermeld, indien rele-

vant.

◼ CUSTOM FIELD (KEY / VALUE):BinnenCKANkanjeextrametadataveldenmeegevenophetniveauvandedataset(=overkoepelend

aan elke distributie die toegevoegd wordt aan de dataset). Enige voorzichtigheid is geboden, aangezien er geen controles op de para-

meter alsook de opgegeven waarde gebeurt. Elke input is voor CKAN correct. Indien je toch velden wil toevoegen, dan vul je bij KEY de

naamvandeparameterin(bv.GeografischeDekking)enindeVALUEdandewaarde(bv.Vlaanderen).

57



Eenmaal klaar met deze velden, kan de beheerder op de knop “VOLGENDE: DATA TOEVOEGEN” klikken. Dan wordt een nieuwe scherm getoond

waarpertypevandataset(i.e.distributie)eenextraschermmetinformatiewordtingevuld.Ditschermkanmeerderekerenwordeningevuld,

telkens per type dataset (i.e. distributie).

Voor we de velden eens overlopen, toch eerst de aandacht vestigen op het veld FILE. Daarnaast vind je 2 knoppen:

◼ UPLOAD: hiermee kan je de distributie (i.e. dataset in een bepaald formaat, bv. CSV) opladen op het Vo Open Data portaal. Indien

de instantie beroep wil doen op capaciteit om datasets op te laden naar het Vo Open Data Portaal, gelieve contact op te nemen met

het Vo Open Data team om concrete afspraken hierrond te maken. Deze optie kan – beperkt in tijd en volume – tijdelijk opgezet wor-

den,maardeverantwoordelijkheidvoorhetbeheervandedatablijftbijdeinstantieenerwordengeenspecifiekeSLAsaangeboden.

◼ LINK: hiermee wordt er gelinkt naar de plek waar de distributie ter beschikking wordt gesteld als download of als API. Deze opties

moeten voor iedere distributie individueel aangeklikt worden.

Als je op LINK klikt, dan verandert het scherm lichtjes. Het veld LINK wordt dan vervangen door URL, zoals hieronder is weergegeven:

Dit scherm vul je als volgt in:

◼ URL: hier komt de link naar de bron waar de dataset kan gedownload worden of ter beschikking wordt gesteld als API.

◼ NAAM:hierkanjedenaamvandedistributiespecifiëren.Somsisdithetzelfdealsdenaamvanhetvorigescherm,maaralsmeer-

deredistributiesvan1datasetwilspecifiëren,danishetaanteradenomhierookhetformaattevermelden.

◼ OMSCHRIJVING: zelfde logica wordt hier gevolgd. Hier geef je een verdere omschrijving van de distributie in, indien dit relevant.

◼ FORMAAT: vul hier het formaat in waaronder de distributie te herkennen valt. Dit is dus het bestandsformaat van de dataset die je

via de URL kan downloaden. Indien de dataset als een API wordt aangeboden, vul je hier ‘API’ in.

58



◼ USE THEDATATANK: Dit veld verschijnt na het invullen van het formaat automatisch indien relevant (niet alle formaten zijn opge-

zet voor conversie). Indien je dit vakje aanklikt, dan wordt de formaat conversie van The Data Tank component ingeschakeld. Afhan-

kelijkvandeformaatkeuzewordendanextraconversieoptiestevoorschijn.Ziehetvolgendestukje“FormaatconversiesviaTheData

Tank” voor een overzicht van de opties.

Nadat deze velden zijn ingevuld, heeft de beheerder de volgende keuzes onderaan rechts op het scherm:

◼ OPSLAAN & EEN NIEUWE TOEVOEGEN: in dit geval wordt hetzelfde scherm opnieuw getoond en kan er een andere distributie van

dezelfde dataset geregistreerd worden. Een beheerder kan zo veel maal als nodig distributies blijven toevoegen.

◼ EINDE: het toevoegen van één of meerdere distributies wordt beëindigd en de dataset en bijhorende distributies worden geregis-

treerd. De beheerder komt terug op het scherm met een overzicht van datasets en kan eventueel een andere dataset toevoegen.

8.5.2 CKAN – DATASETS REGISTREREN VIA DE API: HOE

Indien je als beheerder via de CKAN API toegang wil, zal je eerst je unieke API sleutel moeten ophalen. Die is te vinden op je eigen dashboard

pagina, nadat je bent ingelogd. In de linker kolom, onderaan staat dan je persoonlijke API sleutel die je als autorisatie middel moet meegeven

bij het aanroepen van de CKAN API (i.e. zwarte vakje op scherm hieronder)

Deze API sleutel kan je dan gebruiken bij het automatisch registeren van datasets via een script. Voor voorbeelden van deze scripts, zie bijlage

2.

We leggen geen technologische standaarden op om met de CKAN API te werken vanuit de eigen omgeving van een instantie. Het Vo open data

team kan hierbij technische ondersteuning bieden, maar de verantwoordelijkheid om de scripts of programma’s te ontwikkelen, uit te voeren

en op te volgen ligt wel bij de instantie zelf.

8.5.3 FORMAAT CONVERSIES VIA THE DATATANK

Beheerders die een dataset (en bijhorende metadata) registreren, kunnen ook opteren om The Datatank software te gebruiken. Deze zal dan

extraformaatconversies“onthespot”mogelijkmakentijdenshetbekijkenvandedataset.

Indien het veld “USE THEDATATANK”aangekliktwordtenafhankelijkvandewaardeinhetveldFORMAAT,komenerextraveldenterbeschik-

king. Deze velden dienen als parameters zodat The DataTank de data van de formatering in de dataset kan onderscheiden en aldus zo de

conversie kan dynamisch kan inregelen.

59



Volgende formaat keuzes en parameters zijn ter beschikking:

◼ Indien het formaat CSV is, komt volgend scherm tevoorschijn:

Volgende velden zijn ter beschikking voor een CSV formaat:

༳ HEADER ROW: Hierin vul je in of de CSV een ‘header row’ bevat. Een ‘0’ betekent geen header row, een ‘1’ betekent dat er

wel een header row is. Het gebruik van een header row wordt sterk aangeraden.

༳ START ROW: Vaak zien we dat er meerdere rijen in de CSV worden gebruikt om de data toe te lichten. Daar heeft de

softwarehetvaaklastigmeeendaaromvragenwehierintevullenopwelkerijdedataexactbegint.

◼ Indien het formaat XLS is, komt volgend scherm tevoorschijn:

Volgende velden zijn ter beschikking voor een XLS formaat:

༳ XLS SHEET:Hiervuljedeexactenaaminvande‘sheet’binnenhetXLSbestandwaarjeformaatconversieswiloptoe-

passen. Een dataset kan maar naar 1 Tab of sheet verwijzen. The Datatank kan maar 1 tab / sheet verwerken.

༳ HEADER ROW: Hierin vul je in of de XLS een ‘header row’ bevat. Een ‘0’ betekent geen header row, een ‘1’ betekent dat er

wel een header row is. Het gebruik van een header row wordt sterk aangeraden.

༳ START ROW: Vaak zien we dat er meerdere rijen in de sheet worden gebruikt om de data toe te lichten. Daar heeft

softwarehetvaaklastigmeeendaaromvragenwehierintevullenopwelkerijdedataexactbegint.

60



◼ IndienhetformaatJSONis,zijnergeenextravelden,maarbijOPTIONELEPARAMETERSkomenwelaparteveldentevoorschijn:

Met bovenstaande parameters heb je de belangrijkste elementen in kaart gebracht om The Datatank toe te laten om formaat conversies uit

te voeren en de data in een (ander) open formaat beschikbaar te maken. Aan de beheerder wordt gevraagd steeds te checken of de conversies

door The Datatank correct zijn uitgevoerd.

Zoals je kan zien, staat er nog een knop “OPTIONELE PARAMETERS” op dit scherm. Als je hier op klikt, krijg je een hele reeks aanvullende para-

metersomTheDataTankteconfigurerenendeformaatconversieteoptimaliseren(enkelalsformaatXLSofCSVis,voorJSONziehierboven).

Deze parameters zijn echt voor gevorderden en zullen niet in deze handleiding besproken worden.

8.6 CKAN TESTPLATFORMWe hebben ook een CKAN testplatform ter beschikking dat dezelfde functionaliteiten biedt als het productie platform.

Dit testplatform is te bereiken via de link http://ckan-002.corve.openminds.be/ en biedt meerwaarde aan beheerders die eerst hun manuele

of automatische uploads of andere scripts willen testen.

Het Vo Open Data team staat ter beschikking te helpen bij het opzetten of valideren van testen. Het registreren op dit testplatform gebeurt

op de dezelfde manier als op het productieve platform, maar de userids, paswoorden en rechten zijn uniek voor dit test platform en niet

gesynchroniseerd met het productieve platform. Rechten als beheerder kunnen bij het Vo Open Data team aangevraagd worden, maar gelden

danookspecifiekenkelvoorhettestplatform.

http://ckan-002.corve.openminds.be/

61



9 EVALUEER UW OPEN DATA PRAKTIJKVlaanderen staat aan het begin van een onstuitbare evolutie naar open data. Dit houdt ook in dat het beleid rond open data naargelang de

grotere beschikbaarheid van data of de grotere vraag ernaar eventueel zal worden bijgestuurd. Daarnaast moet ook steeds rekening worden

gehouden met mogelijke aanpassingen in het wettelijke kader rond open data, bijvoorbeeld de wijziging van de Europese richtlijn betreffende het

hergebruik van overheidsinformatie. Ten slotte is ook de ervaring in praktijk van de instanties een goede graadmeter voor het succes van het

Vlaamse open data beleid.

De Vlaamse overheid wil graag deel uitmaken van de open data kopgroep van de Europese Unie. Daarvoor moet zij dus de vinger aan de pols van

het open data beleid houden. De Vlaamse overheid wil dan ook op regelmatige basis evalueren in welke mate het open data gedachte- goed is

doorgedrongen in Vlaanderen. Daarvoor is de inbreng van de instanties die data ter beschikking stellen essentieel. De Vlaamse overheid hecht dan

ook veel belang aan een goede interactie met de instanties, waarbij de instanties de mogelijkheid hebben om hun ervaringen en bezorgdheden

te delen. Concrete informatie zoals hoe vaak bepaalde data werd gedownload, welke data werd gevraagd, hoe veel gebruik gemaakt werd van de

diensten, is hierbij van grote waarde.

Aanbeveling 22: maak een evaluatie van het succes van de Open Data praktijk van uw instantie.

62


BIJLAGE 1 Master data management

BIJLAGE 1 MASTER DATA MANAGEMENT WAT IS MASTER DATA MANAGEMENT?Bestandenveranderenveelenverouderensnel.Jaarlijksmuteert30tot40%vandegegevensineenadressenbestand.Bovendienwerkenveel instan-

ties met verschillende databases en worden mutaties en toevoegingen vaak door meerdere personen van meerdere afdelingen doorgevoerd. Hoe

houdt u deze gegevens actueel en hoe legt u onderlinge verbanden tussen de diverse databestanden binnen de Vlaamse overheid?

Master Data Management (MDM) is het integreren van data en databases tot één zuiver bestand van hoge kwaliteit en consistentie. Door het be-

schikbaar maken van accurate, betrouwbare en consistente informatie in alle bedrijfssystemen kan tijd en geld worden bespaard.

Het voornaamste belang van Master Data Management (MDM) bestaat uit het op een eenduidige manier vastleggen en beheren van stamgegevens

(master data) van een organisatie, in dit geval dus de Vlaamse overheid als geheel en allicht beter bekend onder de term authentieke bronnen.

Dit is noodzakelijk omdat master data in bijna alle gevallen opgeslagen is in verschillende (informatie)systemen binnen een organisatie en meerdere

gebruikers het benutten. MDM zorgt ervoor dat de stamgegevens consistent zijn en liefst een centrale plaats binnen de organisatie krijgen. Alle infor-

matiesystemen binnen de organisatie putten dan uit die ene centrale bron van master data. MDM zorgt er verder ook voor dat de beschrijvingen

endefinitiesvaninformatieovereenkomtmetdebeschrijvingenendefinitiesdiedezelfdeinformatieheeftbijburgerofbedrijf.

OndersteunendeprocessenbijMDMzijno.a.:bronidentificatie,hetverzamelenvandata,datatransformatie,normalisatie,regeladministratie, foutde-

tectie en -correctie, data opslag, data distributie en het beheren van data.

RELEVANTIE VOOR OPEN DATA Binnen de overheid is de verantwoordelijkheid voor de verschillende applicaties – op een paar uitzonderingen na - verdeeld over meerdere in-

stanties. Dit geldt ook voor de bijbehorende stamgegevens (i.e. master data). Veel entiteiten kampen met de uitdaging dat essentiële stamgegevens

vaak in meerdere systemen zijn opgeslagen, bijvoorbeeld contacten, openingsuren, enzovoort. Binnen een instantie wordt vaak onvoldoende onder-

kend dat onjuist ingevoerde stamgegevens in één applicatie ernstige gevolgen kan hebben voor een andere applicatie.

Rapportagesystemen ondervinden veel problemen als de master data niet consistent is. Hierbij kan worden gesteld dat datakwaliteitsproblemen

die het gevolg zijn van inconsistente master data één van de belangrijkste redenen zijn dat veel BI projecten niet het gewenste resultaat opleveren.

Deze problematiek geldt ook voor Open Data, zei het nu dat hier niet de interne werking maar ook de burger de gevolgen van slechte stamge-

gevens zal ervaren. Als iedere instantie gegevens gaat ontsluiten via Open Data en iedere instantie gebruikt daarvoor een andere manier om bv

adressen te modelleren, dan zal de gebruiker van de datasets moeite hebben om dit alles aan elkaar te lijmen. Daaromvragenweextraaandacht

te besteden aan het opstellen en beheren van stamgegevens, op zijn minst op instantieniveau, liefst overheid breed.

Het goede nieuws is dat de technieken om dit voor Open Data te realiseren niet zoveel anders zijn als voor applicaties en / of rapportagesyste-

men. Met andere woorden, het proces om stamgegevens (lees: authentieke bronnen) te maken en beheren voor klassieke applicaties kan ook toege-

past worden voor Open Data.

VOORSTEL STAPPENPLAN VOOR EEN OPEN DATA MDM PROCES De hieronder vermelde stappen gelden algemeen voor het bewaken van de kwaliteit en consistentie van gegevens en zijn dus ook van toepassing

op (open) datasets. De lijst is dan ook in de eerste plaats te zien als een check list om de kwaliteit en de consistentie van datasets te bewaken, ja

zelfs te garanderen. Hoe groter het aantal gegevens, hoe formeler een proces moet ingeregeld worden. Ook op niveau van de Vlaamse overheid is

het interessant om de volgende stappen in het achterhoofd te houden voor het beheer van Open Data stromen.

◼ Identificeren van master data

Aan de hand van een aantal criteria wordt vastgesteld welke data wel, en welke data niet als master data beschouwd en opgenomen

wordt in een Open Data beheersproces. Denk hierbij aan de criteria voor ontsluiting die eerder in dit document zijn gelijst.

◼ Identificeren van de bronsystemen

Waar komt de master data en haar metadata vandaan en welke bronsystemen produceren ze

◼ Verzamelen en analyseren van metadata

Het verzamelen van de onderliggende metadata over de master data. Zie ook het eerdere hoofdstuk over metadata voor Open

63



Data.

◼ Aanstellen van data stewards

Dit zijn mensen met zowel kennis van het huidige bronsystemen als Open Data om dezelfde regels te laten gelden op alle data-

bronnen.

◼ Opstellen van een data Governance programma en een data Governance raad

Hetprogrammabepaalthoe,waarenmetwelkedefinitiesmasterdatawordtvastgelegdendemaniervannormalisatiediemen

gaat toepassen op de master data. De data Governance raad bepaalt in overleg de normalisatie procedure die men gaat gebrui-

ken. Zie volgende hoofdstuk voor een pragmatische aanpak van deze raad.

◼ Ontwikkeling van een master data model of logisch datamodel

Afhankelijk van de beschikbare databases en evt. datawarehouse en de benodigde distributie van de informatie wordt voorge-

steld een logisch en fysisch data model te maken dat onder het MDM proces beheerd wordt. We stellen voor om dit model uit te

breiden met Open Data stromen.

◼ Overweeg een tool

Waarveelgegevensbeheerdworden,kanhetaangeradenzijnomeenMDMtooltegebruiken.DeextragegevensvoorOpenData

stromen kunnen in deze tool beheerd worden wat een algemeen overzicht mogelijk maakt.

◼ Ontwerpen van een ondersteunende infrastructuur

Voor instanties die veel gegevens beheren en die datasets automatisch willen ontsluiten, kan overwogen worden om gebruik te

maken van ondersteunende infrastructuur om de ETL processen uit te voeren. Binnen de Vo is er al dergelijke infrastructuur

beschikbaar.

◼ Genereren en testen van stamgegevens

De stamgegevens zullen met behulp van handmatige of automatische inspectie getoetst moeten worden op kwaliteit en consis-

tentie. Het zal vrijwel onmogelijk zijn om alle stamgegevens in een keer kloppend te krijgen en te houden. Vaak zitten er in de

ETLtoolsetswelmogelijkhedenomdittevoorzien,maarsomskunnenspecifieketestennodigzijn(bv.voorhetanoniemmaken

van Open Data gegevens).

◼ Implementeren van onderhoudsprocessen

Geen enkel proces is statisch en zeker ook het beheren van MDM en datasets niet. Voorzie dan ook een proces voor het onder-

houden van metadata, ETL functionaliteit om de kwaliteit van de gegevens in stand te houden.

ORGANISATORISCHE IMPACT EN AANPAK De aandachtige lezer zal begrijpen dat het opzetten van een gedegen MDM proces ook een impact zal hebben op het Governance model van de ICT

afdeling van de instantie in kwestie of de Vlaamse overheid als geheel. We gaan er in eerste plaats van uit dat voor het beheer en publiceren van

Open Data stromen ergeensprakekanzijnvanextramensenofwerklast.Daaromstellenwehiereengroeimodelvoordatzoveelmogelijkgealig-

neerd is met bestaande opdrachten en nu ook voor Open Data kan gebruikt worden.

Op termijn kan de instantie en / of de Vo als geheel niet anders kunnen dan een dergelijk model op te zetten, omdat naarmate het aantal

instanties en datasets toenemen, de roep voor kwaliteit en consistentie in de opmaak alleen maar zal groeien. We pleiten dan ook om zo snel

mogelijk naar Fase 2 door te groeien.

64



◼ Fase 1 - korte termijn: per instantie

In deze stap voorzien we minimale inspanning om aan MDM te doen.

Volgende kenmerken gelden:

Geen unieke of aparte master data organisatie of team.

Businessen/ofICTvandeinstantiestaatzelfinvoordefinitievanstandaardenenprocedures

om master data te maken of te beheren.

Inspanning is verdeeld over alle personen van de instantie en is “best effort” opgezet

◼ Fase 2 - middellange termijn: Gefedereerd (Open Data COE)

IndezefaseisereenCOE(CenterofExpertise)opgerichtdatzichoveralleMDMvandeinstantie

ontfermt. Er zijn standaarden en afspraken op instantie niveau die door een verantwoordelijke

worden beheerd. Er is ook een overkoepelend aanspreekpunt voor alle MDM van de Vlaamse

overheid, maar deze persoon kan deze standaarden nog niet afdwingen, louter faciliterend op-

treden. Zo wordt naar een groot mogelijke gemene deler van standaarden en afspraken gewerkt.

Deze maturiteitsvorm vereist dus inderdaad verantwoordelijken voor MDM op verschillende

niveaus, maar bewerkstelligt de standaardisatie ook wel.

◼ Fase 3 (lange termijn): volledig gecentraliseerd

Op lange termijn worden alle afspraken en standaarden rond MDM samengebracht op het hoog-

ste niveau van de Vlaamse overheid. Geen sinecure, want dat betekent ook autoriteit en verant-

woordelijkheid om de lagere niveaus deze afspraken te doen volgen.

Het voordeel is wel dat er dan een algehele consistentie is over alle data modellen die gebruikt

worden, wat de kwaliteit en vooral de consistentie enorm verbetert.

65


BIJLAGE 2 Toevoegen van metadata

BIJLAGE 2 TOEVOEGEN VAN METADATA1 INLEIDING

Bij het toevoegen van metadata onderscheiden we 3 types, pull, push en manueel:

◼ Bijeen“pull”wordtmetadatavaneenexterneplaatsovergenomennaaronzeserver;

◼ Bijeen“push”moeteengebruikerdegegevenszelfactiefpublicerennaaronzeomgeving;

◼ Bij het “manueel proces” maken we gebruik van de userinterface van de CKAN software zelf.

Deze 3 methoden worden hieronder gevisualiseerd:

In deze rubriek beschrijven we de verschillende opties om deze methoden toe te passen, in het bijzonder:

◼ viadeCKANEXT-extensie(PULL),

◼ via de manuele procedure,

◼ via scripts (PUSH),

◼ via de easy Open Data tool (PUSH).

2 CKANEXT (PULL)Deze tool maakt het mogelijk voor ons om de gegevens van op uw platform naar ons platform te brengen. Dit doen we met de tool CKANEXT

die verwijst naar de DCAT-AP feed van op uw platform. Eenmaal deze opgezet is, is er geen manuele interventie meer nodig. Bij het opzetten

kunnen we een wekelijkse of een maandelijkse scheduling opzetten om uw meta-datareeksen te actualiseren.

De opzet van deze stap gebeurt door het Open Data team. De informatie die wij nodig hebben van u, is beperkt tot de DCAT-AP feed en een

voorstel van scheduling.

66



InonderstaandefiguurzietuwatwemoeteninvoerenomdeDCAT-APfeedintelezen:

In onderstaande scherm ziet u het log bestand per actualisatie:

67



In onderstaand scherm vindt u het resultaat van de actualisaties:

Het aanmaken van een DCAT-AP feed kan gebeuren door verschillende softwaretoepassingen. Maar u kan die ook zelf aanmaken. Hiervoor kan

u de nodige informatie vinden op het internet42 of bijlage 5 raadplegen.

Daarnaast bestaan er ook nog verschillende dcat-validators, zie

◼ https://www.google.be/?gws_rd=ssl#q=dcat+validator

◼ http://www.dcat.be:8080/validator/

3 MANUEEL DATASETS TOEVOEGENAls u beschikt over een beperkt aantal datasets, dan kan u de meta-informatie van uw datasets met behulp van onze schermen toevoegen

aan onze omgeving. We verwijzen hiervoor naar de stappen die zijn toegelicht in sectie 8.5 “OPEN DATA PORTAAL FUNCTIONALITEIT VOOR EEN

BEHEERDER”.

4 SCRIPTING (PUSH)U kan ook met behulp van het eigen scripts en programmatuur gebruik maken van de API’s die beschikbaar zijn op onze omgeving.

Hier vindt u een kort overzicht van deze API’s:

◼ Package_create

◼ Package_update

◼ (Package_delete)

◼ Package_show

◼ resource_search

Meer informatie kan u terugvinden via in voetnoot vermelde link43.

WijadviserenomdeAPIPackage_deleteNIETtegebruiken,maarinplaatsvandezeAPIgebruiktuhetbesteenpackage_updateincombina-

tie met het op private plaatsen van de metadata.

42 http://www.w3.org/TR/vocab-dcat/43 http://docs.ckan.org/en/latest/api/index.html

http://www.dcat.be:8080/validator/

http://www.w3.org/TR/vocab-dcat/

http://docs.ckan.org/en/latest/api/index.html

http://docs.ckan.org/en/latest/api/index.html

68



BijdemeesteAPI’smoetugebruikmakenvaneenautorisatiesleutel.Dezekanuvindeninuwgebruikersprofiel,zoalsbeschreveninsectie

8.5.

Indien er geen scripting technologie voorhanden is, dan raden we het gebruik van CURL aan. CURL is een open source command line tool die

toelaat om API’s op bv het Open Data platform (lees: de CKAN Software) uit te voeren. Meer informatie hierover vind via in voetnoot vermelde

link44.

We bespreken hierbij een aantal voorbeelden, gebaseerd op de CURL technologie zelf:

API Resource search

CURL-commando

CURLhttp://ckan-002.corve.openminds.be/api/3/action/resource_search?query=url:”http://www4.vlaanderen.be/dar/svr/cijfers/Excel-

tabellen/cultuur/musea/CULTMUSE002a.xls“

Resultaat

{“help”:”http://ckan-001.corve.openminds.be/api/3/action/help_show?name=resource_search”,

“success”: true,

“result”: {“count”: 1,

“results”:

[{“cache_last_updated”:null,

“package_id”:“a3f9162e-df9b-4ec4-8478-0f173c1112b4”,

“webstore_last_updated”:null,

“tdt_uri”:null,

“id”: “9a9ad896-963d-4187-a720-30529d0a0ec8”,

“size”: null,

“state”: “active”,

“last_modified”:null,

“hash”: “”,

“description”: “”,

“format”: “XLS”,

“mimetype_inner”:null,

“url_type”:null,

“mimetype”: null,

“cache_url”:null,

“name”: “Bezoek aan een Belgisch museum,

galerijoftentoonstellingnaarleeftijdformaatMS-Excel”,

“created”: “2015-01-30T09:28:34.748101”,

“url”:“http://www4.vlaanderen.be/dar/svr/cijfers/Exceltabellen/cultuur/musea/CULTMUSE002a.xls”,

“webstore_url”:null,

“position”: 0,

“revision_id”:“1c41bb81-7602-4c7b-96e3-fcc6c581c9b2”,

“resource_type”:“file”}

]}}

API package show

CURL-commando

curlhttp://ckan-001.corve.openminds.be/api/3/action/package_show?id=”svr_performantie-vrt-in-functie-van-de-normen-vastge-

legd-in-de-opeenvolgende-formaat-ms-excelbeheers”

Resultaat

{“help”:“http://ckan-002.corve.openminds.be/api/3/action/help_show?name=package_show”,

“success”: true,

“result”:{“license_title”:“Modellicentie2-GratisOpenDataLicentie-v1.2”,

44 https://curl.haxx.se/

https://curl.haxx.se/

69



“maintainer”: “Moreas Marie-Anne”,

“relationships_as_object”:[],

“private”: false,

“maintainer_email”:null,

“num_tags”:3,

“id”: “svr_excels-ict-bedrijven-ict-gebruik---online-kopen-en-verkopen-mediictbecjhf--2015-06-17”,

“metadata_created”:“2015-09-10T09:03:43.023355”,

“metadata_modified”:“2015-10-10T09:24:55.623184”,

“author”: “Eurostat (epp.eurostat.cec.eu.int),

Belgische data: Algemene directie Statistiek en Economische informatie,

FOD Economie,

K.M.O.,

Middenstand en Energie”,

“author_email”:null,


“version”: null,

“creator_user_id”:“45409b4b-5d33-4407-83e4-6800db3b25a6”,

“type”: “dataset”,

“resources”:[{“cache_last_updated”:null,

“package_id”: “svr_excels-ict-bedrijven-ict-gebruik---online-kopen-en-verkopen-mediictbecjhf--2015-06-17”,

“webstore_last_updated”:null,

“datastore_active”:false,

“id”: “03f55e65-1234-4c4c-82fa-dd8b79fd5267”,

“size”: null,


“hash”: “”,

«description»: «»,

«format»: «XLS»,

…

}}

API package update

CURL-commando

curl-d“@svr_json1.json”http://ckan-001.corve.openminds.be/api/3/action/package_update-H“Authorization:<personalkey>”

Bestand svr_json1.json

{“package_id”: “ svr_json_svr_excels-bestuur-algemeen-aspecommjjh--2011-10-11_1.json”,

“title”: “Aandeel regelmatige internetgebruikers om met de overheid in contact te komen naar leeftijd\u002C geslacht\u002C opleiding\

u002C sociale contacten\u002C gezinsinkomen\u002C het al dan niet hebben van betaald werk en kinderen”,

“name”:“svr_json_svr_excels-bestuur-algemeen-aspecommjjh--2011-10-11_1.json”,

“url”: “http\u003A\u002F\u002Faps\u002Evlaanderen\u002Ebe\u002Fsgml\u002Flargereeksen\u002F5417\u002Ehtm”,

“notes”: “Aandeel regelmatige internetgebruikers om met de overheid in contact te komen naar leeftijd\u002C geslacht\u002C oplei-

ding\u002Csocialecontacten\u002Cgezinsinkomen\u002ChetaldanniethebbenvanbetaaldwerkenkinderenformaatMS-Excel”,


“isopen”: true,

“license_id”:“gratis-open-data-licentie-1.2”,

“tags”:[{“vocabulary_id”:null,

“display_name”:“ict”,

“name”:“ict”},

{“vocabulary_id”:null,

“display_name”:“huishoudens”,

“name”:“huishoudens”},

{“vocabulary_id”:null,

“display_name”:“Vlaanderen”,

“name”:“Vlaanderen”}],

70



“resources”:[{“format”:“xls”,

“name”: “Aandeel regelmatige internetgebruikers om met de overheid in contact te komen naar leeftijd\u002C geslacht\u002C oplei-

ding\u002C sociale contacten\u002C gezinsinkomen\u002C het al dan niet hebben van betaald werk en kinderen”,

“url”:“http\u003A\u002F\u002Fwww4\u002Evlaanderen\u002Ebe\u002Fsites\u002Fsvr\u002FCijfers\u002FExceltabellen\u002Fict\

u002Fhuishoudens\u002FVlaanderen\u002Fkloof-tweede-graad\u002FMEDIICTHVK2004\u002Exls”,

“resource_type”:“file”}],

“author”: “SCV-survey 2007-2012”,

“maintainer”: “”,

“groups”: [],

“owner_org”: “svr”,

“extras”:[]}

Zoalsukanzien,geeftubestdepackage_idmee,dieukanopzoekenmetdeAPI“package_show”.Doordezemeetenemenbentuzekerdatu

decorrectemetadatareekswijzigt.Daarnaastgeeftuookalsmeta-informatie“owner_org”mee.Dezekanuvindenindeurlvanuworganisa-

tie op onze omgeving. Daarvoor gaat u door het menu naar Data à Organisaties en u klikt op uw organisatie. In de url van het scherm vindt

u de afkorting terug van uw organisatie.

API package create

CURL-commando

curl-d“@svr_json2.json”http://ckan-002.corve.openminds.be/api/3/action/package_create-H“Authorization:<personalkey>”

Bestand svr_ json2.json

{“title”: “Campagnes Vlaamse overheid\u003A aantal \u0026 uitgaven \u0028SVR\u0029”,

“name”:“svr_campagnes-vlaamse-overheid-aantal--uitgaven-formaat-ms-excel”,

“url”: “http\u003A\u002F\u002Faps\u002Evlaanderen\u002Ebe\u002Fsgml\u002Flargereeksen\u002F460\u002Ehtm”,

“notes”:“CampagnesVlaamseoverheid\u003Aaantal\u0026uitgavenformaatMS-Excel”,


“isopen”: true,

“license_id”:“gratis-open-data-licentie-1.2”,

“tags”:[{“vocabulary_id”:null,

“display_name”:“bestuur”,

“name”:“bestuur”}],

“resources”:[{“format”:“xls”,

“name”: “Campagnes Vlaamse overheid\u003A aantal \u0026 uitgaven”,

“url”:“http\u003A\u002F\u002Fwww4\u002Evlaanderen\u002Ebe\u002Fsites\u002Fsvr\u002FCijfers\u002FExceltabellen\u002Fbe-

stuur\u002Falgemeen\u002FASPECOMM004\u002Exls”,

“resource_type”:“file”}],

“author”: “DAR\u002C afdeling communicatie \u0026 ontvangst”,

“maintainer”: “”,

“groups”: [],

“owner_org”: “svr”,“extras”:[{“key”:“beleidsdomein”,“value”:“460”},

{“key”:“geografischedekking”,“value”:“Vlaanderen”},

{“key”:“dekkingintijd”,“value”:“1998-2010”},

{“key” : “laatst gewijzigd”,

“value”:“2011-11-10”}]}

Ookhiergeeftualsmeta-informatie“owner_org”mee.

71



Afspraken in acht te nemen omtrent het gebruik van de API’s en de Vo Open Data omgeving:

◼ Tijdens het ontwikkelen mag u niet naar onze productieserver verwijzen. U moet alle scripts eerst testen op onze CKAN-002 server.

◼ Bij het toevoegen van een dataset moet de afkorting van uw organisatie mee opgenomen worden in de titel, alsook bij de naam

vandedataseteenprefix(bvbsvr_”)dieovereenstemtmetuworganisatie.Zovermijdtudatuonbewusteenmetadatareeksover-

schrijft van een andere organisatie. Het omgekeerde geldt hier ook.

◼ Nooituitvoerenvanpackage_deletemaarpackage_updateenattribuutprivateoptrueplaatsen.

◼ Bijeenpackage_updatedepackage_idennametoevoegenindejson-file.DezekanuopzoekenmbvdeAPIresource_search.

5 EASY OPEN DATA TOOLVoor organisaties die veel of vaak wijzigende datareeksen hebben en niet beschikken over de nodige technische kennis om een script te ma-

ken of een DCAT-feed aan te maken, kunnen gebruik maken van deze tool. Deze tool is op maat gemaakt voor de Open Data-omgeving.

Het doel van deze tool is om organisaties op een laagdrempelige manier hun gegevens ter beschikking te maken voor “Open Data”. De werk-

wijzebestaaterindatdeorganisatieeenExcelbijhoudtmetallemeta-informatie.DezeExcelmoetuelkemaand(enkelbijwijzigingen)toe-

sturen naar ons, en deze importeren we dan op onze omgeving.

DezeExcel-templateheeftalsgevolgdatdeorganisatieeenbeteroverzichtheeftoverzijnreeksenenbijgevolgdezeopeenoverzichtelijke

manier kan beheren.

Volgende velden worden aangeboden om in te vullen in lijstvorm:

Kolomhoofd Uitleg

status Geef hier de status mee. De mogelijke waarden zijn Actief en Niet Actief. Bij Niet Actief

zullen de datareeksen verborgen worden. Daarna kan u ze manueel verwijderen. Let

wel, indien u deze verwijdert op de GUI dan kan u nooit meer eenzelfde titel gebruiken.

Daarom adviseren we om de datareeksen nooit te verwijderen.

titel De titel van de metadata-reeks

naam DeURLvandemetadata-reeksoponsplatform:bvopendata.vlaanderen.be/dataset/<-

naamvandedataset>.Zorgervoordatdezenaamuniekisvoorallemetadata-reeksen.

Bij meerdere distributies binnen eenzelfde metadata-reeksen, moet u bij elke distributie

dezelfdetitelennaamkiezen.EendistributiekaneenCSVofExcelzijn,telkensmet

dezelfde inhoud. De andere metadata velden worden overgenomen uit het eerste actie-

ve item.

bijsluiter een URL naar een pagina met meer uitleg over de datareeks

omschrijving Omschrijving van de datareeks

licentie Kies hier één van de licenties van ons portaal. De mogelijke waarden zijn:

◼ notspecified

◼ cc-zero

◼ gratis-open-data-licentie

◼ gratis-open-data-licentie-1.2

◼ open-data-licentie-tegen-billijke-vergoeding

◼ gratis-open-data-licentie-voor-niet-commercieel-hergebruik

◼ gratis-open-data-licentie-voor-niet-commercieel-hergebruik+open-data-licen-

tie-tegen-billijke-vergoeding-voor-commercieel-hergebruik

zoekterm 1 tem 5 Geef hier mogelijke zoektermen (of tag) mee

72



bron naam Een beschrijvende naam van de url naar distributie van de datareeks

bron url De URL naar de distributie van de datareeks op uw platform

auteur De naam van de auteur

beheerder De naam van de beheerder

naam groep 1 tem 5 Geef hier de naam waarop u de metadatasets wenst te groeperen

beleidsdomein 1 en 3 Geef hier het beleidsdomein waar de dataset betrekking op heeft.

naamextraveld1tem3 Geef hier een naam mee van een attribuut die u in de lijst van de dataset wenst te zien.

Deze naam wordt meegegeven op de pagina van de dataset.

waardeextraveld1tem3 Geef hier de waarde mee van het bovenstaande attribuut die u in de lijst van de datas-

et wenst te zien. Deze waarde wordt meegegeven op de pagina van de dataset.

geografischedekking Geefhierdegeografischedekkingvandedatareeksmee,bv.StadKortrijk,VlaamsGe-

west, België, Europa, …

dekking in tijd Geef hier de tijdsdimensie mee, bv. “2010-2015”, “2015”, …

naam dimensie 1 tem 3 naam van de dimensie, bv. geslacht

waarde dimensie 1 tem 3 waarde van de dimensie, bv. man en vrouw

laatst gewijzigd datum waarop het bestand het laatst gewijzigd werd

Extravoordelenvandezetool:

◼ Bepaaltzelfdeextensievanhetbestandalsformaat

◼ Controleert de beschikbaarheid van de bron

༳ Bijnietbeschikbaar->datasetwordt“privé”gepubliceerd

◼ U kan meerdere distributies samenvoegen:

༳ Bij meerdere distributies binnen eenzelfde meta-datareeks, moet u bij elke distributie dezelfde titel en naam kiezen. Een

distributiekaneenCSVofExcelzijn,telkensmetdezelfdeinhoud,maareenanderegegevensopslag.Deanderemeta-informa-

tievelden worden overgenomen uit het eerste actieve item.

OmdatdezetoolsheelspecifiekisenaltijdinbegeleidingvanhetVoOpenDatateamzaluitgevoerdworden,vragenwemetaandrangom

eerst contact op te nemen met het team om deze optie verder uit te werken op maat.

73


BIJLAGE 3 Metadata richtlijnen

BIJLAGE 3 METADATA RICHTLIJNEN HierondervindtuhetvoordeVlaamseoverheidaanbevolenDCAT-APprofiel.Erwordenmetadatavoorzienophetniveauvandedatasetzelfen

op het niveau van de distributie. De invulling welke velden ‘verplicht’ zijn en welke ‘aanbevolen’ of ‘optioneel’ is relevant voor alle entiteiten

van de Vlaamse overheid en de lokale besturen die datasets willen publiceren op het Vlaamse Open Data portaal. Deze richtlijnen laten de

betrokken instanties toe metadata aan te leveren conform het binnen het ISA programma van de Europese Commissie vastgestelde DCAT-AP

profiel(v1.1)45, in het bijzonder voor wat datasets en bijhorende distributies betreft. Indien voor bepaalde velden bijkomende verplichtingen

worden opgelegd (bvb. verplicht gebruik van controlled vocabularies, of het toevoegen van een ‘laguage tag’ voor vrije tekst velden) wordt dit

ookexplicietvermeld.

Voorelkveldwordendevolgendeeigenschappenaangegeven:naam,URIofdeuniekeidentifier,dewaarde(n)diehetveldkanbevatten,eenuitleg

hoe het veld te gebruiken en het aantal keren dat het veld mag/kan voorkomen (de cardinaliteit).

Zoals reeds aangehaald in hoofdstuk 8 zijn er een aantal beperkingen binnen CKAN voor wat de gecontroleerde ingave van de verplichte velden

betreft, zowel bij manuele ingave als bij het gebruiken van een script. Een aantal velden kunnen enkel via “vrije velden” worden toegevoegd. Om

dieredeniseenextrakolomtoegevoegddieaangeefthoeditinCKANoptelossen.

1 DATASET

Verplichte velden voor een dataset zijn:

Property URI Range Usage note Card CKAN

Description dct:description rdfs:Literal Thispropertycontainsafree-textaccountoftheDataset.Thisproperty

can be repeated for parallel language versions of the description.

1..n Omschrij-

ving (1)

Title dct:title rdfs:Literal This property contains a name given to the Dataset. This property can be

repeated for parallel language versions of the name.

Use of Title Case.

1..n Titel (1)

Contact

point

dcat:contact-

Point

v:VCard This property contains contact information that can be used for

flagging

errors in the Dataset or sending comments

Initially only email address used.

0..n Beheerder

(1)

Dataset dis-

tribution

dcat:distribu-

tion

Dcat:Distri-

bution

This property links the Dataset to an available Distribution 0..n Via CKAN

schermen

/ API

Publisher dct:publisher foaf:Agent This property refers to an entity (organisation) responsible for making

the Dataset available.

Use of the MDR Corporate bodies Named Authority List is NOT man-

datory for other organisations than European institutions and a small

set of international organisations.

0..1 Organisa-

tie (1)

(1) deze velden zijn sowieso voorzien - en in dit geval ook verplicht - binnen CKAN

(2) voorstel naamgeving in te geven als vrij veld in CKAN

Aanbevolen of optionele velden voor een dataset zijn:


Keyword/ tag dcat:keyword rdfs:Literal This property contains a keyword or tag describing the Dataset. 0..n Tags (1)

45 https://joinup.ec.europa.eu/asset/dcat_application_profile/asset_release/dcat-ap-v11

https://joinup.ec.europa.eu/asset/dcat_application_profile/asset_release/dcat-ap-v11

74



Theme/ cate-

gory

dcat:theme,

subproperty of

dct:subject

skos:Con-

cept

This property refers to a category of the Dataset. A Dataset may be

associated with multiple themes.

Use of the Dataset Theme Vocabulary is mandatory.

0..n Groep (1)

Access rights dct:accessRights Dct:Rights-

Statement

This property refers to information that indicates whether the

Dataset is open data, has access restrictions or is not public. A

controlled vocabulary with three members (:public, :restricted,

:non-public) will be created and maintained by the Publications

OfficeoftheEU

0..1 Toegangs-

rechten (2)

Conforms to dct:conformsTo dct:Stan-

dard

Thispropertyreferstoanimplementingruleorotherspecification.

Example:URIofOSLO.

0..n Compliant

met stan-

dard (2)

Documentation foaf:page foaf:Docu-

ment

This property refers to a page or document about this Dataset 0..n Documen-

tatie (2)

Frequency dct:accrualPerio-

dicity

dct:Fre-

quency

This property refers to the frequency at which Dataset is updated.

Use of the MDR Frequency Named Authority List is mandatory.

0..1 Update

frequentie

(2)

Has version dct:HasVersion dcat:Da-

taset

This property refers to a related Dataset that is a version, edition

or adaptation of the described Dataset

0..n Heeft ver-

sie (2)

Identifier dct:identifier rdfs:Literal ThispropertycontainsthemainidentifierfortheDataset,e.g.the

URI or

otheruniqueidentifierinthecontextoftheCatalogue.

0..n Zie URI in

CKAN

Is version of dct:IsVersionOf Dcat:Da-

taset

This property refers to a related Dataset of which the described

Dataset is a version, edition or adaptation

0..n Is versie

van (2)

Landing page dcat:landingPage foaf:Docu-

ment

This property refers to a web page that provides access to the

Dataset, its Distributions and/or additional information. It is

intended to point to a landing page at the original data provider,

not to a page on a site of a third party, such as an aggregator

Isthelinktotheleaflet‘bijsluiter’page.

0..1 Bijsluiter

(1)

Language dct:language dct:Linguis-

ticSystem

This property refers to a language of the Dataset. This property can

be repeated if there are multiple languages in the Dataset.

Use of the MDR Language Named Authority List is mandatory.

0..n Taal (2)

Other iden-

tifier

adms:identifier adms:Iden-

tifier

ThispropertyreferstoasecondaryidentifieroftheDataset,suchas

MAST/

ADS, DataCite, DOI, EZID or W3ID.

0..n identifier

(2)

Provenance dct:provenance dct:Prove-

nanceSta-

tement

This property contains a statement about the lineage of a Datas-

et

0..n herkomst

(2)

Related re-

source

dct:relation dct:relation This property refers to a related resource 0..n Verwante

bron (2)

Release date dct:issued rdfs:Literal

typed as

xsd:da-

teTime

This property contains the date of formal issuance (e.g., publication)

of the Dataset.

0..1 Datum

publicatie

(2)

75



Sample adms: sample dcat:Distri-

bution

This property refers to a sample distribution of a Dataset 0..n Voorbeeld (2)

Source dct:source dcat:Da-

taset

This property referce to a related Dataset from which the descri-

bed Dataset is derived

0..n Bron (2)

Spatial/ geo-

graphical

coverage

dct:spatial dct:Loca-

tion

This property refers to a geographic region that is covered by the

Dataset.

Use of the MDR Continents Named Authority List, MDR Countries

Named Authority List, Places Named Authority List, Geonames is

mandatory.

0..n Geografi-

sche Dek- king

(2)

Temporal

coverage

dct:temporal dct:Perio-

dOfTime

This property refers to a temporal period that the Dataset covers. 0..n Dekking in

Tijd (2)

Type dct:type skos:Concept This property refers to the type of Dataset. A controlled vocabu-

lary for the values has not been published

0..1 Typz (2)

Update/

modification

date

dct:modified rdfs:Literal

typed as

xsd:date

orxsd:date-

Time

This property contains the most recent date on which the Dataset

waschangedormodified.

0..1 Laatst

gewijzigd (2)

Version schema:version rdfs:Literal This property contains a version number or other version desig-

nation of the Dataset.

0..1 Versie (2)

Version notes adms:version- Notes rdfs:Literal This property contains a description of the differences between

this version and a previous version of the Dataset. This property

can be repeated for parallel language versions of the version

notes.

0..n Versie Nota’s

(2)

(1) deze velden zijn sowieso voorzien binnen CKAN en kunnen niet gekozen worden


2 DISTRIBUTIE

Hier gaat het om de metadata toe te kennen aan de distributie (onder vorm van een datadump of API).

Verplichte velden voor een distributie zijn:


Access URL dcat:accessURL rdfs:Resource This property contains a URL that gives access to a Distribution of

the Dataset. The resource at the access URL may contain informati-

on about

how to get the Dataset.

1..n URL van

distributie-

pagina in

CKAN

Description dct:description rdfs:Literal Thispropertycontainsafree-textaccountoftheDistribution.

This property can be repeated for parallel language versions of

the description.

0..n Omschrij-

ving (1)

76



Licence dct:license dct:LicenseDo-

cu- ment

This property refers to the license under which the Distribution is

made available.

In CKAN this license will be valid for ALL distribution of a dataset,

whether it is a data dump or an API

1 Licentie (1)

Title dct:title rdfs:Literal This property contains a name given to the Distribution. This

property can be repeated for parallel language versions of the

description.

0..n Titel (1)

Aanbevolen of optionele velden voor een distributie zijn:


Format dct:format dct:MediaType-

OrExtent

ThispropertyreferstothefileformatoftheDistribution.

Use of the MDR File Type Named Authority List is mandatory.

Usefileextensioninlowercase.

0..1 Mediatype (2)

Byte size dcat:byteSize rdfs:Literal

typedasxsd:-

decimal

This property contains the size of a Distribution in bytes.

In bytes.

0..1 Aantal Bytes

(2)

Checksum spdx:checksum spdx:Check-

sum

This property provides a mechanism that can be used to verify

that the contents of a distribution have not changed

.

0..1 Checksum

Documenta-

tion

foaf;page foaf:Docu-

ment

This property refers to a page or a document about this Distri-

bution

0..n XXX (2)

Download

URL

dcat:downloa-

dURL

rdfs:Resource This property contains a URL that is direct link to a downloada-

blefileina

given format.

0..n URL van

download

Language dct:language dct:Linguis-

ticSystem

This property refers to a language used in the Distribution. This

property can be repeated if the metadata is provided in multiple

languages.

0..n Taal (2)

Linked Sche-

ma’s

dct:conformsTo dct:Standard This property refers to an established schema to which the described

Distribution conforms

0..n Gekoppelde

shema’s (2)

Media type dcat:mediaType,

subproperty of

dct:format

dct:MediaType-

OrExtent

This property refers to the media type of the Distribution if this

isdefined

in IANA. Use of the IANA Media Types vocabulary is mandatory.

Use mimetype.

0..1 Mediatype (2)

Release date dct:issued rdfs:Literal ty-

pedasxsd:date

orxsd:dateTime

This property contains the date of formal issuance (e.g., publicati-

on) of the Distribution.

0..1 Datum Publi-

catie (2)

Rights dct:rights dct:RightsState-

ment

Thispropertyreferstoastatementthatspecifiesrightsassociatedwith

the Distribution.

Usedtomaketherightsofthepublisherexplicit.

0..1 Rechten (2)

Status adms:status skos:Concept This property refers to the maturity of the Distribution

Use of the ADMS status vocabulary is mandatory.

0..1 Status (2)

77



Update/

modification

date

dct:modified rdfs:Literal ty-

pedasxsd:date

orxsd:dateTime

This property contains the most recent date on which the Distri-

bution

waschangedormodified.

0..1 Laatst gewij-

zigd(2)

(1) deze velden zijn sowieso voorzien binnen CKAN en kunnen niet gekozen worden.


78


BIJLAGE 4 Linked Open Data – introductie

BIJLAGE 4 LINKED OPEN DATA – INTRODUCTIE1 WAAROM LINKED OPEN DATA?

De bedoeling van het Open Data programma bij de Vlaamse overheid is niet alleen om datasets als Open Data te publiceren, maar vooral

om ze vindbaar en bruikbaar te maken, over de overheden, sectoren en landsgrenzen heen. Gebruikers die aan de slag willen gaan met open

datasets, moeten ze eenvoudig kunnen vinden, maar vooral ook kunnen combineren.

Datasets opvraagbaar maken betekent stilaan meer dan ze integraal downloadbaar maken, het betekent meer en meer dat deze datasets

dynamisch kunnen bevraagd worden en dat – vaak – een selectie van de gegevens wordt doorgegeven aan de gebruiker, op basis van para-

meters die op het moment van de bevraging pas gekend zijn. Het betekent ook dat je datasets met elkaar kan combineren, zelfs al zijn ze van

verschillende overheden, in andere landen of afkomstig van verschillende platformen. Het kunnen combineren van de juiste gegevens uit de

(grote)verzamelingvandatasetsisdekrachtvanhet“LinkedOpenData”(LOD).Ditimpliceertechterookdatereenaantalextravoorwaar-

den zullen moeten voldaan worden. We kunnen immers pas datasets combineren als ze allemaal dezelfde standaarden hanteren en het zijn

die standaarden die we in dit hoofdstuk beschrijven.

2 AMBITIEOpditmomentstrevenwenaareenmaximalepublicatievandatasetsconform3-sterrenOpenData.Hetisechteronzebetrachtingomop

termijn door te groeien naar 5-sterren Open Data voor belangrijke datasets van de Vlaamse overheid en we zien dat heel wat entiteiten reeds

eerste stappen zetten richting LOD.

Een volgende stap voor de instanties is om de datasets “semantic ready” te maken, dat betekent dat we de verbanden tussen de objecten

gaan beschrijven in RDF. Wat dit precies betekent, wordt hieronder uitgelegd.

3 5-STERREN MODEL VAN TIM BERNERS-LEEBinnen de Open Data wereld bestaat een eenvoudig overzicht hoe we datasets meer en meer open en gelinkt kunnen maken en wat dit als

benodigde technologie en standaarden met zich meebrengt. Het 5-sterren model voor Open Data van Tim Berners-Lee wordt als volgt voorge-

steld:

Bron: http://5stardata.info/en/

http://5stardata.info/en/

79



Omdeelkniveaugoedtebegrijpenvolgthiernadelegendevandeafkortingenopdefiguurenmeteenenigeduiding:

Afkorting Wat Duiding

OL Open Licenses De dataset wordt vrijgegeven onder een open licentie (i.e. een van de 4 Vlaamse Open Data

licenties)

RE Machine Readable De dataset kan door een computer worden ingelezen en verwerkt, dit betekent geen onno-

digeformattering,titels,grafieken,enkelenalleenderuwedataintabelvorm

OF Open Format De dataset wordt in een open formaat gepubliceerd (bv. CSV), geen formaat dat van een

private marktspeler afkomstig is

URI UniversalResourceIdentifier Gebruik unieke links (URI’s) om de dataset te beschrijven. Dit gebeurt conform de URI

strategie van de Vlaamse overheid

LD Linked Data Link jouw data met andere (linked) data en maak je data beschikbaar als onderdeel van

het ‘semantisch web’

In de ‘URI strategie’ van de Vlaamse overheid wordt beschreven hoe je URIs moet opbouwen en welke vocabularia er best gehanteerd worden

om de verschillende objecten in de dataset zo consistent mogelijk te beschrijven.

Indezeappendixwordt‘LinkedOpenData’(LOD)gekaderdengevenweduidinghoeLODhetverschilkanmakenvoorpublicatie,maarvooral

ook voor hergebruik van datasets.

4 HOE WERKT LINKED DATA?Op het web worden documenten aan elkaar verbonden met links. Maar deze links zelf hebben geen betekenis. De links laten niet zien wat de

relatie is tussen twee documenten, alleen dat er een relatie is. Gebruikers die van document A naar document B linken moeten zelf uitvinden

wat het verband is tussen de inhoud van het ene document en het andere. Uit de link blijkt bijvoorbeeld niet of document B een positief of

negatief oordeel over document A bevat.

Linked Data is gebaseerd op de volgende gedachte: bij het verbinden van inhoud met inhoud moet je de relatie ertussen betekenisvol maken.

Deze relatie kan rechttoe rechtaan zijn, zoals in een thesaurus begrippen aan elkaar worden gerelateerd:

◼ xis gelijk aan y

◼ xis een overkoepelend aan z

◼ z is een onderdeel vanx

Derelatiekanookspecifiekerzijn,zoals:

◼ xis de schrijver van y

◼ xbedacht z

◼ xhad een negatief beeld van w

Inbovenstaandevoorbeeldenzijnx,y,zenwzgn.concepten.Conceptenkunnenverwijzennaarpersonen,dingenengebeurtenisseninde

werkelijkheid, maar ook naar niet-bestaande personen, dingen en gebeurtenissen.

De relatiestussendeconceptenx,y,zenw(onderstreeptindebovenstaandevoorbeelden)zijnbetekenisvolomdateruitblijkthoex,y,z,en

waanelkaargerelateerdzijn,bijvoorbeeldxis de schrijver van y.

Eencombinatievanhettype[xrelatie y] heet een triple. Een triple bestaat altijd uit drie onderdelen:

◼ eensubject(xinhetvoorbeeld),

◼ een eigenschap (benoemt de aard van de relatie, bijvoorbeeld is de schrijver van),

◼ en een waarde (y in het voorbeeld).

De triples worden gecodeerd volgens het RDF model (Resource Description Framework). RDF is een W3C standaard voor het vastleggen en

uitwisselen van gegevens.

80



DedrieonderdelenvaneentriplekrijgenelkeenuniekenaamindevormvaneenURI(UniformResourceIdentifier).DezeURI’sgevenniet

alleen een unieke naam aan concepten, maar bevatten ook informatie over de herkomst van de data, d.w.z. uit welke dataset concepten af-

komstig is. Dit kan bijvoorbeeld een persoonsnamenthesaurus zijn of Wikipedia. Hierdoor heeft ieder onderdeel van de triple niet alleen een

unieke naam, maar ook een uniek adres. De URIs zijn vervolgens ingebed in het http://schema, het web protocol voor het ophalen van infor-

matie. Dit betekent dat de gebruikers de concepten kunnen opvragen. Samengevat komt de techniek van Linked Data op het volgende neer:

SUBJECT EIGENSCHAP WAARDE

x is de schrijver van y

[http://URI]

herkomst:

persoonsnamen-

thesaurus

[http://URI] [http://URI]

herkomst:

Wikipedia

De combinatie van http://URIs in RDF triples zorgt ervoor dat:

◼ Elk concept een unieke naam heeft (URI)

◼ Gebruikers die concepten kunnen opzoeken en opvragen (http)

◼ De relatie tussen twee concepten informatieve waarde heeft

Op deze manier kan informatie uit de ene dataset direct, en op betekenisvolle wijze, in verband worden gebracht met informatie uit een

andere dataset. Dit kunnen twee databases zijn die onderhouden worden door twee verschillende instellingen. Maar het kan ook gaan om

verschillende systemen in één organisatie met als doel het makkelijk kunnen uitwisselen van informatie op dataniveau. In principe zijn de

mogelijkheden eindeloos, zolang de informatie maar is opgemaakt volgens de ‘standaard’, d.w.z. een http://URI die onderdeel uitmaakt van

een RDF triple.

5 EEN VOORBEELDLinked Data is krachtig omdat een onderdeel van de ene triple ook weer onderdeel van een andere triple kan zijn, zoals hieronder:


J.K. Rowling bedacht Harry Potter

Harry Potter komt voor in De Steen der Wijzen


In dit voorbeeld is Harry Potter een waarde in de eerste triple, maar het subject in de volgende triple. Op deze manier kunnen concepten aan

elkaar gekoppeld worden, en zo ontstaat een ‘web’ van semantisch gerelateerde begrippen. Dit web kan eenvoudig worden uitgebreid met

nieuwe concepten en relaties, zolang ze maar geformuleerd zijn in RDF.

Concepten en de relaties ertussen worden vaak gevisualiseerd als een graph (een soort wolk). Onderstaand plaatje laat zien dat er vanuit

ieder concept in principe een verband kan worden gelegd met een ander concept. Een gebruiker kan a.h.w. door de graph heen wandelen van

iets dat hij weet, naar iets dat hij niet weet, en zo iets nieuws ontdekken. Navigeren kan beide kanten uit, voor de betekenis van de relaties is

de richting van de pijlen wel van belang.

81



RDF triples kunnen bevraagd worden met de zoektaal SPARQL. In bovenstaand voorbeeld is het bijvoorbeeld mogelijk om alle personages op

te vragen die J.K. Rowling bedacht heeft met de zoekvraag: ‘Geef me alle personages waarvoor geldt dat J.K. Rowling er de relatie bedenken

mee heeft.’

6 WAT ZIJN DE BELEMMERINGEN?Bezwaren tegen Linked Data zijn zowel van praktische als meer principiële aard. Hieronder volgen een paar praktische drempels die overwon-

nen moeten worden:

◼ De zoektaal SPARQL is ingewikkeld en niet zomaar door iedereen toegankelijk. Bovendien is een SPARQL zoekactie traag vergeleken

met een traditionele zoekactie.

◼ Het laden van de triples in het geheugen van een computer kost veel tijd en opslagruimte. Bovendien is de vraag hoe de begren-

zingervangeregeldmoetworden;m.a.w.hoegrootisdegraphdiejegaatopslaan?

◼ Hoe presenteer je de resultaten aan de gebruikers? De interfaces worden steeds kleiner (Smartphone etc.), maar de hoeveelheid

data waarop een zoekactie gebaseerd is, wordt steeds groter.

◼ Tot nu toe is het leggen van de relaties tussen concepten nog vaak arbeidsintensief, al is het semantisch web in volle evolutie

◼ De principiële vraagtekens die mensen plaatsen bij Linked Data hebben betrekking op de volgende punten:

◼ Watisnoupreciesdewaardevancontext?Ishetmeetbaar?

◼ Moetendeinstantiesdekostendragendienodigzijnomdiecontexttecreëren?

◼ Alleenmaarhetverbindenvaninformatielevertnoggeennieuwekennisop:“Eencollageisnietperdefinitieeenkunstwerk.”

◼ Instanties zijn vaak bang dat ze geen invloed meer hebben op de informatie die ze als Linked Data beschikbaar hebben gesteld: “Je

weet niet wie er aan de haal gaat met jouw data, en of je daar later last van krijgt”.

7 LOD, RDF, SPARQL & SEMANTISCH WEB: EEN LOGISCHE COMBINATIEHet verhaal van LOD staat niet op zich en is ook niet uniek voor Open Data, de (ultieme) doelstelling is dat alle informatie op het web met

elkaarverbondenisenrelatiesgedefinieerdzijntussendeverschillendeobjectendieaangebodenworden.DetechniekvanLODisdusuniver-

seel en stelt ons in staat om te evolueren naar het semantisch web.

De meeste zoeksystemen op internet hebben echter geen of onvoldoende begrip van structuur of relaties binnen een kennisdomein. Als er

duscomplexeofgecombineerdevragenwordengesteld,schietendezezoekmachinesdustekort.Datkomtomdatdemeesteinformatieophet

web html-tekst georiënteerd is. Met andere woorden, LOD gebeurt niet zomaar en zoeksystemen zijn er niet op ingeregeld. Gelukkig zijn er

meer dan antwoorden genoeg om datasets wel combineerbaar te maken (i.e. LOD technieken) en zijn er technische standaarden oplossingen

genoeg voorhanden om dit waar te maken.

In plaats van platte tekst of data aan te bieden, dient de data dus vergezeld te worden van een begeleide beschrijving (een ontologie dus).

Zoals reeds aangehaald is RDF hier een standaard taal voor.

De eerste stap in dit alles is dus je dataset om te zetten naar een RDF formaat. Gelukkig hoef je dit niet manueel te doen, er bestaan verschil-

lende tools (RDF’izers) die helpen bij het semantisch mappen van data.

Zoals hoger reeds vermeld, is er bovendien een taal ontwikkeld om semantische queries uit te voeren, SPARQL. Daarmee kunnen datasets

effectief en dynamisch gecombineerd worden en vervolgens kan er weer informatie uitgehaald worden.

Wie zelf even wil aanvoelen hoe SPARQL werkt, kan best eens naar http://dbpedia.org/snorql/ surfen en daar rechtstreeks query parameters

invullen en dynamische queries uitvoeren.

SPARQL is echter geen magische oplossing. Als de datasets en de ontologieën / vocabularia niet goed aansluiten, kan er geen of onvoldoende

nieuwe informatie afgeleid worden. Met andere woorden, een goede basis beschrijving is en blijft nodig op niveau van de dataset.

http://dbpedia.org/snorql/

82



8 PERSISTENTE URL (PURL)Om dit verhaal compleet te maken, is er nog een begrip dat we goed moeten begrijpen. In de wereld van het dynamische web, durven web

adressen wel eens wijzigen of datasets wel eens van platform naar platform migreren (of zelfs gekopieerd worden). Net zoals een DNS ser-

ver er voor zorgt dat je geen IP adres van een server moet onthouden en dat je een domeinnaam kan kiezen, zorgt een persistente URL (i.e.

PURL) er voor dat de referentie naar de (concepten binnen een) dataset of documentatie constant blijft, ongeacht waar deze gegevens dan

gehost wordt. Nu wordt dit voor een groot gedeelte al opgevangen door het Open Data Portaal (CKAN). Voor iedere dataset wordt er al een

unieke link (URI) aangemaakt. Wat echter met begeleidende informatie (bv. bijsluiter) die vaak op een server van de instantie zelf wordt ge-

host? Of de licenties die voor de dataset gelden? Ook die links moet zo stabiel mogelijk zijn naar de buitenwereld en daarom is het interes-

sant ook voor deze zaken een persistente URL te aan te bieden.

83


BIJLAGE 5 Hoe een dcat-ap compatibele feed aanleveren als instantie?

BIJLAGE 5 HOE EEN DCAT-AP COMPATIBELE FEED AANLEVEREN ALS INSTANTIE?

Deze bijlage beschrijft hoe een instantie een DCAT-AP compatibele feed kan aanleveren voor één of meerdere van haar datasets.

We veronderstellen in deze bijlage dat de instantie in dit geval geen hulpmiddelen ter beschikking heeft (bv. The Datatank) die in staat zijn

dergelijke feed aan te leveren. In deze bijlage beschrijven we bijgevolg de meest eenvoudige benadering, waarbij een instantie zelf instaat

voordeopmaakvanmetadatainlijnmethetDCAT-APprofiel(minimaalvoordeverplichtevelden,ziebijlage3).

Ons advies is om de werkwijze van Open Data Institute (ODI) te volgen, zoals beschreven op deze website . Wat volgt is geïnspireerd op deze

tekst.

De meest eenvoudige manier om dit te bewerkstelligen is gebruik te maken van RDFa. Deze standaard laat immers toe om machinaal leesbare

metadata toe te voegen aan een webpagina. Dit betekent dat het publiceren van metadata gemakkelijk kan door het aanpassen van de HTML

beschrijving van de dataset Meer informatie over RDFa is te vinden via in voetnoot vermelde link .

1 STAP 1: DE JUISTE SCHEMA’S DECLARERENDe eerste stap in dit proces is om applicaties te laten weten dat de web pagina een dataset beschrijving bevat. Om dit te doen, moeten we de

juiste metadata schema’s declareren in de HTML pagina en dan aanduiden wat wordt beschreven.

Hieronder een voorbeeld in HTML waarbij de juiste schema’s worden gedeclareerd, maar nog niet de metadata velden zelf:

Hetprefixattribuutbevatdeschema’sdiewedeclarerenenzullengebruikenindeverderebeschrijving.AangezienwevoorDCAT-APcompati-

bele beschrijving gaan, zijn dit de minimale schema’s om te declareren.

Hetdivelementbevatdelinknaardedatasetwaarvoordemetadatavelden(zieverder)gelden.Vervanginditvoorbeeld{url}metdeURL

van de dataset zelf. De resource en typeof attributen zorgen er voor dat de verwijzing correct gebeurt.

Anderemetadataveldenkunnenwordentoegevoegdbinnenhet<div>element.Hethoeftoverigensnieteen<div>sectietezijn,hetkaneen-

der welk HTML element zijn, dus bekijk ook even de voorbeelden hieronder.

2 STAP 2: TOEVOEGEN HTML ELEMENTENDe belangrijkste attributen die moeten toegevoegd worden zijn ook meteen RDFa attributen:

◼ About

◼ Property

◼ Content

◼ Datatype

◼ Enz

84



Dezeattributendefiniërendeeigenschappen(i.e.properties)vandedatasetdiewordtbeschrevenenzijnmeteendeDCAT-APcompatibele

metadata die we nodig hebben.

Title

Specifieerdetitelvandedatasetmetbehulpvandedct:titleproperty

Voorbeeld:

<h1property=”dct:title”>ExampleDataset</h1>

Opmerking: dit is een van de verplichte velden, zie bijlage 3, dus zeker mee verwerken

Date created

Specifieerdedatumwaaropdedatasetwerdgecreëerdmetbehulpvandedct:createdproperty.

Voorbeeld:

<pproperty=”dct:created”content=’2010-10-25T09:00:00+00:00’datatype=’xsd:dateTime’>25thOctober2010</p>

Inditvoorbeeldishetmachinaalleesbareformaatopgenomenbinnendecontenttag.Ditmoeteenvoorafgedefinieerdedatatypezijndie

een computer kan begrijpen. Het is aanbevolen om hier het XML Schema date of XML schema dateTime format formaat te volgen.

Date modified

Specifieerhierdedatumwaaropdedatasethetlaatstisgewijzigdmetbehulpvandedct:modifiedproperty.

Voorbeeld:

<pproperty=”dct:modified”content=’2010-10-25T09:00:00+00:00’datatype=’xsd:dateTime’>25thOctober2010</p>

Description

Hier komt de beschrijving van de dataset met behulp van de dct:description property

Voorbeeld:

<pproperty=”dct:description”>Thisisthedescription.<p>

Opmerking: dit is een van de verplichte velden, zie bijlage 3, dus zeker mee verwerken.

License

Hier beschrijven we het licentie model waaronder de dataset wordt gepubliceerd, met behulp van de dct:license property. Deze worden dan

toegevoegdaande{licenseURL}ende{licensename}

Voorbeeld:

<divproperty=”dct:license”resource=”{licenseURL}”><ahref=”{licenseURL}”><spanproperty=”dct:title”>{licensename}</span></a></

div>

Opmerking: dit is een van de verplichte velden, zie bijlage 3, dus zeker mee verwerken

Publisher

Beschrijfdepublicerendeinstantiemetbehulpvandedct:publisherproperty.Hierbinnengelden2properties{publisherURL}en{publisher

name}.

Voorbeeld:

<divproperty=”dct:publisher”resource=”{publisherURL}”><ahref=”{publisherURL}”about=”{publisherURL}”property=”foaf:home-

page”><spanproperty=”foaf:name”>{publishername}</span></a></div>

85



Keywords

Via het dcat:keyword property kunnen eigen velden en waarden worden toegevoegd. Je kunt er zoveel toevoegen als je zelf wil.

Voorbeeld:

<spanproperty=”dcat:keyword”>Examples</span>,<spanproperty=”dcat:keyword”>DCAT</span>

We verwijzen hierbij naar bijlage 3, voor een lijst van aanbevolen velden die hier kunnen in opgenomen worden.

Update frequency

De dcat:accrualPeriodicity property beschrijft hoe vaak een dataset wordt bijgewerkt. De waarden voor deze property zijn URIs die verwijzen

naar een eenvoudig gecontroleerd vocabularium.

Voorbeeld:

<ahref=”{frequency}”property=”dcat:accrualPeriodicity”>{frequency(humanreadable)}</a>

Hierinwordtde{frequency}tagvervangendooreenvandevolgendeURIs:

༳ http://purl.org/linked-data/sdmx/2009/code#freq-A-Annual

༳ http://purl.org/linked-data/sdmx/2009/code#freq-B-Everyworkingday(Mon-Fri)

༳ http://purl.org/linked-data/sdmx/2009/code#freq-D-Daily(7daysaweek)

༳ http://purl.org/linked-data/sdmx/2009/code#freq-M-Monthly

༳ http://purl.org/linked-data/sdmx/2009/code#freq-N-Everyminute

༳ http://purl.org/linked-data/sdmx/2009/code#freq-Q-Everyquarter

༳ http://purl.org/linked-data/sdmx/2009/code#freq-S-Halfyearly

༳ http://purl.org/linked-data/sdmx/2009/code#freq-W-Weekly

Distributions

Een dataset kan meerdere distributies bevatten. Hiervoor moeten we een nieuwe subset van tags declareren onder de dcat:Distribution

property.Degenestemarkupbevatdanspecifiekemetadataoverdezedistributiezelf.

Voorbeeld:

<divproperty=’dcat:distribution’typeof=’dcat:Distribution’><spanproperty=”dct:title”>{Distributiontitle}</span><ul><li><strong>For-

mat</strong><spancontent=’{format}’property=’dcat:mediaType’>{format(humanreadable)</span></li><li><strong>Size</strong>

<spancontent=’{sizeinbytes}’datatype=’xsd:decimal’property=’dcat:byteSize’>{size(humanreadable)}</span></li><li><strong>Is-

sued</strong><spanproperty=’dct:issued’content=’{dateissued}’datatype=’xsd:date’>{dateissued(humanreadable)}</span></li></

ul><p><ahref=’{linktodata}’property=’dcat:accessURL’>Downloadthefulldataset</a></p></div>

De{format}placeholdermoeteenerkendMIMEtypebevatten,zoalstext/csvofapplication/json

Dedct:issuedpropertyspecifieertdedatumdatdedistributiewerdgepubliceerd.Dezepropertymoetdezelfderichtlijnenvolgenalsvoorde

dct:created property zoals eerder beschreven.

Ook hier verwijzen we naar bijlage 3, voor een overzicht van de verplichte en optionele velden die voor een distributie zijn vastgelegd.

Alles samen

Hieronder is een volledig HTML beschrijving voor een dataset makende van de DCAT standaard. Alle core metadata velden zijn voorzien, inclu-

sief de beschrijving van een distributie:

<!DOCTYPEhtml><htmlprefix=”dct:http://purl.org/dc/terms/rdf:http://www.w3.org/1999/02/22-rdf-syntax-ns#dcat:http://www.w3.org/

ns/dcat#foaf:http://xmlns.com/foaf/0.1/”><head><title>DCATinRDFa</title></head><body><divtypeof=”dcat:Dataset”resource=”ht-

tp://gov.example.org/dataset/finances”><h1property=”dct:title”>ExampleDCATDataset</h1><pproperty=”dct:created”content=’2010-10-

86



25T09:00:00+00:00’datatype=’xsd:dateTime’>25thOctober2010</p><pproperty=”dct:modified”content=’2013-05-10T13:39:36+00:00’dataty-

pe=’xsd:dateTime’>10thMarch2013</p><pproperty=”dct:description”>Thisisthedescription.<p><divproperty=”dct:license”resource=”http://

reference.data.gov.uk/id/open-government-licence”><ahref=”http://reference.data.gov.uk/id/open-government-licence”><spanproperty-

=”dct:title”>UKOpenGovernmentLicence(OGL)</span></a></div><divproperty=”dct:publisher”resource=”http://example.org/publisher”><a

href=”http://example.org/publisher”about=”http://example.org/publisher”property=”foaf:homepage”><spanproperty=”foaf:name”>Example

Publisher</span></a></div><div><spanproperty=”dcat:keyword”>Examples</span>,<spanproperty=”dcat:keyword”>DCAT</span></div>

<div><ahref=”http://purl.org/linked-data/sdmx/2009/code#freq-W”property=”dcat:accrualPeriodicity”>Weekly</a></div><divproperty=’d-

cat:distribution’typeof=’dcat:Distribution’><spanproperty=”dct:title”>CSVdownload</span><ul><li><strong>Format</strong><spancon-

tent=’text/csv’property=’dcat:mediaType’>CSV</span></li><li><strong>Size</strong><spancontent=’240585277’datatype=’xsd:decimal’proper-

ty=’dcat:byteSize’>1024MB</span></li><li><strong>Issues</strong><spanproperty=’dct:issued’>2012-01-01</span></li></ul><p><aclass=’btn

btn-primary’href=’http://example.org/distribution.csv.zip’property=’dcat:accessURL’>Downloadthefulldataset</a></p></div></body></

html>

3 STAP 3: AUTOMATISCH INVULLEN EN VALIDERENEr bestaan verschillende editors die het invullen van RDFa vergemakkelijken, zoals Morpho, vaak toegespitst op een of andere metadata stan-

daard.Vooreengoedoverzichtverwijzenwenaarhttps://www.dataone.org/software-tools/tags/metadata_editor

Daarnaast kan er door scripting rechtstreeks output vanuit een bestaande metadata database wordt opgehaald en toegevoegd aan de HTML

stream.

Tenslotte kan men ook metadata transformeren van de ene standaard naar de andere, in deze naar DCAT-AP als resultante.

In elk van deze gevallen blijft het valideren van de HTML stream noodzakelijk alvorens die te publiceren:

◼ Voor RDFa verwijzen we graag naar http://www.w3.org/2012/pyRdfa/Validator.html

◼ OokvoorDCATbestaanerspecifiekeeditorsenvalidators,ziebv.https://github.com/EmidioStani/dcat-ap_validator

87


BIJLAGE 6 Bindende afspraken coördinatiecomité vdi van 29 januari 2015

BIJLAGE 6 BINDENDE AFSPRAKEN M.B.T. HET PUBLICEREN VAN DATASETS OP HET VLAAMSE OPEN DATA PORTAAL GOEDGEKEURD OP COÖRDINATIECOMITÉ VDI VAN 29 JANUARI 2015

BINDENDE AFSPRAAK 1 GEBRUIK VAN HET PORTAAL

Publicatie op het portaal is verplicht voor datasets waarover de Vlaamse administratie en lokale en provinciale besturen beschikken en die vallen onder het toepassingsgebied van het decreet betreffende het hergebruik van overheidsinformatie

Zijn bv. gevat door bindende afspraak 1: datasets van departementen, IVA’s en EVA’s van de Vlaamse overheid, lokale en provinciale besturen

Zijn bv. niet gevat door bindende afspraak 1: datasets van VRT, onderzoeks- en onderwijsinstellingen, andere culturele instellingen dan musea,

bibliotheken en archieven, Vlaams parlement, polderbesturen en kerkfabrieken

Toelichting: Deze afspraak sluit aan bij het (naar aanleiding van de omzetting van de herziene PSI-richtlijn) gewijzigde artikel 946 van het de-

creet betreffende het hergebruik van overheidsinformatie. De Vlaamse overheid is echter ambitieus47 en wil op termijn alle datasets waarover

de Vlaamse administratie, lokale en provinciale besturen beschikken en die vallen onder het toepassingsgebied van het decreet hergebruik

publiceren op het portaal.

Voormusea,bibliothekenenarchievengeldtconformhetgewijzigdedecreethergebruikeenspecifiekeregeling,zijbepalenautonoomofher-

gebruik is toegestaan. Wanneer zij beslissen dat hergebruik is toegestaan, is ook voor hen publicatie op het portaal verplicht.


Publicatie op het portaal wordt sterk aanbevolen voor datasets waarover andere instanties dan de Vlaamse administratie, lokale en provinciale besturen beschikken en die vallen onder het toepassingsgebied van het decreet betreffende het her-gebruik van overheidsinformatie

Zijn bv. gevat door bindende afspraak 2: datasets van het Vlaams parlement, polderbesturen en kerkfabrieken

Zijn bv. niet gevat door bindende afspraak 2: datasets van VRT, onderzoeks- en onderwijsinstellingen, andere culturele instellingen dan musea,

archieven en bibliotheken

Toelichting: Deze afspraak gaat verder dan het (naar aanleiding van de omzetting van de herziene PSI-richtlijn) gewijzigde artikel 9 van het

decreet betreffende het hergebruik van overheidsinformatie. De Vlaamse overheid is echter ambitieus en wil op termijn zoveel mogelijk datas-

ets waarover andere instanties dan de Vlaamse administratie, lokale en provinciale besturen beschikken en die vallen onder het toepassings-

gebied van het decreet hergebruik publiceren op het portaal.

Voormusea,bibliothekenenarchievengeldtconformhetgewijzigdedecreethergebruikeenspecifiekeregeling,zijbepalenautonoomofher-

gebruik is toegestaan. Wanneer zij beslissen dat hergebruik is toegestaan, is ook voor hen publicatie op het portaal sterk aanbevolen.

Aangezien de door deze afspraak gevatte instanties niet vertegenwoordigd zijn in het coördinatiecomité VDI wordt publicatie op het portaal

sterk aanbevolen maar niet verplicht.

46 Praktische regelingen m.b.t. het voorzien in (online) overzichtslijsten en portaalsites met de belangrijkste voor hergebruik beschikbare bestuursdo-cumenten waarover de Vlaamse administratie beschikt 47 “Open data zijn de norm bij de Vlaamse overheid”, zie conceptnota open data (VR 2011 2309 DOC.0959/1BIS), bijhorende actieplan (VR 2013 1907 DOC.0825) en het regeerakkoord 2014-2019

88




Publicatie op het portaal wordt sterk aanbevolen voor datasets die NIET vallen onder het toepassingsgebied van het de-creet betreffende het hergebruik van overheidsinformatie en waarvoor een instantie de nodige rechten heeft om herge-bruik toe te staan, TENZIJ de openbaarmaking ervan is uitgesloten ingevolge het decreet betreffende de openbaarheid van bestuur

Zijn bv. gevat door bindende afspraak 3: datasets van VRT, onderzoeks- en onderwijsinstellingen (universiteiten en hogescholen), andere cultu-

rele instellingen dan musea, bibliotheken en archieven, …

Toelichting: Deze afspraak gaat verder dan wat het juridisch kader m.b.t. het hergebruik van overheidsinformatie oplegt. De Vlaamse overheid

is echter ambitieus en wil op termijn zoveel mogelijk datasets waarover instanties in Vlaanderen beschikken en waarvoor zij de nodige rech-

ten heeft om hergebruik toe te staan, publiceren op het portaal.

Dit geldt uitdrukkelijk niet wanneer openbaarmaking van datasets of delen er van is uitgesloten ingevolge het decreet betreffende de open-

baarheid van bestuur.

Aangezien de hier bedoelde datasets niet gevat zijn door het decreet betreffende het hergebruik van overheidsinformatie wordt publicatie op

het portaal sterk aanbevolen maar niet verplicht.

BINDENDE AFSPRAAK 4 PRIORITEITEN BIJ PUBLICATIE

Bij publicatie op het portaal wordt in eerste instantie een prioriteitenlijst gevolgd zoals gevalideerd binnen het coördina-tiecomité VDI

Op basis van de doelstellingen m.b.t. het hergebruik van overheidsinformatie zoals opgenomen in de beleidsnota BZ 2014-201948 of de aanbe-

velingen m.b.t. de implementatie van de PSI-richtlijn zoals geformuleerd door de Europese Commissie49, of beide, is een eerste voorstel opge-

maakt van een prioriteitenlijst voor publicatie van open data op het portaal. De volgorde van de verschillende categorieën in deze lijst heeft

geen belang.

◼ Geografische data (EC: geospatiale data)

◼ bv. datasets die vallen onder het GDI-decreet50: adressen (CRAB), vervoersnetwerken (GRB-wegen), gebouwen (GRB-gebouwen),

landgebruik (RUPs), nutsdiensten (riolering), gebiedsbeheer (beschermingszones), …

◼ Milieudata (EC: aardobservatie en milieu, BN: milieu-informatie)

◼ bv. datasets m.b.t. afval, brongebruik, emissies naar oppervlaktewater, energie, luchtemissies, …51

◼ Mobiliteitsdata (EC: vervoersdata, BN: mobiliteit en transport)

◼ bv. datasets m.b.t. het goederenvervoer, personenvervoer, verkeersinformatie, verkeersveiligheid, …52

◼ Economische data (EC: bedrijven, BN: economische informatie, overheidsinkomsten en -uitgaven)

◼ bv. bedrijvenregister (VKBO), cijfermateriaal over de economische situatie in Vlaanderen53, overheidsinkomsten en –uitgaven, …

◼ Andere statistische data (EC: statistiek, BN: demografische informatie, inspecties)

◼ bv.demografischegegevens,inspectiegegevens,Vlaamseregionaleindicatoren(VRIND54), …

Toelichting: Aan de verplichting (zie bindende afspraak 1) om datasets op het portaal te publiceren wordt op korte termijn invulling gegeven

door prioriteiten te stellen. Aan de hand van deze afspraak vraagt het coördinatiecomité VDI in eerste instantie datasets te publiceren vol-

gens deze prioriteitenlijst. Na één jaar zal geëvalueerd worden in hoeverre aan deze afspraak is voldaan.

48 http://www.bestuurszaken.be/nieuws/beleidsnota-bestuurszaken-2014-2019 49 http://ec.europa.eu/information_society/newsroom/cf/dae/document.cfm?action=display&doc_id=642150 http://codex.vlaanderen.be/Portals/Codex/documenten/1017838.html 51 Zie bv. kernset milieudata van het milieurapport Vlaanderen (MIRA), http://www.milieurapport.be/nl/mira-kernset/ 52 Zie bv. datasets bij de mobiliteitsraad (MORA), http://www.mobiliteitsraad.be/mora/ 53 Zie bv. http://www.vlaanderen.be/nl/ondernemen/economische-cijfers-en-statistieken 54 Zie bv. http://www4.vlaanderen.be/sites/svr/Pages/2014-11-20-vrind2014.aspx

http://www.bestuurszaken.be/nieuws/beleidsnota-bestuurszaken-2014-2019

http://ec.europa.eu/information_society/newsroom/cf/dae/document.cfm?action=display&doc_id=6421

http://codex.vlaanderen.be/Portals/Codex/documenten/1017838.html

http://www.milieurapport.be/nl/mira-kernset/

http://www.mobiliteitsraad.be/mora/

http://www.vlaanderen.be/nl/ondernemen/economische-cijfers-en-statistieken

http://www4.vlaanderen.be/sites/svr/Pages/2014-11-20-vrind2014.aspx

89



BINDENDE AFSPRAAK 5 TE VOLGEN PROCEDURE

Bij publicatie op het portaal wordt het stappenplan gevolgd zoals beschreven in de open data handleiding van de Vlaamse overheid

Toelichting: De open data handleiding55 van de Vlaamse overheid bevat een stappenplan voor het beschikbaar stellen van open data. Publica-

tie op het portaal is een cruciale stap maar lang niet de enige om van een goede open data praktijk te kunnen spreken.

Deze afspraak verwijst naar de integrale procedure zoals beschreven in de handleiding.

BINDENDE AFSPRAAK 6 TECHNISCHE AFSPRAKEN

Bij publicatie op het portaal worden de technische afspraken gevolgd zoals beschreven in de open data handleiding van de Vlaamse overheid

Toelichting: De open data handleiding bevat een aantal technische afspraken m.b.t. het beschikbaar stellen van open data (ic. keuze van

formaatofAPI,publicatieopCKAN,toevoegenvanmetadatavolgensDCAT-APprofiel).Dezetechnischeafsprakenkunnenwijzigenindetoe-

komst. In voorkomend geval zal de handleiding worden aangepast.

Deze afspraak verwijst naar de technische afspraken zoals beschreven in de handleiding.

BINDENDE AFSPRAAK 7 UITWISSELING VAN METADATA

Bij publicatie op het portaal gebeurt het uitwisselen van metadata volgens de DCAT-AP standaard en conform de richtlij-nen zoals beschreven in de open data handleiding van de Vlaamse overheid

Toelichting:DeopendatahandleidingbevateenaantalrichtlijnenvoorhettoevoegenvanmetadatavolgensDCAT-APprofiel56. Deze stan-

daard is uitgewerkt door de Europese Commissie met als doel het zoeken naar publieke datasets over de grenzen portalen, lidstaten en secto-

ren heen te faciliteren. Met de federale overheid, de andere gewesten en enkele lokale besturen is overeengekomen DCAT-AP als standaard te

hanteren voor het uitwisselen van metadata tussen de verschillende portalen.

Voorgeografischeinformatie,dieonderhevigisaandewettelijkeverplichtingenopgelegddoordeEuropeseINSPIRErichtlijnenhetVlaamse

GDI-decreet, geldt dat metadata moet gedocumenteerd worden volgens de ISO19115 metadata standaard en gepubliceerd dient te worden op

Geopunt.Deprocedurevoorgeografischeinformatieisbeschrevenineenspecifiekhoofdstukvoorgeografischeinformatieindeopendata

handleiding.Deportalenvooropendataengeografischeinformatiewordenmetelkaargekoppeld,zodatdedatabeheerdershunmetadata

slechts eenmalig moeten documenteren en de metadata automatisch doorstroomt naar het open data portaal. Deze koppeling vertaalt de

ISO19915metadataautomatischnaarhetDCAT-APprofiel.Eenzelfdewerkwijzekangevolgdwordenvooranderereedsbestaande(aldanniet

wettelijk verplichte) metadatabanken.

Deze afspraak vermeldt DCAT-AP als standaard voor het uitwisselen van metadata en verwijst naar de richtlijnen in dit verband zoals be-

schreven in de open data handleiding.

55 Link naar de laatste versie van de open data handleiding: http://overheid.vlaanderen.be/open-data-handleiding56 https://joinup.ec.europa.eu/asset/dcat_application_profile/asset_release/dcat-application-profile-data-portals-europe-final

http://overheid.vlaanderen.be/open-data-handleiding

https://joinup.ec.europa.eu/asset/dcat_application_profile/asset_release/dcat-application-profile-data-portals-europe-final

90



Lexicon

Bestuursdocument hetbestuursdocumentzoalsgedefinieerdinartikel3van

het decreet van 26 maart 2004 betreffende de openbaar-

heid van bestuur

bron: decreet betreffende hergebruik van

overheidsinformatie

Dataset identificeerbareverzamelingvangegevens(indecontext

van hergebruik: bestuursdocument in een open en ma-chinaal leesbaar formaat)

bron: GDI-decreet / omzetting PSI-richtlijn*

DCAT-AP DCATApplicationProfile(DCAT-AP)voorhetbeschrijven

van publieke datasets is afgeleid van de Data Catalogue

vocabulary (DCAT) standaard. Doelstelling is het zoeken

naar datasets over de grenzen van portalen, lidstaten en

sectoren heen te faciliteren. Dit kan door het uitwisselen

van eenduidige beschrijvingen van publieke datasets.

https://joinup.ec.europa.eu/asset/dcat_appli-

cation_profile/asset_release/dcat-applicati-

on-profile-data-portals-europe-final

Decreet betreffende de geo-grafische data infrastructuur Vlaanderen (‘GDI-decreet’)

decreet van 20 februari 2009 betreffende de geografi-sche data infrastructuur Vlaanderen

http://codex.vlaanderen.be/Portals/Codex/

documenten/1017838.html

Decreet betreffende de open-baarheid van bestuur

decreet van 26 maart 2004 betreffende de openbaarheid

van bestuur



Decreet betreffende het hergebruik van overheidsin-formatie

decreet van 27 april 2007 betreffende het hergebruik van

overheidsinformatie



opmerking: procedure voor wijzi-ging van dit decreet naar aanleiding van de omzetting van de Europese PSI-richtlijn* loopt)

Formele open standaard een standaard die schriftelijk is vastgesteld, met vermelding

vanspecificatiesvoordevereistenbetreffendedewijze

waarop de interoperabiliteit van de software moet worden

gegarandeerd

bron:

Instantie de instantie vermeld in artikel 4, §1, van het decreet van

26 maart 2004 betreffende de openbaarheid van bestuur

bron: decreet betreffende hergebruik van

overheidsinformatie

Machinaal leesbaar formaat een bestandsformaat dat zodanig is gestructureerd dat

softwaretoepassingenspecifiekegegevens,metinbegripvan

individuele feitenbeschrijvingen, en hun interne structuur

gemakkelijkkunnenidentificeren,herkennenenextraheren

bron: omzetting PSI-richtlijn*

Metadata informatie waarin bestuursdocumenten worden beschre-

ven en die het mogelijk maakt die bestuursdocumenten te

zoeken, te inventariseren en te gebruiken


Nodige rechten om herge-bruik toe te staan

alle eigendomsrechten of het recht sublicentie toe te

staan aan hergebruikers, idealiter, voor alle toepasselijke

intellectuele eigendomsrechten, voor alle toepasselijke

vermogensrechten, voor zowel commerciële als niet-com-

merciële doeleinden, zonder beperkingen naar ontvangers,

zonder beperkingen in de tijd, zonder beperkingen in de

geografie,zowelinoorspronkelijkealsingewijzigdeof

bewerkte vorm, zowel op het werk in zijn geheel of ten

dele, met een regeling voor de uitoefening van de morele

rechten die hergebruik niet onmogelijk of buitensporig

moeilijk maakt


Open data handleiding van de Vlaamse overheid

handleiding voor het publiceren van open data opgemaakt

binnen het beleidsdomein Bestuurszaken van de Vlaamse

overheid

http://overheid.vlaanderen.be/open-da-

ta-handleiding

Portaal Vlaams open data portaal http://opendata.vlaanderen.be

Vlaamse administratie: de instanties van de Vlaamse administratie, vermeld in

artikel 1, 5°, van het besluit van de Vlaamse Regering van 3

juni 2005 met betrekking tot de organisatie van de Vlaamse

administratie











http://opendata.vlaanderen.be

91


BIJLAGE 7 Bindende afspraken coördinatiecomité VDI van 12 maart 2015

BIJLAGE 7 BINDENDE AFSPRAKEN M.B.T. HET VRAGEN VAN EEN VERGOEDING VOOR OPEN DATA GOEDGEKEURD OP COÖRDINATIECOMITÉ VDI VAN 12 MAART 2015

CONTEXT

Op 26 juni 2013 werd de herziene PSI-richtlijn (RL 2013/37/EU)57 goedgekeurd door de raad en het Europees parlement. Deze richtlijn zal omge-

zet worden door een wijziging van het decreet betreffende het hergebruik van overheidsinformatie58. De Vlaamse Regering keurde daartoe op

19 december 2014 het voorontwerp van decreet principieel goed59. Momenteel loopt de adviesvraag bij de Raad van State.

Op 17 juni 2014 publiceerde de Europese Commissie een mededeling met richtsnoeren inzake licenties, datasets en kostentoerekening voor het

hergebruik van documenten (2014/C 240/01)60. Deze mededeling en in het bijzonder de richtsnoeren inzake ‘kostentoerekening’ gold als basis

voor het formuleren van hierna vermelde bindende afspraken.

BINDENDE AFSPRAAK 1 TOEREKENING OP BASIS VAN MARGINALE KOSTEN

Voor open data waarbij een vergoeding op basis van marginale kosten als bovengrens geldt, zal de betrokken instantie geen vergoeding vragen voor vermenigvuldiging, verstrekking en verspreiding via elektronische middelen.

Toelichting: Als algemene regel stellen de richtlijn en het voorontwerp van decreet dat overheden voor bestuursdocumenten die vallen onder

het toepassingsgebied van het decreet geen vergoeding mogen vragen die hoger is dan de marginale kosten voor vermenigvuldiging, verstrek-

king en verspreiding.

DeEuropeseCommissiedefinieertinhaarrichtsnoerenmarginalekostenvoorvermenigvuldiging,verstrekkingenverspreidingalsvolgt:“kos-

tendierechtsreeksverbandhoudenmetengemaaktwordenvoordevervaardigingvaneenextraexemplaarvaneendocumentenmethet

daarvan beschikbaar stellen voor hergebruik”.

Kostenposten die voor toerekening op basis van marginale kosten in aanmerking kunnen komen, zijn: infrastructuur (enkel wat noodzakelijk

is voor het voor hergebruik ter beschikking stellen van documenten of data), kopiëren, behandeling, overleg, levering en speciale verzoeken.

Dit is echter geen verplichting, instanties kunnen immers documenten of data ook gratis voor hergebruik ter beschikking stellen.

In haar richtsnoeren stelt de Europese Commissie dat voor het voor hergebruik ter beschikking stellen van niet-digitale documenten (fysieke

verspreiding) alle voormelde kostenposten in aanmerking komen. Voor digitale documenten (online omgeving) is dit in principe ook het geval

maardeEuropeseCommissiegeeftaandatinditspecifiekegevaldemarginalekostenwaarschijnlijkindebuurtliggenvannulaangeziende

gemiddeldeexploitatiekostenvaneendatabaselaagzijnenpermanentafnemen.BovendiengeeftdeEuropeseCommissieinhaarrichtsnoe-

ren uitdrukkelijk aan dat het vragen van een vergoeding ook geld kost (facturatie, controle en handhaving, …).

In lijn met de richtsnoeren van de Europese Commissie (2014/C 240/01) zal bijgevolg voor open data in regel geen vergoeding gevraagd wor-

den aangezien het ter beschikking stellen voor hergebruik van open data steeds in een online omgeving gebeurt.

BINDENDE AFSPRAAK 2 TOEREKENING OP BASIS VAN GEMAAKTE KOSTEN

Wanneer een vergoeding op basis van gemaakte kosten mogelijk is en een instantie hier uitdrukkelijk voor kiest, gelden vooraf bepaalde criteria bij de berekening van de vergoeding voor open data. Deze criteria gelden niet voor datasets van bibliotheken, musea en archieven en van instanties die vallen buiten het toepassingsgebied van het decreet.

Toelichting: In een aantal specifiekegevallen laten de richtlijn en het voorontwerp van decreet toe dat een hogere vergoeding dan de mar-

ginale kosten voor vermenigvuldiging, verstrekking en verspreiding wordt gevraagd. In voorkomend geval mogen de totale inkomsten niet

hoger zijn dan de kosten die gemaakt zijn om de documenten of data te verzamelen, te produceren, te vermenigvuldigen en te verspreiden,

vermeerderd met een redelijk rendement op de investering.

57 http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:2013:175:0001:0008:EN:PDF Geconsolideerde versie van de PSI-richtlijn: http://eur-lex.europa.eu/legal-content/EN/ALL/?uri=CELEX:02003L0098-20130717 58 http://codex.vlaanderen.be/Zoeken/Document.aspx?DID=1016299&param=inhoud&ref=search 59 http://www.bestuurszaken.be/decreet-hergebruik-van-overheidsinformatie 60 http://eur-lex.europa.eu/legal-content/EN/TXT/?uri=uriserv:OJ.C_.2014.240.01.0001.01.ENG

http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:2013:175:0001:0008:EN:PDF

http://eur-lex.europa.eu/legal-content/EN/ALL/?uri=CELEX:02003L0098-20130717

http://codex.vlaanderen.be/Zoeken/Document.aspx?DID=1016299&param=inhoud&ref=search

http://www.bestuurszaken.be/decreet-hergebruik-van-overheidsinformatie

http://eur-lex.europa.eu/legal-content/EN/TXT/?uri=uriserv:OJ.C_.2014.240.01.0001.01.ENG

92



Kostenposten die voor toerekening op basis van gemaakte kosten in aanmerking kunnen komen, zijn: productie, verzamelen, anonimiseren,

infrastructuur, kopiëren, behandeling, overleg en levering (voor bibliotheken, musea en archieven wordt deze lijst nog uitgebreid met conser-

vering en rechtenvereffening). Dit is echter geen verplichting, instanties kunnen immers documenten of data ook gratis voor hergebruik ter

beschikking stellen.

Voor de berekening van een vergoeding op basis van gemaakte kosten gelden volgende criteria:

De kosten op basis waarvan de vergoeding wordt berekend

◼ vallen onder één van de volgende categorieën: kosten voor productie, verzamelen, anonimiseren, infrastructuur, kopiëren, behande-

ling,overlegoflevering;

◼ kunnengeverifieerdwordenaandehandvankwantificeerbaregegevens;

◼ zijngezuiverdvaninkomstenverkregentijdenshetproductieproces;

◼ wordenelkjaarbeoordeeldendevergoedingaangepastopbasisvanvraagenaanbod;

◼ worden al dan niet vermeerderd met een redelijk rendement op de investering.

Van zodra het wijzigingsdecreet voor de omzetting van de PSI-richtlijn door het Vlaams Parlement is aangenomen kunnen objectieve, trans-

parante en controleerbare criteria voor de berekening van vergoedingen hoger dan de marginale kosten voor vermenigvuldiging, verstrekking

en verspreiding worden vastgesteld. In afwachting hiervan kunnen hoger vermelde criteria worden gehanteerd binnen het coördinatiecomité

VDI.

Deze criteria gelden niet voor datasets van bibliotheken, musea en archieven en van instanties die vallen buiten het toepassingsgebied van

het decreet.

BINDENDE AFSPRAAK 3 REDELIJK RENDEMENT OP INVESTERING

Voor open data waarbij een redelijk rendement op de investering wordt aangerekend is dit een percentage dat maximaal 5% hoger ligt dan de vaste rentevoet van de ECB

Toelichting:InderichtsnoerenvandeEuropeseCommissiewordt“redelijkrendement”gedefinieerdalseenpercentagebovenopdereedsin

aanmerking genomen kosten om kapitaalkosten terug te verdienen en / of winst te realiseren. Aangezien hier sprake is van redelijk rende-

mentvooroverhedeninVlaanderendievolledigofingrotematemetbelastinggeldgefinancierdworden,bestaatconsensusoverhetfeitdat

dergelijke “redelijk rendement” hoger kan zijn dan de kapitaalkosten maar aanzienlijk lager moet zijn dan het gemiddelde rendement op de

markt.

In lijn met de richtsnoeren van de Europese Commissie (2014/C 240/01) wordt “redelijk rendement” bijgevolg beperkt tot een percentage dat

maximaal5%hogerligtdandevasterentevoetvandeECB.

BINDENDE AFSPRAAK 4 TRANSPARANTIEVERPLICHTINGEN

Eventuele voorwaarden (licentie), berekeningsgrondslag van de vergoeding voor open data, de bedragen (indien mogelijk) en de verantwoording voor een vergoeding hoger dan de marginale kosten voor vermenigvuldiging, verstrekking en ver-spreiding (indien van toepassing) worden duidelijk gecommuniceerd op het portaal.

Toelichting: In artikel 7 van de richtlijn en artikel 6 en 7 van het voorontwerp van decreet is bepaald dat de volgende informatie vooraf wordt

vastgesteld en indien mogelijk en passend langs elektronische weg wordt bekendgemaakt, waarbij een visuele en functionele verbinding met

de documenten voor hergebruik tot stand wordt gebracht:

a) De eventuele voorwaarden (licentie), de berekeningsgrondslag en de bedragen van de standaardvergoedingen (dat wil zeggen vergoe-

dingen die automatisch van toepassing kunnen zijn op van tevoren bepaalde documenten of data, waarbij een beoordeling van geval

totgevalnietnodigis);

b) Factoren waarmee rekening moet worden gehouden bij de berekening van niet-standaardvergoedingen, en

93



c) Vereisten om voldoende inkomsten te genereren ter dekking van een aanzienlijk deel van de kosten met betrekking tot de verzame-

ling, productie, vermenigvuldiging en verspreiding van documenten waarvoor op grond van artikel 6, lid 2, onder b), van de richtlijn of

artikel 6 van het voorontwerp van decreet een hoger tarief dan de marginale kosten mag worden toegerekend.

LEXICON

Dataset identificeerbareverzamelingvangegevens(inde

contextvanhergebruik:bestuursdocument in een

open en machinaal leesbaar formaat)

bron: GDI-decreet / omzetting PSI-richtlijn*

Decreet betreffende het herge-

bruik van overheidsinformatie

decreet van 27 april 2007 betreffende het herge-

bruik van overheidsinformatie

http://codex.vlaanderen.be/Portals/Codex/docu-

menten/1016299.html

opmerking: procedure voor wijziging van dit decreet

naar aanleiding van de omzetting van de Europese

PSI-richtlijn loopt)

Instantie de instantie vermeld in artikel 4, §1, van het de-

creet van 26 maart 2004 betreffende de openbaar-

heid van bestuur

bron: decreet betreffende hergebruik van overheids-

informatie

Portaal Vlaams open data portaal http://opendata.vlaanderen.be



http://data.opendataforum.info/

94


BIJLAGE 8 Aanbevelingen

BIJLAGE 8 AANBEVELINGEN

Aanbeveling 1: Verifieerwelkeintellectueleeigendomsrechtenrustenopdedatadieuterbeschikkingwilstellen.Indiendeinstantieniet

de rechthebbende is van deze intellectuele eigendomsrechten, sluit ze een overeenkomst af met de huidige rechthebbende. Voeg in elke toe-

komstige overeenkomst of overheidsopdracht met derde partijen voor het creëren van datasets of documenten een bepaling toe waarin de

instantie de nodige rechten verkrijgt om de resultaten als Open Data beschikbaar te maken.

Aanbeveling 2: Controleer of met de beschikbaarstelling van de data geen belangen worden geschonden die beschermd worden in het de-

creet van 26 maart 2004 betreffende de openbaarheid van bestuur.

Aanbeveling 3: Controleer voor de data worden beschikbaar gemaakt of zij geen persoonsgegevens bevatten.

Aanbeveling 4: Publiceer prioritair gegevens als Open Data volgens de prioriteitenlijst goedgekeurd op het coördinatiecomité van 29 januari

2015.

Aanbeveling 5: Bepaal of voor het hergebruik van de data een vergoeding zal worden gevraagd. Communiceer het bedrag (indien mogelijk),

de berekeningsgrondslag en de verantwoording voor een vergoeding hoger dan de marginale kosten (indien van toepassing) duidelijk op het

portaal. Organiseer de procedure voor de betaling van de vergoeding.

Aanbeveling 6: Indien het onderscheid tussen de vergoeding voor commercieel en niet-commercieel hergebruik noodzakelijk is, leg een dui-

delijke omschrijving van het begrip ‘commercieel’ vast, waarbij het gebruik door een handelaar met winstoogmerk als commercieel wordt

beschouwd.

Aanbeveling 7: Gebruik voor het beschikbaar maken van de Open Data de modellicenties van de Vlaamse overheid. Kies bij voorkeur voor

één licentie voor alle soorten hergebruik, zonder onderscheid tussen commerciële en niet-commerciële doeleinden.

Aanbeveling 8: Kies een scenario voor het ontsluiten van brongegevens met het oog op de publicatie als Open Data en pas dit toe.

Aanbeveling 9: Controleer minimale criteria inzake kwaliteit en consistentie alvorens een dataset wordt gepubliceerd op het Open Data

platform.

Aanbeveling 10: Gebruik zoveel mogelijk een standaard data model voor de informatie die je wil vrijgeven als Open Data.

Aanbeveling 11: GebruikzoveelmogelijkeenopenformaatzoalsCSVvoornietgeografischegegevensenGMLofShapefilevoorgeografische

gegevens.

Aanbeveling 12: Maak zoveel mogelijk gebruik van de conversie mogelijkheden zoals standaard aangeboden op het Vo Open Data portaal.

Aanbeveling 13: Indien u zelf een API bouwt, raden wij aan een RESTful Web API aan te bieden en toegang te verlenen zonder het gebruik

vaneenAPIkey.Inhetgevalvaneengeografischedataset,radenweUaanomeenWMSofWFSAPItegebruiken.

Aanbeveling 14: Duid een persoon of dienst aan die verantwoordelijk is voor het Open Data beleid in de instantie. Creëer een Open Data

contactpunt voor communicatie binnen de instantie, met de Vlaamse overheid en met de burger.

Aanbeveling 15: Plaats een contactadres of web formulier op de website voor het vragen van verdere informatie of het geven van feedback

door de hergebruikers van de data.

Aanbeveling 16: Gebruik de modellicenties van de Vlaamse overheid en plaats een link ernaar in de licentiebepaling bij de data, met gebruik

vande“rel=licence”attribuut.

Aanbeveling 17: Indien een vergoeding wordt gevraagd, toon de gebruiker op een duidelijke wijze hoeveel hij moet betalen en hoe hij de

betaling moet uitvoeren om toegang te krijgen tot de data of dienst.

Aanbeveling 18:Indiendedataviaeendienstwordtbeschikbaargemaakt,plaatseen“informatiefiche”ofservicelevelengagementbijde

dienst met uitleg over de performantie van de dienst en de verwachtingen die de gebruiker mag hebben van de werking van de dienst.

Aanbeveling 19: Maak voor elke van uw datasets een begeleidende pagina die in duidelijk verstaanbare taal aangeeft waarover de data gaan,

waarom ze zijn verzameld en waarvoor ze gebruikt worden.

Aanbeveling 20: Plaats informatie over de data ook in het Engels op de website of verwijs naar de Engelse versie van de Vlaamse Open Data

licenties.

Aanbeveling 21: Om een vlotte uitwisseling van dataset beschrijvingen mogelijk te maken, raden wij aan zoveel mogelijk velden uit het op

BelgischniveauafgesprokenDCATprofieltegebruiken,zelfsbinnenCKANviavrijeveldenindiennodig.Ziebijlage3vooreenoverzicht.

Aanbeveling 22: Maak een evaluatie van het succes van de Open Data praktijk van uw instantie.

10/04/2016

Documents

Open Data Handleiding