Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
1
Fælles sprog for datakvalitet – Vejledning til deklaration af datasæt med kernedimensioner vers. 0.9.1
Indhold Introduktion ....................................................................................................................................................... 2
Scope ......................................................................................................................................................... 2
Metode .............................................................................................................................................................. 3
Datakvalitetsdimensioner.................................................................................................................................. 6
Komplethed ................................................................................................................................................... 7
Korrekthed ..................................................................................................................................................... 9
Aktualitet ..................................................................................................................................................... 10
Genbrugelighed ........................................................................................................................................... 11
Bilagsoversigt ................................................................................................................................................... 14
Bilag A: Skabelon til deklaration af datakvalitet .............................................................................................. 15
Bilag B: Tjekliste til metadata .......................................................................................................................... 17
Bilag C: Eksempel på udfyldelse af skabelon ................................................................................................... 18
Bilag D: Dimensioner fra internationale standarder ....................................................................................... 20
2
Introduktion
Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet datasæt
med det formål at lette dialog mellem den dataansvarlige organisation og eksterne anvendere af
datasættet og gøre det lettere at vurdere om et datasæt er egnet til en givet (ny) anvendelse. Metoden er
udviklet til brug i dansk fællesoffentlig sammenhæng på baggrund af internationale standarder, nemlig
W3Cs Data on the Web Best Practices: Data Quality Vocabulary1 og ISO 25012 –– Data Quality Model2.
ISO 25012 definerer datakvalitet som ”I hvilken grad datas karakteristika tilfredsstiller udtrykte og
underforståede behov ved brug under specifikke omstændigheder”3. Selvom der findes mange andre
definitioner af datakvalitet, er der i disse gennemgående et fokus på datas egnethed i en bestemt
brugssituation – ’fitness for use’. Baggrunden for dette er at data der er velegnede til et formål, og derfor
vil blive anset som værende af høj kvalitet af anvendere der bruger dem til dette formål, kan være uegnet
til et andet formål, hvorfor andre anvendere vil anse de samme data for at være af lav kvalitet.
Ikke desto mindre kan det i forbindelse med deling og udstilling af datasæt være relevant at tale om
datakvalitet uden at kende den eller de helt præcise anvendelser eksterne anvendere bruger eller vil bruge
data til. W3C anbefaler at udstillede data forsynes med datakvalitetsoplysninger4. Her må den
dataansvarlige, ud fra sit kendskab til data og det faglige domæne de tilhører, vurdere hvad det især er
sandsynligt at eksterne anvendere allerede anvender eller vil ønske at anvende data til. Dette vil herefter
benævnes de væsentligste forventede anvendelser.
Scope
Den metode der er beskrevet i denne vejledning, og de deklarationer der resulterer fra den, er først og
fremmest beregnet til at facilitere dialog mellem den dataansvarlige organisation og (potentielle)
dataanvendere ved at anvise et fælles, entydigt sprog om datakvalitet.
Den er ikke beregnet til at være en metode til forbedring af datakvalitet, da metoder til dette varierer i
forhold til datas karakter, men deklarationerne og den dialog med anvendere der resulterer heraf kan være
et redskab til at identificere hvilke forbedringsindsatser der er behov for.
Ligeledes er metoden ikke beregnet til i sig selv at afgøre hvordan data kan anvendes i den offentlige
forvaltning, da der i denne vurdering indgår juridiske og forvaltningsmæssige aspekter som ikke behandles
her. Deklarationerne baseret på denne metode forventes dog at kunne indgå som input til en sådan
vurdering.
Metoden er primært beregnet til deklaration af udstillede datasæt, hvor vurderingen af datakvalitet netop
foretages i forhold til de væsentligste forventede anvendelser. Den forventes dog også at kunne anvendes
1 https://www.w3.org/TR/vocab-dqv
2 ISO 25012:2008 Software engineering – Software product Quality Requirements and Evaluation (SQuaRE) – Data
quality model 3 Oversat fra ”degree to which the characteristics of data satisfy stated and implied needs when used under specified
conditions” 4 W3C anbefaling Data on the Web Best Practices (31-01-2017)(https://www.w3.org/TR/dwbp/) – Best Practice 6
3
til vurdering af data i forhold til en specifik beskrevet anvendelse, fx som svar på forespørgsel fra en
kommende anvender. Metoden som helhed er beregnet til beskrivelse og bedømmelse af datasæt, hvor
datasæt skal forstås som ”en samling af data der er udstillet eller organiseret af en enkelt kilde, og som
man kan få adgang til eller downloade i et eller flere formater.”5
I forhold til behov for beskrivelse af datakvalitet som denne vejledning ikke dækker, herunder
maskinlæsbar angivelse af kvalitetsinformation, henvises til W3Cs Data on the Web Best Practices: Data
Quality Vocabulary. Dansk oversættelse heraf samt vejledning til brug heraf med metrikkatalog er under
udarbejdelse.
Metode Datakvalitet kan beskrives i forhold til mange forskellige dimensioner som repræsenterer kriterier der er
relevante for at vurdere datakvalitet. Hver dimension har tilknyttet en eller (oftest) flere standardiserede
normer for hvordan man måler/beskriver datakvalitet i forhold til dimensionen.
Med baggrund i ISO 25012 og Linked Data Quality Dimensions (de to sæt af datakvalitetsdimensioner, der
er gengivet i W3Cs Data Quality Vocabulary)6 er der udvalgt fire kernedimensioner, der anses for at være
særligt væsentlige i forhold til at vurdere om det er muligt at anvende datasæt til nye formål:
Komplethed
Korrekthed
Aktualitet
Genbrugelighed
Disse dimensioner er valgt fordi de vurderes at have bred relevans i forbindelse med udveksling af data for
(stort set) alle typer af data og anvendelser, hvilket ses af at dimensioner med dette indhold er
gennemgående litteratur om datakvalitet. Desuden anses det for væsentligt at de er iboende egenskaber
for datasættet der vil være gældende for alle distributioner af datasættet og uanset hvordan det tilgås,
samt at dataansvarlig kan beskrive dimensionerne uden at indhente oplysninger fra anvendere om deres
holdning til datasættet7.
Det er anset for nødvendigt at begrænse antallet af dimensioner for at det ikke skal blive for stor en byrde
at deklarere et datasæt med datakvalitetsoplysninger. Der findes et betydeligt antal yderligere dimensioner
der kan være relevante for et givet datasæt eller en givet anvendelse, fx præcision, troværdighed eller
tilgængelighed. I så tilfælde kan man anvende dimensioner ISO 25012 eller Linked Data Quality Dimension
(oversigt ses i bilag D).
5Oversat fra definition af datasæt i W3C anbefalingen Data Catalog Vocabulary (https://www.w3.org/TR/vocab-
dcat/): “A collection of data, published or curated by a single source, and available for access or download in one or more formats” 6 Mapning mellem kernedimensionerne og ISO 25012 /Linked Data Quality Dimension findes I bilag D
7 Det kan dog anbefales at give anvendere mulighed for at give feedback om deres oplevelse af datakvaliteten,
jævnfør W3C anbefaling Data on the Web Best Practices (31-01-2017) – Best Practice 29
4
I bilag A findes Skabelon til angivelse af datakvalitet. På skabelonen angives navnet på datasættet, det
formål det oprindeligt er indsamlet til, hvilken enhed eller person der er ansvarlig for vurderingen samt
dato for vurderingen. Desuden angives den/de væsentligste forventede anvendelser som datasættet er
vurderet i forhold til.
Den/de væsentligste forventede anvendelser kan være anvendelser man ved andre eksterne parter bruger
det til eller planlægger at bruge det til, mulige anvendelser der er begrundelsen for publicering af
datasættet, eller anvendelser som dataansvarlig ud fra sit kendskab til domænet ved kunne være
værdiskabende anvendelser af data. Som nævnt er datakvalitet afhængigt af det formål data skal anvendes
til.
Det er vigtigt som minimum at angive én forventet anvendelse, så den potentielle dataanvender kan afgøre
i hvor høj grad den/de anvendelser der har dannet grundlag for deklareringen svarer overens med
vedkommendes planlagte anvendelse.
Skabelonen har to felter for hver kvalitetsdimension: Målinger og beskrivelser og Bedømmelse.
I Målinger og beskrivelser angives objektive oplysninger der beskriver datasættet i forhold til den relevante
dimension. Det er intentionen at deklarationen skal kunne foretages på baggrund af den viden den
dataansvarlige allerede har om datasættet. Derfor kan både være tale om resultater af konkrete målinger
og (stikprøve)kontroller samt skøn, beregninger og tekstuelle beskrivelser. Det bør altid fremgå tydeligt om
der er tale om en måling af hele datasættet, en stikprøvekontrol eller et skøn.
I det følgende kapitel er der for hver dimension angivet hvilke målinger og beskrivelser, der er relevante for
den dimension, og i skabelonen er der angivet hjælpespørgsmål, der kan fungere som hints for hvordan
man beskriver hver dimension.
I Bedømmelse angives den dataansvarliges faglige vurdering af hvor god datasættets kvalitet er i forhold til
den relevante dimension når det vurderes i forhold til den/de væsentligste anvendelser. Her skal den
dataansvarlige i videst muligt omfang forsøge at sætte sig i dataanvenders sted og anslå hvor god
datakvaliteten er fra dennes synspunkt.
Tildelingen af stjerner foretages på baggrund af oplysningerne i Målinger og beskrivelser. Denne udgør
dermed begrundelsen for antallet af stjerner, der dog må anses som værende den dataansvarliges
subjektive bedømmelse, og dermed er det muligt for anvendere at være uenige heri, og denne uenighed
kan danne udgangspunkt for en dialog.
Bedømmelsesskala
Datasætte gives mellem 0 og 5 stjerner for hver dimension. Hvis forskellige forventede anvendelser giver
anledning til forskelligt antal stjerner kan dette anføres i skabelonen eller der kan udarbejdes to separate
deklarationer.
5
Bedømmes uegnet til den givne anvendelse
Bedømmes til dårligt at kunne anvendes
Kan anvendes med forbehold for et større antal fejl/utilsigtede resultater
Kan anvendes med forbehold for fejl/utilsigtede resultater
Kan anvendes med forbehold for enkelte fejl/utilsigtede resultater
Kan anvendes umiddelbart og uden forbehold
Vurderingen kan til dels bero på hvor kritiske eventuelle fejl og mangler er i forhold datasættets formål og
anvendelser. Det er for eksempel væsentligt mere kritisk hvis et adresseregister mangler oplysninger om
postnumre end hvis det mangler oplysninger om det præcise tidspunkt på dagen hvor en flytning er
registreret, hvorimod det i et datasæt om meteorologiske observationer kan være mere kritisk hvis
tidspunktet for observationen mangler.
Ved eventuel vurdering af et datasæt i forhold til en specifik anvendelse, fx på baggrund af en forespørgsel
fra en potentiel kommende anvender tages hensyn til de krav denne dataanvender har specificeret .
Eksempel på bedømmelse
Et datasæt bestående af målingsresultater vil have en meget høj aktualitet, hvis resultater af målinger med
det samme registreres i det tilgængelige datasæt. Til nogle anvendelser vil aktualitet stadig kunne
betragtes som god hvis der går længere inden målingerne registreres.
Er der fx tale om et datasæt bestående af meteorologiske målinger, hvor den væsentligste forventede
anvendelse er planlægning af luft- og skibsfart, vil målingerne hurtigt blive irrelevante. En
opdateringsfrekvens på 6 måneder må bedømmes til 0 stjerner.
Er den væsentligste forventede anvendelse derimod klimaforskning må en opdateringsfrekvens på 6
måneder forventes at være glimrende og datasættet kunne gives 5 stjerner for aktualitet.
Hvis både planlægning af luft- og skibsfart og klimaforskning er angivet som væsentlige forventede
anvendelser kan disse bedømmelser angives således
Dimension Målinger og beskrivelser Bedømmelse
Aktualitet Der foretages målinger af de aktuelle forhold hvert 5. minut. Det publicerede datasæt opdateres hver 6. måned.
Planlægning af luft- og skibsfart Klimaforskning
6
Datakvalitetsdimensioner
Datakvalitetsdimension Definition
Komplethed datakvalitetsdimension der indikerer i hvor høj grad datasættet
indeholder de dataelementer der er forventede i forhold til
datasættets specifikation
Korrekthed datakvalitetsdimension der indikerer i hvor høj grad dataværdier er
i overensstemmelse med faktiske værdier
Aktualitet datakvalitetsdimension der indikerer i hvor høj grad data er
tidsmæssigt aktuelle i forhold til den virkelighed de repræsenterer
Genbrugelighed datakvalitetsdimension der indikerer i hvor høj grad data er forståelige og uden vanskeligheder kan anvendes af andre
7
Komplethed
Definition Datakvalitetsdimension der indikerer i hvor høj grad datasættet indeholder de dataelementer der er forventede i forhold til datasættets specifikation. Beskrivelse
Der er to aspekter af komplethed: Fuldstændighed og dækningsgrad. Et datasæt med fuld dækning
indeholder netop én forekomst/registrering for hvert individ/entitet i den population datasættet beskriver.
Når der for hver post desuden er registreret alle de forventede/krævede værdier og relationer er det også
fuldstændigt.
Med andre ord er fuldstændighed altså komplethed i forhold til de eksisterende forekomster og
dækningsgrad er komplethed i forhold til de ønskede informationer om forekomsterne.
Relevante målinger og beskrivelser
Fuldstændighed: For nogle datasæt vil det forventede antal af datasætindivider være kendt, fx hvis der er
tale om kommuner eller regioner. Her er fuldstændigheden simpel at udregne og kan angives som procent
af unikke individer der findes i datasættet i forhold til antal individer der burde findes.
For andre er antallet af individer datasættet bør indeholde ukendt og/eller foranderligt, fx i et datasæt om
observationer af en truet dyreart i naturen. Her må man lave en faglig vurdering af hvor stor en andel af de
observationer der faktisk er foretaget datasættet reelt indeholder, evt. angivet som et interval, fx ’ca. 75-85
% ‘. Desuden bør baggrunden for vurderingen, fx sammenligning med andre kilder for antallet,
matematiske modeller, stikprøvekontrol, eller feedback fra anvendere, beskrives.
Note: Det er datasættets specifikation der afgør hvad den forventede population er. At der eventuelt
eksisterer yderligere data som kunne ønskes inkluderet i datasættet, er ikke relevant hvis specifikationen
ikke inkluderer disse.
Dækningsgrad: Dækningsgrad af en egenskab (specifik type af information) angives med procentdelen
individer i datasættet der har en værdi registeret for egenskaben, fx hvor mange af en bestemt felttype der
er udfyldt. Et datasæts dækningsgrad kan angives som et gennemsnit af dækningsgraderne for de krævede
egenskaber. Egenskaber som er tydeligt indikeret som valgfri i datasættets specifikation indgår ikke i denne
vurdering.
Er der betydelig forskel på hvor væsentlige attributterne er i forhold til de væsentligste anvendelser kan
man vælge at angive dækningsgraden for de væsentligste attributter i stedet. Det skal være tydeligt hvilken
metode der er valgt, og hvilke attributter der er medtaget i vurderingen hvis det ikke er alle.
8
Eksempler
Et datasæt om kommunale handlingsplaner på socialområdet skal indeholde data om alle kommuner, dvs.
om netop 98 kommuner/forekomster. Hvis det kun indeholder 96 kommuner er det ikke komplet, men har
en fuldstændighed på 97,96 %.
Hvis der for hver handlingsplan skal angives en ansvarlig enhed, men dette mangler for 4 ud af 96
handlingsplaner, har egenskaben en dækningsgrad på 95,83 %. Hvis andre krævede egenskaber har
dækningsgrader på henholdsvis 100 %, 98,43 %, 99 % og 74,50 %, er datasættes dækningsgrad
gennemsnittet af disse, nemlig 93,55 %.
9
Korrekthed
Definition Datakvalitetsdimension der indikerer i hvor høj grad dataværdier er i overensstemmelse med faktiske værdier. Beskrivelse Værdier i datasættet skal være sande og korrekt repræsentere den virkelighed datasættet omhandler. Der er to aspekter, henholdsvis semantisk og syntaktisk korrekthed. Semantisk korrekthed betyder at der er overensstemmelse mellem indholdet af de data der er registreret og faktiske forhold. Syntaktisk korrekthed betyder at data overholder syntaktiske regler, dvs. regler for retstavning samt regler for anvendte strukturerede formater. Relevante målinger og beskrivelser
Korrekthed angives som andelen af dataværdier der korrekt repræsenterer den faktuelle værdi. I praksis vil
det som oftest være umuligt at tjekke korrektheden af alle dataværdier i et datasæt. Derfor vil man som
oftest angive et skøn (evt. angivet som interval). Dette skøn kan fx være baseret på stikprøvekontroller,
sammenligninger med andre datakilder, oplysninger fra dataleverandører eller hyppighed af
fejlrapportering. Grundlaget for skønnet angives.
Desuden kan andre forhold der har relevans for datas korrekthed beskrives kort, herunder om
data er underlagt valideringsprocedurer, enten inden det optages i datasættet eller løbende
der er procedurer der sikrer at fejl der opdages under brug rettes
der er foretaget stavekontrol
der – hvis data er angivet i strukturerede formater, herunder xml, html eller rdf - er foretaget validering
af at data overholder den/de relevante specifikation(er) (syntaks- og skemavalidering)
Eksempler
Semantisk korrekthed: En registrering af at en sportsfacilitet som værende en skøjtehal, hvis det i
virkeligheden er en svømmehal, eller hvis pågældende svømmehal er registreret som havende
handicapvenlige omklædningsfaciliteter uden at sådanne reelt findes, ville være eksempler på semantisk
ukorrekthed.
Syntaktisk korrekthed: ’svoemmehal’ følger ikke dansk retstavning og er dermed syntaktisk ukorrekt.
10
Aktualitet
Definition Datakvalitetsdimension der indikerer i hvor høj grad data er tidmæssigt aktuelle i forhold til den virkelighed de repræsenterer. Beskrivelse
Et datasæt har høj aktualitet, når man (ved brug af nyeste tilgængelige version) kan være sikker på at det
repræsenterer det der faktisk aktuelt er sandt på brugstidspunktet. Aktualitet afhænger af datasættets
opdateringsfrekvens i forhold hvor ofte data ændrer sig.
Relevante målinger og beskrivelser
Nogle datasæt opdateres periodisk med faste intervaller, mens andre opdateres efter behov når der sker
ændringer i det som datasættet repræsenterer.
For periodisk opdaterede datasæt angives opdateringsfrekvensen, dvs. hvor lang tid der går mellem
opdateringer. Desuden beskrives hvor ofte data typisk ændrer sig. Jo sjældnere data ændrer sig, jo lavere
opdateringsfrekvens vil typisk være rimelig samtidig med, at aktualiteten stadig kan anses for at være høj.
Dette skal dog også vurderes i forhold til hvor kritisk det er for de væsentligste anvendelser at alle data i
datasættet er opdaterede.
Hvis datasættet opdateres efter behov, angives hvor lang tid der typisk går fra en ændring sker til denne er
blevet registreret og publiceret Man bør opgive tidsrummet så præcist som man kan, men samtidig med
den fleksibilitet der er nødvendig. Så 1 time, 3-7 dage, op til 14 dage og ca. 4 måneder er alle acceptable
angivelser af tidsrum.
Tidsrummet skal ideelt set beregnes fra ændringen faktisk sker til den er blevet registreret og publiceret.
Der kan dog være situationer, hvor tidsrummet mellem at en ændring sker i den virkelige verden og
ændringen indmeldes er for variabelt til at dette kan dokumenteres meningsfuldt. I så fald kan tidsrummet
beregnes fra informationen modtages og til den er blevet registreret og publiceret. Man skal så angive at
det er beregnet på denne måde.
Note: Skulle man have et datasæt bestående af data der ikke ændrer sig (inden for en relevant tidsramme),
fx visse geologiske data, angiver man at dette er tilfældet. Aktualiteten af sådanne data vil selvfølgelig
kunne vurderes til 5 stjerner.
Eksempler
Man kan fx angive at
der sker ændringer i data flere gange dagligt og den publicerede version af datasættet opdateres en
gang i døgnet
ændringer publiceres indenfor en uge fra indrapportering, og at 90% af dataleverandører
indrapporterer ugentligt, mens resten kun indrapporterer månedligt
der oftest går årevis mellem at dataværdier ændrer sig og at datasættet opdateres hver 3. måned
11
Genbrugelighed
Definition Datakvalitetsdimension der indikerer i hvor høj grad data er forståelige og uden vanskeligheder kan anvendes af andre. Beskrivelse
Denne dimension beskriver de forhold der påvirker hvor egnet et datasæt er til at blive genbrugt til nye
formål og har med sammenhæng mellem data og beskrivelsen af disse data at gøre. Det er de forhold der
gør at man som menneske kan forstå data samt at en computer kan behandle data.
Genbrugelighed består af to aspekter: Forståelighed og konsistens. Et datasæt har en høj grad af
forståelighed når data er ensartet og læsevenligt præsenteret og forsynet med metadata der
dokumenterer datas betydning, struktur og oprindelse. Det har en høj grad af konsistens når det følger dets
specifikation/datamodel, er logisk sammenhængende og kan fortolkes utvetydigt.
Dette indebærer at
data er angivet i forståeligt og entydigt sprog og formater
der er en tilgængelig datamodel
data overholder datasættets datamodel/specifikation
der er anvendt ensartede og dokumenterede formater for dataværdier
data overholder relevante forretningsregler
datasættet ikke indeholder modstridende informationer
datasættet indeholder dokumentation af de enkelte dataelementers historik
der er tilstrækkelige metadata der beskriver data
Metadata om datasæt indeholder
beskrivelse af datasættet
oplysninger om datas proveniens (dvs. datas oprindelse og dets vej til optagelse i datasættet)
oplysninger om seneste opdateringsdato og opdateringsansvarlig
versionshistorik
oplysninger om fejlretningsprocedure/hvad man gør hvis man opdager fejl
specifikation af anvendte datatyper i forhold til format, anvendte enheder og nøjagtighedsniveau
angivelse af om datasættet overholder relevante love og standarder
oplysninger om hvorvidt datasættet indeholder personfølsomme eller fortrolige oplysninger
oplysninger om hvem der er ansvarlig for indsamling af data
licensoplysninger (hvem må bruge data til hvad)
kontaktpunkt til at give feedback og stille spørgsmål om datasættet
12
Relevante målinger og beskrivelser
Der er en del forskellige forhold der kan påvirke et datasæts genbrugelighed. Nedenfor er angivet en række
spørgsmål om disse forhold. Disse spørgsmål er gengivet i skabelonen i bilag A, og man angiver sit svar for
hvert spørgsmål.
Spørgsmål om modellering
Er der en tilgængelig datamodel?
Er datamodellen maskinlæselig?
Overholder datasættet datamodellen?
Spørgsmål om metadata
Er datasættet forsynet med alle relevante metadata?
Bilag B indeholder en tjekliste over metadatatyper. Der kan være typer der ikke er relevante for alle
datasæt, ligesom der for nogle datatyper/domæner kan være yderligere metadata der er relevante, men
bilaget udgør et udgangspunkt for at afgøre om datasættet har de relevante metadata.
Spørgsmål om datatyper
Er datatyper, inkl. range, enheder og præcisionsniveau hvor relevant, dokumenteret?
Er datatypespecifikationerne overholdt?
Er data af samme type, fx datoer, angivet ensartet?
Spørgsmål om data
Er anvendte dataværdier entydige og forståelige?
Herunder: Er koder og forkortelser forklaret (eller erstattet med forståelig tekst)? Er tekstværdier på dansk
(eller evt. andet egnet sprog)? Er det tydeligt om 0/null betyder tallet ’0’, at værdien er ukendt, eller at
værdien ikke eksisterer? Er der anvendt standardiserede termer og måleenheder?
Er alle entiteter som refereres til af en fremmednøgle udfyldt med meningsfulde data?
Overholder data relevante forretningsregler?
Indeholder datasættet (hvor relevant) dokumentation af de enkelte dataelementers historik?
Kan man genskabe hvordan et givet dataelement har set ud på et givet tidspunkt og spore hvem der har
ændret det? Dette vil ofte gøres ved at dataelementerne har attributterne registreringstid, virkningstid og
registreringsaktør. Der kan være type af dataelementer hvor (alle) disse oplysninger ikke er relevante.
Er datasættet fri for modstridende informationer?
Modstridende informationer kan fx være at referere til den samme entitet på forskellige måder (brug af
synonymer eller både fulde navne og forkortelser) eller kan opstå hvis samme oplysning optræder flere
steder i datasættet og kan opdateres uafhængigt af hinanden.
13
Eksempler:
Man kan ikke være sikker på at 10-11-12 betyder den 10. november 2012 med mindre måden datoer
angives på er dokumenteret, og alle datoangivelser følger specifikationen.
Hvis nogle værdier af samme type er angivet med en decimal og andre med to kan der opstå tvivl om 34,1
betyder præcis det samme som 34,10 eller der er tale om en afrunding eller en mindre præcis måling.
Hvis navne nogle steder er angivet ’fornavne’ ’efternavn’ og andre steder ’efternavn’, ’fornavne’ kan det
besværliggøre databehandling.
Hvis datatypen er angivet til ’integer’ skal en dataværdi angives som ’5’ ikke ’fem’, og ’5’ er stadig
problematisk hvis udfaldsrummet er angivet til ’1-4’
Lokalt definerede forkortelser, fx forkortelser for afdelingsnavne eller beliggenheder, vil næppe kunne
forstås af udenforstående og bør i stedet være skrevet ud eller som minimum forklaret.
Brug af numeriske landekoder gør det væsentligt sværere at læse og forstå data end hvis der er anvendt
anerkendte bogstavsforkortelser eller landenavnet er skrevet ud i sin helhed.
Eksempler på relevante forretningsregler kunne være at startdato på et planlagt projekt ikke må være efter
slutdato, eller i fortiden, eller at der skal være netop én ansvarlig enhed per projekt.
Hvis betegnelserne ’Erhvervsstyrelsen’ og ’ERST’ bruges i samme datasæt kan der opstå tvivl om hvorvidt
der er tale om den samme entitet.
Hvis en persons email er registreret to steder i samme datasæt, og kun opdateret det ene, er der tale om
modstridende informationer/inkonsistens.
14
Bilagsoversigt
Bilag A: Skabelon til deklaration af datakvalitet
Bilag B: Tjekliste til angivelse af metadata
Bilag C: Eksempel på udfyldelse af skabelon
Bilag D: Dimensioner fra internationale standarder
15
Bilag A: Skabelon til deklaration af datakvalitet
Datasættets navn:
Det formål datasættet er indsamlet til:
Væsentligste forventede anvendelser som datakvalitet er vurderet i forhold til:
Dato for vurdering:
Ansvarlig for datakvalitetsvurderingen:
Dimension Målinger og beskrivelser Beskriv datasættets kvalitet i forhold til hver dimension. (Slet gerne hjælpespørgsmålene.)
Bedømmelse Udfyld det relevante antal stjerner
Komplethed Hvor stor en andel af de individer datasættet skal beskrive ifølge dets specifikation er reelt repræsenteret i datasættet? Er dette et skøn? Hvor stor en procentdel af de forventede oplysninger om individerne er til stede? Dækker denne beregning alle egenskaber eller en specifik delmængde? Er der noget at bemærke om dækningsgraden af specifikke egenskaber?
Korrekthed Hvor stor en andel af dataværdierne i datasættet kan forventes at repræsentere den faktuelle værdi? Og hvordan er I kommet frem til det tal? Valideres data (løbende eller inden optagelse)? Er der en fejlretningsprocedure? Er der foretaget relevant syntaktisk validering, herunder stavekontrol?
Aktualitet Opdateres datasættet periodisk eller efter behov? Hvis periodisk: hvad er opdateringsfrekvensen? hvor ofte sker der ændringer i det data
repræsenterer (ift. opdateringsfrekvens)? Hvis efter behov: hvor længe går der inden ændringer er blevet
registreret og publiceret?
Genbrugelighed 1. Er der en tilgængelig datamodel? 2. Er datamodellen maskinlæselig? 3. Overholder datasættet datamodellen? 4. Er datasættet forsynet med relevante metadata? 5. Er datatyper, inkl. range, enheder og præcisionsniveau
hvor relevant, dokumenteret? 6. Er datatypespecifikationerne overholdt? 7. Er data af samme type, fx datoer, angivet ensartet? 8. Er anvendte dataværdier entydige og forståelige? 9. Er alle entiteter som refereres til af en fremmednøgle
16
udfyldt med meningsfulde data? 10. Overholder data alle forretningsregler? 11. Indeholder datasættet oplysninger om dataelementers
historik? 12. Er datasættet fri for modstridende informationer?
Evt. yderligere relevant kvalitetsinformation:
Fx beskrivelse af kvalitetssikringsprocedurer eller af kendte problemstillinger der påvirker datas kvalitet
Bedømmelsesskala
Bedømmes uegnet til den givne anvendelse
Bedømmes til dårligt at kunne anvendes
Kan anvendes med forbehold for et større antal fejl/utilsigtede resultater
Kan anvendes med forbehold for fejl/utilsigtede resultater
Kan anvendes med forbehold for enkelte fejl/utilsigtede resultater
Kan anvendes umiddelbart og uden forbehold
17
Bilag B: Tjekliste til metadata
Metadatatype Eventuel kommentar
Titel
Identifikator Entydig persistent identifikation af datasættet. Gerne i form af en http-URI.
Beskrivelse
Emne Henvisning til FORM, KLE eller domænespecifik emneklassifikation.
Skaber af datasættet Organisation eller person der har det primære ansvar for tilvejebringelse af datasættet.
Bidragsyder(e) Andre organisationer eller personer der har ydet væsentlige bidrag til datasættet.
Udgiver Organisation ansvarlig for publiceringen af datasættet.
Udgivelsesdato
Seneste opdateringsdato
Opdateringsansvarlig Organisation eller person der er ansvarlig for at datasættet bliver opdateret.
Version Se evt. semver.org.
Versionshistorik Beskrivelse af ændringer fra version til version.
Rettigheder Hvem har rettighederne til datasættet og under hvilken licens udbydes det?
Kontaktpunkt Kontaktinformation der gør det muligt at give feedback, stille spørgsmål om datasættet og indberette fejl.
Proveniens Datasættets historik, dvs. hvilke processer det har været genstand for, og hvem der har været ansvarlige for dem.
Persondatakategori angivelse af hvorvidt datasættet indeholder ingen personoplysninger, almindelige personoplysninger, følsomme personoplysninger eller oplysninger om strafbare forhold.
Fortrolighed Oplysning om hvorvidt datasættet indeholder fortrolige oplysninger.
Dækningsområde Relevant hvis data dækker et bestemt geografisk område.
Dækningsperiode Relevant hvis data beskriver en bestemt periode.
Love/Standarder Hvis der er love, direktiver, standarder eller lignende der er relevante for indsamling eller udformning af datasæt er det relevant at angive om datasættet overholder disse.
Sprog Især relevant hvis der er anvendt andre sprog end dansk.
Hjemmeside Relevant hvis der findes en hjemmeside med yderlige oplysninger der er relevante for datasættet eller dets brug.
18
Bilag C: Eksempel på udfyldelse af skabelon
Datasættets navn: Forekomst af klassisk rabies samt flagermuserabies i vild-og tamdyr i Danmark
(Fuldstændigt imaginært datasæt - ikke reelt set i Danmark siden hhv. 1982 og 2009)
Det formål datasættet er indsamlet til: Planlægning af bekæmpelsesindsats
Hvad er den/de væsentligste forventede anvendelser som datakvalitet er vurderet i forhold til:
Vurdering af smittefare for landbrugsbesætninger, epidemikontrol
Dato for vurdering: 24 januar 2019
Ansvarlig for datakvalitetsvurderingen: Center for Teknologi og datastrategi, Digitaliseringsstyrelsen
Dimension Målinger og beskrivelser Beskriv datasættets kvalitet i forhold til hver dimension. (Slet gerne hjælpespørgsmålene.)
Bedømmelse Udfyld det relevante antal stjerner
Komplethed Ved stikprøvekontrol (se nedenfor) var 92% af de forekomster der var registreret hos dyrlægerne også registreret i datasættet. Alle registrerede forekomster har udfyldt alle attributter, da indtastning uden udfyldelse af alle attributter ikke er mulig.
Korrekthed Ved stikprøvekontrol (se nedenfor) blev der identificeret enkelte stavefejl, primært i navne på anmeldere, men ingen fejl der har betydning for de nævnte anvendelser.
Aktualitet Datasættet opdateres halvårligt. På landsplan ses 1-2 nye tilfælde om måneden. Skulle der opstå epidemi vil dette tal stige væsentligt.
Smittefarevurdering Epidemikontrol
Genbrugelighed 1. Er der en tilgængelig datamodel? Ja 2. Er datamodellen maskinlæselig? Ja 3. Overholder datasættet datamodellen? Ja 4. Er datasættet forsynet med relevante metadata?
Datasættet har kun metadata om emne, opdateringsdato og -ansvarlig og versionering
5. Er datatyper, inkl. udfaldsrum, enheder og præcisionsniveau hvor relevant, dokumenteret? Udfaldsrum og anvendte enheder er dokumenteret, præcision er ikke relevant
6. Er datatypespecifikationerne overholdt? Ja 7. Er data af samme type, fx datoer, angivet ensartet? Ja 8. Er anvendte dataværdier entydige og forståelige? Ja 9. Er alle entiteter som refereres til af en fremmednøgle
udfyldt med meningsfulde data? Ja 10. Overholder data alle forretningsregler? Ved ikke 11. Indeholder datasættet oplysninger om dataelementers
historik? Nej
19
12. Er datasættet fri for modstridende informationer? Ja
Evt. yderligere relevant kvalitetsinformation:
Stikprøvekontrol af komplethed og korrekthed er foretaget ved at sammenligne data registreret lokalt hos
75 tilfældigt udvalgte dyrlæger med data registreret i datasættet.
Bedømmelsesskala
Bedømmes uegnet til den givne anvendelse
Bedømmes til dårligt at kunne anvendes
Kan anvendes med forbehold for et større antal fejl/utilsigtede resultater
Kan anvendes med forbehold for fejl/utilsigtede resultater
Kan anvendes med forbehold for enkelte fejl/utilsigtede resultater
Kan anvendes umiddelbart og uden forbehold
20
Bilag D: Dimensioner fra internationale standarder
Fuldt dimensionssæt fra ISO 25012 (ISO 25012 – Software engineering – Software product Quality Requirements and Evaluation (SQuaRE) –
Data quality model)
Dimension Definition
Accuracy The degree to which data has attributes that correctly represent the true value of the intended attribute of a concept or event in a specific context of use.
Completeness The degree to which subject data associated with an entity has values for all expected attributes and related entity instances in a specific context of use.
Consistency The degree to which data has attributes that are free from contradiction and are coherent with other data in a specific context of use. It can be either or both among data regarding one entity and across similar data for comparable entities.
Credibility The degree to which data has attributes that are regarded as true and believable by users in a specific context of use. Credibility includes the concept of authenticity (the truthfulness of origins, attributions, commitments).
Currentness The degree to which data has attributes that are of the right age in a specific context of use.
Accessibility The degree to which data can be accessed in a specific context of use, particularly by people who need supporting technology or special configuration because of some disability.
Compliance The degree to which data has attributes that adhere to standards, conventions or regulations in force and similar rules relating to data quality in a specific context of use.
Confidentiality
The degree to which data has attributes that ensure that it is only accessible and interpretable by authorized users in a specific context of use. Confidentiality is an aspect of information security (together with availability, integrity) as defined in ISO/IEC 13335-1:2004.
Efficiency The degree to which data has attributes that can be processed and provide the expected levels of performance by using the appropriate amounts and types of resources in a specific context of use.
Precision The degree to which data has attributes that are exact or that provide discrimination in a specific context of use.
Traceability The degree to which data has attributes that provide an audit trail of access to the data and of any changes made to the data in a specific context of use.
Understandability
The degree to which data has attributes that enable it to be read and interpreted by users, and are expressed in appropriate languages, symbols and units in a specific context of use. Some information about data understandability are provided by metadata.
Availability The degree to which data has attributes that enable it to be retrieved by authorized users and/or applications in a specific context of use.
Portability The degree to which data has attributes that enable it to be installed, replaced or moved from one system to another preserving the existing quality in a specific context of use.
Recoverability The degree to which data has attributes that enable it to maintain and preserve a
21
specified level of operations and quality, even in the event of failure, in a specific context of use.
Fuldt dimensionssæt fra Linked Data Quality Dimensions-vokabularet (http://www.w3.org/2016/05/ldqd, udarbejdet på baggrund af Amrapali Zaveri, Anisa Rula, Andrea
Maurino, Ricardo Pietrobon, Jens Lehmann, Sören Auer: Quality assessment for Linked Data: A Survey.
Semantic Web 7(1): 63-93 (2016) https://dx.doi.org/10.3233/SW-150175)
Dimension Definition
Availability Availability of a dataset is the extent to which data (or some portion of it) is present, obtainable and ready for use.
Licensing Licensing is defined as the granting of permission for a consumer to re-use a dataset under defined conditions.
Interlinking Interlinking refers to the degree to which entities that represent the same concept are linked to each other, be it within or between two or more data sources.
Security Security is the extent to which data is protected against alteration and misuse.
Performance Performance refers to the efficiency of a system that binds to a large dataset, that is, the more performant a data source is the more efficiently a system can process data.
Syntactic validity Syntactic validity is defined as the degree to which an RDF document conforms to the specification of the serialization format.
Semantic accuracy
Semantic accuracy is defined as the degree to which data values correctly represent the real world facts.
Consistency Consistency means that a knowledge base is free of (logical/formal) contradictions with respect to particular knowledge representation and inference mechanisms.
Conciseness Conciseness refers to the minimization of redundancy of entities at the schema and the data level.
Completeness Completeness refers to the degree to which all required information is present in a particular dataset.
Relevancy Relevancy refers to the provision of information which is in accordance with the task at hand and important to the users’ query.
Trustworthiness Trustworthiness is defined as the degree to which the information is accepted to be correct, true, real and credible.
Understandability Understandability refers to the ease with which data can be comprehended without ambiguity and be used by a human information consumer.
Timeliness Timeliness measures how up-to-date data is relative to a specific task.
Representational-conciseness
Representational-conciseness refers to the representation of the data, which is compact and well formatted.
Interoperability Interoperability is the degree to which the format and structure of the information conforms to previously returned information as well as data from other sources.
Interpretability Interpretability refers to technical aspects of the data, that is, whether information is represented using an appropriate notation and whether the machine is able to process the data.
Versatility Versatility refers to the availability of the data in different representations and in an internationalized way.
22
Mapning mellem kernedimensioner og internationale standarder
Mapning til ISO 25012
Kernedimension ISO 25012-dimension Mapningsrelation
Komplethed Completeness The degree to which subject data associated with an entity has values for all expected attributes and related entity instances in a specific context of use.
Completeness er et underbegreb til Komplethed (skos:narrowMatch) Note: ISO-dimension indeholder kun aspektet dækningsgrad
Korrekthed Accuracy The degree to which data has attributes that correctly represent the true value of the intended attribute of a concept or event in a specific context of use
Fuld ækvivalens (skos:exactMatch)
Aktualitet Currentness The degree to which data has attributes that are free from contradiction and are coherent with other data in a specific context of use. It can be either or both among data regarding one entity and across similar data for comparable entities
Fuld ækvivalens (skos:exactMatch)
Genbrugelighed Consistency The degree to which data has attributes that are free from contradiction and are coherent with other data in a specific context of use. It can be either or both among data regarding one entity and across similar data for comparable entities
Consistency er et underbegreb til Genbrugelighed (skos:narrowMatch)
Understandability The degree to which data has attributes that enable it to be read and interpreted by users, and are expressed in appropriate languages, symbols and units in a specific context of use. Some information about data understandability are provided by metadata
Understandability er et underbegreb til Genbrugelighed (skos:narrowMatch)
Mapning til Linked Data Quality Dimensions
Kernedimension Linked Data Quality Dimension Mapningsrelation
Komplethed Completeness Completeness refers to the degree to which all required information is present in a particular dataset
Fuld ækvivalens (skos:exactMatch)
Korrekthed Semantic Accuracy Semantic accuracy is defined as the degree to which data values correctly represent the real world facts
Semantic Accuracy er et underbegreb til korrekthed (skos:narrowMatch) Note: ldqd-dimension har fuld
23
ækvivalens med aspektet semantisk korrekthed
Aktualitet Timeliness Timeliness measures how up-to-date data is relative to a specific task
Fuld ækvivalens (skos:exactMatch)
Genbrugelighed Consistency Consistency means that a knowledge base is free of (logical/formal) contradictions with respect to particular knowledge representation and inference mechanisms
Consistency er et underbegreb til Genbrugelighed (skos:narrowMatch)
Understandability Understandability refers to the ease with which data can be comprehended without ambiguity and be used by a human information consumer
Understandability er et underbegreb til Genbrugelighed (skos:narrowMatch)