38
Publikace dat důchodové statistiky v podobě otevřených propojených dat Jan Kučera Katedra informačních technologií Fakulta informatiky a statistiky Vysoká škola ekonomická v Praze

Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Publikace dat důchodové statistiky v podobě otevřených propojených dat

Jan KučeraKatedra informačních technologií

Fakulta informatiky a statistiky

Vysoká škola ekonomická v Praze

Page 2: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Obsah přednášky

• Aktivity FIS VŠE v oblasti otevřených dat

• Publikace dat důchodové statistiky v průběhu času

– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat

– Otevřená data ČSSZ

• Reprezentace dat důchodové statistiky v RDF

• Postup publikace a použité technologie

J. Kučera: Data důchodové statistiky jako LOD 223. 10. 2017

Page 3: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Otevřená data

• Otevřená data jsou „data, která mohou být svobodně využívána, zpracovávána, upravována a šířena, přičemž může být vyžadováno, aby byl uveden původce dat nebo aby byla dále šířena za stejných podmínek“ (volně přeloženo dle Open Knowledge, n.d.)

• Klíčové vlastnosti otevřených dat– úplnost– snadná dostupnost– strojová čitelnost– použití standardů s volně dostupnou specifikací (tzv. otevřených

standardů)– zpřístupnění za jasně definovaných podmínek užití dat (licence) s

minimem omezení– dostupnost uživatelům při vynaložení minima možných nákladů na

jejich získání

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 3

Page 4: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Stupně otevřenosti dat

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 4

Zdroj: Hausenblas a Kim, 2015

Page 5: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Nejvýznamnější aktivity FIS VŠE v oblasti otevřených dat

• Dlouhodobá spolupráce– Iniciativa OpenData.cz (spolupráce zejména s MFF UK)– Fórum pro otevřená data (MFF UK, Fond Otakara Motejla, od roku 2013)– Spolupráce s Ministerstvem vnitra ČR na propagaci, katalogizaci a legislativních úpravách a

přípravě standardů otevřených dat veřejné správy v ČR (opendata.gov.cz)

• Projekty spolufinancované Evropskou komisí– Creating Knowledge out of Interlinked Data (LOD2, 09/2010 – 08/2014)– Shared Standards for Open Data and Public Sector Information (SharePSI 2.0, 02/2014 –

07/2015)– Financial Transparency Platform for the Public Sector (OpenBudgets.eu, 05/2015 – 10/2017)

• Projekty spolufinancované Technologickou agenturou České republiky– Otevřená propojitelná data v oblasti veřejných rozpočtů (TAČR, MFF UK, Fond Otakara Motejla,

MF ČR, 01/2014 - 09/2015)– Publikace dat statistických ročenek ve standardu otevřených dat (TAČR, KOMIX s.r.o., ČSSZ

01/2014 – 06/2015)

• Další projekty– Koncepce katalogizace otevřených dat (zpracováno pro Úřad vlády ČR, MMR, MV ČR, rok 2012)– Analýza otevřenosti ČTÚ (2013), publikace otevřených dat ČTÚ (2014)– Spolupráce na otevírání dat ČOI, ČSÚ, ČSSZ, NKÚ

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 5

Page 6: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Obsah přednášky

• Aktivity FIS VŠE v oblasti otevřených dat

• Publikace dat důchodové statistiky v průběhu času

– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat

– Otevřená data ČSSZ

• Reprezentace dat důchodové statistiky v RDF

• Postup publikace a použité technologie

J. Kučera: Data důchodové statistiky jako LOD 623. 10. 2017

Page 7: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Publikace dat důchodové statistiky ČSSZ v průběhu času

2013

• Příprava výzkumného projektu „Publikace dat statistických ročenek ve standardu otevřených dat“ (TD020121)

2014

• Řešení výzkumného projektu TD020121

2015

• Ukončení výzkumného projektu TD020121

• Publikace otevřených dat ČSSZ

2016

• Spolupráce ČSSZ a VŠE na publikaci dalších datasetů ČSSZ

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 7

Page 8: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Obsah přednášky

• Aktivity FIS VŠE v oblasti otevřených dat

• Publikace dat důchodové statistiky v průběhu času

– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat

– Otevřená data ČSSZ

• Reprezentace dat důchodové statistiky v RDF

• Postup publikace a použité technologie

J. Kučera: Data důchodové statistiky jako LOD 823. 10. 2017

Page 9: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Motivace k řešení výzkumného projektu TD020121

• Orgány veřejné správy v ČR poskytují řadu statistických dat, ale v různých formátech (PDF, XLS, CSV, XML)

• Struktura dat a jejich význam nejsou vždy popsány

– Existují ale i výjimky, např. data ve Veřejné databázi ČSÚ jsou bohatě popsána metadaty

• Heterogenita formátů a chybějící popis struktury a významu dat komplikují jejich zpracování

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 9

Page 10: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Ukázka: Statistická ročenka z oblasti důchodového pojištění 2012

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 10

Zdroj: Česká správa sociálního zabezpečení, 2013

Page 11: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Hlavní cíle projektu TD020121

1. Vytvořit metodiku a typovou architekturu pro publikaci statistických dat v podobě otevřených propojených dat

2. Ověřit navrženou metodiku a typovou architekturu na publikaci dat důchodové statistiky ČSSZ

3. Vybudovat nad těmito daty pilotní aplikaci pro zpřístupnění a prezentaci těchto dat

4. Využít tato data pro v rámci specializované mapy s interpretací regionálních rozdílů

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 11

Page 12: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Výstupy projektu TD020121

• Návrh metodiky popisu a prezentace dat důchodové statistiky ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení

• Datová pumpa pro převod zdrojových dat do publikační databáze• Publikační databáze

– SPARQL endpoint: http://opendata.vse.cz:8890/sparql– Data zpřístupněna pod licencí Creative Commons Attribution 4.0

International Public License (CC BY 4.0)

• Webová prezentační aplikace• Specializovaná mapa s interpretací regionálních rozdílů v oblasti

sociálního výzkumu• Všechny výstupy jsou dostupné ze stránky projektu

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 12

Page 13: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Příklad: Poměr počtu starobních důchodců (ČSSZ) a míst v domovech pro seniory (ČSÚ) dle okresů

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 13

Zdroj: https://opendata.vse.cz/duchodova-statistika/vizualizace.jsp?config=ukazatel_U02.xml, 20.10.2017

Page 14: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Příklad: Průměrná výše sólo starobních důchodůS-Celkem (ČSSZ)

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 14

Zdroj: https://opendata.vse.cz/duchodova-statistika-mapy/mapa.jsp?config=ukazatelMapa_prumernyDuchod.xml, 20.10.2017

Page 15: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Obsah přednášky

• Aktivity FIS VŠE v oblasti otevřených dat

• Publikace dat důchodové statistiky v průběhu času

– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat

– Otevřená data ČSSZ

• Reprezentace dat důchodové statistiky v RDF

• Postup publikace a použité technologie

J. Kučera: Data důchodové statistiky jako LOD 1523. 10. 2017

Page 16: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Česká správa sociálního zabezpečení

• Česká správa sociálního zabezpečení (ČSSZ)– Organizační složka státu spadající do rezortu Ministerstva práce a sociálních

věcí ČR– Celkový objem příjmů a výdajů za rok 2015 činil 804 miliard Kč– 8,6 milionu klientů (počet obyvatel ČR činí cca 10,5 milionu)

• 2,9 milionu důchodců

– 8 690 zaměstnanců

• Hlavní oblasti působnosti ČSSZ– Důchodové pojištění– Řízení ve věcech osob zdravotně znevýhodněných– Nemocenské pojištění– Pojistné– Exekuce– Lékařská posudková služba– Kontrolní činnosti

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 16

Zdroj: Šunka a kol., 2016

Page 17: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Průběh publikace otevřených dat ČSSZ

01/2014 –06/2015

• Spolupráce ČSSZ na projektu TD020121

04/2015

• Smluvní zajištění spolupráce ČSSZ a VŠE

05/2015 –10/2015

• Příprava publikace otevřených dat ČSSZ

11/2015

• Publikace datasetůs nejvyšší prioritou

12/2015

• Zpřístupnění interaktivních vizualizací

Od 2016

• Aktualizace a rozšiřování dostupných datasetů

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 17

Page 18: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Příprava publikace otevřených dat ČSSZ

• Hlavní kroky přípravy publikace dat– Návrh technologického prostředí pro přípravu a publikaci dat

• Včetně zajištění, že publikovaná metadata bude moci zpracovat Národní katalog otevřených dat

– Implementace navrženého technologického prostředí– Výběr datasetů k publikaci– Posouzení bezpečnostních hledisek publikace otevřených dat– Příprava datasetů k publikaci

• Návrh struktury datasetů a strojově čitelného schématu• Příprava a verifikace popisných metadat• Transformace zdrojových dat do navržené struktury datasetů• Verifikace transformovaných dat

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 18

Page 19: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Publikace otevřených dat ČSSZ

• Otevřená data ČSSZ dostupná data na portálu https://data.cssz.cz

• Data jsou poskytována ve formátu CSV a v RDF

• Data jsou poskytována ke stažení i prostřednictvím SPARQL endpointu

• Všechna data jsou opatřena metadaty a jsou registrována v Národním katalogu otevřených dat

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 19

Page 20: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Ukázka datové sady ČSSZ v RDF

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 20

Zdroj: https://data.cssz.cz/web/otevrena-data/-/prehled-o-celkovem-poctu-osvc-podle-okresu, 20.10.2017

Page 21: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Ukázka vizualizace datové sady ČSSZ

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 21

Zdroj: https://data.cssz.cz/web/otevrena-data/graf-pocet-osvc-v-okresech, 20.10.2017

Page 22: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Obsah přednášky

• Aktivity FIS VŠE v oblasti otevřených dat

• Publikace dat důchodové statistiky v průběhu času

– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat

– Otevřená data ČSSZ

• Reprezentace dat důchodové statistiky v RDF

• Postup publikace a použité technologie

J. Kučera: Data důchodové statistiky jako LOD 2223. 10. 2017

Page 23: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Data důchodové statistiky jsou vícerozměrná

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 23

Hodnota:3 889

Hodnota:Starobní důchod S

Hodnota:Praha 3

Hodnota:31. 12. 2013

Hodnota:muži

Měřená veličina:Počet důchodců

Dimenze:Druh důchodu

Dimenze:Území

Dimenze:Platnost k

Dimenze:Pohlaví

Page 24: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

The RDF Data Cube Vocabulary

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 24

Zdroj: Cyganiak a Reynolds, 2014

Page 25: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Data důchodové statistiky v RDF

• Data reprezentována jako datové kostky pomocí slovníku The RDF Data CubeVocabulary

• Číselníky reprezentovány pomocí SKOS

• Metadata reprezentována pomocí DCAT a VoID

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 25

Page 26: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Druhy důchodů v ČR

• Poživatelé důchodů v ČR mohou pobírat– Důchody vyplácené samostatně

• Přímé důchody – existuje několik druhů starobního důchodu, resp. invalidního důchodu

• Odvozené, pozůstalostní důchody – vdovský či vdovecký důchod, sirotčí důchod

– Přímý důchod v kombinaci s vdovským nebo vdoveckým důchodem

• Druhy důchodů se v průběhu času mění v návaznosti na změny legislativní úpravy

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 26

Page 27: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Číselník druhů důchodů

• Reprezentován pomocí slovníku SKOS• Tvořen instancemi třídy skos:ConceptScheme

– cssz-pension-kinds:PensionKindScheme• Koncepty pro reprezentaci druhů důchodů bez ohledu na období

– cssz-pension-kinds:PensionKindScheme_2008• Koncepty pro reprezentaci druhů v období let 2008 až 2009

– cssz-pension-kinds:PensionKindScheme_2010• Koncepty pro reprezentaci druhů v období od roku 2010

• Hierarchie v číselnících vyjádřena pomocí skos:narrower• Vazba konceptu představujícího druh důchodu v určitém

období na koncept reprezentující ekvivalentní důchod nezávisle na období vyjádřena pomocí skos:exactMatch– Umožňuje vytvářet časové řady

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 27

Page 28: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Vazby mezi koncepty pro starobní důchod S

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 28

pen-onto:PK_S

pen-onto:PK_S_2008 pen-onto:PK_S_2010

skos:exactMatchskos:exactMatch

Page 29: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Obsah přednášky

• Aktivity FIS VŠE v oblasti otevřených dat

• Publikace dat důchodové statistiky v průběhu času

– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat

– Otevřená data ČSSZ

• Reprezentace dat důchodové statistiky v RDF

• Postup publikace a použité technologie

J. Kučera: Data důchodové statistiky jako LOD 2923. 10. 2017

Page 30: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Proces přípravy a publikace datasetů

• Kroky procesu přípravy a publikace datasetů používaného ČSSZ– Pohovor s vlastníkem dat– Analýza zdrojových dat– Analýza a návrh cílových datasetů– Příprava zdrojových dat pro transformaci– Příprava dokumentace datasetů, která je součástí metadat– Tvorba transformačního procesu v nástroji UnifiedViews– Vytvoření datasetů a jejich strojově čitelných metadat pomocí

připraveného transformačního procesu– Verifikace datasetů a jejich metadat před zveřejněním– Zveřejnění datasetů a jejich metadat

• Podrobněji je celý proces popsán zde

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 30

Page 31: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Technologie použité ČSSZ

• Prostředí pro přípravu dat

– UnifiedViews

– CKAN

– Virtuoso

– Kancelářský software a textový editor

• Pro publikaci dat a jejich vizualizaci vytvořeno řešení na míru

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 31

Page 32: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Zdrojová data důchodové statistiky

• Zdrojová data statistických ročenek z oblasti důchodového pojištění připravována přímo k tisku– Zdrojová data ve formátu MS Excel– Význam hodnot je dán nejen záhlavím sloupce, ale

první sloupec zpravidla obsahuje i další popisné údaje, jako je např. druh důchodu

– Data rozdělena na různých listech– Díky měnícím se číselníkům (druhy důchodů, pásma

výše důchodu, pásma vyměřovacího základu) se mění i rozsahy buněk obsahujících data

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 32

Page 33: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Šablony pro export zdrojových dat důchodové statistiky

• Postup pro zpracování zdrojových dat důchodové statistiky navržen a ověřen v rámci projektu TD020121

• Pro každý zdrojový soubor je vytvořena šablona, která popisuje rozdělení dat ve zdrojovém soubor a jejich význam

• Pro tvorbu šablon navržen systém meta-značek – viz dokumentace• Pro nástroj UnifiedViews vyvinuto DPU pro zpracování zdrojových

dat s využitím šablon• Osvědčilo se udržovat slovník dimenzí a typů faktů (měřených

veličin)– Zajišťuje, že dimenze a fakty jsou značeny konzistentně ve všech

šablonách– Dimenze a typy faktů lze mapovat na odpovídající koncepty tvořící

strukturu datových kostek v Data Cube Vocabulary– Usnadňuje tvorbu transformačních procesů v UnifiedViews

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 33

Page 34: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Ukázka zdrojových dat důchodové statistiky

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 34

Page 35: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Ukázka šablony pro export zdrojových dat

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 35

Page 36: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Postup transformace dat důchodové statistiky (ročenky) do RDF

Analýza zdrojových dat (XLS)

Tvorba šablon

Návrh datových kostek,

metadat, dokumentace

Tvorba ELT procesu v

UnifiedViews

Transformace dat

Verifikace datasetů a metadat

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 36

Page 37: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Děkuji za pozornost

Jan Kučerajan.kucera [at] vse.cz

Page 38: Publikace dat důchodové statistiky v podobě otevřených … › ~svatek › rzzw › CSSZ_use_case.pdf · 2017-10-27 · Ukázka: Statistická ročenka z oblasti důchodového

Zdroje

• CYGANIAK, Richard a REYNOLDS, Dave, 2014. The RDF Data Cube Vocabulary. In: W3C [online]. 16 January 2014 [cit. 2016-11-11]. Dostupné z: http://www.w3.org/TR/2014/REC-vocab-data-cube-20140116/.

• Česká správa sociálního zabezpečení, 2013. Statistická ročenka z oblasti důchodového pojištění 2012. In: Česká správa sociálního zabezpečení [online]. [cit. 2016-11-11]. Dostupné z: http://www.cssz.cz/NR/rdonlyres/14F33E39-B858-4C93-BC13-3153EBB7099E/0/SR2012_WEB.pdf.

• HAUSENBLAS, Michael, KIM, James G., 2015. 5 star Open Data. In: 5 star Open Data [online]. Last updated: 2015-08-31 [cit. 2015-12-05]. Dostupné z: http://5stardata.info/.

• Open Knowledge, n.d. What is Open Data? In: Open Data Handbook [online]. [cit. 2016-11-03]. Dostupné z: http://opendatahandbook.org/guide/en/what-is-open-data/.

• ŠUNKA, Jiří, JANDOVÁ, Martina, NOVÁK, Marek, 2016. Publikace otevřených propojených dat v prostředí ČSSZ. In: NKÚ [online]. 19. 2. 2016 [cit. 2016-11-16]. Dostupné z: http://www.nku.cz/assets/konference-seminare/seminar-opendata-2016/4-sunka-novak-jandova-cssz.pdf.

23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 38