Publikace dat důchodové statistiky v podobě otevřených propojených dat
Jan KučeraKatedra informačních technologií
Fakulta informatiky a statistiky
Vysoká škola ekonomická v Praze
Obsah přednášky
• Aktivity FIS VŠE v oblasti otevřených dat
• Publikace dat důchodové statistiky v průběhu času
– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat
– Otevřená data ČSSZ
• Reprezentace dat důchodové statistiky v RDF
• Postup publikace a použité technologie
J. Kučera: Data důchodové statistiky jako LOD 223. 10. 2017
Otevřená data
• Otevřená data jsou „data, která mohou být svobodně využívána, zpracovávána, upravována a šířena, přičemž může být vyžadováno, aby byl uveden původce dat nebo aby byla dále šířena za stejných podmínek“ (volně přeloženo dle Open Knowledge, n.d.)
• Klíčové vlastnosti otevřených dat– úplnost– snadná dostupnost– strojová čitelnost– použití standardů s volně dostupnou specifikací (tzv. otevřených
standardů)– zpřístupnění za jasně definovaných podmínek užití dat (licence) s
minimem omezení– dostupnost uživatelům při vynaložení minima možných nákladů na
jejich získání
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 3
Stupně otevřenosti dat
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 4
Zdroj: Hausenblas a Kim, 2015
Nejvýznamnější aktivity FIS VŠE v oblasti otevřených dat
• Dlouhodobá spolupráce– Iniciativa OpenData.cz (spolupráce zejména s MFF UK)– Fórum pro otevřená data (MFF UK, Fond Otakara Motejla, od roku 2013)– Spolupráce s Ministerstvem vnitra ČR na propagaci, katalogizaci a legislativních úpravách a
přípravě standardů otevřených dat veřejné správy v ČR (opendata.gov.cz)
• Projekty spolufinancované Evropskou komisí– Creating Knowledge out of Interlinked Data (LOD2, 09/2010 – 08/2014)– Shared Standards for Open Data and Public Sector Information (SharePSI 2.0, 02/2014 –
07/2015)– Financial Transparency Platform for the Public Sector (OpenBudgets.eu, 05/2015 – 10/2017)
• Projekty spolufinancované Technologickou agenturou České republiky– Otevřená propojitelná data v oblasti veřejných rozpočtů (TAČR, MFF UK, Fond Otakara Motejla,
MF ČR, 01/2014 - 09/2015)– Publikace dat statistických ročenek ve standardu otevřených dat (TAČR, KOMIX s.r.o., ČSSZ
01/2014 – 06/2015)
• Další projekty– Koncepce katalogizace otevřených dat (zpracováno pro Úřad vlády ČR, MMR, MV ČR, rok 2012)– Analýza otevřenosti ČTÚ (2013), publikace otevřených dat ČTÚ (2014)– Spolupráce na otevírání dat ČOI, ČSÚ, ČSSZ, NKÚ
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 5
Obsah přednášky
• Aktivity FIS VŠE v oblasti otevřených dat
• Publikace dat důchodové statistiky v průběhu času
– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat
– Otevřená data ČSSZ
• Reprezentace dat důchodové statistiky v RDF
• Postup publikace a použité technologie
J. Kučera: Data důchodové statistiky jako LOD 623. 10. 2017
Publikace dat důchodové statistiky ČSSZ v průběhu času
2013
• Příprava výzkumného projektu „Publikace dat statistických ročenek ve standardu otevřených dat“ (TD020121)
2014
• Řešení výzkumného projektu TD020121
2015
• Ukončení výzkumného projektu TD020121
• Publikace otevřených dat ČSSZ
2016
• Spolupráce ČSSZ a VŠE na publikaci dalších datasetů ČSSZ
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 7
Obsah přednášky
• Aktivity FIS VŠE v oblasti otevřených dat
• Publikace dat důchodové statistiky v průběhu času
– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat
– Otevřená data ČSSZ
• Reprezentace dat důchodové statistiky v RDF
• Postup publikace a použité technologie
J. Kučera: Data důchodové statistiky jako LOD 823. 10. 2017
Motivace k řešení výzkumného projektu TD020121
• Orgány veřejné správy v ČR poskytují řadu statistických dat, ale v různých formátech (PDF, XLS, CSV, XML)
• Struktura dat a jejich význam nejsou vždy popsány
– Existují ale i výjimky, např. data ve Veřejné databázi ČSÚ jsou bohatě popsána metadaty
• Heterogenita formátů a chybějící popis struktury a významu dat komplikují jejich zpracování
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 9
Ukázka: Statistická ročenka z oblasti důchodového pojištění 2012
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 10
Zdroj: Česká správa sociálního zabezpečení, 2013
Hlavní cíle projektu TD020121
1. Vytvořit metodiku a typovou architekturu pro publikaci statistických dat v podobě otevřených propojených dat
2. Ověřit navrženou metodiku a typovou architekturu na publikaci dat důchodové statistiky ČSSZ
3. Vybudovat nad těmito daty pilotní aplikaci pro zpřístupnění a prezentaci těchto dat
4. Využít tato data pro v rámci specializované mapy s interpretací regionálních rozdílů
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 11
Výstupy projektu TD020121
• Návrh metodiky popisu a prezentace dat důchodové statistiky ve formátu otevřených propojitelných dat a návrh typové architektury IT řešení
• Datová pumpa pro převod zdrojových dat do publikační databáze• Publikační databáze
– SPARQL endpoint: http://opendata.vse.cz:8890/sparql– Data zpřístupněna pod licencí Creative Commons Attribution 4.0
International Public License (CC BY 4.0)
• Webová prezentační aplikace• Specializovaná mapa s interpretací regionálních rozdílů v oblasti
sociálního výzkumu• Všechny výstupy jsou dostupné ze stránky projektu
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 12
Příklad: Poměr počtu starobních důchodců (ČSSZ) a míst v domovech pro seniory (ČSÚ) dle okresů
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 13
Zdroj: https://opendata.vse.cz/duchodova-statistika/vizualizace.jsp?config=ukazatel_U02.xml, 20.10.2017
Příklad: Průměrná výše sólo starobních důchodůS-Celkem (ČSSZ)
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 14
Zdroj: https://opendata.vse.cz/duchodova-statistika-mapy/mapa.jsp?config=ukazatelMapa_prumernyDuchod.xml, 20.10.2017
Obsah přednášky
• Aktivity FIS VŠE v oblasti otevřených dat
• Publikace dat důchodové statistiky v průběhu času
– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat
– Otevřená data ČSSZ
• Reprezentace dat důchodové statistiky v RDF
• Postup publikace a použité technologie
J. Kučera: Data důchodové statistiky jako LOD 1523. 10. 2017
Česká správa sociálního zabezpečení
• Česká správa sociálního zabezpečení (ČSSZ)– Organizační složka státu spadající do rezortu Ministerstva práce a sociálních
věcí ČR– Celkový objem příjmů a výdajů za rok 2015 činil 804 miliard Kč– 8,6 milionu klientů (počet obyvatel ČR činí cca 10,5 milionu)
• 2,9 milionu důchodců
– 8 690 zaměstnanců
• Hlavní oblasti působnosti ČSSZ– Důchodové pojištění– Řízení ve věcech osob zdravotně znevýhodněných– Nemocenské pojištění– Pojistné– Exekuce– Lékařská posudková služba– Kontrolní činnosti
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 16
Zdroj: Šunka a kol., 2016
Průběh publikace otevřených dat ČSSZ
01/2014 –06/2015
• Spolupráce ČSSZ na projektu TD020121
04/2015
• Smluvní zajištění spolupráce ČSSZ a VŠE
05/2015 –10/2015
• Příprava publikace otevřených dat ČSSZ
11/2015
• Publikace datasetůs nejvyšší prioritou
12/2015
• Zpřístupnění interaktivních vizualizací
Od 2016
• Aktualizace a rozšiřování dostupných datasetů
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 17
Příprava publikace otevřených dat ČSSZ
• Hlavní kroky přípravy publikace dat– Návrh technologického prostředí pro přípravu a publikaci dat
• Včetně zajištění, že publikovaná metadata bude moci zpracovat Národní katalog otevřených dat
– Implementace navrženého technologického prostředí– Výběr datasetů k publikaci– Posouzení bezpečnostních hledisek publikace otevřených dat– Příprava datasetů k publikaci
• Návrh struktury datasetů a strojově čitelného schématu• Příprava a verifikace popisných metadat• Transformace zdrojových dat do navržené struktury datasetů• Verifikace transformovaných dat
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 18
Publikace otevřených dat ČSSZ
• Otevřená data ČSSZ dostupná data na portálu https://data.cssz.cz
• Data jsou poskytována ve formátu CSV a v RDF
• Data jsou poskytována ke stažení i prostřednictvím SPARQL endpointu
• Všechna data jsou opatřena metadaty a jsou registrována v Národním katalogu otevřených dat
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 19
Ukázka datové sady ČSSZ v RDF
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 20
Zdroj: https://data.cssz.cz/web/otevrena-data/-/prehled-o-celkovem-poctu-osvc-podle-okresu, 20.10.2017
Ukázka vizualizace datové sady ČSSZ
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 21
Zdroj: https://data.cssz.cz/web/otevrena-data/graf-pocet-osvc-v-okresech, 20.10.2017
Obsah přednášky
• Aktivity FIS VŠE v oblasti otevřených dat
• Publikace dat důchodové statistiky v průběhu času
– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat
– Otevřená data ČSSZ
• Reprezentace dat důchodové statistiky v RDF
• Postup publikace a použité technologie
J. Kučera: Data důchodové statistiky jako LOD 2223. 10. 2017
Data důchodové statistiky jsou vícerozměrná
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 23
Hodnota:3 889
Hodnota:Starobní důchod S
Hodnota:Praha 3
Hodnota:31. 12. 2013
Hodnota:muži
Měřená veličina:Počet důchodců
Dimenze:Druh důchodu
Dimenze:Území
Dimenze:Platnost k
Dimenze:Pohlaví
The RDF Data Cube Vocabulary
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 24
Zdroj: Cyganiak a Reynolds, 2014
Data důchodové statistiky v RDF
• Data reprezentována jako datové kostky pomocí slovníku The RDF Data CubeVocabulary
• Číselníky reprezentovány pomocí SKOS
• Metadata reprezentována pomocí DCAT a VoID
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 25
Druhy důchodů v ČR
• Poživatelé důchodů v ČR mohou pobírat– Důchody vyplácené samostatně
• Přímé důchody – existuje několik druhů starobního důchodu, resp. invalidního důchodu
• Odvozené, pozůstalostní důchody – vdovský či vdovecký důchod, sirotčí důchod
– Přímý důchod v kombinaci s vdovským nebo vdoveckým důchodem
• Druhy důchodů se v průběhu času mění v návaznosti na změny legislativní úpravy
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 26
Číselník druhů důchodů
• Reprezentován pomocí slovníku SKOS• Tvořen instancemi třídy skos:ConceptScheme
– cssz-pension-kinds:PensionKindScheme• Koncepty pro reprezentaci druhů důchodů bez ohledu na období
– cssz-pension-kinds:PensionKindScheme_2008• Koncepty pro reprezentaci druhů v období let 2008 až 2009
– cssz-pension-kinds:PensionKindScheme_2010• Koncepty pro reprezentaci druhů v období od roku 2010
• Hierarchie v číselnících vyjádřena pomocí skos:narrower• Vazba konceptu představujícího druh důchodu v určitém
období na koncept reprezentující ekvivalentní důchod nezávisle na období vyjádřena pomocí skos:exactMatch– Umožňuje vytvářet časové řady
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 27
Vazby mezi koncepty pro starobní důchod S
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 28
pen-onto:PK_S
pen-onto:PK_S_2008 pen-onto:PK_S_2010
skos:exactMatchskos:exactMatch
Obsah přednášky
• Aktivity FIS VŠE v oblasti otevřených dat
• Publikace dat důchodové statistiky v průběhu času
– Výzkumný projekt Publikace dat statistických ročenek ve standardu otevřených dat
– Otevřená data ČSSZ
• Reprezentace dat důchodové statistiky v RDF
• Postup publikace a použité technologie
J. Kučera: Data důchodové statistiky jako LOD 2923. 10. 2017
Proces přípravy a publikace datasetů
• Kroky procesu přípravy a publikace datasetů používaného ČSSZ– Pohovor s vlastníkem dat– Analýza zdrojových dat– Analýza a návrh cílových datasetů– Příprava zdrojových dat pro transformaci– Příprava dokumentace datasetů, která je součástí metadat– Tvorba transformačního procesu v nástroji UnifiedViews– Vytvoření datasetů a jejich strojově čitelných metadat pomocí
připraveného transformačního procesu– Verifikace datasetů a jejich metadat před zveřejněním– Zveřejnění datasetů a jejich metadat
• Podrobněji je celý proces popsán zde
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 30
Technologie použité ČSSZ
• Prostředí pro přípravu dat
– UnifiedViews
– CKAN
– Virtuoso
– Kancelářský software a textový editor
• Pro publikaci dat a jejich vizualizaci vytvořeno řešení na míru
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 31
Zdrojová data důchodové statistiky
• Zdrojová data statistických ročenek z oblasti důchodového pojištění připravována přímo k tisku– Zdrojová data ve formátu MS Excel– Význam hodnot je dán nejen záhlavím sloupce, ale
první sloupec zpravidla obsahuje i další popisné údaje, jako je např. druh důchodu
– Data rozdělena na různých listech– Díky měnícím se číselníkům (druhy důchodů, pásma
výše důchodu, pásma vyměřovacího základu) se mění i rozsahy buněk obsahujících data
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 32
Šablony pro export zdrojových dat důchodové statistiky
• Postup pro zpracování zdrojových dat důchodové statistiky navržen a ověřen v rámci projektu TD020121
• Pro každý zdrojový soubor je vytvořena šablona, která popisuje rozdělení dat ve zdrojovém soubor a jejich význam
• Pro tvorbu šablon navržen systém meta-značek – viz dokumentace• Pro nástroj UnifiedViews vyvinuto DPU pro zpracování zdrojových
dat s využitím šablon• Osvědčilo se udržovat slovník dimenzí a typů faktů (měřených
veličin)– Zajišťuje, že dimenze a fakty jsou značeny konzistentně ve všech
šablonách– Dimenze a typy faktů lze mapovat na odpovídající koncepty tvořící
strukturu datových kostek v Data Cube Vocabulary– Usnadňuje tvorbu transformačních procesů v UnifiedViews
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 33
Ukázka zdrojových dat důchodové statistiky
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 34
Ukázka šablony pro export zdrojových dat
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 35
Postup transformace dat důchodové statistiky (ročenky) do RDF
Analýza zdrojových dat (XLS)
Tvorba šablon
Návrh datových kostek,
metadat, dokumentace
Tvorba ELT procesu v
UnifiedViews
Transformace dat
Verifikace datasetů a metadat
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 36
Děkuji za pozornost
Jan Kučerajan.kucera [at] vse.cz
Zdroje
• CYGANIAK, Richard a REYNOLDS, Dave, 2014. The RDF Data Cube Vocabulary. In: W3C [online]. 16 January 2014 [cit. 2016-11-11]. Dostupné z: http://www.w3.org/TR/2014/REC-vocab-data-cube-20140116/.
• Česká správa sociálního zabezpečení, 2013. Statistická ročenka z oblasti důchodového pojištění 2012. In: Česká správa sociálního zabezpečení [online]. [cit. 2016-11-11]. Dostupné z: http://www.cssz.cz/NR/rdonlyres/14F33E39-B858-4C93-BC13-3153EBB7099E/0/SR2012_WEB.pdf.
• HAUSENBLAS, Michael, KIM, James G., 2015. 5 star Open Data. In: 5 star Open Data [online]. Last updated: 2015-08-31 [cit. 2015-12-05]. Dostupné z: http://5stardata.info/.
• Open Knowledge, n.d. What is Open Data? In: Open Data Handbook [online]. [cit. 2016-11-03]. Dostupné z: http://opendatahandbook.org/guide/en/what-is-open-data/.
• ŠUNKA, Jiří, JANDOVÁ, Martina, NOVÁK, Marek, 2016. Publikace otevřených propojených dat v prostředí ČSSZ. In: NKÚ [online]. 19. 2. 2016 [cit. 2016-11-16]. Dostupné z: http://www.nku.cz/assets/konference-seminare/seminar-opendata-2016/4-sunka-novak-jandova-cssz.pdf.
23. 10. 2017 J. Kučera: Data důchodové statistiky jako LOD 38