Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
27 - 28 października 2018
Społecznościowa Walidacja Danych
Nasz Zespół i Pomysł
Społecznościowa Walidacja Danych
Krystian IgrasData Scientist
Michał MajData Scientist
Paweł PrzytułaTech Lead & Data Engineer
Czym się zajmujemyw Appsilon Data Science
RETAIL & ECOMMERCEFINANCE & INSURANCE LOGISTICS, MARITIME AND AIR (TRANSPORTATION)
HEALTHCARE REALESTATE PUBLIC
Dane Modele Dashboardy
Kaggle: The State of Data Science & Machine Learning (2017)Co jest największym problemem w pracy data science?
Poziom otwartości danych
≠ Poprawność danych
Reguły walidujące format to nie wszystko
● Czy struktura danych jest zgodna z oczekiwaniem?● Czy każdy rekord zawiera oczekiwane parametry?● Czy mamy duplikaty i czy mają one sens?● Czy typ parametru się zgadza?
○ Liczba, ciąg znaków, wartość logiczna○ Jaki jest separator dziesiętny?
● Czy format parametru się zgadza?○ Czy mamy poprawne adresy e-mail?○ Czy data jest w formacie YYYY-MM-DD?○ Czy kod pocztowy jest w formacie 00-000?○ Czy kod kraju jest poprawnym w formacie?
● ...
Reguły jakościowe to też jeszcze nie wszystko
● Czy cena to wartość nieujemna?● Czy wiek mieści się w przedziale 0 - 125?● Czy status pojazdu przyjmuje tylko wartości “RUNNING” i “FINISHED”?● Czy mogą być wartości NA / null / puste i co one oznaczają?● Wiele wartości opisujących to samo
○ NEW YORK○ Nowy Jork○ NYC
● ...
Reguły eksperckie
Case Study:
● Maszyna raportuje każdego dnia swój czas i miejsce pracy● W danych widać następujące rekordy:
○ 2018-10-26, Maszyna nr 10, 1h, Warszawa○ 2018-10-27, Maszyna nr 10, 2h, Kraków○ 2018-10-28, Maszyna nr 10, 1h, Warszawa○ 2018-10-29, Maszyna nr 10, 3h, Kraków○ 2018-10-30, Maszyna nr 10, 1h, Warszawa
Ekspert: Maszyna nie może teleportować się z miasta do miasta!
Reguły weryfikujące inne źródła
● Czy zbiory danych z Urzędów Skarbowych nt. wpływów z VAT pokrywają się ze zbiorem danych z Ministerstwa Finansów?
● Czy dane w czasie rzeczywistym o lokalizacjach tramwajów w Warszawie pokrywają się z danymi ZTM o stanie taboru?
Użytkownicy danych najlepiej wiedzą co trzeba usprawnić
Proces który rekomendujemy
SpołecznośćKod walidujący
dane
Mechanizm uruchamiający
walidacje
Zbiory danych mają zaktualizowany status
poprawności
Weryfikacja proponowanych walidacji przez Administratora
Dane.gov.pl
Batch Job
DEMO
- Ten system już działa u klientów Appsilon (zamiast społeczności, reguły dodają zespoły analityków)
- Oddajemy weryfikację danych w ręce Społeczności. Jest to win-win ponieważ Dane.gov.pl otrzymuje cenne źródło informacji zwrotnej, a Społeczność czuje że ma realny wpływ na jakość danych
- Dane można walidować tak samo jak buduje się OpenSource: nowe walidacje można proponować przez t.zw. Pull Requesty
- Walidujemy dowolny typ danych: CSV, JSON, XML, bazy relacyjne, YML, ...
Nasze argumenty
- Nie odkrywamy koła na nowo. Github jest sprawdzoną platformą. Uwagi zgłaszane do danych łatwo indeksują się w Google, można uczestniczyć w dyskusji oraz głosować na najważniejsze problemy.
- Bezpieczeństwo: dane.gov.pl cały czas ma kontrolę jak dane są walidowane
- Walidacje danych są jak testy jednostkowe kodu (unittests). Dokumentują to co możemy założyć o zbiorze precyzyjniej niż tekstowa dokumentacja.
- Realistyczne do wdrożenia stopniowo, a efekty mogą być odczuwalne od razu
appsilon.com
Pakiet do walidacji:https://github.com/Appsilon/assertr
Walidacje:https://github.com/Appsilon/dane.gov.pl