17
1 Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

Embed Size (px)

Citation preview

Page 1: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

1

Strumenti e metodologie per la qualità dei dati

Luigi FabbrisUniversità di Padova

Comstat

Page 2: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

2

XI C

onferenza nazionale di statistica, 2013Outline

La qualità dei dati I nuovi contesti e le nuove tendenze nella

produzione di statistiche ufficiali La qualità dei dati traibili dai sistemi informativi

(le nuove anagrafi nazionali) Il ruolo dell’Istat – Sistan nel controllo della

qualità dei dati Il ruolo degli Uffici di Statistica nel controllo

della qualità dei dati di provenienza amministrativa

Alcune conclusioni

Page 3: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

3

XI C

onferenza nazionale di statistica, 2013La qualità dei dati ufficiali

Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009; Kenett & Shmueli, 2013):

Pertinenza (relevance): grado di concordanza tra il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle informazioni

Accuratezza: prossimità al valore veroTempestività: pubblicazione entro il tempo pre-

determinatoAccessibilità fisica e intellettuale (comprensibilità)Comparabilità nel tempo e tra domini di studioCoerenza tra misure del medesimo fenomeno

provenienti da diverse fonti e prodotte con metodi diversi

Errore di III tipo: prodotto corretto per l’obiettivo sbagliato

Errore di IV tipo: prodotto corretto, ma troppo in ritardo

Errore di I e II tipo

Page 4: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

4

XI C

onferenza nazionale di statistica, 2013

La qualità statistica dei dati ufficiali

Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009):

Pertinenza (relevance): grado di concordanza tra il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle informazioni

Attendibilità: prossimità al valore vero, funzione di: Precisione campionaria Accuratezza della rilevazione e dell’elaborazione dei

datiTempestività: pubblicazione entro il tempo pre-

determinatoAccessibilità fisica e intellettuale (comprensibilità)Comparabilità nel tempo e tra domini di studio e

coerenza tra misure del medesimo fenomeno provenienti da diverse fonti e prodotte con metodi diversi (“armonizzazione”)

Page 5: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

5

XI C

onferenza nazionale di statistica, 2013Il nuovo contesto

La tecnologia sta rendendo scambiabili le basi di dati locali e invita a costruire basi di dati nazionali:

Anagrafe nazionale della popolazione (delle famiglie)

Anagrafe nazionale delle abitazioni (numeri civici)

Anagrafe nazionale delle imprese (ASIA) Pertanto,

scompaiono i censimenti tradizionali e sono invece create ed alimentate nel continuo anagrafi nazionali (“censimenti continui”) per confluenza di quelle locali,

scompaiono molte indagini campionarie e cambia il ruolo delle indagini campionarie nel processo di formazione delle statistiche ufficiali

Assume un ruolo ancora più importante il controllo della qualità dei dati

Page 6: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

La confluenza delle anagrafi

This is a bias

This is a “hot point”

Page 7: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

7

Che cosa interessa allo statistico ufficiale?

La qualità media dell’acqua alla foce o lungo la pianura (la qualità delle statistiche tratte dall’anagrafe nazionale)?

La qualità dell’acqua dei singoli affluenti (la qualità delle statistiche a livello locale)?

Scoprire “hot point” inquinanti (le fonti locali i cui errori possono minare l’attendibilità delle statistiche nazionali)?

La presenza di coccodrilli nell’acqua stagnante (i rischi di distorsione nelle stime traibili dalle anagrafi nazionali, spesso causate da chi organizza le rilevazioni dei dati)?

SI

Forse

SI

SI

Page 8: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

Sistema di assicurazione qualità

Alla foce (Istat: indagini periodiche per la valutazione della qualità media uscente)

Alla sorgente (Sistan: un sistema di “chiuse” attraverso le quali passa/non passa l’acqua)

ISTAT(controllo periodico)

• Revisione metodologica

• Metadati e buone prassi

• Interventi sulle fonti locali?SISTAN

(auto-controllo,controllo su richiesta)

Page 9: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

9

XI C

onferenza nazionale di statistica, 2013

Il controllo continuo della qualità

Ente realizzatore: Istat, oppure COGIS, o ente terzo (v. UK)

Periodicità: ogni anno, oppure ogni due anni Obiettivi:

Valutazione della qualità di statistiche “di riferimento” in dati domini di studio

Controllo, a fini di miglioramento, del sistema di produzione delle statistiche nazionali

Campionamento: batch (lotti) di dati prodotti da fonti locali (es: comune, UdS) per stimare anche l’accuratezza locale, campionando più intensamente le fonti che, si ipotizza (in base ai dati noti), danno tassi d’errore più alti (“hot points”)

Page 10: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

10

XI C

onferenza nazionale di statistica, 2013

Il sistema di controllo locale

Gli Uffici di statistica, gangli del SISTAN, per essere funzionali al sistema di controllo, dovrebbero:

Essere pochi e di riconosciuta autorità, soprattutto nei confronti del sistema amministrativo di produzione dei dati (es: sistema periferico del Ministero dell’Interno, oppure CCIAA)

Essere in posizione tale da poter intercettare i flussi di dati locali e poter intervenire in tempi rapidi (es: province, grandi comuni, regioni)

Essere formati sul piano statistico e normativo (e relazionale), tanto da essere in grado di elaborare i dati che transitano dall’UdS, di comprenderne la qualità e di farla comprendere

Sentirsi parte del Sistema statistico nazionale

Page 11: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

11

XI C

onferenza nazionale di statistica, 2013

I metadati Sono dati di quadro sul metodo e sui tempi di

produzione dei dati, compreso il questionario, sui metodi di controllo ed analisi dei dati e sull’esito della verifica della qualità dei dati, comprese indicazioni sulla loro utilizzabilità

L’Eurostat (Pellegrino, 2006) ha posto in essere il sistema SDMX standardizzato, a valenza europea, per l’accesso a file di metadati generali (es: Transparency of practices, Accessibility, etc.)

Un sistema di metadati è il cuore di un sistema nazionale di formazione dei dati; va alimentato con gli esiti del controllo della qualità e con le relative riflessioni in termini di buone pratiche

Page 12: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

12

XI C

onferenza nazionale di statistica, 2013

La formazione delle fonti dei dati

Formazione di carattere metodologico generale sulle rilevazioni statistiche e sul tipo e conseguenza degli errori nei dati

Lavoro condiviso sui propri dati: dalla pratica di analisi dei dati e dalla costruzione di indicatori e di report nasce formazione on the job efficace; dalla collaborazione all’attività degli amministrativi produttori dei dati si corrobora la consapevolezza della qualità e dei problemi che pone la formazione del dato

Review (self, peer, user); peer review: forme di valutazione reciproche tra produttori di dati; user review: sistema di raccolta delle osservazioni sui dati da parte degli utenti

Applicare il manuale di metadati, le buone pratiche

Page 13: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

13

XI C

onferenza nazionale di statistica, 2013La diffusione delle informazioni sulla qualità

Interna al sistema: il sistema deve mantenere la sua credibilità complessiva

Forma sintetica: Indicatori di qualità, da valutare in serie storica, con interesse preminente per le cause degli errori, per i processi più vulnerabili e per i prodotti più a rischio

Gestione dei metadati (v. FBI, http://www.fbi.gov/about-us/cjis/ucr/data_quality_guidelines) finalizzata al raggiungimento di buone pratiche (insieme di coerenze e di ammissibilità, standard metodologici, …)

Periodicità: 3-5 anni

Page 14: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

14

XI C

onferenza nazionale di statistica, 2013

Problemi del sistema di controllo

1. L’integrazione tra fonti di origine amministrativa permette di scoprire incoerenze (inconsistency) tra dati. Altri errori si scoprono in base alla incoerenza o alla inammissibilità probabilistica tra variabili diverse dello stesso o di altri archivi. Come si utilizzano incoerenze e inammissibilità? Eventualmente a livello locale?

2. Il sistema di controllo ex-post non permette la valutazione della completezza della rilevazione. L’integrazione tra fonti può, invece, portare alla scoperta di incompletezze. Come si utilizza l’informazione sull’incompletezza?

3. Che fare dei lotti con tanti errori?4. La scoperta di errori si può tradurre in metadati

(“warning”). Come si può tradurre in suggerimenti per buone pratiche?

Page 15: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

15

XI C

onferenza nazionale di statistica, 2013

Risorse necessarie

Il minor costo del procacciamento dei dati ha liberato risorse. Tuttavia, la qualità costa, va messa a bilancio.

Il controllo della qualità richiede indagini interne (svolte dall’Istat stesso o da un ente esterno)

La verifica interna dei possibili errori nei dati (microdati, batch di dati) richiede tempo e impegno del personale dedicato, anche se diventasse attività di routine degli UdS

Page 16: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

16

XI C

onferenza nazionale di statistica, 2013Concludendo….

La qualità dei dati è, e ancor più sarà, uno degli impegni principali dei produttori di dati, come conseguenza del nuovo quadro tecnologico e normativo di produzione di grandi basi di dati statistici a livello nazionale

I sistemi di controllo della qualità sviluppati da organismi statistici internazionali e nazionali di vari paesi, anche in ottemperanza a norme ISO 9000 e ISO 20252, mirano a sviluppare, armonizzare e rendere trasparenti i processi, non si interessano ai prodotti

Per sviluppare un sistema italiano di controllo della qualità dei dati ufficiali è necessario coinvolgere e attrezzare il Sistan

Molte aree rimangono da sviluppare sul piano metodologico se si vuole mettere in piedi un sistema specifico

Page 17: Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat

Ringrazioper l’attenzione