29
DECIMA CONFERENZA NAZIONALE DI STATISTICA Un “diluvio di dati”: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze Statistiche- Università di Bologna [email protected]

DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Embed Size (px)

Citation preview

Page 1: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

DECIMA CONFERENZA NAZIONALE DI STATISTICA

Un “diluvio di dati”: una nuova sfida

per la qualità delle statistiche

Carlo FilippucciDipartimento di Scienze Statistiche-Università

di [email protected]

Page 2: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Il contesto

• Vicenda sociale connotata da: articolazione e da interrelazioni crescenti; aumento eterogeneità degli agenti sociali; turbolenza delle dinamiche

• Le necessità conoscitive che la statistica ufficiale deve soddisfare più ampie, articolate perché riferite a fenomeni nuovi, più complessi e diversificati.

• Difficoltà - del Sistan - a cogliere esigenze e

domanda utilizzatori

Page 3: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

il contesto

• Difficoltà del Sistan

1.Debolezza della funzione statistica e della governance delle infrastrutture statistiche

2.Difficoltà ad affrontare le esigenze di uno stato fondato su una articolazione regionale

3.Eterogeneità di soluzioni locali

Page 4: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Qualche novità nell’informazione :Qualche novità nell’informazione : il diluvio

Sovrabbondanza di informazioni in larga parte di origine amministrativa –

gestionale

• Inimmaginabile e crescente disponibilità di informazioni in formato elettronico

• Sempre maggiore numero di enti e soggetti privati che raccolgono, conservano, elaborano informazioni

pervasiva “industrial revolution of data”

Page 5: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Qualche novità nell’informazione :Qualche novità nell’informazione : in principio oggi in futuro

Disponibilità e Utilizzo Fonti Amministrative e della PA

- basi dati fiscali, previdenziali, assicurative, - bilanci enti pubblici - Basi dati sanità - Basi dati ambientali……

Progressiva estensione a molti fenomeni

Utilizzo sempre più esteso da parte di Istat, di molti enti ed ai livelli territoriali più piccoli

Page 6: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Qualche novità nell’informazione :Qualche novità nell’informazione : oggi e in futuro

Presenza di un numero sempre più ampio di soggetti indipendenti che raccolgono dati:

Qualche esempio• Distribuzione commerciale: Wall Mart: 1

mln di transazioni al giorno = 2,5 petabytes (1 mln di GB)

• Basi dati clienti, banche /finanziarie

…. costruiscono indicatori e fanno analisi, producono trend macroeconomici, previsioni, analisi dei rischi

• Oracle, IBM, Microsoft: 15 miliardi di $ acquisto software per gestione di dati e database

Page 7: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Qualche novità nell’informazione :Qualche novità nell’informazione : oggi e in futuro cnt.

La rivoluzione del web 2.0• Il web diventa uno strumento per riunire i

piccoli contributi di milioni di persone e migliorarli.

• Piattaforma aperta che aumenta il libero flusso di informazione, arricchisce gli strumenti per il confronto politico e sociale ed amplia la diversità di opinioni.

• Il Contenuto Creato dall’Utente cambia il modo in cui gli utilizzatori producono, distribuiscono, accedono e riusano l’informazione.

Page 8: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Qualche novità nell’informazione:Qualche novità nell’informazione: i vantaggi

Sul piano sostanziale:• Individuare, esplorare nuove problematiche

arricchendo il quadro macro• Svelare nuovi punti di vista, approfondire e

ampliare conoscenze specie sui comportamenti individuali e locali

• Favorire analisi e politiche microeconomiche

Per la statistica : nuovi agguerriti competitorscompetitors

Annotazione in margine: le rivoluzioni scientifiche sono state spesso precedute da quelle nei metodi di misura e osservazione

Page 9: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Qualche novità nell’informazione: Qualche novità nell’informazione: i problemi

Ma anche …Numerose e crescenti disponibilità ed

utilizzazioni di basi di dati da parte di svariati soggetti

• scoordinate, • occasionali, • metodologie differenziate, • scarsa attenzione alla qualità fonti

Condizionamento rischio di appiattirsi sulle informazioni

disponibili

Page 10: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Qualche novità nell’informazione : Qualche novità nell’informazione : Che fare ?

Distinguiamo:–Fonti di origine burocratica e

amministrativa - tipicamente (PA ed enti collegati)

–Altre fonti gestionali

Page 11: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Altre fonti gestionali : Altre fonti gestionali : Che fare cnt.

Queste “fonti” avranno -e già hanno- un impatto rilevante nel Paese e su come le

statistiche sono percepite e usate

• Le Statistiche ufficiali possono utilizzare queste “fonti”? E’ una grande sfida, ma anche una grande opportunita‘ che richiede nuove strategie per il sistema statistico (che cosa, come, chi, con quali strumenti, quali tecniche)

• La statistica ufficiale può/deve interagire e come?

Page 12: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Altre fonti gestionali : Altre fonti gestionali : un commento

Le statistiche ufficiali sono beni pubblici irrinunciabili e i sistemi

statistici nazionali devono costituire il nucleo fondamentale

della conoscenza statisticama

oggi bisogna affrontare la sfidaposta dalla nuova dimensione

della informazione

Page 13: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Altre fonti gestionali : Altre fonti gestionali : Che fare cnt.

• Vigilanza e denuncia: un’Autority anche per la “statistica” privata

• Codice etico per la “statistica” privata

• Guidelines per l’utilizzo a fini statistici dei dati (tecniche, metodi, best practices)

• Accreditamento delle fonti “bollino qualità”

Page 14: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Altre fonti gestionali : Altre fonti gestionali : Che fare cnt.

Ma anche:

• Nuove dimensioni qualità fontifonti: Legittimità, Autorevolezza, Credibilità, Trasparenza

dimensioni qualità indicatori

• Criteri per definirle e misurarle

Page 15: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Altre fonti gestionali : Altre fonti gestionali : nuove dimensioni della qualità

• Legittimità: conformità della fonte ad un “codice etico” relativo alle modalità di raccolta delle informazioni

• Autorevolezza: prestigio del produttore della fonte da valutare secondo vari parametri

• Credibilità-attendibilità: esistenza di requisiti che assicurino il rispetto di metodi e prassi della rilevazione di dati

• Trasparenza: disponibilità metadati

Page 16: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Fonti amministrative

Utilizzo a fini statistici - richiede ancora lavoro e metodi (Nordbotten,

2008)

l’Istat e il sistema statistico nazionale hanno un ruolo primario da svolgere

in particolare per orientare gli utilizzatori e su come validare una

fonte statistica

Page 17: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Fonti amministrative - Le Sfide

• Contribuire al disegno-architettura delle FA

• Delineare protocolli normativi e procedurali

per accesso e condivisione delle fonti

• Introdurre la valutazione dei costi uso FA e analisi ciclo di vita FA - modelli

• Framework e metodi di integrazione indagini e FA - dettaglio territoriale, settoriale

Page 18: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Fonti amministrative – un quadro normativo

Esistono serie barriere all’uso FA- da identificare e superare

• Accesso e utilizzo FA – modelli di accordo e norme generali

• Politiche in supporto ad accesso –informatico- e uso FA

• Sicurezza- privacy– consenso informato, vincoli- confidentiality– accesso solo a chi è autorizzato (chi, come)- responsabilità- penalità per la violazione

Page 19: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Fonti amministrative - La sfida della qualità cnt.

• Definire criteri e metodi per assicurare e controllare la qualità delle fonti e un loro corretto utilizzo a fini statistici

Qualche avvertenza:• Non si può affidare ai soli detentori FA il

controllo di qualità• il CQ non deve essere solo interno alla

fonte ma basato anche su verifiche esterne

attenzione a strategie empiriche che non sono conclusive e limitate alle occasioni

considerate (p.e.:dati fiscali e da indagine possono combaciare per somma algebrica

di errori diversi)

Fonti amministrative: la sfida della qualità

Page 20: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Fonti amministrative: sulla qualità in particolare

Quali categorie della qualità?Letteratura scarsa (Grünewald Körner, 2005, Statistics

Finland, 2004; Wallgren Wallgren, 2007; ESS, 2009)

• Qualità ente: legittimità, autorevolezza, credibilità, trasparenza – vedi sopra

• Qualità processo• Qualità informazione: pertinenza,

affidabilità, accessibilità, tempestività-puntualità, coerenza, continuità-stabilità

Modelli per la qualità dei dati

Riferimenti utili: European Foundation for Quality Management exellence model; European statistical code of practice

Page 21: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Qualità del processo

• Ambiente in cui il processo ha luogo: indipendenza, professionalità, risorse, imparzialità, obbiettività

• Conduzione delle fasi di raccolta informazione: adeguatezza metodi e procedure di raccolta e controllo

Metodi di gestione del controllo del processo e miglioramento continuo

Page 22: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Qualità informazione• Pertinenza: corrispondenza tra i

bisogni informativi e definizioni statistiche e FA

• Affidabilità: esistenza e mantenimento di standard secondo linee stabilite - aderenza alla realtà

• Accuratezza: correttezza dell’informazione-errori non campionari

• Tempestività : distanza tra disponibilità ed eventi

• Puntualità: lag tra rilascio e riferimento eventi

Page 23: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Qualità informazione cnt.

• Accessibilità: condizioni e modalità di utilizzo (disseminazione adeguata, accesso, documentazione – metadati).

• Coerenza: informazioni mutualmente consistenti e integrabili

• Comparabilità: consistenza temporale, spaziale, per i domini rilevanti

Page 24: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Errori

Quali errori considerare?

Errori misura e errori rappresentazione

• Documentare, calcolare, trattare gli errori e … rimuoverli

• Linee guida e metodologie

• Modelli dell’errore totale – Census Bureau USA

Page 25: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Errori di misura

i) Dovuti allo strumento di misura, ai soggetti coinvolti

ii) Dovuti al processo derivanti da:- trattamento dei dati in seguito ai controlli in fase di acquisizione informazione,- trasformazione delle variabili FA in variabili statistiche e codifiche- applicazione di specifiche regole di correzione e trattamento in sede di utilizzo statistico

Page 26: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Errori di misura cnt.

iii) Dovuti alla diversa “qualità” e modalità di registrazione eventi raccolti in una fonte Diversa qualità delle variabili a causa della maggiore attenzione produttore alle variabili rilevanti per ente stesso - insorge per l’utilizzo di strategie e metodi diversi per controllare le variabili

iv) Dovuti al riferimento temporale delle registrazioniGli eventi sono registrati in tempi diversi al loro verificarsi - si genera un problema è simile a quello delle risposte proxy

Page 27: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Errori di rappresentazione

Errori di copertura (né censimenti né campioni)cutt-off, autoselezione: stima model-based

(Filippucci Drudi, 2000; Filippucci Bernardini, 2000; Thomsen Chang, 2008)

Errori di Linking: link mancanti (quale è il processo generatore della MRT);link errati (Fellegi & Sunter, 1969; Arts, Bakker & Van Lith, 2000)

Errori di correzione Se non si può ottenere un link completo tra

archivi e si ricorre a riponderazioni dei registri abbinati questo può portare ad errori se i modelli di riponderazione non sono adeguati

Page 28: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Dalla misura a posteriori al controllo del processo

• Essenziale riconoscere gli errori, documentarli, ma soprattutto esserne avvertiti e trattarli, chiarendo le conseguenze del trattamento

• In pratica è difficile documentare e misurare gli errori, dipende dalla sensibilità e attenzione dei gestori degli archivi – da sviluppare

• Il trattamento dell’errore è complesso perché è un’attività a posteriori e non assicura contro nuovi errori in una successiva occasione.

• Occorre passare dalla misura a posteriori dell’errore al controllo e al miglioramento continuo del processo di produzione

Page 29: DECIMA CONFERENZA NAZIONALE DI STATISTICA Un diluvio di dati: una nuova sfida per la qualità delle statistiche Carlo Filippucci Dipartimento di Scienze

Per concludere

• L’uso delle FA e una loro integrazione nei sistemi statistici non è una scappatoia semplice nella produzione di una informazione statistica moderna, articolata e diffusa sul territorio

• L’uso statistico delle FA non è a costo zero

Analisi costi beneficiRicerca teorica ed applicata

Criteri Metodologie e standard condivisiCollaborazione tra enti

Ruolo più efficace del Sistan