28
La natura della informazione statistica 11

La natura della informazione statistica

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

La natura dellainformazionestatistica

11

Data Science – Big Data - Datanomics

12

• I dati «esistono».. Basta andare a cercarli .. E raccoglierli, anzi estrarli. È proprio così?

• I dati sono informazioni? Basta «leggere» i dati per saperli interpretare.. Ma cosa vuol dire leggere e interpretare?

• I dati sono statistiche? Occorre pertanto dirci cosa sono le statistiche e cosa è la statistica

• I dati oggi alimentano e «governano» diversi processi e meccanismi sociali: sia nell’ambito del settore pubblico che del settore privato;

• La digitalizzazione rende ancora più fluido e accelerato il processo di produzione dei dati ampliandone la quantità ma non sempre altrettanto la qualità;

• La diffusione degli «algoritmi» e dei processi di automazione e di Intelligenza Artificiale contribuisce a strutturare processi di trattamento ed elaborazione dei dati: la statistica diventa «machine learning»;

• I dati stessi diventano una «merce» di scambio fondamentale e preziosa, costituiscono un mercato che si muove tra la normativa di tutela delle riservatezza dei dati (Privacy) e quella della massima trasparenza (Open Governement).

L’acquisizione dei dati: raccolti, estratti, prodotti… comune mai «dati» ma sempre «presi»!

13

Rilevazioni dirette

• Censimenti• Indagini• Sondaggi• …

Fonti statistiche

• Statistiche ufficiali

• Altri fonti non ufficiali

Dati non strutturati

• Dati amministrativi, non originati da finalità statistiche

• Dati non strutturati relativi ad una pluralità di formati (documenti, file audio o video..)

14

Dati

Prodotti statisticamente

Riferiti a tutto il collettivo

(popolazione)

Riferiti ad una selezione della popolazione:

il campione

Campione selezionato (estratto) con metodo

probabilistico

Campioni ripetuti nel tempo

Campione selezionato in modo

ragionato

Forme miste di campionamento

AutoselezioniCampioni di convenienza

Raccolti e utilizzati a fini statistici

Aggregati in collettivi trattati come popolazioni o

campioni

Non utilizzabili a fini statistici

15

«Cattura» delle informazioni• In modo diretto• In modo indiretto

Traduzione delle informazioni• Formati logici• Formati numerici

e matematici

Conservazione e utilizzo• Archivi e

pubblicazioni• Archivi elettronici• Web

DIGITALIZZAZIONE

16

dati

Dai casi…

informazioni

…alle variabili

A

B

C

D

F

E

M1 M2 … Mk

A

B

C

D

E

F

• In un’analisi statistica l’interesse per la conoscenza delle unità elementari (i casi o osservazioni ) diventa meno interessante (rimane il valore del «profilo» ossia delle insieme di misure specifiche della singola informazione)

• per dare spazio all’interesse per la dimensione di analisi rappresentata dalla variabile attraverso l’informazione che essa offre tramite la distribuzione nelle unità, ognuna delle quali mostra un valore di tale variabile (modalità)

PROFILO DI B rispetto ai valori di ciascuna Mk

Distribuzione di M1

rispetto alle unità

17

M1 M2 … MkA

B

C

D

E

F

La «matrice dei dati» : oggetto base di ogni analisi statistica

Aumentare il numero di variabili migliorare le informazioni sui casi contribuendo ad una loro più precisa identificazione e classificazione…. Ma…richiede più informazioni…

Aumentare il numero dei casi contribuisce alla «consistenza» del supporto ma induce una maggiore eterogeneità

18

età altezza … residenza

Anna 19 175 … Palermo

Antonio 19 184 … Palermo

Maria 20 180 .. Trapani

… … … … …

Tullio 20 188 … Agrigento

Veronica 19 185 Alcamo

Vediamo un esempio: se io volessi descrivere per conoscere statisticamente la nostra aula potrei agire nelle due direzioni:

Aumentare il numero di variabili migliora la conoscenza di ogni studente sino (al limite!) ad individuare ciascuno precisamente: ciò spiega per esempio perché in ogni strumento di misura tendiamo ad aumentare il numero delle domande (item).. Ma aumentare le variabili migliora la conoscenza? (teoria della domanda marginale)Posso

scegliere di selezionare un gruppo per conoscere tuti, ma devo chiedermi quanto tale gruppo sia rappresentativo di tutta la classe… Consultare tutta la classe tuttavia può essere oneroso (ci vuole molto tempo, devo trovare tutti, costi….)

La conoscenza statistica:approcci e prospettive di metodo

• Riferimento ad un SUPPORTO aggregato e collettivo, totale o parziale.• Una volta costituita tale supporto può essere studiato in sé (analisi

descrittiva) oppure in relazione ad un referente superiore (universo) identificabile almeno teoricamente (analisi inferenziale o INFERENZA)• Rappresentazione dei fenomeni nella loro intrinseca eterogeneità o

VARIABILITÀ;• Ricerca di schemi di riduzione della complessità e di SINTESI: esistono

diversi percorsi di riduzione sia dal punto di vista della aggregazione delle unità (raggruppamento o classificazione) sia dal punto di vista delle variabili (tecniche fattoriali e studio delle connessioni).

19

Dati, approccio empirico e metodo scientifico

20

Informazioni

Statistiche

DatiConoscenza

Scientifica

Modellazione & Misurazione

Evidenza empirica

Il pensiero statistico: Melchiorre Gioia e la filosofia della Statistica

21

La filosofia dellastatistica è la cognizioneragionata delle normegenerali per ricercare, delle fonti a cui attingere, de’ sintomiper riconoscere, de’ principi per giudicare, degli usi a cui servonogli elementi allo statodelle nazioni

È la «cognizione ragionata delle norme generali per ricercare»

• La statistica è una scienza che ha un metodo (anzi ne ha tantissimi)… non è un metodo.• L’esigenza di conoscere statisticamente è antica: i censimenti dei sumeri e degli

egiziani. In principio era «il contare»…• Essa si fonda sul bisogno di descrivere qualità e quantità di universi e

popolazioni, ossia di avere una visione aggregata dei fenomeni.• L’utilizzo di collettivi statistici induce una ricerca di sintesi adeguate che

forniscano tendenze e comportamenti medi: lo sviluppo del metodo scientifico e l’empirismo positivista hanno dato un grande impulso a tale approccio basato sulla ricorrenza (incidenza, frequenza) di fatti e fenomeni fisici o sociali. Le «regolarità empiriche» assumono un valore «morale».

22

…delle fonti a cui attingere…

• La Statistica ha una finalità conoscitiva, di organizzazione di dati e informazioni la cui veridicità dipende dal «soggetto» che le produce, le detiene, le diffonde o pubblica: • Per questo nel tempo la funzione statistica è un importante compito degli Stati,

particolarmente di quelli moderni dove nascono sistemi democratici e repubblicani, laddove il potere viene dal popolo e non dalla divinità.

• Un processo di progressiva integrazione e armonizzazione: i sistemi statistici.• Criteri di qualità per i «dati» statistici sempre più rilevanti nella Data-crazia dove

i dati vanno sempre meno «cercati» e sempre più «estratti»

23

…de’ principi per giudicare…

• La statistica offre supporti informativi (campioni, indicatori, rapporti o indici…) per valutare ossia esprimere un giudizio su ipotesi (teoriche) da validare empiricamente sui dati• La statistica da descrittiva diviene inferenziale, utilizza la matematica e la

probabilità come linguaggio formale che aiuta progressivamente la statistica alla luce del metodo scientifico (il disegno sperimentale)

• La statistica è supporto della valutazione: dello sviluppo economico, dei problemi sociali, delle politiche pubbliche…

24

…degli usi a cui servono gli elementi allo stato delle nazioni.• La statistica è utile, serve ad agire con consapevolezza: nella vita

quotidiana, nella formazione del consenso elettorale, nelle scelte aziendali dell’impresa, nelle previsioni degli scenari macro economici dei governi.• La connessione tra statistica e «prosperità pubblica» (Gioia parla di

«incivilimento») che oggi chiamiamo in tanti modi «progresso» «sviluppo sostenibile» «benessere»…

25

Dati primari e dati secondari

• I dati statistici se sono rilevati direttamente e specificatamente vengono detti primari, altrimenti sono detti secondari.• I dati secondari sono rilevati da soggetti professionalmente

riconosciuti possono essere ufficiali o non ufficiali a seconda che derivino da fonti statistiche istituzionalmente dedicata alla produzione di statistiche pubbliche: i sistemi della statistica ufficiale (in Italia il SISTAN e l’ISTAT).

26

In sintesi: La rilevazione dei dati statistici

• I dati sono «prodotti»: lo schema di progettazione di una rilevazione viene detto «disegno» e riguarda i seguenti punti:

• Oggetto della rilevazione: cosa vogliamo conoscere attraverso i dati• Identificazione del collettivo e delle unità di rilevazioni (unità statistiche)• Adozione di uno strumento di misura e delle modalità di rilevazione• Organizzazione della rilevazione ed eventuale formazione dei rilevatori• Raccolta dei dati e controllo di qualità (presenza di errori c.d. non campionari)• Organizzazione dei dati ed elaborazione dell’informazione• Report finale di ricerca con note metodologiche, meta-informazioni e dati originari

27

Dati strutturati o non strutturati

• Nella società dell’informazione, i dati a nostra disposizione sono cresciuti per qualità e quantità.• Si parla di Big Data, facendo riferimento a dati che hanno un enorme volume

(tantissime osservazioni), una grande varietà (tantissime dimensioni o variabili), facilmente reperibili e accessibili ossia disponibili ad una grande velocità e aderenti alla realtà secondo un alto gradi accuratezza e veridicità.• Ci sono tanti tipi di dati che emergono da processi sociali o procedure

amministrative che sono detti non strutturati (immagini, foto, informazioni su opinioni o gradimenti tratte dai social…) .• I dati strutturati sono invece caratterizzati per la loro organizzazione statistica e

per il loro corredo di meta-informazione (definizioni, classificazioni, elaborazioni).

28

Dati accessibili o «aperti» (Open data)

• Uno dei requisiti importanti della qualità di un dato è la sua facile reperibilità o accessibilità.• La diffusione del web ha moltiplicato notevolmente questa possibilità,

pertanto si è definito il concetto di «dato aperto» commisurato all’attitudine del dato di essere facilmente reperibile e trasferibile.• Soprattutto nell’abito delle pubbliche amministrazioni si è diffusa questa

pratica di fornire dati accessibili a tutti per un esercizio più universale e diffuso del controllo e della valutazione tipico delle società democratiche.

29

Tecnologie digitali, informatica e statistica

• Lo sviluppo delle tecnologie informatiche nell’era digitale ha accresciuto la dotazione di informazioni.• In questo tempo – definito da alcuni come «diluvio informazionale» – il

problema non è disporre di dati ma avere «criteri» per la loro selezione e interpretazione.• La statistica diventa ancora più rilevante nella fase di analisi ed

elaborazione, nello studio delle connessioni e relazioni nonché dei modelli che permettono di estrarre informazione, identificando nessi di causalità dalla variabilità congiunta di numerose variabili.• Il trattamento della variabilità statistica è l’oggetto della statistica

moderna.30

Dalle statistiche ai Sistemi di Statistica: l’offerta diventa “globale

• Armonizzazione e Integrazione per favorire comparabilità• Sistemi ufficiali per assicurare continuità, tempestività e attendibilità• Comunità scientifiche per verificare rigore, rilevanza, accuratezza e

robustezza.• La rivoluzione informatica e quella digitale per accessibilità e

disponibilità.

31

Qualità dei dati: principi e dimensioni• Quality of statistics is defined by Eurostat with

reference to the following six criteria: 1. Relevance;2. Accuracy;3. timeliness and punctuality;4. accessibility and clarity;5. Comparability;6. Coherence.

32https://ec.europa.eu/eurostat/documents/64157/4373735/02-ESS-quality-definition.pdf

Collezioni di dati

• Matrici di dati

• Array ossia matrici multidimensionali (tre o più dimensioni)

• Sistemi informativi statistici (dati e metadati insieme)

• OLAP (On-Line Analytical Processing)

• DataWareHouse

33

La Meta-Informazione• Metadati ovvero informazioni o attributi che descrivono i dati per

facilitarne l’individuazione e la comprensione

• Esempio: gli indici di catalogazione di una biblioteca.

34

•Definizioni è GLOSSARIO•Classificazioni•Metodi

https://www.istat.it/it/metodi-e-strumenti

Il sistema dell’informazione statistica• Un sistema di collegamento tra soggetti produttori, in una logica di coordinamento

amministrativo, ma anche scientifico e metodologico: il SISTAN• Il portale Istat https://www.istat.it/it/

• L’organizzazione della statistica ufficiale a livello internazionale • https://www.unric.org/it/informazioni-generali-sullonu/34• https://ec.europa.eu/eurostat/web/links/international-organisations

• Il sistema comunitario: Eurostat• https://ec.europa.eu/eurostat/web/european-statistical-system/overview

• I principi (tra cui la qualità dei dati)

• Obbligo e segreto statistico (tutela della Privacy)35

Altre informazioni statistiche non ufficiali

• Ci sono ulteriori fonti, non ufficiali ossia non appartenenti al sistema ufficiale della organizzazione statistica, ma che contribuiscono a partire dalla esperienza/competenza di comunità scientifiche o organizzazioni di volontariato e/o Non profit:

• Criteri: Affidabilità/Reputazione – Trasparenza - Completezza

36

Lezione 1. Concetti ChiaveLa natura dell’informazione statistica

• La conoscenza statistica e il nuovo empirismo• Dati, statistiche, informazioni• Il disegno dell’indagine• Collettivo: Popolazione e Campione• La funzione sociale della Statistica: la statistica ufficiale• Fonti statistiche• Banche dati, Datawarehouse, Sistemi informativi, Cruscotti• Big Data, Open data: estrarre informazione dal web• Qualità dei dati• Meta-informazione

37

Gli argomenti della lezione potranno essere approfonditi come segue:

38

Mecatti Di Ciaccio - Borra Agresti - Franklin

Capitoli 1, 2 e 3 Capitolo 1 Capitolo 1