19
Open data e data science Dati per capire e comunicare 11 Febbraio 2017 Ghirardi Nicola Master “Web communication e social media”

Dati per capire: esplorazione

Embed Size (px)

Citation preview

Open data e data scienceDati per capire e comunicare

11 Febbraio 2017Ghirardi Nicola

Master “Web communication e social media”

Intervista ai dati:Descrizione del dataset

Dove li ho trovati?

Chi li ha collezionati? Chi è il proprietario?

Come sono stati collezionati: è un campione?

Come sono distribuiti: in che forma (dati, grafici, tabelle, testo)?

con che licenza (cosa posso farci)?

Perchè sono stati originariamente collezionati?

Quando sono stati collezionati? A quale periodo si riferiscono ? (cosa stava succedendo?)

Cosa descrivono? Per cosa sono aggregati? (Oggetto)

Analisi argomento

Interesse per pubblico:

Angolo comune di descrivere quel fenomeno?

Qual’è l’opinione comune?

Come viene trattato l’argomento normalmente?

A quali domande sull’argomento vorrei rispondere?

Quali sono le domande a cui potrebbe rispondere il dataset? Quali altre domande fa nascere (si ma..)?

Esplorazione dati

Singola variabile

Aperturadataset

● File -> Import ->upload● Settare il delimitatore corretto● Non trasformare in campi numerici

automaticamente● Copiare i dati in un altro foglio (per lasciare

l’originale accessibile)● Impostazioni per migliore visibilità

○ Nascondere colonne non interessanti

○ Ridimensionare colonne (doppio click su bordo in alto)

○ Altro

● Impostare i tipi di dato corretti○ Secondo gruppo di icone nel menu

Tutorial google sheet

Analisitipi di variabili

Continue (numeriche)

Categorie

Tempo

Geografiche

Testo (libero)

Pulizia dei dati

● Importazione corretta (e.g. formato dati)● Rimuovere metadati dal foglio principale● Togliere unità di misura e uniformare● Valori mancanti

○ CountBlank○ IsBlank e conditional formatting

● Filtrare dati (e.g. totali)○ Selezionare colonna○ Filtra da menu data o da icona

imbuto● Normalizzare dati (da matrice a colonna,

unpivot)○ Excel○ Not easy with Sheet

Variabili numeriche:Statistiche riassuntive

● Ordinare (classifica)○ Selezionare tutto (all’intersezione tra righe e colonne)

○ Tasto destro - sort range (o menu data)

○ Check”dati con intestazione”

○ Selezione colonna e orientamento

○ Attenzione! Senza selezionare tutti i dati, le righe non

avranno più senso

● Media e mediana○ Avarage

○ Median (valore che ha lo stesso numero di misurazioni

meaggiori e minori)

● La trappola della media (e della generalizzazione)

● Distribuzioni: Istogramma○ Formato dati (numeri)

○ Aggiungi grafico a barre (google sheet)

○ Manuale con LibreOffice (usando frequency)

Distribuzioni e outliers

Errori di data entry

Errori di misura

Errori sperimentali

Errori di processamento

o

Outlier naturali

Strumenti di esplorazione dei dati

Fogli di calcolo: Google Sheet, Excel, LibreOffice

Strumenti di reportistica: Tableau, PowerBI, ...

Strumenti di programmazione: R, Python

Databases: SQL

Variabili categoriche (conteggi)

● Conteggi○ Totale (righe)

● Conteggio raggruppato (manuale)○ Estrarre valori univoci

○ Per ogni valore filtrare e contare

● Visualizzazione: Explore○ Selezionare le colonne da analizzare

○ Icona in basso a destra

○ Importare il grafico e/o la formula (icone a destra)

○ Leggere Count, min, max

● Visualizzazione semplificata (google sheet) ○ Istogramma per variabili continue

○ Diagramma a barre per conteggi

○ Selezionare colonna

○ Inserire grafico

○ Aggrega

● Visualizzazione: box plot

Variabili Interessanti

...E possibili domande

Distribuzioni e conteggi diverse da quelle aspettate

Distribuzioni e conteggi non uniformi (picchi)

Distribuzioni e conteggi con outliers

Quali sono le domande a cui potrebbe rispondere il dataset?

Quali altre domande fa nascere (si ma..)?

Trasformazione datiAka data wrangling

● Normalizzazione rispetto ad un’altra variabile (divisione)

● Se contiene parola=if(iserror(FIND("bla",A1))

,"NO","YES")

● Lowercase● Trovare i duplicati

○ Fuzzy matching (e.g. add-on1, add-on2)

● ….

Esplorazione dati: raggruppamenti usando due variabili (categorie)

TABELLEPIVOT

Tabelle riassuntive

Come si fanno usando google sheet

● Seleziona i dati ● Data -> Pivot table● Inserisci le grandezze da analizzare

○ Colonna = grandezza da analizzare

○ Righe: dati o colonna indice

○ Valore = CountA per categorie, somma, medie etc per

numeri

● Seleziona la tabella pivot escludendo i totali● Aggiungi grafico (a torta o a barre)

Costruire una timeline

Con Google Sheet

Controllare formati (date e numeri)

Ordinare per campo data

Selezionare colonne (prima date e poi numeri)

Nuovo grafico di tipo timeline

Correlazione e Scatter Plot