Upload
nicola-ghirardi
View
101
Download
0
Embed Size (px)
Citation preview
Open data e data scienceDati per capire e comunicare
11 Febbraio 2017Ghirardi Nicola
Master “Web communication e social media”
Intervista ai dati:Descrizione del dataset
Dove li ho trovati?
Chi li ha collezionati? Chi è il proprietario?
Come sono stati collezionati: è un campione?
Come sono distribuiti: in che forma (dati, grafici, tabelle, testo)?
con che licenza (cosa posso farci)?
Perchè sono stati originariamente collezionati?
Quando sono stati collezionati? A quale periodo si riferiscono ? (cosa stava succedendo?)
Cosa descrivono? Per cosa sono aggregati? (Oggetto)
Analisi argomento
Interesse per pubblico:
Angolo comune di descrivere quel fenomeno?
Qual’è l’opinione comune?
Come viene trattato l’argomento normalmente?
A quali domande sull’argomento vorrei rispondere?
Quali sono le domande a cui potrebbe rispondere il dataset? Quali altre domande fa nascere (si ma..)?
Aperturadataset
● File -> Import ->upload● Settare il delimitatore corretto● Non trasformare in campi numerici
automaticamente● Copiare i dati in un altro foglio (per lasciare
l’originale accessibile)● Impostazioni per migliore visibilità
○ Nascondere colonne non interessanti
○ Ridimensionare colonne (doppio click su bordo in alto)
○ Altro
● Impostare i tipi di dato corretti○ Secondo gruppo di icone nel menu
Tutorial google sheet
Pulizia dei dati
● Importazione corretta (e.g. formato dati)● Rimuovere metadati dal foglio principale● Togliere unità di misura e uniformare● Valori mancanti
○ CountBlank○ IsBlank e conditional formatting
● Filtrare dati (e.g. totali)○ Selezionare colonna○ Filtra da menu data o da icona
imbuto● Normalizzare dati (da matrice a colonna,
unpivot)○ Excel○ Not easy with Sheet
Variabili numeriche:Statistiche riassuntive
● Ordinare (classifica)○ Selezionare tutto (all’intersezione tra righe e colonne)
○ Tasto destro - sort range (o menu data)
○ Check”dati con intestazione”
○ Selezione colonna e orientamento
○ Attenzione! Senza selezionare tutti i dati, le righe non
avranno più senso
● Media e mediana○ Avarage
○ Median (valore che ha lo stesso numero di misurazioni
meaggiori e minori)
● La trappola della media (e della generalizzazione)
● Distribuzioni: Istogramma○ Formato dati (numeri)
○ Aggiungi grafico a barre (google sheet)
○ Manuale con LibreOffice (usando frequency)
Distribuzioni e outliers
Errori di data entry
Errori di misura
Errori sperimentali
Errori di processamento
o
Outlier naturali
Strumenti di esplorazione dei dati
Fogli di calcolo: Google Sheet, Excel, LibreOffice
Strumenti di reportistica: Tableau, PowerBI, ...
Strumenti di programmazione: R, Python
Databases: SQL
Variabili categoriche (conteggi)
● Conteggi○ Totale (righe)
● Conteggio raggruppato (manuale)○ Estrarre valori univoci
○ Per ogni valore filtrare e contare
● Visualizzazione: Explore○ Selezionare le colonne da analizzare
○ Icona in basso a destra
○ Importare il grafico e/o la formula (icone a destra)
○ Leggere Count, min, max
● Visualizzazione semplificata (google sheet) ○ Istogramma per variabili continue
○ Diagramma a barre per conteggi
○ Selezionare colonna
○ Inserire grafico
○ Aggrega
● Visualizzazione: box plot
Variabili Interessanti
...E possibili domande
Distribuzioni e conteggi diverse da quelle aspettate
Distribuzioni e conteggi non uniformi (picchi)
Distribuzioni e conteggi con outliers
Quali sono le domande a cui potrebbe rispondere il dataset?
Quali altre domande fa nascere (si ma..)?
Trasformazione datiAka data wrangling
● Normalizzazione rispetto ad un’altra variabile (divisione)
● Se contiene parola=if(iserror(FIND("bla",A1))
,"NO","YES")
● Lowercase● Trovare i duplicati
○ Fuzzy matching (e.g. add-on1, add-on2)
● ….
TABELLEPIVOT
Tabelle riassuntive
Come si fanno usando google sheet
● Seleziona i dati ● Data -> Pivot table● Inserisci le grandezze da analizzare
○ Colonna = grandezza da analizzare
○ Righe: dati o colonna indice
○ Valore = CountA per categorie, somma, medie etc per
numeri
● Seleziona la tabella pivot escludendo i totali● Aggiungi grafico (a torta o a barre)
Esplorazione dati: variazione nel tempo
Grafici: Line, Area, Barre,...
Una dimensione nel tempoPiù variabili (e.g. un raggruppamento)
Alcuni esempi
E’ un campo complesso
● cambiamenti assoluti e/o relativi● Pattern ricorrenti (stagionalità)● Confronto con eventi del periodo
Attenzione alla lunghezza dei trend
Costruire una timeline
Con Google Sheet
Controllare formati (date e numeri)
Ordinare per campo data
Selezionare colonne (prima date e poi numeri)
Nuovo grafico di tipo timeline
Storie di Scatter Plot
Hans Rosling: The best stats you've ever seen
Gapminder
Multidimensional explorer