Upload
francesco-cabiddu
View
101
Download
1
Embed Size (px)
DESCRIPTION
SLIDES Primo intervento giornata 24 Maggio 2013 : "Una Statistica più consapevole per decisioni migliori. Giornata di Metodologia e Statistica per le Scienze Umane." TITOLO "InsulaR: un gruppo cagliaritano di utenti di R (Davide Massidda, Francesco Cabiddu, Gianmarco Altoè)" Università degli studi di Cagliari. Dipartimento di Pedagogia, Psicologia e Filosofia. - See more at: http://www.insular.it
Citation preview
D. Massidda, F. Cabiddu, G. Altoe
Universita di Cagliari
www.insular.it
Cagliari, 24 Maggio 2013
Indice
1 L’era dei dati
2 Il progetto R
3 Utilizzare R
4 InsulaR
L’era dei dati
L’era dei dati
La corsa ai dati
• Il XXI secolo guarda sempre piu ai dati come a una risorsa: essi pos-sono essere utilizzati per rappresentare la realta, capirla, interpretarlae quindi governarla.
• Ormai l’hanno capito tutti: centri di ricerca, aziende, pubbliche ammi-nistrazioni.
• E un’opportunita da non lasciarsi sfuggire... ma dobbiamo attrezzarciadeguatamente!
• Infatti, i dati sono importanti in quanto contengono informazioni. Maqueste informazioni richiedono opportune tecniche e adeguati stru-menti per essere estratte.
L’era dei dati
Dai dati all’informazione
• Le discipline statistiche offrono una soluzione.
• La statistica si occupa dell’analisi quantitativa e qualitativa di fenomeni,adeguatamente misurati e quindi trasformati in un codice numerico.
• Attraverso specifiche elaborazioni statistiche, e possibile risalire dalvalore numerico all’informazione sul comportamento di un fenomeno.
L’era dei dati
L’era dei dati
Cosa e un data scientist?
• Un atleta in grado di nuotare in mezzo ai dati, capace di esplora-re i numeri attraverso opportune analisi statistiche e visualizzazionigrafiche.
• Una tecnico in grado di utilizzare gli strumenti informatici per il trat-tamento dei dati.
• Un esperto conoscitore del fenomeno sotto analisi, capace di guidarelo studio del dato e individuare le strade piu fertili su cui orientare illavoro.
• Un artista creativo, in grado di intrecciare dati preesistenti per trovaresoluzioni originali a un problema.
L’era dei dati
Come trovare un data scientist?
Davenport e Patil (2012):
“Esamina i membri dei gruppi di utenti dedicati agli strumenti della datascience. Gli R User Group (strumento statistico open source privilegiato daidata scientist) e i Python Interest Group sono dei buoni punti di partenza.”
Due importanti aspetti da segnalare:
• L’importanza di conoscere strumenti open source come R o Python.
• L’importanza di essere sul web e di lasciarvi una traccia evidente.
L’era dei dati
Come trovare un data scientist?
Davenport e Patil (2012):
“Esamina i membri dei gruppi di utenti dedicati agli strumenti della datascience. Gli R User Group (strumento statistico open source privilegiato daidata scientist) e i Python Interest Group sono dei buoni punti di partenza.”
Due importanti aspetti da segnalare:
• L’importanza di conoscere strumenti open source come R o Python.
• L’importanza di essere sul web e di lasciarvi una traccia evidente.
Il progetto R
Il progetto R
Il progetto R
• R e un pacchetto statistico che permette di elaborare dati, eseguirecalcoli ed effettuare rappresentazioni grafiche (...e molto altro!)
• E nato attorno al 1995 presso il Dipartimento di Statistica dell’Univer-sita di Auckland. I primi sviluppatori furono Robert Gentleman e RossIhaka.
• Fin dall’inizio, il progetto R aveva l’obiettivo di fornire un ambientestatistico di alta qualita e a costo zero.
• Oggi, R e diventato il riferimento per le analisi statistiche nel mondoaccademico, e negli ultimi anni sta entrando prepotentemente anche inquello aziendale.
Il progetto R
Un progetto di successo
• Gratuito: svincola l’utilizzatore dalla dipendenza da costose licenzesoftware che difficilmente un privato potrebbe permettersi.
• Potente: permette di gestire modelli statistici dai piu semplici ai piucomplessi e di realizzare rappresentazioni grafiche di alto livello.
• Personalizzabile: e concepito come un linguaggio di programmazio-ne, per cui consente all’utente di creare istruzioni personalizzate perrisolvere problemi nuovi, originariamente non previsti dal programma,oppure per migliorare istruzioni gia esistenti.
• All’avanguardia: difficilmente l’ultima frontiera dell’analisi statisti-ca non ha un’implementazione in R. E se non ce l’ha oggi, moltoprobabilmente ce l’avra domani (se non tra qualche ora).
Il progetto R
Un software open source
• R e un software libero, distribuito con licenza GNU GPL: l’utente haliberta di utilizzo, copia, modifica e ridistribuzione del prodotto.
• R e anche un software open source: i suoi codici sorgenti sono noti,per cui chiunque puo modificarli e utilizzarli come base per prodottiderivati.
• Gli utenti possono collaborare attivamente allo sviluppo di R, principal-mente creando e diffondendo nuovi pacchetti di istruzioni (ce ne sonotantissimi... dall’analisi di dati fMRI al sudoku!)
Utilizzare R
Utilizzare R
La sintassi R
R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.
R come calcolatrice
> 2+2 > log(1)[1] 4 [1] 0
Lettura di un file di dati
> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)
Analisi della varianza
> model < − lm(resp ∼ block * stimulus, data=dataset)
Utilizzare R
La sintassi R
R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.
R come calcolatrice
> 2+2 > log(1)[1] 4 [1] 0
Lettura di un file di dati
> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)
Analisi della varianza
> model < − lm(resp ∼ block * stimulus, data=dataset)
Utilizzare R
La sintassi R
R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.
R come calcolatrice
> 2+2 > log(1)[1] 4 [1] 0
Lettura di un file di dati
> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)
Analisi della varianza
> model < − lm(resp ∼ block * stimulus, data=dataset)
Utilizzare R
La sintassi R
R e un linguaggio interpretato: attraverso un terminale si inviano delleistruzioni a un interprete, il quale elabora in diretta la richiesta e fornisceun risultato.
R come calcolatrice
> 2+2 > log(1)[1] 4 [1] 0
Lettura di un file di dati
> dataset < − read.table(“myfile.csv”, header=T, sep=“;”)
Analisi della varianza
> model < − lm(resp ∼ block * stimulus, data=dataset)
Utilizzare R
Interfacce: R Commander
http://www.rcommander.com
Utilizzare R
Interfacce: R Studio
http://www.rstudio.com
Utilizzare R
Interfacce: RKWard
http://rkward.sourceforge.net
Utilizzare R
Principali usi di R
Manipolazione dei dati
Analisi statistica dei dati
Creazione di grafici
Reportistica
Web scraping
...e tanto altro ancora!
Il tutto puo essere eseguito in maniera automatizzata preparando degliscript di istruzioni.
Utilizzare R
Avvertenze
Maneggiare con cura
• In quanto strumento per l’analisi statistica, R permette di comprenderemeglio i dati che abbiamo a disposizione, estraendo l’informazione dalvalore numerico.
• A differenza di altri software, pero, non e un “punta e clicca”: richiedeall’utente un uso consapevole della metodologia d’analisi.
Utilizzare R
Avvertenze
Maneggiare con cura
• In quanto strumento per l’analisi statistica, R permette di comprenderemeglio i dati che abbiamo a disposizione, estraendo l’informazione dalvalore numerico.
• A differenza di altri software, pero, non e un “punta e clicca”: richiedeall’utente un uso consapevole della metodologia d’analisi.
Utilizzare R
Avvertenze
Agitare bene (l’utente) prima dell’uso
• L’utente necessita di un adeguato addestramento all’uso del linguag-gio: il principale pregio di R si rivela essere anche un ostacolo per chivorrebbe usarlo senza avere nozioni di programmazione.
• L’utente necessita anche di un adeguato addestramento all’uso dellemetodologie statistiche.
InsulaR
InsulaR
Le motivazioni
• In un mondo dove le risorse economiche sono sempre piu esigue, ma larichiesta di utilizzo dei dati e sempre maggiore, R puo rappresentare unagrande risorsa. E questo sia che si parli di Universita che di pubblicheamministrazioni o aziende private.
• Nonostante questo, R in Sardegna e ancora poco diffuso.
• L’idea di un gruppo di “useR” cagliaritani scaturisce dalla forte richiestaproveniente da alcuni studenti dei corsi di laurea di psicologia di Cagliaridi imparare a utilizzare il software.
• Da questa necessita, nasce la prima community di utenti cagliaritaniutilizzatori di R.
InsulaR
Le motivazioni
• In un mondo dove le risorse economiche sono sempre piu esigue, ma larichiesta di utilizzo dei dati e sempre maggiore, R puo rappresentare unagrande risorsa. E questo sia che si parli di Universita che di pubblicheamministrazioni o aziende private.
• Nonostante questo, R in Sardegna e ancora poco diffuso.
• L’idea di un gruppo di “useR” cagliaritani scaturisce dalla forte richiestaproveniente da alcuni studenti dei corsi di laurea di psicologia di Cagliaridi imparare a utilizzare il software.
• Da questa necessita, nasce la prima community di utenti cagliaritaniutilizzatori di R.
InsulaR
Gli scopi
• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.
- Corsi di formazione- Articoli sul blog
• Creare una rete di utilizzatori di R nell’Isola.
- Giornate d’incontro- Mailing list
• Divulgare dati secondo la filosofia “open”.
- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico
InsulaR
Gli scopi
• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.
- Corsi di formazione- Articoli sul blog
• Creare una rete di utilizzatori di R nell’Isola.
- Giornate d’incontro- Mailing list
• Divulgare dati secondo la filosofia “open”.
- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico
InsulaR
Gli scopi
• Condividere la conoscenza sull’uso di R, sia all’interno del gruppo cheall’esterno.
- Corsi di formazione- Articoli sul blog
• Creare una rete di utilizzatori di R nell’Isola.
- Giornate d’incontro- Mailing list
• Divulgare dati secondo la filosofia “open”.
- Dati prodotti dalla ricerca scientifica- Dati prodotti in ambito non accademico
InsulaR
Corso “Introduzione all’ambiente R”
Il corso si propone di introdurre lo studente all’uso dell’ambiente R, permetterlo in grado di esplorare e analizzare dati in completa autonomia.
Al termine del corso, lo studente sara in grado di organizzare un dataset,importarlo in R ed eseguire le principali operazioni di pulizia, visualizzazionee analisi dei dati.
Il corso e organizzato in quattro moduli:
1 Il linguaggio R: primi passi
2 Manipolazione dei dati
3 Visualizzazione dei dati
4 Analisi statistica dei dati
InsulaR
Dove trovarci
www.insular.it
Grazie per l’attenzione
Contatti:
Davide Massidda [email protected]
Francesco Cabiddu [email protected]
Gianmarco Altoe [email protected]