23
Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01 Francesca Parpinel http://www.dst.unive.it/˜parpinel/dottorato

Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Embed Size (px)

Citation preview

Page 1: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Lettura e analisi statistiche dei dati e computer analysis

Lezioni per il corso di dottorato in Economia Aziendale

Università Ca’ Foscari A.A. 2000/01

Francesca Parpinel

http://www.dst.unive.it/˜parpinel/dottorato

Page 2: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Gli applicativi statistici

Motivi: Analisi di grandi masse di dati; analisi complesse; tecniche di analisi basate sulle simulazioni (tecniche bootstrap); ecc.

Applicativi: – Raccolta dei dati e analisi preliminari: fogli di

calcolo (tipo Excel).– Analisi statistiche ad hoc: Statgraphics, SAS, SPSS,

Minitab, Pcgive (serie storiche).– Programmazione statistica: S-plus, R.

Page 3: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Scelta del programma R

Ambiente di programmazione con sviluppi per le applicazioni statistiche.

R è un programma di pubblico dominio per piattaforme Windows, Linux e Macintosh.

Informazioni nel sito: www.ci.tuwien.ac.at/R

Caratteristiche: Interattivo, facilità grafiche. Versione aggiornata: R1.2.0 (15-12-00).

Page 4: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Qualche informazione su R R inizialmente viene scritto da Robert Gentleman e Ross Ihaka (Università di Auckland) e divulgato nel 1996. Dal 1997 la scrittura dei sorgenti di R è compito di un gruppo di studiosi. Inoltre R è disponibile per varie piattaforme di tipo UNIX e sistemi simili (ad esempio FreeBSD e Linux). Viene inoltre fornito per sistemi operativi quali Windows 9x/NT/2000 e Macintosh. Per questi ultimi sistemi è possibile ottenere dei file di installazione pre-compilati e quindi di più facile implementazione.

Page 5: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

R per WindowsLa versione di R per il sistema operativo Windows, attualmente curata da Guido Masarotto (Univ. di Padova) e Brian D. Ripley (Univ. di Oxford), si trova, navigando in un CRAN, nella directory bin/windows/windows-NT/ dove si trovano i file per la versione base (base/) e numerosi pacchetti (contrib/). Per installare la versione base attraverso Internet si consiglia un PC, dotato di sistema operativo Windows 95/98/2000 o Windows NT, con un'area libera di circa 20M sul disco fisso e il collegamento ad Internet. Tra i file disponibili vi è anche l'eseguibile rwin.exe che consente un'installazione automatica.

Page 6: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Alcune informazioni Per cambiare directory di lavoro.

– La versione per Windows permette di cambiare facilmente directory intervenendo in linea comandi.

La sintassi dei comandi.– Tutti i comandi in R sono seguiti dalle parentesi rotonde,

ad esempio nella forma >help(). Omettendo le parentesi il programma risponde fornendo la codifica del comando.

Per uscire dal programma. – si digita il comando q()

Per caricare i programmi di dimostrazione: demo() Esempi.

Page 7: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Documentazione Il programma R comprendi i seguenti manuali:

– di riferimento (refman.pdf, più di 850 p.), di descrizione di R (R-intro.pdf, 103 p.), per produrre estensioni di R (R-exts.pdf, 66 p.), per la lettura e scrittura di file di dati (R-data.pdf, 32 p.), per il linguaggio di programmazione (R-lang.pdf, 59 p.)

Aiuto in linea e in formato html. Testi su S-PLUS in combinazione con le FAQ di R

Alcune informazioni e moduli di auto-istruzione all’indirizzo

http://helios.unive.it/˜statcomp

Page 8: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Analisi esplorativa dei dati

Simulazione di dati casuali: rnorm(n,m,s)

Istogrammi: hist(dati)

Sovrapposizioni di curve– teorica

– densità stimata

Page 9: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Distribuzioni implementate in RDistribuzione Nome R Argomenti

opzionaliDistribuzione Nome R Argomenti

opzionali

Beta beta forma1,forma2, ncp

Log-normale lnorm Meanlog, sdlog

Binomiale binom size, prob Logistica logis location, scale

Cauchy cauchy location, scale Binomialenegativa

nbinom size, prob

chi-quadrato chisq df, ncp normale norm mean, sd

Esponenziale exp Rate Poisson pois Lambda

F di Snedecor f df1, df1, ncp Student's t t df, ncp

Gamma gamma shape, scale Uniforme unif min, max

Geometrica geom Prob Weibull weibull Shape, scale

Ipergeometrica hyper m, n, k Wilcoxon wilcox m, n

Page 10: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Funzioni con le distribuzioni

Densità o probabilità:

Funzione di ripartizione:

Funzione dei quantili:

Generazione di numeri casuali:

Page 11: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Analisi preliminari dei dati Lettura dei dati (ogni pacchetto ha il proprio

formato di lettura e la lettura di file ASCII). Matrice di dati:

– n righe: unità statistiche

– k colonne: variabili osservate Comandi R per la lettura di file di dati: read.table(); scan().

Principali indici di sintesi e presentazioni grafiche.

Page 12: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Lettura di un file di dati grezzi organizzato come matrice e assegnazione:

dati1<-read.table(“a:dati2.txt”)

Lettura di un file di dati numerici con separatore dei decimali “,” e organizzati in matrice: dati2<-matrix(scan(“a:dati2.txt”,dec=”,”),30,2)

Lettura di dati da file

Page 13: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Analisi esplorativa dei dati Sintesi: summary(dati1)fornisce informazioni su

Minimo, I Quartile, Mediana, Media, III Quartile, Massimo.

Indici di sintesi: mean(), sd(), var() cor() cov()

Rappresentazione scatola-baffi e ramo-fogliaboxplot() stem()

Diagrammi di dispersione a due variabili plot() Istogrammi hist() Diagrammi di dispersione a 3 tre dimensioni

scatterplot3d()

Page 14: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Indagine sui frequentanti i corsi

I dati riguardanti 169 studenti di un corso di Statistica.

Analisi univariate:

Page 15: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Altre indagini: la distribuzione

Distribuzione non normale evidentemente asimmetrica con coda a destra

Page 16: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Altre indagini: la distribuzione

Consideriamo alcuni test sul tipo di distribuzione:

library(ctest)

shapiro.test(dati$ETA)

lam<-mean(dati$ETA)

ks.test(dati$ETA,

+pchisq,lam)

Page 17: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Analisi esplorativa: dati bivariati

Scatter-plot modello di regressione analisi della regressione analisi dei residui Q-Q plot per l’analisi di

normalità dei residuiqqnorm(rdati1$resid)

qqline(rdati1$resid,

+ col=2)

Page 18: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Descrizione del file di dati Descrizione dei dati:

Righe: uffici d’area

Variabili: Tempo totale per la transazione, numero di transazioni di tipo 1 e di tipo 2, numero di caso:– Time (in minuti, numerico)– T1 (numerico)– T2 (numerico)– Case.numbers (numerico)

L’obiettivo è modellare il tempo totale come funzione del numero di transazioni.

Fonte: Cunningham and Heathcote (1989), Estimating a non-Gaussian regression model with multicollinearity. Australian Journal of Statistics, 31,12-17.

I dati sono stati arrotondati.

Page 19: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Matrice degli scatter-plot

Page 20: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Rappresentazione a tre dimensioni

Per rappresentazioni grafiche più complesse si stanno creando dei pacchetti aggiuntivi ad esempio il pacchetto

scatterplot3d

che viene richiamato col comando

library(scatterplot3d)

Page 21: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Modello di regressione

Page 22: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

La funzione summary.lm calcola e restituisce una serie di statistiche del modelli lineare adattato:

residuals: i residui pesati con la radice dei pesi specificati in lm coefficients: matrice px4 le cui colonne sono i coefficienti stimati, il loro errore

standard, la statistica t e il p-value a due code sigma: la radice della varianza dell’errore casuale stimata df: gradi di libertà, vettore a tre dimensioni (p, n-p, p*) fstatistic: vettore a 3 dimensioni con il valore della statistica F con i gradi di

libertà del suo numeratore e denominatore r.squared: R^2, la frazione di varianza spiegata dal modello adj.r.squared: la statistica R^2 aggiustata per valori alti di p. cov.unscaled: una matrice di covarianza pxp dei coef[j], j=1,...,p correlation: la matrice di correlazione se specificato

L’output del comando lm()

Page 23: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01

Analisi delle serie storiche Modelli autoregressivi: library(ts) Esempio comando ar()ar(x, aic = TRUE, order.max = NULL, method=c("yule-

walker", "burg", "ols", "mle", "yw"), na.action, series, ...)

ar.burg(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series, var.method = 1)

ar.yw(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series)

ar.mle(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series)

predict(ar.obj, newdata, n.ahead = 1, se.fit = TRUE)