Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
Lezione #01
Strumenti statistici per l’analisi di dati genetici
Luca Tardella + Maria Brigida Ferraro
1email: [email protected]
Lezione #1 – Introduzione al software R al suo utilizzo per l’implementazione di tecnichestatistiche elementari
21 marzo 2014
Lezione #01
Premessa
Presentazione del corso
Ricognizione degli strumenti statistici appresi finora
Prova finale
Introduzione al reperimento ed installazione del software R
Come documentarsi sul suo utilizzo
Lettura di dati, manipolazione e scrittura su file dei risultati.
Due grandi categorie delle metodologie statistiche: descrittive edinferenziali
Descrizione ed inferenza in pratica con R
La probabilita e la simulazione con R
La scrittura di un semplice report statistico
Alcuni piccoli casi di studio
Lezione #01
Piano delle lezioni
Lezione #1 del 21/03/2014 - LT - Introduzione al software R;Descrittiva; Test
Lezione #2 del 04/04/2014 - LT - Regressione; ANOVA
Lezione #3 del 11/04/2014 - MBF - Cluster (algoritmi e modelli)[cluster, mclust] ;
Lezione #4 del 16/05/2014 - LT - Preprocessing e modelli perespressione differenziale [Trascrittomica, limma]
Lezione #5 del 21/03/2014 - LT - classificazione supervisionata;SVM
Lezione #01
Dalla lettura dei dati alla comprensione del contenuto dellevariabili
La prima grande distinzione da operare e legata alla tipologia dei dati:
Dati qualitativi o su scala nominale (factor) [talvolta ordinabile]
Dati quantitativi: discreti o continui
Completezza dei dati, valori fuori scala e anomalie
Lezione #01
Riorganizzazione dei dati
Dobbiamo attrezzarci per poter selezionare in maniera opportuna solo lerighe e le colonne che ci interessano utilizzando opportuni criteri diselezione.
Possiamo usare un’interfaccia grafica come Rcmdr (R-commander)
subset(x, subset= ... , select = ... )
order, arrange:plyrPotremmo aver bisogno di eliminare colonne e/o righePotremmo aver bisogno di usare un criterio di ordinamento delle righe odelle colonne.
Lezione #01
Per una lettura sintetica delle singole variabili ....
Possiamo usare:
tabelle
grafici
valori riassuntivi che colgono alcuni aspetti caratteristici di unadistribuzione (posizione privilegiata/centrale, dispersione ovariabilita, asimmetria)
Lezione #01
Tabelle
per variabili discrete [con poche modalita]
per variabili continue [con tante modalita, con infinite modalita]
Suggerimento estetico: usare un pacchetto aggiuntivo denominatoepicalc e le funzioni tab1 [1 sola variabile] e tabpct [2 variabili]
Lezione #01
Valori riassuntivi
Se dobbiamo comunicare pochi numeri per descrivere un’interadistribuzione quali comunichiamo? con quale significato?
misure di posizione, tendenza centrale
mean(...)
median(...)
quantile(...)
Per la moda e un po’ piu complicato ..... dovremmo passare talvoltaper i grafici ...qualche volta molti indici di posizione .... (Five-number summary →vedi anche boxplot(...))
var(...) o meglio sd(...)
Ricordiamo anche la differente robustezza di alcuni indicatori rispetto adati anomali ....
N.B. Ne il boxplot ne l’istogramma o la stima di densita sono in grado divisualizzare un’importante informazione sulla distribuzione dei dati:quale?
Lezione #01
Rappresentazioni grafiche
per dati qualitativi: torte (pie, pie3D plotrix) o grafici abarre/nastri (barplot).
per dati discreti con poche modalita quantitative
per dati continui (istogramma hist) con possibilita di sovrapporreversione allisciata ottenuta con density [attenzione pero che l’areatotale sotto la curva e 1 e dunque questo deve valere anche perl’istogramma!!
boxplot
Lezione #01
A cosa servono le rappresentazioni sommarie/sintetiche
Delle distribuzioni semplici (di 1 sola variabile)
per fare confronti ...
... che servirono anche .... per introdurre la nozione di dipendenzastatistica
Lezione #01
Distribuzioni multiple
Iniziamo da due variabili (distribuzioni doppie)Per variabili qualitative
table(x=X,y=Y)
tabpct(x=X,y=Y) [epicalc mosaic plot]visualizza o le distribuzioni percentuali di riga (distribuzionicondizionate ad un valore della variabile X) o le distribuzionipercentuali di colonna (distribuzioni condizionate ad un valore dellavariabile Y)[puo essere utilizzata anche per variabili quantitative discrete connumero piccolo di modalita oppure continue raggruppate in classi]
scatterplot, nuvola di punti o grafico a dispersionedall’orientamento della nuvola di punti si evince una qualche formadi dipendenza statistica (e.g. relazione lineare o non lineare)
estensione della stima di densita in 2 dimensioni (grafico 3d):kde2d(...) MASS
Lezione #01
Distribuzioni multiple
Se tutte le variabili sono quantitative possiamo visualizzare un interodata.frame ma in realta visualizziamo solo le distribuzioni doppie ditutte le possibili coppie di variabili
Lezione #01
Indici sintetici di dipendenza tra due variabili
ed altre possibili visualizzazioni ...
tra due variabili qualitative con numero finito di modalita: indice X 2
(chi-quadrato) misura in qualche modo la ’lontananza’ dallasituazione ideale di variabili indipendenti per le quali dovrebbepresentarsi una tabella doppia in cui le frequenze relative delladistribuzione doppia corrispondono al prodotto delle frequenzerelative delle distribuzioni marginali
tra due variabili quantitative: indice di correlazione lineare (diBravais-Pearson). Indice fondamentale nello studio della dipendenzatra variabili quantitative
una variabile quantitative rispetto ad una qualitativa: boxplotappaiati, nozione di variazione delle distribuzioni condizionate, indicidi dipendenza in media (ANOVA)
Lezione #01
Indici sintetici di dipendenza tra due variabili
Lezione #01
Distribuzioni multiple
Se tutte le variabili sono quantitative possiamo visualizzare un interodata.frame ma in realta visualizziamo solo le distribuzioni doppie ditutte le possibili coppie di variabili.In effetti un modo sintetico di rappresentare graficamente le reazioni didipendenza tra le coppie simultaneamente consiste nel rappresentare lamatrice di correlazione attraverso il cosiddetto corrplot corrplotUn altro modo sara quello di visualizzare le relazioni di dipendenzaattraverso delle reti di dipendenza o grafi
Lezione #01
Coefficiente di correlazione e coefficiente di correlazioneparziale
Il primo rXY riguarda solo la distribuzione doppia delle due variabili X eY coinvolte. E interessante e caratterizzante quando raggiunge i duevalori estremi ±1 (perfetta relazione lineare).
Il secondo rXY .Z tiene conto non solo delle due variabili X e Y ma anchedella loro dipendenza con le altre variabili considerate indicate conZ = (Z1, ...,Zk). Tipicamente le Z sono tutte le altre variabiliquantitative considerate tranne la X e la Y . Tale indice che varia sempretra -1 e 1 e interessante soprattutto quando assume valore 0(indipendenza di X da Y condizionatamente alla conoscenza delle altrevariabili Z)
[Conoscete gia la nozione di regressione lineare?]
Lezione #01
Il coefficiente di correlazione lineare
E’ una misura di concordanza che si calcola esclusivamente qandoabbiamo a disposizione due caratteri entrambi di tipo quantitativo.In effetti non e altro che un caso particolare dell’indice Ω (vedi successiviapprofondimenti) ma e meglio noto con le seguenti formule:
rXY =Cov [X ,Y ]√
Var [X ]Var [Y ]=
σXY√σ2X σ
2Y
=σXYσX σY
dove Cov [X ,Y ] (indicato, spesso, anche con il simbolo σXY e lacovarianza tra X e Y .
Cov [X ,Y ] =1
n
n∑i=1
(xi − x)(yi − y) =1
n
n∑i=1
εxi εyi =1
n
[n∑
i=1
(xiyi )
]− x y
Var [X ] =1
n
n∑i=1
(xi − x)2 =1
n
n∑i=1
ε2xi
Var [Y ] =1
n
n∑i=1
(yi − y)2 =1
n
n∑i=1
ε2yi
εxi = (xi − x) e lo scarto dalla media e analogamente εyi = (yi − y)
Lezione #01
Il significato della covarianza
Cov [X ,Y ] =1
n
n∑i=1
(xi − x)(yi − y)
Si valuta con un indicatore medio il prodotto tra
la differenza tra la modalita del carattere X e la media di X
la differenza tra la modalita del carattere Y e la media di Y
Il prodotto ha un significato analogo a quanto visto per il numeratore diΩ con la differenza che i confronti non vengono fatti tra coppie di unitama tra la singola unita e un termine di riferimento (la media).Per capire e utile riferirsi alla nuvola dei punti nella quale vengonoevidenziate le linee delle medie dei due caratteri e i quadranti checontribuiscono positivamente e negativamente nella valutazione dellacorrelazione (concordanza)
Lezione #01
160 165 170 175 180
6065
7075
80
A=statura
B=
peso
−−+
+−−
> plot(A,B,xlim=c(160,180),ylim=c(60,80))
> abline(v=mean(A),col=’red’)
> abline(h=mean(B),col=’blue’)
Lezione #01
Ancora una formula di r per distribuzioni di frequenzedoppie
Solo per non confondersi nella pratica: un conto e partire dalladistribuzione unitaria un conto e usare una distribuzione di frequenze∑H
h=1
∑Kk=1 xhyknhk − nx y√∑H
h=1(xh − x)2nh·
√∑Kk=1(yk − y)2n·k
(Si puo utilizzare come al solito anche per il calcolo di r quando si ha adisposizione la tabella doppia dei dati raggruppati in classi)
In effetti, di regola, disponiamo dei dati a livello individuale (distribuzioneunitaria doppia)
Lezione #01
Come interpretare r: primo passo
Sul significato del numeratore abbiamo gia detto. Il ruolo deldenominatore e quello di standardizzare l’indice di correlazione.
r2 ≤ 1
ovvero−1 ≤ r ≤ +1
r = 0 =⇒ X e Y sono incorrelati linearmente r = −1 =⇒ X e Ymassimamente correlati linearmente negativamente r = +1 =⇒ X e Ymassimamente correlati linearmente positivamenteIl segno di r e facilmente interpretabile alla luce del significato diconcordanza e discordanza. Per qunto riguarda il valore numerico, averevalori di r su in intervallo di riferimento standard r ∈ [−1,+1] aiuta acalibrare la valutazione di r (ovvero rispondere a domande del tipo: c’etanta correlazione lineare? ce ne e poca?)
Lezione #01
Come interpretare r : prima avvertenza
Attenzione la terminologia non e casuale!r e il coefficiente di correlazione lineare (!)Nel linguaggio scientifico il termione correlazione viene utilizzato in sensogenerico. Nella statistica il coefficiente r e una misura della correlazioneed ha un senso specifico da non confondere ad esempio con la nozione didipendenza in distribuzione tra deu variabili. Perche si chiama dicorrelazione lineare?Il coefficiente di correlazione lineare r assume il valore estremopositivo, +1, se e soltanto se i punti della nuvola sonoperfettamente allineati lungo una retta (ideale) inclinatapositivamenteIl coefficiente di correlazione lineare r assume il valore estremonegativo, -1, se e soltanto se i punti della nuvola sonoperfettamente allineati lungo una retta (ideale) inclinatanegativamente
Lezione #01
Analogamente per ogni coppia (i , j) vi e proporzionalita nelle variazioni dimodalita (differenze) dei due caratteri
δij = (bYi − bY
j ) ∝ dij = (aXi − aXj )
Se β e il coefficiente di proporzionalita
δij = βdij ⇐⇒ (bYi − bY
j ) = β(aXi − aXj )
e facile vedere che questo avviene quando i punti sono allineati lungo unastessa retta y = α + βx con coefficiente angolare β. In tali caso rassume valore estremi ovvero +1 quando β > 0 e −1 quando β < 0.
Lezione #01
Come interpretare r : seconda avvertenza
Sui legami tra l’incorrelazione e indipendenza in distribuzione.Indipendenza in distribuzione =⇒ IncorrelazioneIncorrelazione =⇒/ Indipendenza in distribuzionePer esemplificare con un caso clamoroso la seconda affermazioneconsideriamo la seguente distribuzione (unitaria) doppia:
X Y-3 9-2 41 10 01 12 43 9
In effetti la Y dipende perfettamente dalla X dal momento che vale larelazione
Y = X 2
eppure il coefficiente di correlazione lineare r vale 0!
Lezione #01
Incorrelazione e indipendenza in distribuzione
0 1 2 3 4 5 6
02
46
810
xindip
yind
ip
Indipendenti in distribuzione e dunque necessariamente incorrelati
0 1 2 3 4 5 6
02
46
810
xincor
yinc
or
Incorrelati ma non indipendenti in distribuzione
−3 −2 −1 0 1 2 3
02
46
8
xincor.max.dip
yinc
or.m
ax.d
ip
Incor.Max.Diprelati ma non indipendenti in distribuzione (anzi!)
Lezione #01
Il coefficiente di correlazione parziale
Formula semplice nel caso di 3 variabili (ovvero una sola Z )
rXY .Z =rXY − (rXZ · rYZ )√1− r2XZ
√1− r2YZ
Misura il legame di dipendenza (lineare) delle due variabili di interesse Xe Y al netto dell’eventuale dipendenza lineare che e presente sia tra la Xe la Z sia tra la Y e la Z
Formula un po’ piu complessa nel caso siano presenti piu di 3 variabili macoincide con la nozione ordinaria di correlazione lineare tra i residuieXZ1 , ..., eXZ
n ottenutii dalle relazioni di regressione lineare stimate (minimiquadrati) tra la variabile X e le Z . i residui eYZ
1 , ..., eYZn ottenuti dalla
regressione di Y rispetto a Z .
Lezione #01
Coefficienti di correlazione parziale e matrice dicorrelazione
Indichiamo con Σ la matrice di varianze e covarianze (generico elementoσij) e con R la corrispondente matrice di correlazione (generico elementorij) di una distribuzione multivariata.Se le corrispondenti matrici inverse sono indicate con i simboli Λ = Σ−1 eQ = R−1 allora il generico elemento pij della matrice delle correlazioniparziali P e deteminato dalle seguenti formule
pij = − λij√λiiλjj
= − qij√qiiqjj
Lezione #01
I coefficienti di correlazione parziali nulli e la distribuzionenormale (multipla)
Quando in una distribuzione normale (o gaussiana) multivariata per nvariabili (X1, ...,Xn) il coefficiente di correlazione lineare Cor [X ,Y ] enulla allora le due variabili (aleatorie) sono indipendenti tra loro
Quando in una distribuzione normale (o gaussiana) multivariata per nvariabili (X1, ...,Xn) il coefficiente di correlazione parziale Cor [Xi ,Xj |Z ] enullo allora le due variabili (aleatorie) sono indipendenti tra lorocondizionatamente alla conoscenza del vettore Z composto da tutte levariabili (X1, ...,Xn) tranne la Xi e la Xj
Lezione #01
Esempio simulato
Un esempio simulato per capire meglio
> Z=runif(30)
> X=2*Z+rnorm(30,sd=0.5)
> Y=-Z+rnorm(30,sd=0.5)