Luca Tardella + Maria Brigida Ferraro...Luca Tardella + Maria Brigida Ferraro 1email:...

Preview:

Citation preview

Lezione #01

Strumenti statistici per l’analisi di dati genetici

Luca Tardella + Maria Brigida Ferraro

1email: luca.tardella@uniroma1.it

Lezione #1 – Introduzione al software R al suo utilizzo per l’implementazione di tecnichestatistiche elementari

21 marzo 2014

Lezione #01

Premessa

Presentazione del corso

Ricognizione degli strumenti statistici appresi finora

Prova finale

Introduzione al reperimento ed installazione del software R

Come documentarsi sul suo utilizzo

Lettura di dati, manipolazione e scrittura su file dei risultati.

Due grandi categorie delle metodologie statistiche: descrittive edinferenziali

Descrizione ed inferenza in pratica con R

La probabilita e la simulazione con R

La scrittura di un semplice report statistico

Alcuni piccoli casi di studio

Lezione #01

Piano delle lezioni

Lezione #1 del 21/03/2014 - LT - Introduzione al software R;Descrittiva; Test

Lezione #2 del 04/04/2014 - LT - Regressione; ANOVA

Lezione #3 del 11/04/2014 - MBF - Cluster (algoritmi e modelli)[cluster, mclust] ;

Lezione #4 del 16/05/2014 - LT - Preprocessing e modelli perespressione differenziale [Trascrittomica, limma]

Lezione #5 del 21/03/2014 - LT - classificazione supervisionata;SVM

Lezione #01

Dalla lettura dei dati alla comprensione del contenuto dellevariabili

La prima grande distinzione da operare e legata alla tipologia dei dati:

Dati qualitativi o su scala nominale (factor) [talvolta ordinabile]

Dati quantitativi: discreti o continui

Completezza dei dati, valori fuori scala e anomalie

Lezione #01

Riorganizzazione dei dati

Dobbiamo attrezzarci per poter selezionare in maniera opportuna solo lerighe e le colonne che ci interessano utilizzando opportuni criteri diselezione.

Possiamo usare un’interfaccia grafica come Rcmdr (R-commander)

subset(x, subset= ... , select = ... )

order, arrange:plyrPotremmo aver bisogno di eliminare colonne e/o righePotremmo aver bisogno di usare un criterio di ordinamento delle righe odelle colonne.

Lezione #01

Per una lettura sintetica delle singole variabili ....

Possiamo usare:

tabelle

grafici

valori riassuntivi che colgono alcuni aspetti caratteristici di unadistribuzione (posizione privilegiata/centrale, dispersione ovariabilita, asimmetria)

Lezione #01

Tabelle

per variabili discrete [con poche modalita]

per variabili continue [con tante modalita, con infinite modalita]

Suggerimento estetico: usare un pacchetto aggiuntivo denominatoepicalc e le funzioni tab1 [1 sola variabile] e tabpct [2 variabili]

Lezione #01

Valori riassuntivi

Se dobbiamo comunicare pochi numeri per descrivere un’interadistribuzione quali comunichiamo? con quale significato?

misure di posizione, tendenza centrale

mean(...)

median(...)

quantile(...)

Per la moda e un po’ piu complicato ..... dovremmo passare talvoltaper i grafici ...qualche volta molti indici di posizione .... (Five-number summary →vedi anche boxplot(...))

var(...) o meglio sd(...)

Ricordiamo anche la differente robustezza di alcuni indicatori rispetto adati anomali ....

N.B. Ne il boxplot ne l’istogramma o la stima di densita sono in grado divisualizzare un’importante informazione sulla distribuzione dei dati:quale?

Lezione #01

Rappresentazioni grafiche

per dati qualitativi: torte (pie, pie3D plotrix) o grafici abarre/nastri (barplot).

per dati discreti con poche modalita quantitative

per dati continui (istogramma hist) con possibilita di sovrapporreversione allisciata ottenuta con density [attenzione pero che l’areatotale sotto la curva e 1 e dunque questo deve valere anche perl’istogramma!!

boxplot

Lezione #01

A cosa servono le rappresentazioni sommarie/sintetiche

Delle distribuzioni semplici (di 1 sola variabile)

per fare confronti ...

... che servirono anche .... per introdurre la nozione di dipendenzastatistica

Lezione #01

Distribuzioni multiple

Iniziamo da due variabili (distribuzioni doppie)Per variabili qualitative

table(x=X,y=Y)

tabpct(x=X,y=Y) [epicalc mosaic plot]visualizza o le distribuzioni percentuali di riga (distribuzionicondizionate ad un valore della variabile X) o le distribuzionipercentuali di colonna (distribuzioni condizionate ad un valore dellavariabile Y)[puo essere utilizzata anche per variabili quantitative discrete connumero piccolo di modalita oppure continue raggruppate in classi]

scatterplot, nuvola di punti o grafico a dispersionedall’orientamento della nuvola di punti si evince una qualche formadi dipendenza statistica (e.g. relazione lineare o non lineare)

estensione della stima di densita in 2 dimensioni (grafico 3d):kde2d(...) MASS

Lezione #01

Distribuzioni multiple

Se tutte le variabili sono quantitative possiamo visualizzare un interodata.frame ma in realta visualizziamo solo le distribuzioni doppie ditutte le possibili coppie di variabili

Lezione #01

Indici sintetici di dipendenza tra due variabili

ed altre possibili visualizzazioni ...

tra due variabili qualitative con numero finito di modalita: indice X 2

(chi-quadrato) misura in qualche modo la ’lontananza’ dallasituazione ideale di variabili indipendenti per le quali dovrebbepresentarsi una tabella doppia in cui le frequenze relative delladistribuzione doppia corrispondono al prodotto delle frequenzerelative delle distribuzioni marginali

tra due variabili quantitative: indice di correlazione lineare (diBravais-Pearson). Indice fondamentale nello studio della dipendenzatra variabili quantitative

una variabile quantitative rispetto ad una qualitativa: boxplotappaiati, nozione di variazione delle distribuzioni condizionate, indicidi dipendenza in media (ANOVA)

Lezione #01

Indici sintetici di dipendenza tra due variabili

Lezione #01

Distribuzioni multiple

Se tutte le variabili sono quantitative possiamo visualizzare un interodata.frame ma in realta visualizziamo solo le distribuzioni doppie ditutte le possibili coppie di variabili.In effetti un modo sintetico di rappresentare graficamente le reazioni didipendenza tra le coppie simultaneamente consiste nel rappresentare lamatrice di correlazione attraverso il cosiddetto corrplot corrplotUn altro modo sara quello di visualizzare le relazioni di dipendenzaattraverso delle reti di dipendenza o grafi

Lezione #01

Coefficiente di correlazione e coefficiente di correlazioneparziale

Il primo rXY riguarda solo la distribuzione doppia delle due variabili X eY coinvolte. E interessante e caratterizzante quando raggiunge i duevalori estremi ±1 (perfetta relazione lineare).

Il secondo rXY .Z tiene conto non solo delle due variabili X e Y ma anchedella loro dipendenza con le altre variabili considerate indicate conZ = (Z1, ...,Zk). Tipicamente le Z sono tutte le altre variabiliquantitative considerate tranne la X e la Y . Tale indice che varia sempretra -1 e 1 e interessante soprattutto quando assume valore 0(indipendenza di X da Y condizionatamente alla conoscenza delle altrevariabili Z)

[Conoscete gia la nozione di regressione lineare?]

Lezione #01

Il coefficiente di correlazione lineare

E’ una misura di concordanza che si calcola esclusivamente qandoabbiamo a disposizione due caratteri entrambi di tipo quantitativo.In effetti non e altro che un caso particolare dell’indice Ω (vedi successiviapprofondimenti) ma e meglio noto con le seguenti formule:

rXY =Cov [X ,Y ]√

Var [X ]Var [Y ]=

σXY√σ2X σ

2Y

=σXYσX σY

dove Cov [X ,Y ] (indicato, spesso, anche con il simbolo σXY e lacovarianza tra X e Y .

Cov [X ,Y ] =1

n

n∑i=1

(xi − x)(yi − y) =1

n

n∑i=1

εxi εyi =1

n

[n∑

i=1

(xiyi )

]− x y

Var [X ] =1

n

n∑i=1

(xi − x)2 =1

n

n∑i=1

ε2xi

Var [Y ] =1

n

n∑i=1

(yi − y)2 =1

n

n∑i=1

ε2yi

εxi = (xi − x) e lo scarto dalla media e analogamente εyi = (yi − y)

Lezione #01

Il significato della covarianza

Cov [X ,Y ] =1

n

n∑i=1

(xi − x)(yi − y)

Si valuta con un indicatore medio il prodotto tra

la differenza tra la modalita del carattere X e la media di X

la differenza tra la modalita del carattere Y e la media di Y

Il prodotto ha un significato analogo a quanto visto per il numeratore diΩ con la differenza che i confronti non vengono fatti tra coppie di unitama tra la singola unita e un termine di riferimento (la media).Per capire e utile riferirsi alla nuvola dei punti nella quale vengonoevidenziate le linee delle medie dei due caratteri e i quadranti checontribuiscono positivamente e negativamente nella valutazione dellacorrelazione (concordanza)

Lezione #01

160 165 170 175 180

6065

7075

80

A=statura

B=

peso

−−+

+−−

> plot(A,B,xlim=c(160,180),ylim=c(60,80))

> abline(v=mean(A),col=’red’)

> abline(h=mean(B),col=’blue’)

Lezione #01

Ancora una formula di r per distribuzioni di frequenzedoppie

Solo per non confondersi nella pratica: un conto e partire dalladistribuzione unitaria un conto e usare una distribuzione di frequenze∑H

h=1

∑Kk=1 xhyknhk − nx y√∑H

h=1(xh − x)2nh·

√∑Kk=1(yk − y)2n·k

(Si puo utilizzare come al solito anche per il calcolo di r quando si ha adisposizione la tabella doppia dei dati raggruppati in classi)

In effetti, di regola, disponiamo dei dati a livello individuale (distribuzioneunitaria doppia)

Lezione #01

Come interpretare r: primo passo

Sul significato del numeratore abbiamo gia detto. Il ruolo deldenominatore e quello di standardizzare l’indice di correlazione.

r2 ≤ 1

ovvero−1 ≤ r ≤ +1

r = 0 =⇒ X e Y sono incorrelati linearmente r = −1 =⇒ X e Ymassimamente correlati linearmente negativamente r = +1 =⇒ X e Ymassimamente correlati linearmente positivamenteIl segno di r e facilmente interpretabile alla luce del significato diconcordanza e discordanza. Per qunto riguarda il valore numerico, averevalori di r su in intervallo di riferimento standard r ∈ [−1,+1] aiuta acalibrare la valutazione di r (ovvero rispondere a domande del tipo: c’etanta correlazione lineare? ce ne e poca?)

Lezione #01

Come interpretare r : prima avvertenza

Attenzione la terminologia non e casuale!r e il coefficiente di correlazione lineare (!)Nel linguaggio scientifico il termione correlazione viene utilizzato in sensogenerico. Nella statistica il coefficiente r e una misura della correlazioneed ha un senso specifico da non confondere ad esempio con la nozione didipendenza in distribuzione tra deu variabili. Perche si chiama dicorrelazione lineare?Il coefficiente di correlazione lineare r assume il valore estremopositivo, +1, se e soltanto se i punti della nuvola sonoperfettamente allineati lungo una retta (ideale) inclinatapositivamenteIl coefficiente di correlazione lineare r assume il valore estremonegativo, -1, se e soltanto se i punti della nuvola sonoperfettamente allineati lungo una retta (ideale) inclinatanegativamente

Lezione #01

Analogamente per ogni coppia (i , j) vi e proporzionalita nelle variazioni dimodalita (differenze) dei due caratteri

δij = (bYi − bY

j ) ∝ dij = (aXi − aXj )

Se β e il coefficiente di proporzionalita

δij = βdij ⇐⇒ (bYi − bY

j ) = β(aXi − aXj )

e facile vedere che questo avviene quando i punti sono allineati lungo unastessa retta y = α + βx con coefficiente angolare β. In tali caso rassume valore estremi ovvero +1 quando β > 0 e −1 quando β < 0.

Lezione #01

Come interpretare r : seconda avvertenza

Sui legami tra l’incorrelazione e indipendenza in distribuzione.Indipendenza in distribuzione =⇒ IncorrelazioneIncorrelazione =⇒/ Indipendenza in distribuzionePer esemplificare con un caso clamoroso la seconda affermazioneconsideriamo la seguente distribuzione (unitaria) doppia:

X Y-3 9-2 41 10 01 12 43 9

In effetti la Y dipende perfettamente dalla X dal momento che vale larelazione

Y = X 2

eppure il coefficiente di correlazione lineare r vale 0!

Lezione #01

Incorrelazione e indipendenza in distribuzione

0 1 2 3 4 5 6

02

46

810

xindip

yind

ip

Indipendenti in distribuzione e dunque necessariamente incorrelati

0 1 2 3 4 5 6

02

46

810

xincor

yinc

or

Incorrelati ma non indipendenti in distribuzione

−3 −2 −1 0 1 2 3

02

46

8

xincor.max.dip

yinc

or.m

ax.d

ip

Incor.Max.Diprelati ma non indipendenti in distribuzione (anzi!)

Lezione #01

Il coefficiente di correlazione parziale

Formula semplice nel caso di 3 variabili (ovvero una sola Z )

rXY .Z =rXY − (rXZ · rYZ )√1− r2XZ

√1− r2YZ

Misura il legame di dipendenza (lineare) delle due variabili di interesse Xe Y al netto dell’eventuale dipendenza lineare che e presente sia tra la Xe la Z sia tra la Y e la Z

Formula un po’ piu complessa nel caso siano presenti piu di 3 variabili macoincide con la nozione ordinaria di correlazione lineare tra i residuieXZ1 , ..., eXZ

n ottenutii dalle relazioni di regressione lineare stimate (minimiquadrati) tra la variabile X e le Z . i residui eYZ

1 , ..., eYZn ottenuti dalla

regressione di Y rispetto a Z .

Lezione #01

Coefficienti di correlazione parziale e matrice dicorrelazione

Indichiamo con Σ la matrice di varianze e covarianze (generico elementoσij) e con R la corrispondente matrice di correlazione (generico elementorij) di una distribuzione multivariata.Se le corrispondenti matrici inverse sono indicate con i simboli Λ = Σ−1 eQ = R−1 allora il generico elemento pij della matrice delle correlazioniparziali P e deteminato dalle seguenti formule

pij = − λij√λiiλjj

= − qij√qiiqjj

Lezione #01

I coefficienti di correlazione parziali nulli e la distribuzionenormale (multipla)

Quando in una distribuzione normale (o gaussiana) multivariata per nvariabili (X1, ...,Xn) il coefficiente di correlazione lineare Cor [X ,Y ] enulla allora le due variabili (aleatorie) sono indipendenti tra loro

Quando in una distribuzione normale (o gaussiana) multivariata per nvariabili (X1, ...,Xn) il coefficiente di correlazione parziale Cor [Xi ,Xj |Z ] enullo allora le due variabili (aleatorie) sono indipendenti tra lorocondizionatamente alla conoscenza del vettore Z composto da tutte levariabili (X1, ...,Xn) tranne la Xi e la Xj

Lezione #01

Esempio simulato

Un esempio simulato per capire meglio

> Z=runif(30)

> X=2*Z+rnorm(30,sd=0.5)

> Y=-Z+rnorm(30,sd=0.5)