22
Analisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu' parametri. In un certo senso e' l'estenzione ad N parametri del coefficiente di correlazione definito per 2 parametri. Il numero di parametri N puo' essere piccolo (3) o grande (1000). In questo corso vedremo 2 applicazioni. Una relativa alla classificazione basata su spettri (ed in questo caso N sara' alto) ed una relativa al piano fondamentale (e qui N=3). L'ACP non e' utilizzato solo in ambito astronomico. E' usata, ad esempio, dai genetisti per studiare la relazioni tra caratteristiche somatiche (altezza, peso, colore occhi, colore capelli, gruppo sanguigno etc..) delle popolazioni.

Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Analisi delle componenti principali

Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu' parametri. In un certo senso e' l'estenzione ad N parametri del coefficiente di correlazione definito per 2 parametri. Il numero di parametri N puo' essere piccolo (3) o grande (1000). In questo corso vedremo 2 applicazioni. Una relativa alla classificazione basata su spettri (ed in questo caso N sara' alto) ed una relativa al piano fondamentale (e qui N=3).

L'ACP non e' utilizzato solo in ambito astronomico. E' usata, ad esempio, dai genetisti per studiare la relazioni tra caratteristiche somatiche (altezza, peso, colore occhi, colore capelli, gruppo sanguigno etc..) delle popolazioni.

Page 2: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Il metodo consiste nel calcolare la matrice di correlazione e diagonalizzarla mediante il calcolo di autovalori e autovettori. In questa maniera viene individuata una base di N vettori, combinazione lineare dei parametri di partenza, che meglio descrive la popolazione. Inoltre, e da qui il nome di componenti principali, permette di individuare quali sono gli autovettori piu' caratterizzanti per la popolazione. Questo permette di ridurre il numero di parametri necessari per descrivere un elemento della popolazione perdendo la minima informazione.

Esempio spicciolo. Conosco eta', peso ed altezza (N=3) di una popolazione. Queste 3 grandezze sono correlate tra di loro: eta' con peso, peso con altezza, eta' con altezza. L'ACP mi permette di trovare la combinazione lineare (del tipo 0.3xEta' + 0.5xPeso – 0.4xAltezza) che al meglio mi descrive una persona.Dando solo il peso di 40kg non saprei se si tratta di una persona bassa o di un bambino. Dando solo l'eta' (30 anni) non posso dedurre il peso (dipende dall'altezza). Etc. Se invece descrivo l'individuo non secondo Eta-Peso-Altezza ma secondo le 3 combinazioni individuate dagli autovettori, allora mi basta utilizzare il primo autovettore per fornire gia' la maggior parte dell'informazione.

Page 3: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Dal punto di vista statistico ecco come si procede

- Sia xi il valore di N parametri misurati per M oggetti. - <x>i e' il valore medio dell'i-esimo parametro sugli M oggetti. - Posso calcolare lo scarto del parametro i dalla media come (xi-<x>i ) per ognuno degli M oggetti.

Page 4: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Matrice di covarianza

La matrice di covarianza e' costruita moltiplicando gli scarti 2 a 2 e sommando sugli M oggetti:

ij = 1/(M-1) ∑M[(xi-<x>i )(xj-<x>j )]

Gli elementi diagonali �

ii sono uguali alla varianza del parametro i-esimo.

Page 5: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Matrice di correlazione

La matrice di correlazione si definisce a partire dalla matrice di covarianza come

Cij = �

ij / (

ii

jj)1/2

Si puo' vedere facilmente che la matrice e' simmetrica: Cij= Cji I valori lungo la diagonale sono tutti 1 Cii= �

ii / (�

ii

ii)1/2 = 1

(ogni parametro correla con se stesso).

Page 6: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Il MetodoL'idea e' di individuare un nuovo sostema di coordinate che meglio descriva la variabilita' dei dati.

X1

X2

Page 7: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

•Matematicamente, si tratta di risolvere il problema agli autovettori e diagonalizzare la matrice di covarianza. In questo modo troveremo una base i cui versori saranno: Ortogonali e indipendenti “Catturano” quantita' crescente di varianza

Possiamo ordinare infatti gli N autovettori secondo l'autovettore ad essi associato:

1>

2>....>

N

La porzione di varianza spiegata da

1

� �

1/(

1+

2+.....+�

N)

Page 8: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Per capire le cose servono degli esempi ... eccone uno

Ho dei dati, descritti da 2 parametri x e y. Qui si puo' vedere come sono distribuiti i punti. Non sono sparsi a caso nel volume ma c'e' una relazione tra x e y. Con la PCA e' possibile individuare le direzioni lungo cui sono sistribuiti i punti. Nella figura sono indicate come k1, k2. Se rappresento i punti nella nuova base, trovo

1=1983-->95%

2=97 -->5%

Page 9: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Per capire le cose servono degli esempi ... eccone un'altro

Ho dei dati, descritti da 3 parametri x, y, z. Qui si puo' vedere come sono distribuiti i punti. Non sono sparsi a caso nel volume ma c'e' una relazione tra x, y e z. Con la PCA e' possibile individuare le direzioni lungo cui sono sistribuiti i punti. Nella figura sono indicate come k1, k2 e k3

Page 10: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

DATI SCARTI prodotto degli SCARTI# x y z x-<x> y-<y> z-<z> x x y y z z x y x z y z# 0.0 68.32 13.46 -25.0 -30.66 -23.11 625.0 940.3 533.9 766.6 577.6 708.5 0.5 35.41 14.24 -24.5 -63.57 -22.33 600.2 4042 498.4 1558 547 1419 1.0 10.54 5.658 -24.0 -88.44 -30.91 576.0 7822 955.3 2123 741.8 2734 1.5 82.67 10.87 -23.5 -16.31 -25.70 552.2 266.1 660.3 383.4 603.8 419.2 2.0 25.29 23.68 -23.0 -73.69 -12.89 529.0 5431 166.0 1695 296.4 949.6 2.5 85.69 19.86 -22.5 -13.29 -16.71 506.2 176.7 279.1 299.1 375.9 222.1 3.0 52.65 16.24 -22.0 -46.33 -20.33 484.0 2147 413.1 1019 447.2 941.8 ................................................................ 50.0 153.6 38.58 25.0 54.62 2.015 625 2983 4.059 1365 50.36 110

M d

ati

Matrice di covarianza 2.146 4.568 1.334

4.568 18.66 3.318

1.334 3.318 1.692

Varianza di x, y, e z

Page 11: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Matrice di covarianza 2.146-

4.568 1.334

4.568 18.66-

3.318

1.334 3.318 1.692-

Si trova il valore di

per cui il determinante e' uguale a 0. E' una equazione di 3zo grado (dato che abbiamo 3 parametri).

1=20.69 -->87.8%

2=2.763 -->11.7%

3=0.100 --> 0.4%

Aut. Vettore K1 = 0.248300612 X + 0.9394863248 Y + 0.2360347807 ZAut. Vettore K2 = 0.1869712323 X + -0.2519829869 Y + 0.9494979382 ZAut. Vettore K3 = -0.4889375567 X + -0.03550023213 Y + 0.8715960383 Z

Page 12: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Posso cambiare sistema di coordinate e graficare i punti nellospazio K1, K2, K3 k1= 0.2483*x+0.9394*y+0.2360*z

k2= 0.1869*x- 0.2519*y+0.9494*zk3=-0.488*x-0.0355*y+0.8715z

Page 13: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Applicazione della PCA per la classificazione di galassie basata su spettri

Nel prossimo futuro, survey di galassie produrranno una gran quantita' di spettri che permetteranno di misurare una gran quantita' di proprieta' dele galassie. Ad esempio, la survey 2dF Galaxy Survey misurera' lo spettro di 250.000 galassie. Lo spettro integrato di una galassia e' la misura della sua popolazione stellare, del suo contenuto di gas e delle sue proprieta' dinamiche. Le proprieta' dello spettro correlano spesso con la morfologia delle galassie. Dato che lo spettro e' legato direttamente ai processi astrofisici che lo generano, gli spettri possono essere utilizzati per descrivere lo stato evolutivo della galassie. Gli spettro possono essere ottenuti per oggetti relativamente lontani e per i quali non e' possibile studiare la morfologia da immagini e sono relativametne semplici da analizzare. Anche se sono state studiate possibili classificazioni spettrali di galassie (Humason nel 1936, Morgan & Mayall nel 1957), solo recentemente questo tipo di studio/tecnica e' stata concretamente sviluppata.

Page 14: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Come si applica agli spettri

Uno spettro puo' essere considerato come 1 punto in uno spazio M-dimensionale dove M e' il numero di bin a cui e' misurato il flusso. In altre parole, preso uno spettro lo si ripulisce ta residui di sottrazione del cielo (sia emissione che assorbimento), eventuali colonne rovinate etc., lo si riporta nel sistema a riposo (non solo per quanto riguarda la lunchezza d'onda ma anche il flusso). A questo punto lo spettro avra' M misure di flusso, una per ogni intervallino di lunghezza d'onda (bin per l'appunto). Nella applicazione che mostriamo come esempio (presa da Folkes, S.R., et al. 1999, MNRAS 308, 459, l'articolo e' nel suto web del corso) il bin e' di 4Å. Lo scopo del PCA e' il trovare la combinazione lineare degli M parametri lungo cui la varianza e' massima. E' possibile vedere che questo asse corrisponde proprio all'autovettore corrispondente all'autovalore maggiore (che di fatto sara' uguale alla varianza lungo quest'asse).

Page 15: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Esempio di spettri preparati per la PCA. Ogni spettro e' campionato con 738 valori di flusso (ogni 4Å).Le righe spettrali piu' importanti sono indicte dalle linee verticali.

Page 16: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Spettro medio di tutto il campione di galassie (~6000 oggetti in questo esempio)

Componente principale n.1 (o primo autovettore). Il 49.6% della dispersione dei punti avviene in questa direzione

Componente principale n.2. Il 11.6% della dispersione dei punti avviene in questa direzione

Componente principale n.3 : 4.6% della dispersione.

Page 17: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Con le prime 3 componenti si tiene conto del 65.4% della varianza. Il rimanente 34.2% e' essenzialmente dovuto a rumore nei dati. A questo punto si puo' cercare di dare un senso fisoco a questo risultato.

La prima componente (PC1) essenzialmente mostra la correlazione tra tra la pendenza del continuo nel blu e la presenza di emissioni forti (cioe' se un oggetto e' blu ha anche forti emissioni

La seconda componente (PC2) permette di aumentare l'intensita' delle emissioni senza alterare al forma del continuo.

La terza componente (PC3) permette una anticorrelazione tra l'intensita' delle righe dell'ossigeno e dell'H �, in relazione al livello di ionizzazione delle regioni che generano l'emissione

L'interpretazione delle prime 3 componenti

Page 18: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Vediamo ora come e' possibile dare un significato fisico all'analisi PCA. Vedremo 2 differenti approcci:

1) interpretazione dello spettro

2) classificazione morfologica.

Interpretazione Fisica

Page 19: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Distribuzione degli spettri nello spazio delle prime 3 PC.PC1-PC2

In Questo piano gli spettri tendono a formare un unico raggruppamento. Gli oggetti blu e con righe di emissione cadono nella regione a destra mentre gli oggetti rossi con assorbimenti sulla sinistra. Oggetti con righe di emissione particolarmente forti sono nella pate inferiore del grafico. Gli oggetti indicati in basso a destra sono stati divisi in 6 categorie in modo da evidenziarne la posizione e dare un significato fisico alla classificazione.

Page 20: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

PC1-PC3In questo piano la segregazione dei punti e' meno marcata (come ci si poteca aspettare dato che PC3 conta meno di PC2). Si puo' comunque distinguere qui fra oggetti con emissioni di idrogeno e ossigeno

Page 21: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri

Distribuzione degli spettri nello spazio delle PC e classificazione morfologica

Utilizzando una 50na di oggetti con classificazione nota, e' possibile individuare le zone occupate dai vari tipi morfologici. Le righe oblique dividono il piano in 5 aree relative a 5 tipi morfologici come inticato dall'elenco in basso a destra. Gli spettri relativi ai 5 tipo sono mostrati nella diapositiva successiva.

Page 22: Analisi delle componenti principaliAnalisi delle componenti principali Si tratta di un potente metodo statistico che permette di esaminare empiricamente correlazioni fra piu’ parametri