Upload
raffaello-lanza
View
214
Download
0
Embed Size (px)
Citation preview
Primo sguardo a metodi multivariati per l'analisi del ttH
Studiare il possibile miglioramento di sensibilità per il segnale ttH nel canale MEt+Jet usando metodi multivariati
Utilizzato il framework delle analisi multivariate di Root (TMVA)
Al momento considerato solo reti neurali (MLP) e boosted decision trees (BDT)
10000 eventi usati per il training, il resto per il test Gli eventi sono pescati in modo casuale dal sample
corrispondente
Variabili usate e loro correlazioni Dopo la selezione di eventi con MEtSig > 3 e
jets(Et>25GeV && |η|<3) >= 5 e niente trigger
ttH tt+Njets
Boosted decision trees
Un decision tree è un classificatore ad albero binario in cui decisioni binarie vengono ripetute su un evento finchè non si raggiunge una classificazione (una foglia)
Il boosting consiste nel creare una foresta di alberi
ad ogni iterazione gli eventi vengono pesati secondo l'errore dell'iterazione precedente
Alla fine viene presa una decisione democratica usando tutta la foresta
Classificazione eventi ttH vs tt+Njets Addestrata una foresta di
400 alberi Indice di Gini i = p(1-p)
seleziona la decisione per cuiimother – Σ(idaughter*evfrac)è massima
nCuts = 20 AdaBoost α = (1-err)/err Pruning a 4.5 (Cost
Complexity) fatto dopo il boosting
RispostayBDT(x) = Σln(αi)hi(x)
Discriminatore S vs B
Rete Neurale MLP
Una rete neurale è una sequenza di neuroni che rispondono in funzione dell'input ricevuto
Può essere vista come una mappa non lineare (se almeno uno dei neuroni ha funzione di risposta non lineare) dallo spazio delle variabili a uno spazio di arrivo
Si parte da pesi casuali e li si modifica in modo da minimizzare l'errore sulla risposta
Classificazione eventi con MLP
MLP feed-forward
2 strati nascosti, il primo con 26 neuroni e il secondo con 25
Funzione di risposta del neurone = sigmoide
Addestramento con back-propagation, online
Per ridurre overtraining si controlla ad ogni iterazione l'errore sul test sample oltre che sul training sample Si ferma quando l'errore sul
campione di controllo è sotto la soglia fissata
Confronto overtraining Il BDT è più sensibile a overtraining, bisogna aumentare il
campione di training e aggiustare il pruning
Overtraining delBDT
Efficienza di segnale vs reiezione del bakground
Il BDT è migliore per alti valori di efficienza, ma nella regione con alta reiezione di bakground la differenza è minore
Rimosse le variabili più correlate Tenendo le 14 variabili meno correlate non si perde molto
in discriminazione, l'MLP recupera sul BDT MLP con 2 strati:15,14
Variazioni struttura MLP Layer dell'MLP:
3 layer: 15-5+5,14-5
+5,13-5+5
2 layer: 15-5+5,14-5
+5
Modificando la struttura non si guadagna molto
2 Layer 3 Layer
BDT
MLP
To do Gli eventi di fondo non sono pesati, pesare i diversi tipi in
proporzione alle sezioni d'urto Confrontare l'aumento di significanza rispetto al metodo di
likelihood già studiato Ottimizzare il set di
variabili da usare per MLPe BDT separatamente
Determinare i parametri(struttura della rete, forzadel pruning per il BDT, ...)
Aggiungere altri metodi, ilSVM sembra promettente
Testare anche il metodo di decorrelazione lineare interno di TMVA