Primo sguardo a metodi multivariati per l'analisi del ttH Studiare il possibile miglioramento di sensibilità per il segnale ttH nel canale MEt+Jet usando

Primo sguardo a metodi multivariati per l'analisi del ttH

Studiare il possibile miglioramento di sensibilità per il segnale ttH nel canale MEt+Jet usando metodi multivariati

Utilizzato il framework delle analisi multivariate di Root (TMVA)

Al momento considerato solo reti neurali (MLP) e boosted decision trees (BDT)

10000 eventi usati per il training, il resto per il test Gli eventi sono pescati in modo casuale dal sample

corrispondente

Variabili usate e loro correlazioni Dopo la selezione di eventi con MEtSig > 3 e

jets(Et>25GeV && |η|<3) >= 5 e niente trigger

ttH tt+Njets

Boosted decision trees

Un decision tree è un classificatore ad albero binario in cui decisioni binarie vengono ripetute su un evento finchè non si raggiunge una classificazione (una foglia)

Il boosting consiste nel creare una foresta di alberi

ad ogni iterazione gli eventi vengono pesati secondo l'errore dell'iterazione precedente

Alla fine viene presa una decisione democratica usando tutta la foresta

Classificazione eventi ttH vs tt+Njets Addestrata una foresta di

400 alberi Indice di Gini i = p(1-p)

seleziona la decisione per cuiimother – Σ(idaughter*evfrac)è massima

nCuts = 20 AdaBoost α = (1-err)/err Pruning a 4.5 (Cost

Complexity) fatto dopo il boosting

RispostayBDT(x) = Σln(αi)hi(x)

Discriminatore S vs B

Rete Neurale MLP

Una rete neurale è una sequenza di neuroni che rispondono in funzione dell'input ricevuto

Può essere vista come una mappa non lineare (se almeno uno dei neuroni ha funzione di risposta non lineare) dallo spazio delle variabili a uno spazio di arrivo

Si parte da pesi casuali e li si modifica in modo da minimizzare l'errore sulla risposta

Classificazione eventi con MLP

MLP feed-forward

2 strati nascosti, il primo con 26 neuroni e il secondo con 25

Funzione di risposta del neurone = sigmoide

Addestramento con back-propagation, online

Per ridurre overtraining si controlla ad ogni iterazione l'errore sul test sample oltre che sul training sample Si ferma quando l'errore sul

campione di controllo è sotto la soglia fissata

Confronto overtraining Il BDT è più sensibile a overtraining, bisogna aumentare il

campione di training e aggiustare il pruning

Overtraining delBDT

Efficienza di segnale vs reiezione del bakground

Il BDT è migliore per alti valori di efficienza, ma nella regione con alta reiezione di bakground la differenza è minore

Rimosse le variabili più correlate Tenendo le 14 variabili meno correlate non si perde molto

in discriminazione, l'MLP recupera sul BDT MLP con 2 strati:15,14

Variazioni struttura MLP Layer dell'MLP:

3 layer: 15-5+5,14-5

+5,13-5+5

2 layer: 15-5+5,14-5

+5

Modificando la struttura non si guadagna molto

2 Layer 3 Layer

BDT

MLP

To do Gli eventi di fondo non sono pesati, pesare i diversi tipi in

proporzione alle sezioni d'urto Confrontare l'aumento di significanza rispetto al metodo di

likelihood già studiato Ottimizzare il set di

variabili da usare per MLPe BDT separatamente

Determinare i parametri(struttura della rete, forzadel pruning per il BDT, ...)

Aggiungere altri metodi, ilSVM sembra promettente

Testare anche il metodo di decorrelazione lineare interno di TMVA

Documents

Primo sguardo a metodi multivariati per l'analisi del ttH Studiare il possibile miglioramento di sensibilità per il segnale ttH nel canale MEt+Jet usando