Cross validazione Strumenti quantitativi per la gestione

3/16/2015 Cross validazione (1)

file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/5a_BSSCV.html#(1) 1/15

Cross validazione

Strumenti quantitativi per la gestioneEmanuele Taufer



Metodi di ricampionamentoI metodi di ricampionamento includono una serie di tecnichestatistiche computazionali che attraverso la ripetizione di

1. campionamento

2. adattamento di un modello

su uno stesso training set, permettono di ottenere ulterioriinformazioni sul modello adattato

La cross validazione può essere utilizzata per stimare il test MSE, oin generale qualsiasi misura di precisione, di una tecnica distatistical learning al fine di valutarne la performance (valutazione delmodello) o selezionarne il livello di flessibilità (selezione del modello).



Cross validazioneVediamo tre tecniche di base che possono essere applicate sia aproblemi di regressione che di classificazione:

1. uso del set di validazione (Validation set approach)

2. Leave-one-out cross validation (LOOCV)

3. k-fold cross validation



Validation set approachConsiste nel dividere in modo casuale il set di dati disponibile indue parti:

1. un training set

2. un set di validazione (o hold-out set)

Un modello di statistical learning è adattato sui training data esuccessivamente utilizzato per la previsione con i dati del set divalidazine

La misura del test error risultante (tipicamente l’MSE in caso diregressione) fornisce una stima del reale test error.

Infatti il set di validazione è frutto di una procedura dicampionamento e pertanto differenti campionamenti risultano indifferenti stime del test error



Esempio: Auto data set

Sinistra: un campione

Destra: più campioni



Svantaggi del Validation setapproach

1. Il metodo tende ad avere elevata variabilità ossia irisultati possono cambiare sostanzialmente al variaredel test set selezionato

2. Solo una parte delle unità disponibili è utilizzata perstimare . Questo può portare a minor precisionenella stima di e sovra-stima del test error

Le due tecniche di cross validazione che vediamo di seguito,cercano di ovviare a questi problemi

f

f



LOOCVAnche la LOOCV divide il set di osservazioni in due parti.Tuttavia, invece di creare due sottoinsiemi di dimensioniparagonabili, si procede come segue:

1. una singola osservazione è utilizzata per lavalidazione e le restanti osservazioni

compongono il training set.

2. è stimata sulla base delle osservazioni deltraining set

3. si effettua la previsione utilizzando . Poiché non è stato utilizzato nella stima di ,

fornisce una stima del test error . Ma anche se èimparziale per il test error, è una stima scadente perchéè molto variabile, in quanto si basa su una singolaosservazione .

( , )x1 y1

{( , ), … , ( , )}x2 y2 xn yn

f n − 1

y1 x1

( , )x1 y1 f

MS = ( −E1 y1 y1)2

MSE1

( , )x1 y1



4. La procedura è ripetuta selezionando per lavalidazione , una nuova stima di è fatta sulla basedelle osservazioni

, e calcolando .

5. La ripetizione di questo approccio volte produce , .

6. La stima LOOCV per il test MSE è la media degli disponibili:

( , )x2 y2

f

n − 1{( , ), ( , ), . . . , ( , )}x1 y1 x3 y3 xn yn

MS = ( −E2 y2 y2)2

n n

MSE MS , … , MSE1 En

n

MSE

C = MSV(n)1n

∑i=1

n

Ei



Schema LOOCV



Vantaggi LOOCVLa LOOCV ha alcuni vantaggi rispetto al validation set approach:

1. utilizzando unità per la stima di ha meno bias edi conseguenza, l’approccio LOOCV non tende asovrastimare il test error

2. poichè non vi è casualità nella scelta del test set non vi èvariabilità nei risultati per lo stesso data set iniziale.

La LOOCV può essere intensiva dal punto di vistacomputazionale.

Nel caso della regressione lineare tuttavia esistono forumulecomputazionali dirette a bassa intensità computazionale

n − 1 f



k-fold CVIn questo approccio si divide casualmente l’insieme delle osservazioni in gruppi, o folders, all’incirca di uguale dimensione.

Il primo folder viene considerato come un validation set e èstimata sui restanti folder. L’errore quadratico medio,

, è poi calcolato sulle osservazioni del folder tenuto fuori

Questa procedura è ripetuta volte; ogni volta scegliendo unfolder differente per la validazione ottenendo stime del test error,

La stima k-fold CV viene calcolata facendo la media questi valori,

Il metodo ha il vantaggio di essere meno intensivo dal punto divista computazionale se .

Inoltre la k-fold CV tende ad avere minore variabilità (su differentidata set di dimsensione ) rispetto al LOOCV

nk

fk − 1

MSE1

kk

MS , MS , … MSE1 E2 Ek

C = MSV(k)1k

∑i=1

k

Ei

k << n

n



Schema k-fold CV



LOOCV e k-fold CV

Sinistra: LOOCV

Destra: 10-fold CV



Simulazioni

Blu: vero test error

Nero (tratteggiato): test error LOOCV

Arancio: test error 10-fold CV



Riferimenti bibliograficiAn Introduction to Statistical Learning, with applications in R.(Springer, 2013)

Alcune delle figure in questa presentazione sono tratte dal testocon il permesso degli autori: G. James, D. Witten, T. Hastie e R.Tibshirani

Documents

Cross validazione Strumenti quantitativi per la gestione