Upload
ngoduong
View
230
Download
1
Embed Size (px)
Citation preview
Modelli lineari generalizzati e
tariffazione RCA
Davide Biancalana : [email protected]
Jessica Donadio : [email protected]
Ivan Granito : [email protected]
Corso 3-13 Novembre 2015
3-13 Novembre
2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
1
Agenda Corso Giorno 1:
Introduzione alla tariffazione nei Rami Danni e Modelli lineari generalizzati
Introduzione alla tariffa
Modelli lineari generalizzati dal punto di vista statistico
Selezione delle variabili: Forward, backward e StepWise
Giorno 2:
GLM: Modelli per il numero dei sinistri e per il costo medio
Modello per il numero dei sinistri
Modello per costo medio e per i sinistri punta
Re Regression
Giorno 3:
Esempio analisi tariffaria
Cluster Analysis: punto di vista statistico (Cenni)
Applicazione pratica - Costruzione di un Tariffa con modelli GLM
Buona parte del materiale è ripresa direttamente dal libro di testo «La Tariffazione nei rami danni con modelli lineari generalizzati» di P. Gigante, L. Picech e L. Sigalotti
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
2
Introduzione alla
tariffazione nei rami danni
3-13 Novembre
2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
3
Modello di teoria del rischio per la Tariffa RCA
Dal punto di vista teorico è possibile rappresentare il risarcimento totale X di un generico assicurato nel corso di un certo periodo di riferimento, nel seguente modo:
𝑋 = 𝑍𝑖
𝑁
𝑖=1
𝑍𝑖: variabile casuale dell’importo del risarcimento relativo al sinistro i-esimo
𝑁: variabile casuale discreta del numero di sinistri generati dall’assicurato nel corso del periodo di
riferimento
Calcolare il premio significa determinare il valore atteso (e la varianza) della variabile X ed applicarvi
dei caricamenti (di sicurezza e spese). Il modello classico prevede le seguenti ipotesi:
𝑍𝑖 ⊥ 𝑁
𝑍𝑖 sono indipendenti e identicamente distribuite
È possibile dimostrare che: 𝐸 𝑋 = 𝐸 𝑍 𝐸 𝑁
𝑉𝐴𝑅 𝑋 = 𝐸 𝑁 ∙ 𝑉𝐴𝑅 𝑍 + 𝑉𝐴𝑅(𝑁) ∙ 𝐸 𝑍 2
Questi risultati sono validi qualsiasi sia la distribuzione di probabilità di Z ed N.
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
4
I modelli lineari generalizzati – MODELLO PER COSTO MEDIO E PER I SINISTRI PUNTA
Modello di teoria del rischio per la Tariffa RCA
Definizione:
Un gruppo di assicurati è definito omogeneo se la rischiosità a loro connessa è descrivibile
mediante la stessa variabile casuale S (stessa distribuzione e stessi parametri)
1° Caso
Il portafoglio è costituito da Np assicurati tra di loro omogenei.
In questo caso, la variabile S viene modellizzata considerando tutto il portafoglio
2° Caso
Il profilo dell’assicurato cambia in base al sesso (M,F) e alla localizzazione geografica del
rischio (Nord ,Centro ,Sud). In questo caso quindi si hanno 6 classi di rischio, per ciascuna
delle quali andrà calibrata la variabile S del danno aggregato e quindi calcolato il premio.
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
5
I modelli lineari generalizzati – MODELLO PER COSTO MEDIO E PER I SINISTRI PUNTA
L’importanza della tariffazione – Ragioni commerciali
La tariffazione è la procedura che consente di assegnare a ciascun assicurato un premio in funzione della sua rischiosità.
L’individuazione del premio corretto consente di ottenere una selezione ottimale (e non avversa) dei rischi.
Ipotesi:
Il mercato è composto da 2 categorie di assicurati: 𝑁𝐵 poco rischiosi (B) ed 𝑁𝐶 molto rischiosi (C).
Esiste una sola compagnia ALPHA che opera in regime di monopolio e assicura annualmente tutti gli utenti applicando un premio uguale per tutti gli assicurati.
𝑋 𝑋𝐵 𝑋𝐶 sono le variabili di danno aggregato per un singolo assicurato rispettivamente indifferenziato, buono e cattivo
La compagnia ha uscite per spese per cui applica solamente un caricamento di sicurezza omogeneo e additivo pari a c
𝑃𝐸: premio equo ; 𝑃𝑇 = 𝑃𝐸 + 𝑐: Premio di tariffa
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
6
I modelli lineari generalizzati – MODELLO PER COSTO MEDIO E PER I SINISTRI PUNTA
L’importanza della tariffazione – Ragioni commerciali
La Compagnia ALPHA che opera in regime di monopolio applica un premio pari a:
𝑃𝐸 = 𝐸 𝑋 𝐸 𝑋𝐵 < 𝑃𝐸 < 𝐸(𝑋𝐶)
Quindi gli assicurati B pagano più di quanto dovrebbero (utile per la Compagnia) mentre gli assicurati C pagano meno di quanto dovrebbero (perdita per la Compagnia) effetto
di solidarietà tra assicurati.
Condizione di equilibrio per la Compagnia:
𝑃𝑇 ⋅ 𝑁𝐵 +𝑁𝐶 > 𝑁𝐵 ⋅ 𝐸 𝑋𝐵 + 𝑁𝐶 ⋅ 𝐸 𝑋𝐶 𝑐 > 0
Shock di mercato:
Ipotizziamo che, all’inizio dell’anno T, entri nel mercato una nuova compagnia BETA e che
questa adotti un sistema di tariffazione più efficiente rispetto ad ALPHA applicando due
premi diversi alle due categorie di assicurati:
𝑃𝐵𝑇 = 𝐸 𝑋𝐵 + 𝑐 𝑃𝐶
𝑇 = 𝐸 𝑋𝐶 + 𝑐 𝑃𝐵𝑇 < 𝑃𝑇 < 𝑃𝐶
𝑇
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
7
I modelli lineari generalizzati – MODELLO PER COSTO MEDIO E PER I SINISTRI PUNTA
L’importanza della tariffazione – Ragioni commerciali
Cosa accade alla struttura del mercato?
Essendo 𝑃𝐵𝑇 < 𝑃𝑇 gli assicurati poco rischiosi lasceranno la compagnia ALPHA per rivolgersi
alla compagnia BETA poiché pagano un premio migliore.
La Compagnia ALPHA invece continuerà ad applicare il premio medio 𝑃𝑇 (l’adeguazione
del premio avverrà alla fine dell’anno T) per cui tutti gli assicurati C resteranno con ALPHA.
Alla fine dell’esercizio T:
ALPHA consegue una perdita che, in media, sarà pari a (𝑋𝐶−𝑃𝐶𝑇) ⋅ 𝑁𝐶 cambierà
strategia di tariffazione
BETA consegue un Utile che, in media, sarà pari 𝑐 ⋅ 𝑁𝐵
BETA prevale sul mercato poiché adotta un sistema di tariffazione più efficiente rispetto a
quello di ALPHA
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
8
I modelli lineari generalizzati – MODELLO PER COSTO MEDIO E PER I SINISTRI PUNTA
La personalizzazione tariffaria
Un portafoglio è una collettività di rischi eterogenei che, con le tecniche
della tariffazione, è usualmente ripartito in sottogruppi di rischio con forti
caratteristiche di analogie. L’obiettivo è ottenere classi omogenee per
sinistrosità, cosicché ai rischi di una medesima classe si possa attribuire la
medesima base tecnica (ossia lo stesso premio). In tal modo si differenziano i
premi per gli assicurati della collettività, tenendo conto dei diversi profili di
rischio.
La differenziazione dei premi può avvenire in due modi (distinti o combinati):
1. Personalizzazione o differenziazione a priori
2. Personalizzazione a posteriori.
9
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Personalizzazione a priori Nella personalizzazione a priori si differenziano i premi in funzione di un
insieme di caratteristiche specifiche dei rischi osservabili a priori, prima di
disporre della storia di sinistrosità degli assicurati;
Le tecniche di personalizzazione a priori permettono di evidenziare
sottogruppi di rischi analoghi, detti classi tariffarie e di valutare i premi da
attribuire a ciascuna classe;
Polizza e/o singolo rischio
Profilo di rischio dato dalla
combinazione di
caratteristiche prescelte
PRO:
1. Possibilità di tariffare individui senza conoscere la loro storia assicurativa;
2. Trasparenza nel processo di definizione della tariffa;
3. …
CONTRO:
1. Il vantaggio informativo di utilizzare più criteri di personalizzazione si
riduce all’aumento del numero di classi tariffarie.
10
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Personalizzazione a posteriori L’utilizzo di molte variabili tariffarie ha il vantaggio di migliorare l’accuratezza
dell’analisi tariffaria, tuttavia, all’interno di ogni classe, permane comunque
una notevole eterogeneità nei comportamenti degli assicurati. Si è riscontrato
che spesso l’osservazione della sinistrosità storica degli assicurati può essere
più efficace dell’impiego di tante variabili tariffarie;
Alcune coperture assicurative (modelli basati sulla credibilità o ad es. Bonus-
Malus) prevedono un aggiustamento del premio a posteriori in cui si tiene
conto della storia individuale;
Premio collettivo di base a priori Premio basato sull’esperienza individuale
PRO:
1. Tariffazione maggiormente aderente alla reale rischiosità dell’individuo;
2. …
CONTRO:
1. Trasparenza nel processo di definizione della tariffa;
2. …
11
3-13 Novembre
2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Relativi al conducente Relativi al veicolo Relativi alla garanzia
Età Uso Tipo di tariffa
Sesso Marca e modello Eventuali esclusioni e/o garanzie aggiuntive
Stato Civile Potenza in KW Attestato di riscio (situazione dei sinistri negli ultimi 5 anni)
Residenza Peso Classe di Bonus/Malus
Numero di figli Età del veicolo Rateizzazione del premio
Anzianità della patente di guida Alimentazione Massimale di copertura
Tipologia della patente Valore del veicolo
Punti della patente Velocità massima
Professione Se il proprietario coincide con il conducente
Nazionalità Se primo veicolo
Numero di altri veicoli in famiglia
Chilometri percorsi annualmente
Tipo di allarme
Tipo di riparo notturno
Variabili tariffarie e fattori di rischio I fattori giudicati influenti sulla sinistrosità, prendendo ad esempio il caso
delle assicurazioni R.C.Auto, sono le caratteristiche del veicolo e
dell’assicurato, le informazioni legate all’uso del veicolo ed altri aspetti
quali, ad esempio, lo stile del guida del conducente rilevato attraverso le
cosiddette “Black Box”.
Fonte: ANIA
12
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Modelli tariffari: moltiplicativo ed
additivo
Modelli unico sulla quota danni stima diretta di X: definiscono i livello di
premio studiando il risarcimento totale del danno relativo ad una singola
polizza, i cui dati sono disponibili per periodi di osservazione di durata
annuale;
Modelli su frequenza sinistri e risarcimento medio per sinistro: si basano sullo
studio separato della frequenza dei sinistri in un orizzonte temporale
annuale e sul risarcimento medio del sinistro;
Modelli su tasso di premio: nelle coperture assicurative in cui è individuabile un valore di esposizione al rischio che rappresenta la terminazione massima
del risarcimento, il premio può essere calcolato attraverso il tasso di premio
cioè il premio per l’esposizione unitaria.
13
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Dimensione del problema.
Le unità statistiche che costituiscono il portafoglio vengono descritte mediante
due caratteri:
Sesso: M,F
Localizzazione geografica del rischio Sud – Centro Nord
14
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
M F
S P(S,M) P(S,F)
C P(C,M) P(S,F)
N P(N,M) P(S,F)
Personalizzazione a PrioriAll’interno di ciascuna delle sei classi di
rischio viene fatta una ulteriore
personalizzazione dei premi in base alla
sinistrosità che l’assicurato ha dimostrato
nel tempo. Un assicurato nuovo paga il
premio collettivo 𝑃𝑖𝑗𝐶 mentre un
assicurato osservato nel tempo paga
𝑃𝑖𝑗𝑘 = 𝑓(𝑃𝑖𝑗
𝐶 ; 𝐼𝑆)
L’obbiettivo è stimare i 6 premi collettivi indicati nella tabella. Nel caso in cui le
variabili siano molte, la dimensione del problema aumenta in modo moltiplicativo (𝑵𝒊 ⋅ 𝑵𝒋 ⋅ … ⋅ 𝑵𝒛). Per limitare questo problema vengono utilizzati dei modelli sintetici.
Classi tariffarie e relatività Ogni fattore di rischio o variabile tariffaria può assumere più determinazioni
dette classi tariffarie o anche modalità o livelli.
Al fine di valutare i premi, si considera una funzione, detta modello
tariffario, che ad ogni classe associa il premio corrispondente. Tale funzione
dipende da alcuni parametri, detti relatività , che sono stimati dai dati.
𝑃𝑖,𝑗 = 𝐸 𝑋𝑖,𝑗 = 𝑓(𝛼𝑖 , 𝛽𝑖)
I modelli tariffari tradizionalmente adottati sul mercato sono di due tipi: il
modello moltiplicativo ed il modello additivo.
I GLM (modelli lineari generalizzati) sono attualmente una metodologia
molto utilizzata per la classificazione dei rischi, la determinazione dei premi
a priori e quindi delle relatività.
i jModalità i-esima
della prima variabile Modalità i-esima
della seconda variabile
15
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Modello tariffario
Modello moltiplicativo
Modello additivo
Da notare che l’adozione di un modello moltiplicativo o additivo consente di stimare I+J relatività invece di IxJ premi: la dimensione del problema si riduce notevolmente ma diventa centrale l’ipotesi (moltiplicativa o additiva) implicita nel modello tariffario
jiijij pXEP )(
jiijij pXEP )(
Relatività/Coefficienti
Valore costante
Stima
16
Relatività/Punteggi
3-13 Novembre
2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Metodi di stima delle relatività Ipotizzando, per semplicità, che il premio di base sia uguale alla quota danni
di portafoglio, si osserva che, in entrambi i modelli, il problema della stima dei
parametri è indeterminato. Nel modello moltiplicativo i parametri sono
determinati a meno di un fattore non nullo, invece nel modello additivo a
meno di una costante additiva.
I metodi di stima intuitivo
Il metodo dei totali marginali
Il metodo dei minimi quadrati
NOTA BENE: è sempre possibile passare da un modello moltiplicativo ad uno
additivo tramite la trasformazione logaritmo.
NOTA BENE 2: spesso, nella pratica tariffaria come anche nei GLM, il premio di
base è fissato pari alla quota danni di un’assegnata classa
tariffaria presa a riferimento.
17
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Metodo di stima intuitivo
Q
Qii
Q
Q j
j
Quota danni rischi con prima variabile in modalità i
Quota danni intero portafoglio
Stima relatività di rischi
per prima variabile nella
modalità i
jiijij QXEP ˆˆ)(ˆ Premio per profilo (i, j)
18
NOTA BENE : Nei modelli univariati la condizione fondamentale di base è
l’indipendenza logica e stocastica tra le variabili di personalizzazione
prescelte. 3-13 Novembre
2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Condizioni di bilanciamento Una condizione di bilanciamento richiede che, ripartendo il portafoglio in
sottogruppi numerosi di assicurati, per ciascun gruppo la tariffa copra il
fabbisogno.
Esistono diverse tipologie di bilanciamento:
Rispetto ad una singola variabile
Sulla totalità del portafoglio
I
i
ijij
I
i
ijij tQtP11
J
j
I
i
ijij
J
j
I
i
ijij tQtP1 11 1
Esposizione dei
rischi del profilo (i, j)
Metodi
19
J e I rappresentano il
numero di classi
tariffarie nelle variabili
esempio. 3-13 Novembre
2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Metodo dei totali marginali
È un metodo di stima della relatività applicabile ai modelli moltiplicativi e
additivi, il cui obiettivo è la realizzazione del bilanciamento per ogni
variabile di personalizzazione.
Si tratta di determinare le relatività che risolvono il sistema.
I
i
ijijij
I
i
ji
J
j
ijijij
J
j
ji
tQtf
tQtf
11
11
),(
),(
Modello tariffario
20
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Metodo dei minimi quadrati
E’ il tipico metodo impiegato per la stima dei parametri di un modello che
definisce una funzione obiettivo da minimizzare in funzione delle relatività
del modello tariffario, sotto la condizione di bilanciamento totale;
Ulteriori metodi di stima possono essere ottenuti pesando le varie classi
tariffarie per la loro relativa esposizione oppure, nel caso del metodo del
chi quadro, rapportando gli scarti quadratici ai valori stimati.
2
1 1
,
J
j
I
i
jiij fQ
21
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Equilibrio tariffario
Dal punto di vista del’assicuratore, la condizione di bilanciamento totale del portafoglio è necessaria ai fini del mantenimento dell’equilibrio economico dell’impresa.
Nella costruzione di una tariffa R.C. Auto, una compagnia di assicurazioni calcola dapprima il fabbisogno per far fronte ai risarcimenti che occorreranno nel corso di competenza della tariffa.
Il calcolo del fabbisogno tariffario si basa sull’applicazione di un modello (ad esempio il modello Filippi impiegato nella tariffa amministrata) che proietta nel periodo di applicazione della tariffa alcune risultanze osservate nel passato, considerando poi alcuni correttivi di natura economica.
Da ultimo, una serie di ulteriori elementi, quali l’onere per il Fondo di Garanzia per le Vittime della Strada e i caricamenti per spese, consente di determinare il premio medio di tariffa.
22
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Tariffe commerciali (1/3) Nella realtà del mercato assicurativo Italiano e Europeo vige il principio di
libertà tariffaria, quindi nel determinare le tariffe le compagnie non solo
tengono conto delle analisi tecniche operate attraverso la stima delle
relatività ma tengono conto anche di altri fattori come ad esempio il
posizionamento del premi praticati rispetto ad altre compagnie in talune
zone territoriali, strategie commerciali, etc...
Nota Bene: per quanto riguarda il ramo R.C. Auto, in Italia, a differenza
degli altri paesi Europei, la normativa obbliga le compagnie a contrarre
questa tipologia di coperture ad ogni assicurato che la richieda.
Elusione
dell’obbligo a
contrarre
Rifiuto dell’intermediario o
della compagnia di
sottoscrivere la polizza
Elusione attraverso la leva
tariffaria
23
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Tariffe commerciali (2/3) Quindi nel processo interno di definizione di una tariffa si possono
distinguere quattro fasi :
1. Calcolo del fabbisogno della tariffa nel periodo di competenza;
2. Analisi tecnica delle relatività (Attraverso modellistica tariffaria);
3. Definizione delle relatività della tariffa commerciale;
4. Valutazione del gettito medio della tariffa.
Nella fase 3 la normativa prevede che tra i due set di relatività “tecnici” e “commerciali” ci sia coerenza;
Nel corso normale delle attività le compagnie aggiornano i premi tra un’edizione tariffaria e l’altra variando direttamente le relatività e valutando la conseguente variazione di gettito.
Prima emissione
24
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Fabbisogno Tariffario
ScmfQ___
Frequenza sinistri
proiettata nel periodo
di competenza della
tariffa
Costo medio dei sinistri
proiettato nel periodo
di competenza della
tariffa
Caricamenti
per spese
Margine di
Sicurezza e/o
Premio al Rischio
• Sinistri tardivi
• Sinistri riaperti
• …
• Spese resistenza
• Inflazione
• …
• FGVS
• Spese di gestione
• …
Il margine di Sicurezza e/o Premio al Rischio potrebbe essere fissato, secondo
l’approccio dell’utilità attesa, proporzionale ad una misura di dispersione del
risarcimento totale (ad esempio la stima del MSEP utilizzando i modelli GLM).
Tipicamente le compagnie fissano tale caricamento in maniera forfettaria.
25
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Fabbisogno medio del
generico rischio presente
in portafoglio
Premio di riferimento (Prif)
1 1
,
QQP
I
i
J
j
N
n
ji
rif
ji
QN
nPI
i
J
j
ijjirif
1 1
I
i
J
j
ijnN1 1
Stima del fabbisogno medio
nel periodo di copertura tariffaria
Numero polizze nella classe tariffaria (i, j)
Approssimazione del premio
di riferimento basata sull’utilizzo
dei gradienti di premio
J
jj
J
jjj
t
t
1
1
26
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Tariffe commerciali (3/3) Valutazione del gettito
ScmfQN
nPI
i
J
j
ijjirif ___1 1
~~~
Premio commerciale per
Il profilo tariffario(i, j)
Ottenere l’uguaglianza
ricalcolando il premio di
riferimento
Margine di
sicurezza
e/o Premio
al rischio
Ottenere l’uguaglianza
variando il premio al
rischio
Hp: Portafoglio chiuso
Impatto sui premi pagati
dagli assicurati
Impatto su margine di
profitto della compagnia
27
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Modello frequenza e costo medio
QN
nQ
I
i
J
j
ijcm
j
f
j
cm
i
f
irif 1 1
ˆˆˆˆ
I
i
J
j
N
ncm
j
f
j
cm
i
f
i
rif
ij
1 1
ˆˆˆˆ
Quota danni calcolata
in modo che l’equilibrio
tariffario sia soddisfatto
Relatività stimate da
due modelli separati tra
frequenza e costo
medio (ad esempio da
modelli GLM)
28
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Equazione di equilibrio finale
QN
nQ
N
nP
I
i
J
j
ijcm
j
f
j
cm
i
f
irif
I
i
J
j
ij
jirif 1 11 1
ˆˆˆˆ~~~
Fabbisogno Tariffa commerciale Tariffa Tecnica
QQP cm
j
f
j
cm
i
f
irifjirif ˆˆˆˆ~~~
Personalizzazione Coerenza
Per profilo
29
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
I modelli lineari generalizzati – Introduzione alla tariffa
Sistemi moderni di tariffazione
La tecnologia moderna offre nuove possibilità per raccogliere dati e
personalizzare i premi delle tariffe RCA, mediante l’installazione di dispositivi specifici all0interno degli autoveicoli
Tali sistemi operano nell’ambito della tariffazione a posteriori e consentono di
personalizzare il premio in base ai comportamenti reali dimostrati dagli
assicurati.
Pay As You Drive : Il premio viene calcolato sulla base dell’effettivo utilizzo del
veicolo da parte dell’assicurato. La verifica viene fatta mediante dei sistemi
GPS con i quali è possibile verificare nel dettaglio che le distanze
contrattualizzate siano effettivamente compatibili con quelle percorse dall’assicurato nel periodo di riferimento. Tali sistemi consentono inoltre di
verificare:
la reale localizzazione geografica del rischio (dove si guida e non dove si ha la residenza
anagrafica)
il fatto che il guidatore abbia o meno delle abitudini consolidate in termini di percorsi (ciò
riduce la rischiosità).
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
30
I modelli lineari generalizzati – Introduzione alla regressione lineare
Sistemi moderni di tariffazione
Pay As You Go : Il premio viene calcolato sulla base della rischiosità reale
dimostrata dall’assicurato con i suoi comportamenti di guida. Questa viene rilevata mediante l’installazione di sistemi specifici (accelerometri) sui veicoli
assicurati. Tali sistemi rilevano la serie storica delle accelerazioni del veicolo
nelle tre direzioni orizzontale, verticale ed laterale. Tali sistemi sono
generalmente accompagnati da delle formule contrattuali con premi
periodici mensili in modo che:
1° Mese: L’assicurato paga il premio mensile collettivo della sua classe di
riferimento (tariffazione a priori)
Mesi successivi: l’assicurato paga un premio risultante dalla media ponderata secondo un fattore di credibilità, tra il premio collettivo e quello individuale
stimato sulla base della rischiosità dimostrata.
𝑃𝑡 = 𝛼𝑡 ⋅ 𝑃𝐼 + 1 − 𝛼𝑡 ⋅ 𝑃𝐶
Dove 𝛼𝑡 è il fattore di credibilità che è funzione del tempo (e della quantità) di
dati osservati. 26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
31
I modelli lineari generalizzati – Introduzione alla regressione lineare
Sistemi moderni di tariffazione
Tali informazioni consentono di verificare la
rischiosità dello stile di guida del guidatore.
Attualmente non esistono ancora dati di mercato per associare una sinistrosità (in
termini di frequenza o importo) allo stile di
guida misurato con l’accelerometro
poiché è uno strumento di nuova introduzione che si sta diffondendo solo in
alcuni mercati (es. UK).
Nel futuro sicuramente questo approccio
cambierà totalmente il modo di tariffare i
rischi, andando ad escludere alcune
variabili (es. potenza del veicolo), ma
includendone altre. Sarà la realtà con la
quale gli attuari si dovranno confrontare
nei prossimi anni.
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
32
I modelli lineari generalizzati – Introduzione alla regressione lineare
t x y z
1 -0,35465 -0,30045 0,312067
2 -0,28194 -0,12921 -0,09377
3 -0,07048 0,296667 -0,09542
4 0,174962 -0,0927 0,26913
5 -0,28525 0,145595 -0,46727
6 -0,33173 0,318024 -0,16582
7 -0,48476 0,144918 0,287132
8 -0,20452 -0,4938 -0,20162
9 0,382841 -0,26618 0,158956
10 -0,01442 0,035247 0,073153
11 0,087212 -0,23235 0,0429
12 -0,30672 -0,43461 0,004687
Accelerometro
Focus: Tipologie di variabili Il modello di regressione visto è applicabile a basi dati costituite da variabili di tipo quantitativo, ma nella pratica
attuariale della tariffazione, la maggior parte delle variabili sono pero di tipo qualitativo.
Definizione:
Variabile Quantitativa: E’ una variabile con determinazioni numeriche (es. età, anzianità di patente dell’assicurato, cilindrata, anzianità del veicolo)
Questo tipo di variabile può essere considerata direttamente nel modello oppure può essere considerata una sua trasformata
Variabile Nominale o Qualitativa: E’ una variabile con determinazione non numerica (es. sesso, professione, stato civile, zona di residenza dell’assicurato, marca e/o tipo di alimentazione del
veicolo)
Questo tipo di variabile deve essere codificata numericamente prima di poterla utilizzare nel modello di regressione
In linea generale, prima di poter applicare il modello di regressione è quindi necessario operare
delle trasformazioni e delle modifiche alla base dati di partenza.
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
33
I modelli lineari generalizzati – Introduzione alla regressione lineare
Trasformazione di variabili qualitative Una variabile qualitativa, per poter essere utilizzata nel modello di regressione deve essere codificata numericamente.
Es:
𝑋 = 1 𝑠𝑒 𝑚𝑎𝑠𝑐ℎ𝑖𝑜0 𝑠𝑒 𝑓𝑒𝑚𝑚𝑖𝑛𝑎
Nel caso in cui la variabile presenti più di due modalità è possibile operare nel seguente modo:
Si considera una codificazione numerica in corrispondenza biunivoca rispetto alle modalità qualitative:
Es. la classe Bonus – Malus
Viene introdotta una variabile Dummy per ciascuna modalità
Modalità
Maschio
Femmina
Modalità
Celibe / Nubile
Coniugato /a
Vedovo /a
Divorziato / a
Modalità Dummy Y 1 Y 2 Y 3 Y 4
Celibe / Nubile X 1 1 0 0 0
Coniugato /a X 2 0 1 0 0
Vedovo /a X 3 0 0 1 0
Divorziato / a X 4 0 0 0 1
𝑋1 = 1 𝑠𝑒 𝑐𝑒𝑙𝑖𝑏𝑒0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
𝑋2 = 1 𝑠𝑒 𝑐𝑜𝑛𝑖𝑢𝑔𝑎𝑡𝑜0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
𝑋3 = 1 𝑠𝑒 𝑣𝑒𝑑𝑜𝑣𝑜0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
𝑋4 = 1 𝑠𝑒 𝑑𝑖𝑣𝑜𝑟𝑧𝑖𝑎𝑡𝑜0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
𝑦 = 𝛽1 ∙ 𝑋1 ∙ 𝛽2 ∙ 𝑋2 ∙ 𝛽3 ∙ 𝑋3 ∙ 𝛽4 ∙ 𝑋4
𝑦 = 𝛽1 ∙ 1 ∙ 𝛽2 ∙ 0 ∙ 𝛽3 ∙ 0 ∙ 𝛽4 ∙ 0
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
34
I modelli lineari generalizzati – Introduzione alla regressione lineare
Trasformazione di variabili quantitative La necessità di effettuare trasformazioni sui dati di partenza possono derivare da problematiche di diverso tipo:
Variabili quantitative con scarsità di dati su alcuni intervalli di valori
Es: nella variabile età è possibile che ci siano poche o nessuna osservazione per alcuni valori di età
Soluzione: ripartizione dei valori in classi, livelli o modalità
Dipendenza non lineare della variabile dipendente rispetto ad un regressore o ad una funzione di più regressori
Soluzione: introduzione nel modello di trasformate dei regressori
Es. la variabile Bonus Malus è qualitativa. Spesso però nelle classi estreme ci sono poche osservazioni per cui non è possibile
stimare i parametri. In questo caso la variabile viene considerata quantitativa ma, al fine di ottenere dei coefficienti che
siano crescenti rispetto alla classe (a classi peggiori devono essere assegnati premi più alti), la variabile viene trasformata
attraverso dei polinomi di grado alto e si vanno ad eliminare via via i coefficienti ritenuti non significativi fino a quando i
parametri stimati non diventano monotoni crescenti al crescere della classe.
Età f ass
18 19
19 61
…
63 31
64 28
Classi età f ass
18 -35 243
…
63 - 70 86
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
35
I modelli lineari generalizzati – Introduzione alla regressione lineare
Interazione tra variabili di classificazione
Definizione: le variabili quantitative ripartite in livelli e le variabili qualitative vengono dette variabili di classificazione.
Partendo dalle variabili di classificazione, è possibile considerare l’effetto congiunto di due o più di loro sulla variabile
dipendente.
Es. Date due variabili (A e B) ripartite rispettivamente nei livelli 1, … , a e 1, … , b è possibile definire 𝑎 ∙ 𝑏 variabili che
descrivono le cosiddette interazioni;
𝑋𝑖,𝑗𝐴𝐵 =
1 𝑠𝑒 𝐴 = 𝑖 𝑒 𝐵 = 𝑗0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
Da notare che, se poniamo:
𝑋𝑖𝐴 =
1 𝑠𝑒 𝐴 = 𝑖0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
𝑋𝑖𝐵 =
1 𝑠𝑒 𝐵 = 𝑖0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖
𝑋𝑖,𝑗𝐴𝐵 = 𝑋𝑖
𝐴 ∙ 𝑋𝑗𝐵
A ciascuna variabile di iterazione corrisponderà quindi un coefficiente che descrive la dipendenza della variabile
dipendente dal verificarsi congiunto delle due variabili esplicative.
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
36
I modelli lineari generalizzati – Introduzione alla regressione lineare
I MODELLI LINEARI
GENERALIZZATI
3-13 Novembre
2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
37
I MODELLI LINEARI GENERALIZZATI (GLM)
Introdotti da Nelder e Weddenburn nel 1972, i GLM (Generalized linear model) sono una classe di
modelli grazie ai quali studiare l’influenza di un insieme di variabili esplicative (variabili indipendenti o regressori, che si ritiene possano spiegare i valori assunti dalla variabile indipendente) sulla distribuzione di una variabile risposta (modelli di regressione).
In ambito assicurativo sono largamente utilizzati nella tariffazione a priori, ma possono essere usati anche per trattare altri problemi, quale ad esempio la valutazione delle riserve.
Il modello di regressione lineare, uno dei metodi statistici più comunemente utilizzati per studiare la relazione esistente tra variabili, non risulta essere appropriato, in quanto, tra le assunzioni alla base di esso che non possono essere considerate valide in diversi contesti ricordiamo:
La variabile risposta ha una distribuzione normale
La variabile dipendente ha la speranza matematica data dalla combinazione lineare delle
determinazioni delle variabili esplicative ed e’ omoschedastica (varianza costante tra le osservazioni).
In molte situazioni tali condizioni sono restrittive, basti pensare come nelle applicazioni nel campo della tariffazione variabili come il numero dei sinistri che colpiscono un rischio assicurato (v.a. discreta) o l’importo provocato da un sinistro (v.a. con supporto il semiasse positivo e con
asimmetria negativa) non siano correttamente rappresentabili con una distribuzione normale.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
38
I GLM consentono quindi da un lato di assegnare alle variabili risposta distribuzioni che appartengono alla classe o famiglia esponenziale lineare e dall’altro di rilassare l’ipotesi di esistenza di una relazione lineare tra la speranza matematica condizionata e i regressori.
FAMIGLIA ESPONENZIALE LINEARE:
Famiglia parametrica di distribuzioni di probabilità non degeneri1 aventi la seguente distribuzione di densita’ (funzione di probabilità nel caso discreto) :
𝜃 e λ sono due parametri reali, 𝜃 ∈Θ⊂ 𝑅, λ Λ ⊂ [0,∞]
b e c funzioni reali
c(y, λ)≥0
Θ e’ un intervallo non degenere ovvero tale che l’insieme dei suoi punti interni 𝑖𝑛𝑡Θ sia non vuoto
Gli elementi che caratterizzano una famiglia esponenziale lineare sono pertanto gli insiemi Θ, Λ e le funzioni b e c
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
39
f y; θ; λ = expyθ − b(θ)
λc(y; λ),y ∈ 𝑌 ⊂ 𝑅
1
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
CARATTERISTICHE DEGLI ELEMENTI DI UNA FAMIGLIA ESPONENZIALE
b(𝜽) è detta funzione cumulante ed è dotata delle derivate di ogni ordine sul suo dominio Θ. Si dimostra che la funzione cumulante caratterizza una particolare famiglia nell’ambito della classe
delle famiglie esponenziali lineari in quanto una volta assegnata b, sia Λ sia la funzione c sono univocamente determinati.
𝜽 è detto parametro canonico ed è collegato al valore atteso della distribuzione.
𝝀 è detto parametro di dispersione
Appartengono alla classe delle famiglie esponenziali lineari le seguenti distribuzioni di probabilità: La
stessa Normale, Poisson, Binomiale, Binomiale negativa, Gamma, Gaussiana inversa.
TABELLA DEGLI ELEMENTI PER LE PRINCIPALI DISTRIBUZIONI
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
40
Nella tabella al lato si riportano gli elementi che
caratterizzano le principali distribuzioni appartenenti alla classe delle famiglie
esponenziali. Si indica con con μ il valore atteso delle distribuzioni.
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
Il vantaggio di rappresentare tali distribuzioni nella formulazione prevista dalla classe delle famiglie esponenziali invece dell’usuale parametrizzazione, come vedremo in seguito, consiste nel fatto che per tali famiglie è possibile seguire una procedura generale sia per la stima dei
parametri sia per le analisi inferenziali in modelli parametrici di regressione: modelli diversi possono essere visti come membri di un’unica classe e possono quindi essere trattati con un unico approccio.
DISTRIBUZIONI CON PESO ASSEGNATO
In molti problemi è naturale considerare distribuzioni di una famiglia esponenziale lineare il cui
parametro di dispersione è del tipo λ =𝜙
ω, con ω >0
ω è un peso assegnato
𝜙 continua ad essere chiamato parametro di dispersione
La funzione di densità (o di probabilita’ se discreta) in questo caso sarà del tipo
con 𝜃 ∈Θ⊂ 𝑅,𝜙/𝜙
ωΛ ⊂ [0,∞]. Nello specifico se ω = 1 e 𝜙 = λ allora le distribuzioni presentate nella
tabella precedente possono essere viste come distribuzioni con peso assegnato unitario.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
41
𝑓 𝑦; 𝜃; 𝜙;ω = 𝑒𝑥𝑝ω
𝜙[𝑦𝜃 − 𝑏(𝜃)] c(y;𝜙;ω),y∈⊂
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
FUNZIONE GENERATRICE DEI MOMENTI E MOMENTI
Le distribuzioni delle famiglie esponenziali sono dotate di funzione generatrice dei momenti2. Sia Y un numero aleatorio con distribuzione appartenente a una famigli esponenziale lineare;
allora la sua funzione generatrice dei momenti è la seguente:
𝑚𝑌 𝑡; 𝜃; λ = exp𝑏 𝜃+𝑡λ −𝑏 𝜃
λ
con t/𝜃 + 𝑡λ ∈ Θ. In caso di densità pesata
𝑚𝑌 𝑡; 𝜃;ϕ;ω = expω
ϕ[𝑏 𝜃 + 𝑡
ω
ϕ− 𝑏 𝜃 ]
Allora la distribuzione avrà momenti finiti di ogni ordine e si ha:
𝐸 𝑌𝑛 =𝑑𝑛
𝑑𝑡𝑛𝑚𝑌 𝑡; 𝜃; λ |𝑡=0
Si ottiene che:
Dimostrazione:
𝐸 𝑌 = μ =𝑑
𝑑𝑡𝑚𝑌 𝑡; 𝜃; λ |𝑡=0 = exp
−𝑏 𝜃
λexp
𝑏 𝜃 + 𝑡λ
λ
𝑏′ 𝜃 + 𝑡λ
λλ|𝑡=0 = 𝑏′ 𝜃
𝐸 𝑌2 = exp−𝑏 𝜃
λ
𝑑
𝑑𝑡[exp
𝑏 𝜃+𝑡λ
λ𝑏′ 𝜃 + 𝑡λ ]|𝑡=0=exp
−𝑏 𝜃
λ [exp
𝑏 𝜃+𝑡λ
λ𝑏′ 𝜃+𝑡λ 𝑏′ 𝜃+𝑡λ + exp
𝑏 𝜃+𝑡λ
λ𝑏′′ 𝜃 + 𝑡λ λ] |𝑡=0=
= exp−𝑏 𝜃
λ exp
𝑏 𝜃
λ𝑏′ 𝜃 𝑏′ 𝜃 + exp
𝑏 𝜃
λ𝑏′′ 𝜃 λ = (𝑏′ 𝜃 )2 + 𝑏′′ 𝜃 λ 𝑉𝐴𝑅 𝑌 = 𝐸 𝑌2 − 𝐸 𝑌 2 = 𝑏′′ 𝜃 λ
𝐸 𝑌 = 𝑏′ 𝜃 𝑉𝐴𝑅 𝑌 = λ 𝑏′′(𝜃)
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
42
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
2
FUNZIONE DI VARIANZA
Assegnata una famiglia esponenziale lineare, si dimostra che la derivata prima della funzione cumulante è monotona crescente, quindi la funzione b’: 𝑖𝑛𝑡Θ→M, con M = b′(𝑖𝑛𝑡Θ) spazio dei valori
attesi 3, è invertibile. La funzione di varianza è:
La varianza di Y può essere espressa attraverso il parametro 𝜇
𝑉𝐴𝑅 𝑌 = λ𝑉 μ
𝑉 μ = 𝑏′′ 𝑏′−1(𝑏′ 𝜃 ) = 𝑏′′ 𝜃 =𝑉𝐴𝑅(𝑌)
λ
Riportiamo le funzioni di varianza per le distribuzioni principali:
𝑉 μ = 𝑏′′ 𝑏′−1(μ) , 𝜇 ∈ M
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
43
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
3 Rappesenta l’insieme dei valori ammissibili per la speranza matematica delle distribuzioni della famiglia per 𝜃 ∈Θ
FUNZIONE DI VARIANZA DI TIPO POTENZA
Un’importante classe di famiglie esponenziali lineari che comprende la classe normale, Poisson, Gamma e Gaussiana inversa è rappresentata dalle famiglie con funzioni di varianza potenza
I modelli corrispondenti sono anche detti modelli di Tweedie. Si tratta di una classe che comprende:
ξ = 0 famiglia Normale, ξ = 1 famiglia Poisson, ξ = 2 famiglia Gamma, ξ = 3 famiglia Gaussiana inversa
1 < ξ < 2 distribuzioni di tipo Poisson-composto, ξ ≥ 2 distribuzioni la cui densità ha supporto nell’intervallo [0,∞[
Non esistono famiglie esponenziali lineari con funzione di varianza di tipo potenza per 0 < ξ < 1
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
44
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
IPOTESI DEI MODELLI GLM
Ricordando che i modelli GLM sono modelli di regressione che generalizzano i lineari, con riferimento ad n unità statistiche, si dispone di un insieme di osservazioni 𝑦𝑖 , 𝒙𝒊 , 𝑖 = 1,…… , 𝑛 , dove per ognuna
unità statistica
𝑦𝑖 è il valore di una grandezza di interesse
𝒙𝒊 è il vettore delle determinazioni assunte da un insieme di variabili esplicative
Il vettore dei valori 𝒚 = 𝑦1, 𝑦2, … , 𝑦𝑛 ′ è visto come valore osservato del vettore aleatorio 𝒀 = 𝑌1, 𝑌2, … , 𝑌𝑛 ′ della variabile risposta.
Per il vettore delle variabili risposta 𝒀 = 𝑌1, 𝑌2, … , 𝑌𝑛 ′ è formulata una ipotesi probabilistica che mette in relazione la distribuzione di 𝒀 con i vettori delle determinazioni delle variabili esplicative. In sintesi un GLM è definito dalle seguenti ipotesi:
1. Ipotesi probabilistiche: Le variabili risposta 𝑌1, …… . , 𝑌𝑛, sono stocasticamente indipendenti, con
distribuzione della stessa famiglia esponenziale lineare
2. Ipotesi strutturali: Il legame esistente tra il valore atteso 𝜇𝑖 di 𝑌𝑖 e il vettore delle determinazioni delle variabili esplicative 𝒙𝒊 espresso nel seguente modo:
𝑔 𝜇𝑖 = 𝒙𝒊′𝜷
Dove 𝜷 è un vettore di parametri e g una funzione di collegamento (link function) invertibile; Sarà:
𝐸 𝑌𝑖 = 𝜇𝑖 = 𝑔−1 𝒙𝒊′𝜷 𝑉𝐴𝑅 𝑌𝑖 =
ϕ
ω𝑖𝑉 𝜇𝑖
dove ricordiamo 𝜙 è un parametro di dispersione e V la funzione di varianza che caratterizza la famiglia delle distribuzioni delle variabili risposta.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
45
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
Consideriamo più in dettaglio gli elementi del modello.
DISTRIBUZIONE DEL VETTORE DELLE VARIABILI RISPOSTA
𝑌1, 𝑌2, … , 𝑌𝑛 sono stocasticamente indipendenti, con distribuzioni appartenenti ad una medesima famiglia esponenziale lineare e 𝑌𝑖 ha distribuzione del tipo:
Dove 𝜃𝑖 , 𝑖 = 1…𝑛 e 𝜙 sono i parametri canonico e di dispersione, ω𝑖 > 0 è un peso assegnato. Inoltre, i supporti delle distribuzioni di 𝑌1, 𝑌2, … , 𝑌𝑛non dipendono dai parametri.
Si noti che:
Essendo fissata la famiglia esponenziale lineare la funzione cumulante b non varia con i
Si assume che anche il parametro di dispersione 𝜙 non dipenda da i
dipendono, in generale da i, il parametro canonico 𝜃𝑖 e il peso ω𝑖
In relazione ai momenti della distribuzione:
Pertanto, la specificazione di una particolare struttura per la speranza matematica, 𝜇𝑖 = 𝑔−1 𝒙𝒊′𝜷 ,
implicherà una struttura anche per la varianza della stessa. Osserviamo anche che l’ipotesi di invarianza di 𝜙 rispetto ad i comporta, ad esempio, che se le variabili risposta hanno distribuzioni normali con lo stesso peso allora hanno tutte la stessa varianza.
Con riferimento ai pesi, a parità di 𝜙 e 𝑉 𝜇𝑖 , 𝑉𝐴𝑅 𝑌𝑖 è tanto maggiore quanto minore è ω𝑖.
I pesi possono allora essere utilizzati per incorporare nel modello informazioni sull’affidabilità delle singole osservazioni.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
46
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
𝐸 𝑌𝑖 = 𝑏′ 𝜃𝑖 𝑉𝐴𝑅 𝑌𝑖 =𝜙
ω𝑖𝑏′′ 𝜃𝑖 =
𝜙
ω𝑖𝑉 𝜇𝑖
LE VARIABILI ESPLICATIVE
Per le n unità statistiche sono disponibili un insieme di caratteristiche osservabili a priori, che si ritengono influenti sulle distribuzioni delle variabili risposta.
Tali caratteristiche possono essere variabili numeriche oppure variabili qualitative o numeriche con determinazioni in livelli, dette variabili di classificazione o fattori.
Una variabile C di classificazione con 𝑙 livelli o modalità, 𝑐1, 𝑐2, … , 𝑐𝑙 , può essere codificata con variabili dummy (variabili indicatrici).
Le variabili 𝑋1, 𝑋2, … , 𝑋𝑙 sono le variabili indicatrici dei livelli. Poiché 𝑋𝑖𝑙𝑖=1 = 1 sono sufficienti 𝑙 −
1 variabili indicatrici per descrivere C: la rimanente si ottiene per complemento a uno.
A codificazione avvenuta, sia m il numero delle variabili esplicative del modello.
26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.
47
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
E’ detta matrice di regressione (design matrix) la matrice X [nx(m+1)]
in cui la prima colonna è composta da elementi unitari e la (j+1)-esima colonna riporta le determinazioni della variabile 𝑋𝑗 per ogni
osservazione i del campione. La i-esima riga riporta quindi le determinazioni di tutte le variabili esplicative per l’i-esima osservazione con l’aggiunta di 𝑥𝑖0 = 1.
Indichiamo con p il numero delle colonne. Si suppone n > p e che le colonne siano linearmente indipendenti (X matrice a rango pieno).
IL PREVISORE LINEARE
Supponiamo di considerare m variabili esplicative; il vettore di determinazioni per l’i-esima unità statistica sarà: 𝒙𝑖
′= 1, 𝑥𝑖1 , …… . , 𝑥𝑖𝑚 e influisce sulla determinazione della variabile risposta 𝑌𝑖, tramite il
previsore lineare relativo all’i-esima osservazione:
η𝑖 = 𝛽0+ 𝛽1 𝑥𝑖1+…+ 𝛽𝑚 𝑥𝑖𝑚= 𝒙𝑖′𝜷
Dove 𝜷 è un vettore di parametri comuni a tutte le unità statistiche. Il parametro 𝛽0 è detto intercetta e potrebbe non essere presente, ma da ora in poi ipotizzeremo modelli con intercetta.
Il previsore lineare rappresenta la componente sistematica del modello ed è funzione lineare dei parametri 𝛽0, 𝛽1 , …… . , 𝛽𝑚
I parametri di regressione 𝜷 sono considerati certi, ma non noti.
LA FUNZIONE DI COLLEGAMENTO
E’ una funzione g reale di variabile reale, invertibile, detta anche link function, che mette in relazione
le componenti del previsore lineare con le speranze matematiche delle variabili risposta. Infatti:
η𝑖 = 𝑔 𝜇𝑖 , 𝑖 = 1…𝑛
Ne segue che 𝜇𝑖 = 𝑔−1 η𝑖 = 𝑔−1 𝒙𝒊′𝜷
Il dominio D della funzione 𝑔 deve essere tale che 𝑔−1 𝒙𝒊′𝜷 dia valori ammissibili per 𝜇𝑖.
La funzione g deve soddisfare le seguenti condizioni di regolarità:
1. Monotonia 2. Derivata prima continua 3. Derivata seconda continua
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
48
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
Dato il vettore dei parametri tramite la funzione di collegamento si determina la speranza matematica della variabile risposta a partire dalle determinazioni delle variabili esplicative.
Nella tariffazione la funzione di collegamento indica ad esempio come calcolare il premio equo in
funzione delle caratteristiche tariffarie.
Funzione di collegamento identica: modello tariffario additivo per le speranze matematiche delle variabili risposta
Osservando che il previsore lineare può generalmente assumere valori in R tale funzione di collegamento può essere usata per distribuzioni della variabile risposta per le quali la speranza matematica può assumere un qualunque valore reale (es. Normale).
Funzione di collegamento logaritmica: modello tariffario moltiplicativo per le speranze matematiche delle variabili risposta.
Gli effetti additivi del previsore sono trasformati in effetti moltiplicativi sul premio equo e si osserva che 𝜇𝑖 è sempre positiva.
Funzione di collegamento potenza:
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
49
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
4
Funzione canonica di collegamento:
In ogni famiglia esponenziale lineare, la funzione 𝑏′−1, trasforma la speranza matematica 𝜇 nel parametro canonico 𝜃. Infatti, da 𝜇 = 𝑏′(𝜃) e dall’invertibilità di 𝑏′ si ha che
𝑏′−1 𝜇 = 𝜃
Scegliendo 𝑔 𝜇 = 𝑏′−1(𝜇), come link function si ha:
η𝒊 = 𝑔 𝜇𝑖 = 𝜃𝑖 , 𝑖 = 1…𝑛
Tale funzione canonica mette direttamente in collegamento il previsore lineare con il parametro
canonico, che è espresso come combinazione lineare delle variabili esplicative.
Si ha anche che:
𝑔′ 𝜇 =1
𝑏′′ 𝑏′−1 𝜇=
1
𝑉(𝜇)
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
50
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
LA STIMA DEI PARAMETRI
I parametri delle distribuzioni delle variabili risposta e dunque i parametri che intervengono in un
GLM sono – i parametri canonici 𝜃𝑖 , 𝑖 = 1…𝑛 - e 𝜙 il parametro di dispersione.
In alcuni casi 𝜙 è noto, per esempio nella distribuzione di Poisson tale parametro 𝜙 = 1.
Nei GLM, la stima dei parametri 𝜃𝑖 si ottiene stimando il vettore dei parametri di regressione 𝜷 a partire dai dati 𝑦𝑖 , 𝒙𝒊 , 𝑖 = 1,…… , 𝑛 , .
Dato 𝜷, rimangono determinati infatti i parametri canonici:
assegnata la matrice X ⇒
Da η𝒊 data la funzione di collegamento g(.) ⇒
da 𝜇𝑖 , data la funzione cumulante b(.) ⇒
Dunque
Sottolineiamo che i modelli GLM, nonostante costituiscano una classe ampia e flessibile di modelli,
presentano ipotesi che li rendono inadatti nel trattare alcuni problemi: l’indipendenza delle variabili risposta, la richiesta che le distribuzioni siano completamente specificate e appartengano ad una famiglia esponenziale lineare e il fatto che le speranze matematiche e le varianze di tali distribuzioni dipendano dalle medesime variabili esplicative, l’ipotesi che il parametro di dispersione sia comune a tutte le variabili risposta.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
51
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
Il parametro vettoriale 𝜷 è usualmente stimato con il metodo della massima verosimiglianza (ML) per le proprietà che caratterizzano il corrispondente stimatore, da cui discendono alcuni risultati sulle distribuzioni delle statistiche che sono utilizzate per l'inferenza.
Supponiamo che siano soddisfatte le proprietà che rendono il nostro caso, un problema regolare5 di stima i parametri sono stimati col metodo della verosimiglianza.
Per 𝑦1, 𝑦2, … , 𝑦𝑛 valori osservati delle variabili risposta 𝑌1, 𝑌2, … , 𝑌𝑛, la log-verosimiglianza come funzione dei parametri
𝜽 = 𝜃1, …… . , 𝜃𝑛
𝛷
Supponiamo, per ora, che il parametro 𝜙 sia fissato. Per i modelli per i quali tale parametro non è dato, ciò equivale a imporre una restrizione della log-verosimiglianza ma ai fini di ottenere la stima di 𝜷 la condizione non è restrittiva.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
52
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
5
Indicata con l(𝜷) la log-verosimiglianza come funzione di 𝜷, le stime di ML si ottengono risolvendo le equazioni di verosimiglianza (equazioni score o first order condition)
In corrispondenza delle quali la matrice Hessiana 𝜗2𝑙(𝜷)
𝜗𝛽𝑗𝜗𝛽ℎ 𝑗,ℎ
risulta definita negativa.
Si individuano così i punti di massimo relativo e osserviamo che, se la log-verosimiglianza è concava,
i punti di massimo relativo sono anche punti di massimo assoluto. In particolare se è strettamente concava, come accade per molti importanti GLM, per esempio per ogni modello con funzione canonica di collegamento, stima di massima verosimiglianza se esiste è unica.
Ricordando 𝜷 → η𝒊 = 𝒙𝒊′𝜷 → 𝜇𝑖 = 𝑔−1 η𝒊 → 𝜃𝒊 = 𝑏′−1 𝜇𝑖 → 𝑙𝑖(𝜃𝑖,ϕ; 𝑦𝑖)
Si calcolano in modo esplicito le derivate parziali della log-verosimiglianza
𝑠(𝜷) =𝜕𝑙 (𝜷)
𝜕𝛽𝑗=
𝜕𝑙𝑖 (𝜷)
𝜕𝛽𝑗
𝑛𝑖=1 =
𝜕𝑙𝑖
𝜕𝜃𝑖
𝜕𝜃𝑖
𝜕𝜇𝑖
𝜕𝜇𝑖
𝜕η𝒊
𝜕η𝒊
𝜕𝛽𝑗
𝑛𝑖=1
𝜕𝑙𝑖
𝜕𝜃𝑖=
ω𝑖
ϕ𝑦𝑖 − 𝑏′ 𝜃𝑖 =
ω𝑖
ϕ𝑦𝑖 − 𝜇𝑖
𝜕𝜃𝑖
𝜕𝜇𝑖=
𝜕𝑏′−1 𝜇𝑖
𝜕𝜇𝑖=
1
𝜗𝑏′′(𝑏′−1 𝜇𝑖 )=
1
𝑉 𝜇𝑖
𝜕𝜇𝑖
𝜕η𝒊=
𝜕𝑔−1 𝜂𝑖
𝜕𝜂𝑖=
1
𝜕𝑔′(𝑔−1 𝜂𝑖 )=
1
𝑔′ 𝜇𝑖
𝜕η𝒊
𝜕𝛽𝑗= 𝑥𝑖𝑗
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
53
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
Log-verosimiglianza
(*)
First order condition
la stima di 𝜷 non dipende da 𝜙.
La soluzione del sistema avviene per via numerica, con i metodi numerici di tipo iterativo di Newton-Raphson o scoring di Fisher, ed è fornita dai software statistici.
Se la funzione di collegamento è la canonica poiché’
Il vettore delle derivate prime si semplifica in:
Il vettore 𝑠(𝜷) =(𝑠𝑜 (𝜷), 𝑠1 (𝜷),…, 𝑠𝑚 (𝜷))′ gradiente della funzione di log-verosimiglianza e’ detto
vettore di punteggio o vettore score. Indicata con V la matrice delle varianze e covarianze di Y
E posto
Lo score può essere scritto in forma matriciale
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
54
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
[(m+1)xn] [nxn] [nxn] [nx1]
(**)
MATRICE HESSIANA: Calcoliamo le derivate seconde della funzione di log verosimiglianza:
Dalla terza e dalla quarta delle derivate parziali calcolate per determinare la funzione score si ha:
Si ha quindi:
dove
Poniamo
La matrice hessiana della log-verosimiglianza la cui opposta è anche detta matrice di informazione
osservata. E’ facile verificare che si ha:
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
55
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
Consideriamo ancora la matrice di informazione attesa di Fisher
Dove 𝑙 è il numero aleatorio che si ottiene sostituendo nell’espressione della funzione di log-
verosimiglianza i numeri aleatori 𝑌1, 𝑌2, … , 𝑌𝑛 alle osservazioni 𝑦1, 𝑦2, … , 𝑦𝑛. Il generico elemento della matrice è:
In quanto il secondo addendo delle derivate seconde calcolate in precedenza ha valore atteso nullo. Posto:
Si ha
Osserviamo che poiché’ 𝑊(𝜷) è una matrice definita positiva e 𝑿 ha rango pieno è definita positiva. La matrice è inoltre la matrice di varianze e covarianze del vettore
aleatorio 𝑠 (𝜷) =(𝜕𝑙 (𝜷)
𝜕𝛽0,𝜕𝑙 (𝜷)
𝜕𝛽1,…,
𝜕𝑙 (𝜷)
𝜕𝛽𝑚)′ .
Ricordando che:
d E per l’indipendenza stocastica di 𝑌1, 𝑌2, … , 𝑌𝑛
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
56
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
Nel caso di collegamento canonico, dalla
In tal caso la matrice hessiana della log-verosimiglianza è definita negativa e quindi, come anticipato, la log-verosimiglianza è strettamente concava.
Fino ad ora sono stati considerati gli elementi per la stima del parametro di regressione. Anche il
parametro 𝝓 di dispersione se non è noto può essere stimato con il metodo della massima verosimiglianza.
Si tratta di risolvere la seguente equazione dove con 𝜽 si indica la stima del vettore dei parametri
canonici, ottenuta come funzione della stima del vettore 𝜷 dei parametri di regressione
3-13 Novembre 2015
57
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
DISTRIBUZIONE ASINTOTICA
Dalle proprietà asintotiche degli stimatori di ML (𝜷 ), se n è “sufficientemente grande”, si può supporre che lo stimatore di massima verosimiglianza di 𝜷 abbia distribuzione normale con matrice di varianze e covarianze data dall’inversa della matrice di informazione attesa di Fisher
calcolata nella stima 𝜷 :
Dove
E’ la matrice di informazione attesa di Fisher
Si può scrivere anche che
Dove
E’ la matrice hessiana.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
58
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
MODELLI CON DATI INDIVIDUALI E CON DATI RAGGRUPPATI
Finora abbiamo supposto che i dati fossero individuali ovvero che per ogni i la determinazione della variabile risposta e il vettore delle determinazioni delle variabili esplicative corrispondessero ad un’unica unità statistica.
Spesso nella tariffazione lo stesso vettore di determinazioni dei regressori è comune a più unità statistiche e in tal caso i dati possono essere raggruppati ottenendo un GLM che ai fini della stima dei
parametri di regressione è equivalente al primo.
In sintesi:
Nel modello con dati individuali la matrice di regressione contiene le determinazioni delle
variabili esplicative per singola unità statistica
Nel modello con dati raggruppati contiene solo righe di determinazioni dei regressori diverse tra di loro.
Vediamo nel seguito come definire opportunamente le variabili risposta nel secondo modello.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
59
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
Premettiamo il seguente teorema
Osserviamo che le distribuzioni hanno la stessa distribuzione cumulante e gli stessi parametri, canonico e di dispersione, al variare di i possono invece variare i pesi.
La distribuzione del numero aleatorio Y, media ponderata di 𝑌1, 𝑌2, … , 𝑌𝑛 con pesi 𝜔1, 𝜔2, … , 𝜔𝑛, ha ancora da stessa funzione cumulante e parametri, mentre il peso della distribuzione è la somma dei pesi.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
60
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
(1)
Modello con dati individuali
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
61
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
62
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
Modello con dati raggruppati
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
63
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
(1)
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
64
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
Quale scegliere?
MODELLI CON QUASI-VEROSIMIGLIANZA
La classe dei GLM e le relative tecniche per l’inferenza statistica sono state estese in diversi modi per aumentare ulteriormente la flessibilità e l’applicabilità dei modelli.
I modelli con quasi-verosimiglianza (QL), sono modelli semiparametrici, nei quali si specificano solamente le strutture dei primi due momenti delle distribuzioni delle variabili risposta e non anche una particolare forma di distribuzione.
In questo caso si ottengono stime del valore atteso e della varianza delle variabili risposta, ma si perde, in generale, la possibilità di ottenere una distribuzione stimata.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
65
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
Stima del parametro
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
66
I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)
(*)
(**)
INFERENZA STATISTICA PER I GLM
D
d
d
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
67
BONTA’ DI ADATTAMENTO AI DATI
L’introduzione di un modello statistico consente di descrivere e sintetizzare un fenomeno a partire da un insieme di dati e di ottenere i valori stimati di una grandezza di interesse che si adattano ai valori
osservati, nasce quindi l’esigenza di valutare la sua bontà di adattamento (Goodness of fit).
A partire da n osservazioni si può stimare un GLM che contiene fino ad n parametri di regressione:
Modello nullo con un unico parametro, si sta implicitamente assegnando la medesima speranza matematica alle variabili risposta, tale modello è troppo semplice;
Modello saturo con un numero di parametri quante sono le osservazioni che porta ad ottenere come stime delle speranze atematiche delle variabili risposta proprio i valori osservati. Si adatta perfettamente ai dati ma non realizza alcuna sintesi.
Il modello saturo è utile per valutare l’accostamento ottenuto von un modello fissato, detto modello corrente, contenente p parametri con p<n.
Supponiamo dapprima 𝝓 noto.
Devianza scalata o statistica del log-rapporto di verosimiglianza
Si confrontano le massime verosimiglianze ottenibili con il modello corrente c e con il modello saturo f.
Intuitivamente, il modello corrente spiega bene i dati se la corrispondente ML non è molto diversa da quella ottenibile con il modello saturo.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
68
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
Indicate con 𝛽 e 𝛽 * le stime di ML del parametro di regressione per i modelli c ed f
che si può scrivere
Considerando nella precedente espressione la variabile aleatoria Y invece delle sue determinazioni,
il numero aleatorio 𝑺 (𝒄, 𝒇) ottenuto è detto devianza scalata o statistica del log-rapporto di
verosimiglianza (likelihood ratio statistic).
Devianza
Un’altra statistica collegata alla precedente è la devianza che ha valore osservato:
Osserviamo che non dipende da 𝝓.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
69
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
Statistica Chi-quadrato di Pearson
Un’altra misura dello scostamento tra modello corrente e modello saturo basata sui residui, è definita dalla
Anche di questa statistica si considera una versione scalata
Il valore osservato di quest’ultima è dunque la somma dei quadrati dei residui ordinari rapportati alle stime delle varianze delle variabili risposta.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
70
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
Test
Nel modello di regressione lineare normale, sotto le ipotesi del modello corrente, le precedenti statistiche hanno distribuzione con chiquadro con (n - p) gradi di libertà, per ogni n. Si possono allora effettuare test formali di verifiche di ipotesi.
Con 𝜙 = 𝜎2.
Sia 𝛽 ∈ 𝑅𝑛 il vettore dei parametri di regressione del modello saturo e sia 𝛽 = (𝛽 0 , 𝛽(1)) dove 𝛽 0 è il
sottovettore dei parametri che compaiono anche nel modello corrente e 𝛽 1 il sottovettore dei
parametri che non compaiono nel modello corrente.
𝐻0: 𝛽
1 = 0
𝐻1: 𝛽1 ≠ 0
𝑆 (𝑐, 𝑓) sotto 𝐻0 ha distribuzione
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
71
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
Per i GLM diversi dal modello lineare normale non si hanno, in generale, risultati esatti sulle
distribuzioni delle statistiche. Basandosi su proprietà asintotiche si assume che per n elevato, nelle ipotesi del modello corrente, valga l’approssimazione .
L’approssimazione in generale non è buona.
Accogliendo tuttavia tale approssimazione poiché la speranza matematica è n-p, si ricava
una regola pratica per avere una prima indicazione sulla bontà di adattamento di un modello
se sono maggiori di 1 possono indicare un adattamento non soddisfacente.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
72
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
Dati raggruppati
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
73
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
STIMA DEL PARAMETRO DI DISPERSIONE
Se 𝝓 non è noto è sostituito con una sua stima si può ottenere, con il metodo della massima verosimiglianza oppure, spesso tale parametro è però visto come parametro di disturbo e viene
stimato con il metodo dei momenti. A tal proposito sono proposti due stimatori consistenti, uno basato sulla devianza e l’altro sulla statistica di Pearson.
Tra gli stimatori spesso è preferito quello basato sulla statistica di Pearson, in quanto i restanti due
possono portare a stime molto instabili quando la famiglia di distribuzioni delle variabili risposta ha funzione di varianza non costante rispetto a 𝜇. Inoltre con tali due stimatori, le stime risentono di errori di arrotondamento in presenza di osservazioni prossime a zero.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
74
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
VERIFICHE DI IPOTESI E CONFRONTO TRA MODELLI
Problema. Consideriamo il confronto tra due modelli, 𝑀0 e 𝑀1, con
distribuzioni delle variabili risposta appartenenti alla medesima famiglia esponenziale lineare,
la medesima funzione di collegamento,
diversa struttura di regressione: il modello 𝑀1 con p parametri; il modello vincolato 𝑀0 con p- s parametri, che sia un sottovettore del vettore dei parametri del modello 𝑀1.
Rispetto a 𝑀1, 𝑀0 è detto modello ridotto o annidato o sottomodello.
Obiettivo del confronto: valutare la significatività delle variabili che compaiono nel modello 𝑀1 e non nel modello 𝑀0, tenuto conto delle variabili che compaiono nel modello 𝑀0.
Si può effettuare una verifica di ipotesi: 𝐻0
𝑛𝑜𝑛 𝐻0
Esempi.
1) Per valutare la significatività di un’unica variabile numerica, la condizione espressa dall’ipotesi nulla riguarda un unico parametro
2) Per valutare globalmente la significatività di alcune variabili corrispondenti ai parametri si formula l’ipotesi nulla
Rientra in quest’ultimo esempio il confronto tra modello corrente e modello saturo, in cui 𝑀0 è il modello corrente e 𝑀1 il modello saturo.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
75
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
3) Consideriamo una variabile di classificazione 𝐶𝑘 , codificata mediante un vettore di variabili indicatrici. Per valutare se mantenere separati i due livelli 𝑗ℎ , 𝑗𝑔 , si formula l’ipotesi nulla
Gli esempi sono casi particolari di verifiche di ipotesi in cui l’ipotesi nulla esprime un vincolo lineare per il vettore dei parametri di regressione.
Più in generale, possiamo considerare verifiche di ipotesi per 𝛽 del tipo
dove L è una matrice sxp, con s ≤ p, di rango pieno s.
Negli esempi, ξ è il vettore nullo e la matrice L:
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
76
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
Per i test si considerano le seguenti statistiche.
La statistica del log-rapporto di verosimiglianza, di valore
Dove 𝑙 è la log-verosimiglianza del modello 𝑀1, 𝜷 è il punto di massimo di 𝑙, 𝜷 (0) il punto di massimo di
𝑙 , vincolato dalla condizione 𝐋𝜷 = 𝝃
Intuitivamente, se la massima log-verosimiglianza non vincolata l(𝛽 ) è significativamente maggiore di
quella vincolata l(𝛽 (0)) , e quindi λ è “grande”, si rifiuta l’ipotesi 𝐻0, se λ è “piccolo”, si accetta l’ipotesi 𝐻0.
Dai risultati asintotici sulle stime di massima verosimiglianza, si ha
con s rango della matrice L. Nel caso dei modelli annidati, s = df0 - df1, differenza tra i numeri di gradi di libertà del sottomodello 𝑀0 e del modello 𝑀1.
Per calcolare λ si devono ottenere entrambe le stime 𝜷 e 𝜷 (𝟎).
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
77
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
La statistica di Wald, di valore
Dove è la matrice d’informazione di Fisher calcolata in 𝜷 .
Il valore w è una misura della distanza tra 𝐋𝜷 , stima non vincolata del vettore 𝐋𝜷 , 𝝃 valore vincolato di 𝐋𝜷 .
Intuitivamente, se la distanza tra 𝐋𝜷 e 𝝃 è elevata, e quindi se w è “grande”, si rifiuta l’ipotesi 𝐻0, se w è “piccolo”, si accetta l’ipotesi 𝐻0.
Dai risultati asintotici sulle stime di massima verosimiglianza, riesce
con s rango della matrice L. Per calcolare la statistica di Wald basta stimare il modello non vincolato.
Esempio 1) Nel test con
è l’elemento di posto (k,k) dell’inversa della matrice d’informazione di Fisher calcolata in 𝜷 vkk è una
stima della varianza asintotica di 𝜷𝒌 . Per w si ha
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
78
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
La statistica score
Dove , 𝒔(𝜷 (0)) è il vettore score calcolato nel punto di massimo vincolato.
Il valore u è una misura della distanza tra 𝒔(𝜷 (0)) e il vettore nullo, quest’ultimo può essere visto come il vettore score calcolato nella stima di massima verosimiglianza 𝜷 .
Intuitivamente, se la distanza è elevata, e quindi se u è “grande”, si rifiuta l’ipotesi 𝐻0, se u è “piccolo”, si accetta l’ipotesi 𝐻0.
Dai risultati asintotici sulle stime di massima verosimiglianza, riesce
con s rango della matrice L.
Per calcolare la statistica score basta stimare il punto di massimo vincolato.
Osservazioni
Se il parametro di dispersione 𝝓 non è noto i precedenti risultati restano validi se si sostituisce una sua stima ottenuta con uno stimatore consistente.
Nell’ambito di modelli con quasi-verosimiglianza, il test del log-rapporto di verosimiglianza non può essere effettuato perché, non essendo fissata una forma di distribuzione, non si può calcolare la log-verosimiglianza. Possono essere utilizzate le restanti due statistiche considerando le derivate della quasi-verosimiglianza
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
79
I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM
SELEZIONE DELLE VARIABILI:
FORWARD BACKWARD E
STEPWISE
3-13 Novembre
2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
80
PROCEDIMENTI DI SELEZIONE DELLE
VARIABILI
I modelli di regressione sono spesso utilizzati in situazioni in cui ci sono numerose variabili esplicative potenzialmente influenti sulla valutazione probabilistica delle variabili risposta.
La costruzione di un modello con molte variabili comporta l’introduzione di molti parametri mentre una desiderabile proprietà di ogni modello statistico è quella della parsimonia nel numero dei parametri.
I procedimenti di selezione delle variabili hanno l’obiettivo di determinare un sottoinsieme di variabili esplicative significative, in modo che il modello stimato realizzi un buon adattamento ai valori osservati, ma che dipenda da un numero relativamente basso di parametri.
I procedimenti automatici di selezione hanno un duplice obiettivo:
ridurre il numero di modelli da analizzare,
guidare nella selezione.
I più diffusi sono procedimenti automatici iterativi di tipo forward, backward e stepwise. Si basano sul confronto tra modelli, uno annidato nell'altro.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
81
PROCEDIMENTO FORWARD
1. Si parte dal modello nullo che ha come unico parametro l’intercetta 𝜷𝟎. Si inserisce nel modello per prima la variabile maggiormente significativa:
Si considera il modello che contiene l’intercetta e una fissata variabile esplicativa con s+1 parametri (s=1 se la
variabile è quantitativa); si confronta il modello nullo con quest’ultimo, formalmente si effettua la verifica
d’ipotesi
Indicato con 𝑀0 il modello nullo e con 𝑀1 il modello con s+1 parametri , si considera una delle statistiche λ 𝑤 𝑢 , dato il valore osservato della statistica si calcola il p-value al livello di significatività 𝛼 e si stabilisce attraverso il
confronto se rifiutare o meno l’ipotesi H0. Si effettua la precedente operazione per tutte le variabili esplicative e
si inserisce nel modello la variabile, tra le significative (con p-value < 𝛼), alla quale corrisponde il p-value più
piccolo.
2. Al secondo passo, si confronta il modello così ottenuto con tutti i modelli che contengono, oltre alla variabile selezionata al passo precedente, una nuova variabile e si procede come sopra.
3. Il procedimento termina quando non ci sono più variabili significative, cioè quando a partire da un modello selezionato l’introduzione di una ulteriore variabile, qualunque essa sia, comporta un p-value maggiore o uguale del fissato livello 𝛼; in alternativa si può arrestare il procedimento
quando si è raggiunto un numero prefissato di variabili.
Spesso è usata la statistica λ , anche se per il procedimento forward può essere più conveniente, da un punto di vista computazionale, usare la statistica score 𝑢 che, ad ogni passo, si basa sul modello già stimato. Nei modelli con quasi-verosimiglianza si usa in prevalenza la statistica di Wald 𝑤 .
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
82
I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI
PROCEDIMENTO BACKWARD
1. Si parte dal modello completo con tutte le variabili inserite. Si toglie dal modello per prima la variabile meno significativa: quella tra le non significative (con p-value ≥ 𝛼) alla quale corrisponde il p-value più elevato:
Formalmente si effettua una verifica d’ipotesi dove l’ipotesi nulla pone la condizione di nullità dei parametri di
regressione associati alla variabile esplicativa tolta dal modello, confrontando due modelli annidati. Si considera
una della statistiche λ 𝑤 𝑢 , per le quali sotto H0 hanno una distribuzione chiquadrato con gradi di libertà pari alla
differenza tra il numero dei gradi di libertà dei due modelli. Dato il valore osservato della statistica si calcola il p-
value al livello di significatività 𝛼 (=q), se q< 𝛼 si rifiuta H0 giudicando la variabile significativa.
2. Al secondo passo, si confronta il modello così ottenuto con tutti i modelli che si ottengono eliminando un’ulteriore variabile esplicativa, procedendo come sopra.
3. Il procedimento termina quando, a partire da un modello, l’eliminazione di una variabile,
qualunque essa sia, comporta un p-value minore di 𝛼.
Spesso è usata la statistica λ , anche se per il procedimento backward può essere più conveniente, da un punto di vista computazionale, usare la statistica di Wald 𝑤 che, ad ogni passo, si basa sul modello già stimato.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
83
I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI
PROCEDIMENTO STEPWISE
1. Combina il procedimento forward con il procedimento backward.
2. Con riferimento al generico passo, si considera un passo forward che conduce ad introdurre nel modello una nuova variabile.
3. A questo punto, si attua un passo backward per verificare se la variabile appena inserita renda superflua qualcuna delle variabili precedentemente inserite nel modello.
4. Il procedimento termina quando si trova un modello uguale ad uno già ottenuto.
I procedimenti di selezione forward e stepwise sono convenienti quando ci sono molte variabili esplicative potenzialmente influenti e relativamente poche osservazioni.
In tali casi il procedimento backward potrebbe addirittura non essere applicabile. Ad esempio, se nel modello completo ci sono molte variabili di classificazione ed eventualmente anche diverse interazioni, mentre per qualche classe tariffaria ci sono poche osservazioni, il procedimento per ottenere le stime MLE potrebbe non convergere, non riuscendo a stimare il modello completo che è la base del procedimento di selezione backward.
Si suggerisce di analizzare dapprima gli effetti principali ad esempio con un procedimento di tipo backward e vedere se è poi possibile migliorare il modello statistico inserendo effetti di interazione delle variabili selezionate. A tal fine si può utilizzare un procedimento forward o stepwise per inserire una o due interazioni tra coppie, poi eventualmente tra terne e così via.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
84
I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI
CONTROLLO DEL MODELLO STIMATO
Accenniamo ad altri elementi che possono essere considerati per effettuare analisi su
singoli parametri,
previsore lineare,
il modello nel suo complesso.
Questi elementi si possono ottenere come output dei software statistici.
Analisi su singoli parametri
Per ogni parametro stimato 𝛽𝑘, indicazioni sulla sua significatività si possono ricavare da:
Standard error: 𝜎 𝑘 = 𝑣𝑘𝑘
Dove 𝑣𝑘𝑘 è l’elemento di posto (k,k) dell’inversa della matrice di informazione di Fisher calcolata nella
stima 𝜷 . Ricordando che fornisce una stima della varianza asintotica dello
stimatore 𝛽 𝑘, 𝜎 𝑘 una stima dello scarto quadratico medio dello stimatore.
Un valore elevato di 𝜎 𝑘 può indicare non affidabilità della stima 𝛽 𝑘.
Intervallo di confidenza per 𝛽𝑘 con livello 1 − 𝛼 :
dove 𝑧1−𝛼/2 è il quantile di ordine 1 − 𝛼/2 della N(0,1).
Un intervallo ampio può indicare non attendibilità della stima. Un intervallo che contenga lo zero può indicare non significatività della variabile esplicativa corrispondente a 𝛽𝑘.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
85
I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI
Analisi sul previsore lineare
Per effettuare analisi sul valore stimato del previsore lineare η𝑖 = 𝒙𝑖′𝜷 relativo all’osservazione i-esima:
Standard error:
Stima dello scarto quadratico medio dello stimatore di η𝑖.
Intervallo di confidenza per 𝜼𝒊 con livello 𝟏 − 𝜶 :
dove 𝑧1−𝛼/2 è il quantile di ordine 1 − 𝛼/2 della N(0,1).
Per la monotonia della funzione di collegamento da un intervallo di confidenza per il previsore
lineare si può ottenere un corrispondente intervallo di confidenza per la stima della speranza matematica.
Intervallo di confidenza per 𝝁𝒊 con livello 𝟏 − 𝜶 :
dove 𝑧1−𝛼/2 è il quantile di ordine 1 − 𝛼/2 della N(0,1), se gli estremi dell’intervallo
appartengono al dominio di 𝑔−1.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
86
I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI
Analisi mediante i residui
Analisi informali mediante i residui possono evidenziare scostamenti sistematici tra valori stimati e osservati ed essere quindi utilizzate per esplorare l’adeguatezza della funzione di varianza, della
funzione di collegamento, delle variabili esplicative presenti nel previsore lineare, nonché evidenziare
singole osservazioni che si discostino dalla maggior parte delle rimanenti.
Residui ordinari (raw residuals)
Forniscono per ogni osservazione, indicazioni sullo scostamento tra valore osservato della variabile risposta e valore stimato. In generale non sono adatti per il controllo nell’ambito dei GLM perché’, guardando ai residui come una valutazione empirica delle differenze 𝑌𝑖 − 𝜇𝑖 (vettore degli errori), tali differenze non hanno varianza costante.
Residui di Pearson
Si noti che il quadrato del residuo fornisce il contributo dovuto all’osservazione i-esima nell’espressione del valore della statistica chi-quadrato di Pearson:
Pertanto fornisce indicazione sull’impatto dell'osservazione i-esima nella valutazione dell’adattamento del modello ai dati, effettuata mediante tale statistica.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
87
I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI
Residui della devianza
Dove 𝑑𝑖 è l’addendo i-esimo nell’espressione della devianza
E
Il residuo ha dunque lo stesso segno di e la somma dei quadrati dei residui è il valore della
devianza
Pertanto fornisce indicazione sull’impatto Dell'osservazione i-esima nella valutazione della bontà di adattamento del modello ai dati, effettuata mediante la devianza.
Si considerano anche versioni standardizzate dei precedenti due tipi di residui analoghe ai residui
studentizzati dei modelli lineari.
Residui di Pearson studentizzati Residui della devianza studentizzati
Dove ℎ𝑖𝑖è l’elemento diagonale della matrice hat con 𝑊 = 𝑊(𝜷 ) è la matrice che interviene nel procedimento iterativo per la stima di 𝜷.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
88
I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI
Da proprietà asintotiche degli stimatori di ML (valide nel caso di dati raggruppati) se il modello è adeguato, se i dati sono raggruppati e se nell’ambito di ciascun gruppo c’è un numero “sufficientemente” elevato di osservazioni, i residui dovrebbero mostrare un andamento analogo a
quello di osservazioni di numeri aleatori con distribuzione approssimativamente normale di media nulla e varianza costante, unitaria per le versioni standardizzate.
Analisi grafiche mediante i residui
1. Per evidenziare scostamenti sistematici tra valori osservati e valori stimati:
grafici dei residui al variare dei valori attesi stimati, per es. il grafico delle coppie 𝜇 𝑖 , 𝑟𝐷𝑖𝑠
, 𝑖 =
1…𝑛 per una migliore visualizzazione 𝑓(𝜇 𝑖), 𝑟𝐷𝑖𝑠
con 𝑓() che dipende dalla famiglia delle
distribuzioni delle variabili risposta; es. Poisson 𝑓 𝜇 𝑖 = 2 𝜇 𝑖 , Gamma 𝑓 𝜇 𝑖 = 2log (𝜇 𝑖);
grafici dei residui al variare dei valori stimati del previsore lineare, per es. il grafico delle
coppie 𝜂 𝑖 , 𝑟𝐷𝑖𝑠
, 𝑖 = 1…𝑛
grafici dei residui al variare delle possibili determinazioni di una variabile esplicativa, per ogni variabile.
Se il modello è adeguato i punti del grafico dovrebbero disporsi in una “banda” orizzontale attorno all’asse delle ascisse.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
89
I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI
Deviazioni sistematiche tipiche:
una curvatura nella media può indicare una scelta non adeguata della funzione di collegamento, che potrebbe non essere stata inserita qualche variabile esplicativa rilevante,
che potrebbe essere opportuno trasformare variabili esplicative (es. log o quadratiche),
variazioni sistematiche della banda dei valori dei residui al variare dei valori stimati, può indicare inadeguatezza della funzione di varianza.
I grafici sono poco indicativi se le variabili risposta hanno poche determinazioni.
2. Per verificare l’adeguatezza della funzione di varianza:
grafico delle coppie 𝜇 𝑖 , 𝑟𝐷𝑖𝑠
, 𝑖 = 1…𝑛.
Se il modello è adeguato il grafico non dovrebbe evidenziare andamenti tendenziali.
La presenza di un trend può essere indicativa di una scelta non adeguata della funzione di varianza. Un trend crescente può indicare che la funzione di varianza cresce troppo lentamente rispetto alla media, viceversa un trend decrescente.
Per modelli con funzione di varianza di tipo potenza 𝑉𝜉(𝜇) = 𝜇𝜉 , si può analizzare la bontà
dell’adattamento, al variare di 𝜉.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
90
I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI
3. Per verificare l’adeguatezza della funzione di collegamento:
grafico delle coppie 𝜇 𝑖 , 𝑧 𝑖∗ , 𝑖 = 1…𝑛 con
𝑧 𝑖∗ è il valore in 𝑦𝑖 dell’approssimante lineare di g() relativamente a 𝜇 𝑖 (pseudodati).
Se il modello è adeguato, il grafico dovrebbe mostrare un andamento approssimativamente lineare.
Grafici che evidenzino andamenti che si discostino in modo sistematico da un andamento lineare,
suggeriscono di modificare la scelta della funzione di collegamento.
Per modelli con funzione collegamento di tipo potenza,
si può analizzare la bontà dell’adattamento, al variare di 𝛾.
4. Per evidenziare la presenza di osservazioni “anomale”, i cosiddetti outliers,
i grafici dei residui al variare dell’indice dell’osservazione 𝑖, 𝑟𝐷𝑖𝑠
, 𝑖 = 1…𝑛
il grafico delle coppie 𝜇 𝑖 , 𝑦𝑖 , 𝑖 = 1…𝑛 dei valori osservati rispetto ai valori stimati
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
91
I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI
L’effetto dell’inserimento o meno di alcuni tipi di osservazioni, in particolare di quelle evidenziate come anomale dai grafici precedenti, può essere determinato stimando il modello prima considerando l’osservazione e successivamente senza l’osservazione, verificando l’effetto sulla stima
dell’intercetta e degli altri parametri di regressione.
A tal fine si può considerare l’estensione della distanza di Cook che con riferimento all’analisi della i-esima osservazione è data da
Dove 𝛽 (𝑖) è il vettore delle stime ottenute togliendo l’osservazione. Un valore elevato di Di è indicativo
di un’ osservazione influente.
Ricordiamo che nei GLM la stima dei parametri di regressione è ottenuta con un procedimento iterativo, pertanto eliminare in sequenza ciascuna osservazione e stimare il modello può essere molto
dispendioso da un punto di vista computazionale. Usualmente 𝛽 (𝑖) si ottiene effettuando un unico
passo del procedimento iterativo a partire dal punto iniziale 𝛽 (lo indichiamo con 𝛽 𝑖 ,1). Si può
provare che:
Si evidenziano due componenti: la prima tiene conto dell’adattamento fornito dal modello e la seconda legata al grado di leva.
3-13 Novembre 2015
I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.
92
I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI