Modelli lineari generalizzati e tariffazione RCA · Cluster Analysis: punto di vista statistico (Cenni) Applicazione pratica ... Esiste una sola compagnia ALPHA che opera in regime

Modelli lineari generalizzati e

tariffazione RCA

Davide Biancalana : [email protected]

Jessica Donadio : [email protected]

Ivan Granito : [email protected]

Corso 3-13 Novembre 2015

3-13 Novembre

2015

I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.

1

Agenda Corso Giorno 1:

Introduzione alla tariffazione nei Rami Danni e Modelli lineari generalizzati

Introduzione alla tariffa

Modelli lineari generalizzati dal punto di vista statistico

Selezione delle variabili: Forward, backward e StepWise

Giorno 2:

GLM: Modelli per il numero dei sinistri e per il costo medio

Modello per il numero dei sinistri

Modello per costo medio e per i sinistri punta

Re Regression

Giorno 3:

Esempio analisi tariffaria

Cluster Analysis: punto di vista statistico (Cenni)

Applicazione pratica - Costruzione di un Tariffa con modelli GLM

Buona parte del materiale è ripresa direttamente dal libro di testo «La Tariffazione nei rami danni con modelli lineari generalizzati» di P. Gigante, L. Picech e L. Sigalotti

3-13 Novembre 2015


2

Introduzione alla

tariffazione nei rami danni

3-13 Novembre

2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I.

3

Modello di teoria del rischio per la Tariffa RCA

Dal punto di vista teorico è possibile rappresentare il risarcimento totale X di un generico assicurato nel corso di un certo periodo di riferimento, nel seguente modo:

𝑋 = 𝑍𝑖

𝑁

𝑖=1

𝑍𝑖: variabile casuale dell’importo del risarcimento relativo al sinistro i-esimo

𝑁: variabile casuale discreta del numero di sinistri generati dall’assicurato nel corso del periodo di

riferimento

Calcolare il premio significa determinare il valore atteso (e la varianza) della variabile X ed applicarvi

dei caricamenti (di sicurezza e spese). Il modello classico prevede le seguenti ipotesi:

𝑍𝑖 ⊥ 𝑁

𝑍𝑖 sono indipendenti e identicamente distribuite

È possibile dimostrare che: 𝐸 𝑋 = 𝐸 𝑍 𝐸 𝑁

𝑉𝐴𝑅 𝑋 = 𝐸 𝑁 ∙ 𝑉𝐴𝑅 𝑍 + 𝑉𝐴𝑅(𝑁) ∙ 𝐸 𝑍 2

Questi risultati sono validi qualsiasi sia la distribuzione di probabilità di Z ed N.

26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.

4

I modelli lineari generalizzati – MODELLO PER COSTO MEDIO E PER I SINISTRI PUNTA

Modello di teoria del rischio per la Tariffa RCA

Definizione:

Un gruppo di assicurati è definito omogeneo se la rischiosità a loro connessa è descrivibile

mediante la stessa variabile casuale S (stessa distribuzione e stessi parametri)

1° Caso

Il portafoglio è costituito da Np assicurati tra di loro omogenei.

In questo caso, la variabile S viene modellizzata considerando tutto il portafoglio

2° Caso

Il profilo dell’assicurato cambia in base al sesso (M,F) e alla localizzazione geografica del

rischio (Nord ,Centro ,Sud). In questo caso quindi si hanno 6 classi di rischio, per ciascuna

delle quali andrà calibrata la variabile S del danno aggregato e quindi calcolato il premio.


5


L’importanza della tariffazione – Ragioni commerciali

La tariffazione è la procedura che consente di assegnare a ciascun assicurato un premio in funzione della sua rischiosità.

L’individuazione del premio corretto consente di ottenere una selezione ottimale (e non avversa) dei rischi.

Ipotesi:

Il mercato è composto da 2 categorie di assicurati: 𝑁𝐵 poco rischiosi (B) ed 𝑁𝐶 molto rischiosi (C).

Esiste una sola compagnia ALPHA che opera in regime di monopolio e assicura annualmente tutti gli utenti applicando un premio uguale per tutti gli assicurati.

𝑋 𝑋𝐵 𝑋𝐶 sono le variabili di danno aggregato per un singolo assicurato rispettivamente indifferenziato, buono e cattivo

La compagnia ha uscite per spese per cui applica solamente un caricamento di sicurezza omogeneo e additivo pari a c

𝑃𝐸: premio equo ; 𝑃𝑇 = 𝑃𝐸 + 𝑐: Premio di tariffa


6



La Compagnia ALPHA che opera in regime di monopolio applica un premio pari a:

𝑃𝐸 = 𝐸 𝑋 𝐸 𝑋𝐵 < 𝑃𝐸 < 𝐸(𝑋𝐶)

Quindi gli assicurati B pagano più di quanto dovrebbero (utile per la Compagnia) mentre gli assicurati C pagano meno di quanto dovrebbero (perdita per la Compagnia) effetto

di solidarietà tra assicurati.

Condizione di equilibrio per la Compagnia:

𝑃𝑇 ⋅ 𝑁𝐵 +𝑁𝐶 > 𝑁𝐵 ⋅ 𝐸 𝑋𝐵 + 𝑁𝐶 ⋅ 𝐸 𝑋𝐶 𝑐 > 0

Shock di mercato:

Ipotizziamo che, all’inizio dell’anno T, entri nel mercato una nuova compagnia BETA e che

questa adotti un sistema di tariffazione più efficiente rispetto ad ALPHA applicando due

premi diversi alle due categorie di assicurati:

𝑃𝐵𝑇 = 𝐸 𝑋𝐵 + 𝑐 𝑃𝐶

𝑇 = 𝐸 𝑋𝐶 + 𝑐 𝑃𝐵𝑇 < 𝑃𝑇 < 𝑃𝐶

𝑇


7



Cosa accade alla struttura del mercato?

Essendo 𝑃𝐵𝑇 < 𝑃𝑇 gli assicurati poco rischiosi lasceranno la compagnia ALPHA per rivolgersi

alla compagnia BETA poiché pagano un premio migliore.

La Compagnia ALPHA invece continuerà ad applicare il premio medio 𝑃𝑇 (l’adeguazione

del premio avverrà alla fine dell’anno T) per cui tutti gli assicurati C resteranno con ALPHA.

Alla fine dell’esercizio T:

ALPHA consegue una perdita che, in media, sarà pari a (𝑋𝐶−𝑃𝐶𝑇) ⋅ 𝑁𝐶 cambierà

strategia di tariffazione

BETA consegue un Utile che, in media, sarà pari 𝑐 ⋅ 𝑁𝐵

BETA prevale sul mercato poiché adotta un sistema di tariffazione più efficiente rispetto a

quello di ALPHA


8


La personalizzazione tariffaria

Un portafoglio è una collettività di rischi eterogenei che, con le tecniche

della tariffazione, è usualmente ripartito in sottogruppi di rischio con forti

caratteristiche di analogie. L’obiettivo è ottenere classi omogenee per

sinistrosità, cosicché ai rischi di una medesima classe si possa attribuire la

medesima base tecnica (ossia lo stesso premio). In tal modo si differenziano i

premi per gli assicurati della collettività, tenendo conto dei diversi profili di

rischio.

La differenziazione dei premi può avvenire in due modi (distinti o combinati):

1. Personalizzazione o differenziazione a priori

2. Personalizzazione a posteriori.

9

3-13 Novembre 2015


I modelli lineari generalizzati – Introduzione alla tariffa

Personalizzazione a priori Nella personalizzazione a priori si differenziano i premi in funzione di un

insieme di caratteristiche specifiche dei rischi osservabili a priori, prima di

disporre della storia di sinistrosità degli assicurati;

Le tecniche di personalizzazione a priori permettono di evidenziare

sottogruppi di rischi analoghi, detti classi tariffarie e di valutare i premi da

attribuire a ciascuna classe;

Polizza e/o singolo rischio

Profilo di rischio dato dalla

combinazione di

caratteristiche prescelte

PRO:

1. Possibilità di tariffare individui senza conoscere la loro storia assicurativa;

2. Trasparenza nel processo di definizione della tariffa;

3. …

CONTRO:

1. Il vantaggio informativo di utilizzare più criteri di personalizzazione si

riduce all’aumento del numero di classi tariffarie.

10

3-13 Novembre 2015



Personalizzazione a posteriori L’utilizzo di molte variabili tariffarie ha il vantaggio di migliorare l’accuratezza

dell’analisi tariffaria, tuttavia, all’interno di ogni classe, permane comunque

una notevole eterogeneità nei comportamenti degli assicurati. Si è riscontrato

che spesso l’osservazione della sinistrosità storica degli assicurati può essere

più efficace dell’impiego di tante variabili tariffarie;

Alcune coperture assicurative (modelli basati sulla credibilità o ad es. Bonus-

Malus) prevedono un aggiustamento del premio a posteriori in cui si tiene

conto della storia individuale;

Premio collettivo di base a priori Premio basato sull’esperienza individuale

PRO:

1. Tariffazione maggiormente aderente alla reale rischiosità dell’individuo;

2. …

CONTRO:

1. Trasparenza nel processo di definizione della tariffa;

2. …

11

3-13 Novembre



Relativi al conducente Relativi al veicolo Relativi alla garanzia

Età Uso Tipo di tariffa

Sesso Marca e modello Eventuali esclusioni e/o garanzie aggiuntive

Stato Civile Potenza in KW Attestato di riscio (situazione dei sinistri negli ultimi 5 anni)

Residenza Peso Classe di Bonus/Malus

Numero di figli Età del veicolo Rateizzazione del premio

Anzianità della patente di guida Alimentazione Massimale di copertura

Tipologia della patente Valore del veicolo

Punti della patente Velocità massima

Professione Se il proprietario coincide con il conducente

Nazionalità Se primo veicolo

Numero di altri veicoli in famiglia

Chilometri percorsi annualmente

Tipo di allarme

Tipo di riparo notturno

Variabili tariffarie e fattori di rischio I fattori giudicati influenti sulla sinistrosità, prendendo ad esempio il caso

delle assicurazioni R.C.Auto, sono le caratteristiche del veicolo e

dell’assicurato, le informazioni legate all’uso del veicolo ed altri aspetti

quali, ad esempio, lo stile del guida del conducente rilevato attraverso le

cosiddette “Black Box”.

Fonte: ANIA

12

3-13 Novembre 2015



Modelli tariffari: moltiplicativo ed

additivo

Modelli unico sulla quota danni stima diretta di X: definiscono i livello di

premio studiando il risarcimento totale del danno relativo ad una singola

polizza, i cui dati sono disponibili per periodi di osservazione di durata

annuale;

Modelli su frequenza sinistri e risarcimento medio per sinistro: si basano sullo

studio separato della frequenza dei sinistri in un orizzonte temporale

annuale e sul risarcimento medio del sinistro;

Modelli su tasso di premio: nelle coperture assicurative in cui è individuabile un valore di esposizione al rischio che rappresenta la terminazione massima

del risarcimento, il premio può essere calcolato attraverso il tasso di premio

cioè il premio per l’esposizione unitaria.

13

3-13 Novembre 2015



Dimensione del problema.

Le unità statistiche che costituiscono il portafoglio vengono descritte mediante

due caratteri:

Sesso: M,F

Localizzazione geografica del rischio Sud – Centro Nord

14

3-13 Novembre 2015



M F

S P(S,M) P(S,F)

C P(C,M) P(S,F)

N P(N,M) P(S,F)

Personalizzazione a PrioriAll’interno di ciascuna delle sei classi di

rischio viene fatta una ulteriore

personalizzazione dei premi in base alla

sinistrosità che l’assicurato ha dimostrato

nel tempo. Un assicurato nuovo paga il

premio collettivo 𝑃𝑖𝑗𝐶 mentre un

assicurato osservato nel tempo paga

𝑃𝑖𝑗𝑘 = 𝑓(𝑃𝑖𝑗

𝐶 ; 𝐼𝑆)

L’obbiettivo è stimare i 6 premi collettivi indicati nella tabella. Nel caso in cui le

variabili siano molte, la dimensione del problema aumenta in modo moltiplicativo (𝑵𝒊 ⋅ 𝑵𝒋 ⋅ … ⋅ 𝑵𝒛). Per limitare questo problema vengono utilizzati dei modelli sintetici.

Classi tariffarie e relatività Ogni fattore di rischio o variabile tariffaria può assumere più determinazioni

dette classi tariffarie o anche modalità o livelli.

Al fine di valutare i premi, si considera una funzione, detta modello

tariffario, che ad ogni classe associa il premio corrispondente. Tale funzione

dipende da alcuni parametri, detti relatività , che sono stimati dai dati.

𝑃𝑖,𝑗 = 𝐸 𝑋𝑖,𝑗 = 𝑓(𝛼𝑖 , 𝛽𝑖)

I modelli tariffari tradizionalmente adottati sul mercato sono di due tipi: il

modello moltiplicativo ed il modello additivo.

I GLM (modelli lineari generalizzati) sono attualmente una metodologia

molto utilizzata per la classificazione dei rischi, la determinazione dei premi

a priori e quindi delle relatività.

i jModalità i-esima

della prima variabile Modalità i-esima

della seconda variabile

15

3-13 Novembre 2015



Modello tariffario

Modello moltiplicativo

Modello additivo

Da notare che l’adozione di un modello moltiplicativo o additivo consente di stimare I+J relatività invece di IxJ premi: la dimensione del problema si riduce notevolmente ma diventa centrale l’ipotesi (moltiplicativa o additiva) implicita nel modello tariffario

jiijij pXEP )(

jiijij pXEP )(

Relatività/Coefficienti

Valore costante

Stima

16

Relatività/Punteggi

3-13 Novembre



Metodi di stima delle relatività Ipotizzando, per semplicità, che il premio di base sia uguale alla quota danni

di portafoglio, si osserva che, in entrambi i modelli, il problema della stima dei

parametri è indeterminato. Nel modello moltiplicativo i parametri sono

determinati a meno di un fattore non nullo, invece nel modello additivo a

meno di una costante additiva.

I metodi di stima intuitivo

Il metodo dei totali marginali

Il metodo dei minimi quadrati

NOTA BENE: è sempre possibile passare da un modello moltiplicativo ad uno

additivo tramite la trasformazione logaritmo.

NOTA BENE 2: spesso, nella pratica tariffaria come anche nei GLM, il premio di

base è fissato pari alla quota danni di un’assegnata classa

tariffaria presa a riferimento.

17

3-13 Novembre 2015



Metodo di stima intuitivo

Q

Qii

Q

Q j

j

Quota danni rischi con prima variabile in modalità i

Quota danni intero portafoglio

Stima relatività di rischi

per prima variabile nella

modalità i

jiijij QXEP ˆˆ)(ˆ Premio per profilo (i, j)

18

NOTA BENE : Nei modelli univariati la condizione fondamentale di base è

l’indipendenza logica e stocastica tra le variabili di personalizzazione

prescelte. 3-13 Novembre



Condizioni di bilanciamento Una condizione di bilanciamento richiede che, ripartendo il portafoglio in

sottogruppi numerosi di assicurati, per ciascun gruppo la tariffa copra il

fabbisogno.

Esistono diverse tipologie di bilanciamento:

Rispetto ad una singola variabile

Sulla totalità del portafoglio

I

i

ijij

I

i

ijij tQtP11

J

j

I

i

ijij

J

j

I

i

ijij tQtP1 11 1

Esposizione dei

rischi del profilo (i, j)

Metodi

19

J e I rappresentano il

numero di classi

tariffarie nelle variabili

esempio. 3-13 Novembre



Metodo dei totali marginali

È un metodo di stima della relatività applicabile ai modelli moltiplicativi e

additivi, il cui obiettivo è la realizzazione del bilanciamento per ogni

variabile di personalizzazione.

Si tratta di determinare le relatività che risolvono il sistema.

I

i

ijijij

I

i

ji

J

j

ijijij

J

j

ji

tQtf

tQtf

11

11

),(

),(

Modello tariffario

20

3-13 Novembre 2015



Metodo dei minimi quadrati

E’ il tipico metodo impiegato per la stima dei parametri di un modello che

definisce una funzione obiettivo da minimizzare in funzione delle relatività

del modello tariffario, sotto la condizione di bilanciamento totale;

Ulteriori metodi di stima possono essere ottenuti pesando le varie classi

tariffarie per la loro relativa esposizione oppure, nel caso del metodo del

chi quadro, rapportando gli scarti quadratici ai valori stimati.

2

1 1

,

J

j

I

i

jiij fQ

21

3-13 Novembre 2015



Equilibrio tariffario

Dal punto di vista del’assicuratore, la condizione di bilanciamento totale del portafoglio è necessaria ai fini del mantenimento dell’equilibrio economico dell’impresa.

Nella costruzione di una tariffa R.C. Auto, una compagnia di assicurazioni calcola dapprima il fabbisogno per far fronte ai risarcimenti che occorreranno nel corso di competenza della tariffa.

Il calcolo del fabbisogno tariffario si basa sull’applicazione di un modello (ad esempio il modello Filippi impiegato nella tariffa amministrata) che proietta nel periodo di applicazione della tariffa alcune risultanze osservate nel passato, considerando poi alcuni correttivi di natura economica.

Da ultimo, una serie di ulteriori elementi, quali l’onere per il Fondo di Garanzia per le Vittime della Strada e i caricamenti per spese, consente di determinare il premio medio di tariffa.

22

3-13 Novembre 2015



Tariffe commerciali (1/3) Nella realtà del mercato assicurativo Italiano e Europeo vige il principio di

libertà tariffaria, quindi nel determinare le tariffe le compagnie non solo

tengono conto delle analisi tecniche operate attraverso la stima delle

relatività ma tengono conto anche di altri fattori come ad esempio il

posizionamento del premi praticati rispetto ad altre compagnie in talune

zone territoriali, strategie commerciali, etc...

Nota Bene: per quanto riguarda il ramo R.C. Auto, in Italia, a differenza

degli altri paesi Europei, la normativa obbliga le compagnie a contrarre

questa tipologia di coperture ad ogni assicurato che la richieda.

Elusione

dell’obbligo a

contrarre

Rifiuto dell’intermediario o

della compagnia di

sottoscrivere la polizza

Elusione attraverso la leva

tariffaria

23

3-13 Novembre 2015



Tariffe commerciali (2/3) Quindi nel processo interno di definizione di una tariffa si possono

distinguere quattro fasi :

1. Calcolo del fabbisogno della tariffa nel periodo di competenza;

2. Analisi tecnica delle relatività (Attraverso modellistica tariffaria);

3. Definizione delle relatività della tariffa commerciale;

4. Valutazione del gettito medio della tariffa.

Nella fase 3 la normativa prevede che tra i due set di relatività “tecnici” e “commerciali” ci sia coerenza;

Nel corso normale delle attività le compagnie aggiornano i premi tra un’edizione tariffaria e l’altra variando direttamente le relatività e valutando la conseguente variazione di gettito.

Prima emissione

24

3-13 Novembre 2015



Fabbisogno Tariffario

ScmfQ___

Frequenza sinistri

proiettata nel periodo

di competenza della

tariffa

Costo medio dei sinistri

proiettato nel periodo

di competenza della

tariffa

Caricamenti

per spese

Margine di

Sicurezza e/o

Premio al Rischio

• Sinistri tardivi

• Sinistri riaperti

• …

• Spese resistenza

• Inflazione

• …

• FGVS

• Spese di gestione

• …

Il margine di Sicurezza e/o Premio al Rischio potrebbe essere fissato, secondo

l’approccio dell’utilità attesa, proporzionale ad una misura di dispersione del

risarcimento totale (ad esempio la stima del MSEP utilizzando i modelli GLM).

Tipicamente le compagnie fissano tale caricamento in maniera forfettaria.

25

3-13 Novembre 2015



Fabbisogno medio del

generico rischio presente

in portafoglio

Premio di riferimento (Prif)

1 1

,

QQP

I

i

J

j

N

n

ji

rif

ji

QN

nPI

i

J

j

ijjirif

1 1

I

i

J

j

ijnN1 1

Stima del fabbisogno medio

nel periodo di copertura tariffaria

Numero polizze nella classe tariffaria (i, j)

Approssimazione del premio

di riferimento basata sull’utilizzo

dei gradienti di premio

J

jj

J

jjj

t

t

1

1

26

3-13 Novembre 2015



Tariffe commerciali (3/3) Valutazione del gettito

ScmfQN

nPI

i

J

j

ijjirif ___1 1

~~~

Premio commerciale per

Il profilo tariffario(i, j)

Ottenere l’uguaglianza

ricalcolando il premio di

riferimento

Margine di

sicurezza

e/o Premio

al rischio

Ottenere l’uguaglianza

variando il premio al

rischio

Hp: Portafoglio chiuso

Impatto sui premi pagati

dagli assicurati

Impatto su margine di

profitto della compagnia

27

3-13 Novembre 2015



Modello frequenza e costo medio

QN

nQ

I

i

J

j

ijcm

j

f

j

cm

i

f

irif 1 1

ˆˆˆˆ

I

i

J

j

N

ncm

j

f

j

cm

i

f

i

rif

ij

QQ

1 1

ˆˆˆˆ

Quota danni calcolata

in modo che l’equilibrio

tariffario sia soddisfatto

Relatività stimate da

due modelli separati tra

frequenza e costo

medio (ad esempio da

modelli GLM)

28

3-13 Novembre 2015



Equazione di equilibrio finale

QN

nQ

N

nP

I

i

J

j

ijcm

j

f

j

cm

i

f

irif

I

i

J

j

ij

jirif 1 11 1

ˆˆˆˆ~~~

Fabbisogno Tariffa commerciale Tariffa Tecnica

QQP cm

j

f

j

cm

i

f

irifjirif ˆˆˆˆ~~~

Personalizzazione Coerenza

Per profilo

29

3-13 Novembre 2015



Sistemi moderni di tariffazione

La tecnologia moderna offre nuove possibilità per raccogliere dati e

personalizzare i premi delle tariffe RCA, mediante l’installazione di dispositivi specifici all0interno degli autoveicoli

Tali sistemi operano nell’ambito della tariffazione a posteriori e consentono di

personalizzare il premio in base ai comportamenti reali dimostrati dagli

assicurati.

Pay As You Drive : Il premio viene calcolato sulla base dell’effettivo utilizzo del

veicolo da parte dell’assicurato. La verifica viene fatta mediante dei sistemi

GPS con i quali è possibile verificare nel dettaglio che le distanze

contrattualizzate siano effettivamente compatibili con quelle percorse dall’assicurato nel periodo di riferimento. Tali sistemi consentono inoltre di

verificare:

la reale localizzazione geografica del rischio (dove si guida e non dove si ha la residenza

anagrafica)

il fatto che il guidatore abbia o meno delle abitudini consolidate in termini di percorsi (ciò

riduce la rischiosità).


30

I modelli lineari generalizzati – Introduzione alla regressione lineare


Pay As You Go : Il premio viene calcolato sulla base della rischiosità reale

dimostrata dall’assicurato con i suoi comportamenti di guida. Questa viene rilevata mediante l’installazione di sistemi specifici (accelerometri) sui veicoli

assicurati. Tali sistemi rilevano la serie storica delle accelerazioni del veicolo

nelle tre direzioni orizzontale, verticale ed laterale. Tali sistemi sono

generalmente accompagnati da delle formule contrattuali con premi

periodici mensili in modo che:

1° Mese: L’assicurato paga il premio mensile collettivo della sua classe di

riferimento (tariffazione a priori)

Mesi successivi: l’assicurato paga un premio risultante dalla media ponderata secondo un fattore di credibilità, tra il premio collettivo e quello individuale

stimato sulla base della rischiosità dimostrata.

𝑃𝑡 = 𝛼𝑡 ⋅ 𝑃𝐼 + 1 − 𝛼𝑡 ⋅ 𝑃𝐶

Dove 𝛼𝑡 è il fattore di credibilità che è funzione del tempo (e della quantità) di

dati osservati. 26-31 Marzo 2015 I modelli lineari generalizzati - Biancalana D., Donadio J., Granito I., Spina M.

31



Tali informazioni consentono di verificare la

rischiosità dello stile di guida del guidatore.

Attualmente non esistono ancora dati di mercato per associare una sinistrosità (in

termini di frequenza o importo) allo stile di

guida misurato con l’accelerometro

poiché è uno strumento di nuova introduzione che si sta diffondendo solo in

alcuni mercati (es. UK).

Nel futuro sicuramente questo approccio

cambierà totalmente il modo di tariffare i

rischi, andando ad escludere alcune

variabili (es. potenza del veicolo), ma

includendone altre. Sarà la realtà con la

quale gli attuari si dovranno confrontare

nei prossimi anni.


32


t x y z

1 -0,35465 -0,30045 0,312067

2 -0,28194 -0,12921 -0,09377

3 -0,07048 0,296667 -0,09542

4 0,174962 -0,0927 0,26913

5 -0,28525 0,145595 -0,46727

6 -0,33173 0,318024 -0,16582

7 -0,48476 0,144918 0,287132

8 -0,20452 -0,4938 -0,20162

9 0,382841 -0,26618 0,158956

10 -0,01442 0,035247 0,073153

11 0,087212 -0,23235 0,0429

12 -0,30672 -0,43461 0,004687

Accelerometro

Focus: Tipologie di variabili Il modello di regressione visto è applicabile a basi dati costituite da variabili di tipo quantitativo, ma nella pratica

attuariale della tariffazione, la maggior parte delle variabili sono pero di tipo qualitativo.

Definizione:

Variabile Quantitativa: E’ una variabile con determinazioni numeriche (es. età, anzianità di patente dell’assicurato, cilindrata, anzianità del veicolo)

Questo tipo di variabile può essere considerata direttamente nel modello oppure può essere considerata una sua trasformata

Variabile Nominale o Qualitativa: E’ una variabile con determinazione non numerica (es. sesso, professione, stato civile, zona di residenza dell’assicurato, marca e/o tipo di alimentazione del

veicolo)

Questo tipo di variabile deve essere codificata numericamente prima di poterla utilizzare nel modello di regressione

In linea generale, prima di poter applicare il modello di regressione è quindi necessario operare

delle trasformazioni e delle modifiche alla base dati di partenza.


33


Trasformazione di variabili qualitative Una variabile qualitativa, per poter essere utilizzata nel modello di regressione deve essere codificata numericamente.

Es:

𝑋 = 1 𝑠𝑒 𝑚𝑎𝑠𝑐ℎ𝑖𝑜0 𝑠𝑒 𝑓𝑒𝑚𝑚𝑖𝑛𝑎

Nel caso in cui la variabile presenti più di due modalità è possibile operare nel seguente modo:

Si considera una codificazione numerica in corrispondenza biunivoca rispetto alle modalità qualitative:

Es. la classe Bonus – Malus

Viene introdotta una variabile Dummy per ciascuna modalità

Modalità

Maschio

Femmina

Modalità

Celibe / Nubile

Coniugato /a

Vedovo /a

Divorziato / a

Modalità Dummy Y 1 Y 2 Y 3 Y 4

Celibe / Nubile X 1 1 0 0 0

Coniugato /a X 2 0 1 0 0

Vedovo /a X 3 0 0 1 0

Divorziato / a X 4 0 0 0 1

𝑋1 = 1 𝑠𝑒 𝑐𝑒𝑙𝑖𝑏𝑒0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖

𝑋2 = 1 𝑠𝑒 𝑐𝑜𝑛𝑖𝑢𝑔𝑎𝑡𝑜0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖

𝑋3 = 1 𝑠𝑒 𝑣𝑒𝑑𝑜𝑣𝑜0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖

𝑋4 = 1 𝑠𝑒 𝑑𝑖𝑣𝑜𝑟𝑧𝑖𝑎𝑡𝑜0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖

𝑦 = 𝛽1 ∙ 𝑋1 ∙ 𝛽2 ∙ 𝑋2 ∙ 𝛽3 ∙ 𝑋3 ∙ 𝛽4 ∙ 𝑋4

𝑦 = 𝛽1 ∙ 1 ∙ 𝛽2 ∙ 0 ∙ 𝛽3 ∙ 0 ∙ 𝛽4 ∙ 0


34


Trasformazione di variabili quantitative La necessità di effettuare trasformazioni sui dati di partenza possono derivare da problematiche di diverso tipo:

Variabili quantitative con scarsità di dati su alcuni intervalli di valori

Es: nella variabile età è possibile che ci siano poche o nessuna osservazione per alcuni valori di età

Soluzione: ripartizione dei valori in classi, livelli o modalità

Dipendenza non lineare della variabile dipendente rispetto ad un regressore o ad una funzione di più regressori

Soluzione: introduzione nel modello di trasformate dei regressori

Es. la variabile Bonus Malus è qualitativa. Spesso però nelle classi estreme ci sono poche osservazioni per cui non è possibile

stimare i parametri. In questo caso la variabile viene considerata quantitativa ma, al fine di ottenere dei coefficienti che

siano crescenti rispetto alla classe (a classi peggiori devono essere assegnati premi più alti), la variabile viene trasformata

attraverso dei polinomi di grado alto e si vanno ad eliminare via via i coefficienti ritenuti non significativi fino a quando i

parametri stimati non diventano monotoni crescenti al crescere della classe.

Età f ass

18 19

19 61

…

63 31

64 28

Classi età f ass

18 -35 243

…

63 - 70 86


35


Interazione tra variabili di classificazione

Definizione: le variabili quantitative ripartite in livelli e le variabili qualitative vengono dette variabili di classificazione.

Partendo dalle variabili di classificazione, è possibile considerare l’effetto congiunto di due o più di loro sulla variabile

dipendente.

Es. Date due variabili (A e B) ripartite rispettivamente nei livelli 1, … , a e 1, … , b è possibile definire 𝑎 ∙ 𝑏 variabili che

descrivono le cosiddette interazioni;

𝑋𝑖,𝑗𝐴𝐵 =

1 𝑠𝑒 𝐴 = 𝑖 𝑒 𝐵 = 𝑗0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖

Da notare che, se poniamo:

𝑋𝑖𝐴 =

1 𝑠𝑒 𝐴 = 𝑖0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖

𝑋𝑖𝐵 =

1 𝑠𝑒 𝐵 = 𝑖0 𝑎𝑙𝑡𝑟𝑖𝑚𝑒𝑛𝑡𝑖

𝑋𝑖,𝑗𝐴𝐵 = 𝑋𝑖

𝐴 ∙ 𝑋𝑗𝐵

A ciascuna variabile di iterazione corrisponderà quindi un coefficiente che descrive la dipendenza della variabile

dipendente dal verificarsi congiunto delle due variabili esplicative.


36


I MODELLI LINEARI

GENERALIZZATI

3-13 Novembre


37

I MODELLI LINEARI GENERALIZZATI (GLM)

Introdotti da Nelder e Weddenburn nel 1972, i GLM (Generalized linear model) sono una classe di

modelli grazie ai quali studiare l’influenza di un insieme di variabili esplicative (variabili indipendenti o regressori, che si ritiene possano spiegare i valori assunti dalla variabile indipendente) sulla distribuzione di una variabile risposta (modelli di regressione).

In ambito assicurativo sono largamente utilizzati nella tariffazione a priori, ma possono essere usati anche per trattare altri problemi, quale ad esempio la valutazione delle riserve.

Il modello di regressione lineare, uno dei metodi statistici più comunemente utilizzati per studiare la relazione esistente tra variabili, non risulta essere appropriato, in quanto, tra le assunzioni alla base di esso che non possono essere considerate valide in diversi contesti ricordiamo:

La variabile risposta ha una distribuzione normale

La variabile dipendente ha la speranza matematica data dalla combinazione lineare delle

determinazioni delle variabili esplicative ed e’ omoschedastica (varianza costante tra le osservazioni).

In molte situazioni tali condizioni sono restrittive, basti pensare come nelle applicazioni nel campo della tariffazione variabili come il numero dei sinistri che colpiscono un rischio assicurato (v.a. discreta) o l’importo provocato da un sinistro (v.a. con supporto il semiasse positivo e con

asimmetria negativa) non siano correttamente rappresentabili con una distribuzione normale.

3-13 Novembre 2015


38

I GLM consentono quindi da un lato di assegnare alle variabili risposta distribuzioni che appartengono alla classe o famiglia esponenziale lineare e dall’altro di rilassare l’ipotesi di esistenza di una relazione lineare tra la speranza matematica condizionata e i regressori.

FAMIGLIA ESPONENZIALE LINEARE:

Famiglia parametrica di distribuzioni di probabilità non degeneri1 aventi la seguente distribuzione di densita’ (funzione di probabilità nel caso discreto) :

𝜃 e λ sono due parametri reali, 𝜃 ∈Θ⊂ 𝑅, λ Λ ⊂ [0,∞]

b e c funzioni reali

c(y, λ)≥0

Θ e’ un intervallo non degenere ovvero tale che l’insieme dei suoi punti interni 𝑖𝑛𝑡Θ sia non vuoto

Gli elementi che caratterizzano una famiglia esponenziale lineare sono pertanto gli insiemi Θ, Λ e le funzioni b e c

3-13 Novembre 2015


39

f y; θ; λ = expyθ − b(θ)

λc(y; λ),y ∈ 𝑌 ⊂ 𝑅

1

I modelli lineari generalizzati – I modelli lineari generalizzati (GLM)

CARATTERISTICHE DEGLI ELEMENTI DI UNA FAMIGLIA ESPONENZIALE

b(𝜽) è detta funzione cumulante ed è dotata delle derivate di ogni ordine sul suo dominio Θ. Si dimostra che la funzione cumulante caratterizza una particolare famiglia nell’ambito della classe

delle famiglie esponenziali lineari in quanto una volta assegnata b, sia Λ sia la funzione c sono univocamente determinati.

𝜽 è detto parametro canonico ed è collegato al valore atteso della distribuzione.

𝝀 è detto parametro di dispersione

Appartengono alla classe delle famiglie esponenziali lineari le seguenti distribuzioni di probabilità: La

stessa Normale, Poisson, Binomiale, Binomiale negativa, Gamma, Gaussiana inversa.

TABELLA DEGLI ELEMENTI PER LE PRINCIPALI DISTRIBUZIONI

3-13 Novembre 2015


40

Nella tabella al lato si riportano gli elementi che

caratterizzano le principali distribuzioni appartenenti alla classe delle famiglie

esponenziali. Si indica con con μ il valore atteso delle distribuzioni.


Il vantaggio di rappresentare tali distribuzioni nella formulazione prevista dalla classe delle famiglie esponenziali invece dell’usuale parametrizzazione, come vedremo in seguito, consiste nel fatto che per tali famiglie è possibile seguire una procedura generale sia per la stima dei

parametri sia per le analisi inferenziali in modelli parametrici di regressione: modelli diversi possono essere visti come membri di un’unica classe e possono quindi essere trattati con un unico approccio.

DISTRIBUZIONI CON PESO ASSEGNATO

In molti problemi è naturale considerare distribuzioni di una famiglia esponenziale lineare il cui

parametro di dispersione è del tipo λ =𝜙

ω, con ω >0

ω è un peso assegnato

𝜙 continua ad essere chiamato parametro di dispersione

La funzione di densità (o di probabilita’ se discreta) in questo caso sarà del tipo

con 𝜃 ∈Θ⊂ 𝑅,𝜙/𝜙

ωΛ ⊂ [0,∞]. Nello specifico se ω = 1 e 𝜙 = λ allora le distribuzioni presentate nella

tabella precedente possono essere viste come distribuzioni con peso assegnato unitario.

3-13 Novembre 2015


41

𝑓 𝑦; 𝜃; 𝜙;ω = 𝑒𝑥𝑝ω

𝜙[𝑦𝜃 − 𝑏(𝜃)] c(y;𝜙;ω),y∈⊂


FUNZIONE GENERATRICE DEI MOMENTI E MOMENTI

Le distribuzioni delle famiglie esponenziali sono dotate di funzione generatrice dei momenti2. Sia Y un numero aleatorio con distribuzione appartenente a una famigli esponenziale lineare;

allora la sua funzione generatrice dei momenti è la seguente:

𝑚𝑌 𝑡; 𝜃; λ = exp𝑏 𝜃+𝑡λ −𝑏 𝜃

λ

con t/𝜃 + 𝑡λ ∈ Θ. In caso di densità pesata

𝑚𝑌 𝑡; 𝜃;ϕ;ω = expω

ϕ[𝑏 𝜃 + 𝑡

ω

ϕ− 𝑏 𝜃 ]

Allora la distribuzione avrà momenti finiti di ogni ordine e si ha:

𝐸 𝑌𝑛 =𝑑𝑛

𝑑𝑡𝑛𝑚𝑌 𝑡; 𝜃; λ |𝑡=0

Si ottiene che:

Dimostrazione:

𝐸 𝑌 = μ =𝑑

𝑑𝑡𝑚𝑌 𝑡; 𝜃; λ |𝑡=0 = exp

−𝑏 𝜃

λexp

𝑏 𝜃 + 𝑡λ

λ

𝑏′ 𝜃 + 𝑡λ

λλ|𝑡=0 = 𝑏′ 𝜃

𝐸 𝑌2 = exp−𝑏 𝜃

λ

𝑑

𝑑𝑡[exp

𝑏 𝜃+𝑡λ

λ𝑏′ 𝜃 + 𝑡λ ]|𝑡=0=exp

−𝑏 𝜃

λ [exp

𝑏 𝜃+𝑡λ

λ𝑏′ 𝜃+𝑡λ 𝑏′ 𝜃+𝑡λ + exp

𝑏 𝜃+𝑡λ

λ𝑏′′ 𝜃 + 𝑡λ λ] |𝑡=0=

= exp−𝑏 𝜃

λ exp

𝑏 𝜃

λ𝑏′ 𝜃 𝑏′ 𝜃 + exp

𝑏 𝜃

λ𝑏′′ 𝜃 λ = (𝑏′ 𝜃 )2 + 𝑏′′ 𝜃 λ 𝑉𝐴𝑅 𝑌 = 𝐸 𝑌2 − 𝐸 𝑌 2 = 𝑏′′ 𝜃 λ

𝐸 𝑌 = 𝑏′ 𝜃 𝑉𝐴𝑅 𝑌 = λ 𝑏′′(𝜃)

3-13 Novembre 2015


42


2

FUNZIONE DI VARIANZA

Assegnata una famiglia esponenziale lineare, si dimostra che la derivata prima della funzione cumulante è monotona crescente, quindi la funzione b’: 𝑖𝑛𝑡Θ→M, con M = b′(𝑖𝑛𝑡Θ) spazio dei valori

attesi 3, è invertibile. La funzione di varianza è:

La varianza di Y può essere espressa attraverso il parametro 𝜇

𝑉𝐴𝑅 𝑌 = λ𝑉 μ

𝑉 μ = 𝑏′′ 𝑏′−1(𝑏′ 𝜃 ) = 𝑏′′ 𝜃 =𝑉𝐴𝑅(𝑌)

λ

Riportiamo le funzioni di varianza per le distribuzioni principali:

𝑉 μ = 𝑏′′ 𝑏′−1(μ) , 𝜇 ∈ M

3-13 Novembre 2015


43


3 Rappesenta l’insieme dei valori ammissibili per la speranza matematica delle distribuzioni della famiglia per 𝜃 ∈Θ

FUNZIONE DI VARIANZA DI TIPO POTENZA

Un’importante classe di famiglie esponenziali lineari che comprende la classe normale, Poisson, Gamma e Gaussiana inversa è rappresentata dalle famiglie con funzioni di varianza potenza

I modelli corrispondenti sono anche detti modelli di Tweedie. Si tratta di una classe che comprende:

ξ = 0 famiglia Normale, ξ = 1 famiglia Poisson, ξ = 2 famiglia Gamma, ξ = 3 famiglia Gaussiana inversa

1 < ξ < 2 distribuzioni di tipo Poisson-composto, ξ ≥ 2 distribuzioni la cui densità ha supporto nell’intervallo [0,∞[

Non esistono famiglie esponenziali lineari con funzione di varianza di tipo potenza per 0 < ξ < 1

3-13 Novembre 2015


44


IPOTESI DEI MODELLI GLM

Ricordando che i modelli GLM sono modelli di regressione che generalizzano i lineari, con riferimento ad n unità statistiche, si dispone di un insieme di osservazioni 𝑦𝑖 , 𝒙𝒊 , 𝑖 = 1,…… , 𝑛 , dove per ognuna

unità statistica

𝑦𝑖 è il valore di una grandezza di interesse

𝒙𝒊 è il vettore delle determinazioni assunte da un insieme di variabili esplicative

Il vettore dei valori 𝒚 = 𝑦1, 𝑦2, … , 𝑦𝑛 ′ è visto come valore osservato del vettore aleatorio 𝒀 = 𝑌1, 𝑌2, … , 𝑌𝑛 ′ della variabile risposta.

Per il vettore delle variabili risposta 𝒀 = 𝑌1, 𝑌2, … , 𝑌𝑛 ′ è formulata una ipotesi probabilistica che mette in relazione la distribuzione di 𝒀 con i vettori delle determinazioni delle variabili esplicative. In sintesi un GLM è definito dalle seguenti ipotesi:

1. Ipotesi probabilistiche: Le variabili risposta 𝑌1, …… . , 𝑌𝑛, sono stocasticamente indipendenti, con

distribuzione della stessa famiglia esponenziale lineare

2. Ipotesi strutturali: Il legame esistente tra il valore atteso 𝜇𝑖 di 𝑌𝑖 e il vettore delle determinazioni delle variabili esplicative 𝒙𝒊 espresso nel seguente modo:

𝑔 𝜇𝑖 = 𝒙𝒊′𝜷

Dove 𝜷 è un vettore di parametri e g una funzione di collegamento (link function) invertibile; Sarà:

𝐸 𝑌𝑖 = 𝜇𝑖 = 𝑔−1 𝒙𝒊′𝜷 𝑉𝐴𝑅 𝑌𝑖 =

ϕ

ω𝑖𝑉 𝜇𝑖

dove ricordiamo 𝜙 è un parametro di dispersione e V la funzione di varianza che caratterizza la famiglia delle distribuzioni delle variabili risposta.

3-13 Novembre 2015


45


Consideriamo più in dettaglio gli elementi del modello.

DISTRIBUZIONE DEL VETTORE DELLE VARIABILI RISPOSTA

𝑌1, 𝑌2, … , 𝑌𝑛 sono stocasticamente indipendenti, con distribuzioni appartenenti ad una medesima famiglia esponenziale lineare e 𝑌𝑖 ha distribuzione del tipo:

Dove 𝜃𝑖 , 𝑖 = 1…𝑛 e 𝜙 sono i parametri canonico e di dispersione, ω𝑖 > 0 è un peso assegnato. Inoltre, i supporti delle distribuzioni di 𝑌1, 𝑌2, … , 𝑌𝑛non dipendono dai parametri.

Si noti che:

Essendo fissata la famiglia esponenziale lineare la funzione cumulante b non varia con i

Si assume che anche il parametro di dispersione 𝜙 non dipenda da i

dipendono, in generale da i, il parametro canonico 𝜃𝑖 e il peso ω𝑖

In relazione ai momenti della distribuzione:

Pertanto, la specificazione di una particolare struttura per la speranza matematica, 𝜇𝑖 = 𝑔−1 𝒙𝒊′𝜷 ,

implicherà una struttura anche per la varianza della stessa. Osserviamo anche che l’ipotesi di invarianza di 𝜙 rispetto ad i comporta, ad esempio, che se le variabili risposta hanno distribuzioni normali con lo stesso peso allora hanno tutte la stessa varianza.

Con riferimento ai pesi, a parità di 𝜙 e 𝑉 𝜇𝑖 , 𝑉𝐴𝑅 𝑌𝑖 è tanto maggiore quanto minore è ω𝑖.

I pesi possono allora essere utilizzati per incorporare nel modello informazioni sull’affidabilità delle singole osservazioni.

3-13 Novembre 2015


46


𝐸 𝑌𝑖 = 𝑏′ 𝜃𝑖 𝑉𝐴𝑅 𝑌𝑖 =𝜙

ω𝑖𝑏′′ 𝜃𝑖 =

𝜙

ω𝑖𝑉 𝜇𝑖

LE VARIABILI ESPLICATIVE

Per le n unità statistiche sono disponibili un insieme di caratteristiche osservabili a priori, che si ritengono influenti sulle distribuzioni delle variabili risposta.

Tali caratteristiche possono essere variabili numeriche oppure variabili qualitative o numeriche con determinazioni in livelli, dette variabili di classificazione o fattori.

Una variabile C di classificazione con 𝑙 livelli o modalità, 𝑐1, 𝑐2, … , 𝑐𝑙 , può essere codificata con variabili dummy (variabili indicatrici).

Le variabili 𝑋1, 𝑋2, … , 𝑋𝑙 sono le variabili indicatrici dei livelli. Poiché 𝑋𝑖𝑙𝑖=1 = 1 sono sufficienti 𝑙 −

1 variabili indicatrici per descrivere C: la rimanente si ottiene per complemento a uno.

A codificazione avvenuta, sia m il numero delle variabili esplicative del modello.


47


E’ detta matrice di regressione (design matrix) la matrice X [nx(m+1)]

in cui la prima colonna è composta da elementi unitari e la (j+1)-esima colonna riporta le determinazioni della variabile 𝑋𝑗 per ogni

osservazione i del campione. La i-esima riga riporta quindi le determinazioni di tutte le variabili esplicative per l’i-esima osservazione con l’aggiunta di 𝑥𝑖0 = 1.

Indichiamo con p il numero delle colonne. Si suppone n > p e che le colonne siano linearmente indipendenti (X matrice a rango pieno).

IL PREVISORE LINEARE

Supponiamo di considerare m variabili esplicative; il vettore di determinazioni per l’i-esima unità statistica sarà: 𝒙𝑖

′= 1, 𝑥𝑖1 , …… . , 𝑥𝑖𝑚 e influisce sulla determinazione della variabile risposta 𝑌𝑖, tramite il

previsore lineare relativo all’i-esima osservazione:

η𝑖 = 𝛽0+ 𝛽1 𝑥𝑖1+…+ 𝛽𝑚 𝑥𝑖𝑚= 𝒙𝑖′𝜷

Dove 𝜷 è un vettore di parametri comuni a tutte le unità statistiche. Il parametro 𝛽0 è detto intercetta e potrebbe non essere presente, ma da ora in poi ipotizzeremo modelli con intercetta.

Il previsore lineare rappresenta la componente sistematica del modello ed è funzione lineare dei parametri 𝛽0, 𝛽1 , …… . , 𝛽𝑚

I parametri di regressione 𝜷 sono considerati certi, ma non noti.

LA FUNZIONE DI COLLEGAMENTO

E’ una funzione g reale di variabile reale, invertibile, detta anche link function, che mette in relazione

le componenti del previsore lineare con le speranze matematiche delle variabili risposta. Infatti:

η𝑖 = 𝑔 𝜇𝑖 , 𝑖 = 1…𝑛

Ne segue che 𝜇𝑖 = 𝑔−1 η𝑖 = 𝑔−1 𝒙𝒊′𝜷

Il dominio D della funzione 𝑔 deve essere tale che 𝑔−1 𝒙𝒊′𝜷 dia valori ammissibili per 𝜇𝑖.

La funzione g deve soddisfare le seguenti condizioni di regolarità:

1. Monotonia 2. Derivata prima continua 3. Derivata seconda continua

3-13 Novembre 2015


48


Dato il vettore dei parametri tramite la funzione di collegamento si determina la speranza matematica della variabile risposta a partire dalle determinazioni delle variabili esplicative.

Nella tariffazione la funzione di collegamento indica ad esempio come calcolare il premio equo in

funzione delle caratteristiche tariffarie.

Funzione di collegamento identica: modello tariffario additivo per le speranze matematiche delle variabili risposta

Osservando che il previsore lineare può generalmente assumere valori in R tale funzione di collegamento può essere usata per distribuzioni della variabile risposta per le quali la speranza matematica può assumere un qualunque valore reale (es. Normale).

Funzione di collegamento logaritmica: modello tariffario moltiplicativo per le speranze matematiche delle variabili risposta.

Gli effetti additivi del previsore sono trasformati in effetti moltiplicativi sul premio equo e si osserva che 𝜇𝑖 è sempre positiva.

Funzione di collegamento potenza:

3-13 Novembre 2015


49


4

Funzione canonica di collegamento:

In ogni famiglia esponenziale lineare, la funzione 𝑏′−1, trasforma la speranza matematica 𝜇 nel parametro canonico 𝜃. Infatti, da 𝜇 = 𝑏′(𝜃) e dall’invertibilità di 𝑏′ si ha che

𝑏′−1 𝜇 = 𝜃

Scegliendo 𝑔 𝜇 = 𝑏′−1(𝜇), come link function si ha:

η𝒊 = 𝑔 𝜇𝑖 = 𝜃𝑖 , 𝑖 = 1…𝑛

Tale funzione canonica mette direttamente in collegamento il previsore lineare con il parametro

canonico, che è espresso come combinazione lineare delle variabili esplicative.

Si ha anche che:

𝑔′ 𝜇 =1

𝑏′′ 𝑏′−1 𝜇=

1

𝑉(𝜇)

3-13 Novembre 2015


50


LA STIMA DEI PARAMETRI

I parametri delle distribuzioni delle variabili risposta e dunque i parametri che intervengono in un

GLM sono – i parametri canonici 𝜃𝑖 , 𝑖 = 1…𝑛 - e 𝜙 il parametro di dispersione.

In alcuni casi 𝜙 è noto, per esempio nella distribuzione di Poisson tale parametro 𝜙 = 1.

Nei GLM, la stima dei parametri 𝜃𝑖 si ottiene stimando il vettore dei parametri di regressione 𝜷 a partire dai dati 𝑦𝑖 , 𝒙𝒊 , 𝑖 = 1,…… , 𝑛 , .

Dato 𝜷, rimangono determinati infatti i parametri canonici:

assegnata la matrice X ⇒

Da η𝒊 data la funzione di collegamento g(.) ⇒

da 𝜇𝑖 , data la funzione cumulante b(.) ⇒

Dunque

Sottolineiamo che i modelli GLM, nonostante costituiscano una classe ampia e flessibile di modelli,

presentano ipotesi che li rendono inadatti nel trattare alcuni problemi: l’indipendenza delle variabili risposta, la richiesta che le distribuzioni siano completamente specificate e appartengano ad una famiglia esponenziale lineare e il fatto che le speranze matematiche e le varianze di tali distribuzioni dipendano dalle medesime variabili esplicative, l’ipotesi che il parametro di dispersione sia comune a tutte le variabili risposta.

3-13 Novembre 2015


51


Il parametro vettoriale 𝜷 è usualmente stimato con il metodo della massima verosimiglianza (ML) per le proprietà che caratterizzano il corrispondente stimatore, da cui discendono alcuni risultati sulle distribuzioni delle statistiche che sono utilizzate per l'inferenza.

Supponiamo che siano soddisfatte le proprietà che rendono il nostro caso, un problema regolare5 di stima i parametri sono stimati col metodo della verosimiglianza.

Per 𝑦1, 𝑦2, … , 𝑦𝑛 valori osservati delle variabili risposta 𝑌1, 𝑌2, … , 𝑌𝑛, la log-verosimiglianza come funzione dei parametri

𝜽 = 𝜃1, …… . , 𝜃𝑛

𝛷

Supponiamo, per ora, che il parametro 𝜙 sia fissato. Per i modelli per i quali tale parametro non è dato, ciò equivale a imporre una restrizione della log-verosimiglianza ma ai fini di ottenere la stima di 𝜷 la condizione non è restrittiva.

3-13 Novembre 2015


52


5

Indicata con l(𝜷) la log-verosimiglianza come funzione di 𝜷, le stime di ML si ottengono risolvendo le equazioni di verosimiglianza (equazioni score o first order condition)

In corrispondenza delle quali la matrice Hessiana 𝜗2𝑙(𝜷)

𝜗𝛽𝑗𝜗𝛽ℎ 𝑗,ℎ

risulta definita negativa.

Si individuano così i punti di massimo relativo e osserviamo che, se la log-verosimiglianza è concava,

i punti di massimo relativo sono anche punti di massimo assoluto. In particolare se è strettamente concava, come accade per molti importanti GLM, per esempio per ogni modello con funzione canonica di collegamento, stima di massima verosimiglianza se esiste è unica.

Ricordando 𝜷 → η𝒊 = 𝒙𝒊′𝜷 → 𝜇𝑖 = 𝑔−1 η𝒊 → 𝜃𝒊 = 𝑏′−1 𝜇𝑖 → 𝑙𝑖(𝜃𝑖,ϕ; 𝑦𝑖)

Si calcolano in modo esplicito le derivate parziali della log-verosimiglianza

𝑠(𝜷) =𝜕𝑙 (𝜷)

𝜕𝛽𝑗=

𝜕𝑙𝑖 (𝜷)

𝜕𝛽𝑗

𝑛𝑖=1 =

𝜕𝑙𝑖

𝜕𝜃𝑖

𝜕𝜃𝑖

𝜕𝜇𝑖

𝜕𝜇𝑖

𝜕η𝒊

𝜕η𝒊

𝜕𝛽𝑗

𝑛𝑖=1

𝜕𝑙𝑖

𝜕𝜃𝑖=

ω𝑖

ϕ𝑦𝑖 − 𝑏′ 𝜃𝑖 =

ω𝑖

ϕ𝑦𝑖 − 𝜇𝑖

𝜕𝜃𝑖

𝜕𝜇𝑖=

𝜕𝑏′−1 𝜇𝑖

𝜕𝜇𝑖=

1

𝜗𝑏′′(𝑏′−1 𝜇𝑖 )=

1

𝑉 𝜇𝑖

𝜕𝜇𝑖

𝜕η𝒊=

𝜕𝑔−1 𝜂𝑖

𝜕𝜂𝑖=

1

𝜕𝑔′(𝑔−1 𝜂𝑖 )=

1

𝑔′ 𝜇𝑖

𝜕η𝒊

𝜕𝛽𝑗= 𝑥𝑖𝑗

3-13 Novembre 2015


53


Log-verosimiglianza

(*)

First order condition

la stima di 𝜷 non dipende da 𝜙.

La soluzione del sistema avviene per via numerica, con i metodi numerici di tipo iterativo di Newton-Raphson o scoring di Fisher, ed è fornita dai software statistici.

Se la funzione di collegamento è la canonica poiché’

Il vettore delle derivate prime si semplifica in:

Il vettore 𝑠(𝜷) =(𝑠𝑜 (𝜷), 𝑠1 (𝜷),…, 𝑠𝑚 (𝜷))′ gradiente della funzione di log-verosimiglianza e’ detto

vettore di punteggio o vettore score. Indicata con V la matrice delle varianze e covarianze di Y

E posto

Lo score può essere scritto in forma matriciale

3-13 Novembre 2015


54


[(m+1)xn] [nxn] [nxn] [nx1]

(**)

MATRICE HESSIANA: Calcoliamo le derivate seconde della funzione di log verosimiglianza:

Dalla terza e dalla quarta delle derivate parziali calcolate per determinare la funzione score si ha:

Si ha quindi:

dove

Poniamo

La matrice hessiana della log-verosimiglianza la cui opposta è anche detta matrice di informazione

osservata. E’ facile verificare che si ha:

3-13 Novembre 2015


55


Consideriamo ancora la matrice di informazione attesa di Fisher

Dove 𝑙 è il numero aleatorio che si ottiene sostituendo nell’espressione della funzione di log-

verosimiglianza i numeri aleatori 𝑌1, 𝑌2, … , 𝑌𝑛 alle osservazioni 𝑦1, 𝑦2, … , 𝑦𝑛. Il generico elemento della matrice è:

In quanto il secondo addendo delle derivate seconde calcolate in precedenza ha valore atteso nullo. Posto:

Si ha

Osserviamo che poiché’ 𝑊(𝜷) è una matrice definita positiva e 𝑿 ha rango pieno è definita positiva. La matrice è inoltre la matrice di varianze e covarianze del vettore

aleatorio 𝑠 (𝜷) =(𝜕𝑙 (𝜷)

𝜕𝛽0,𝜕𝑙 (𝜷)

𝜕𝛽1,…,

𝜕𝑙 (𝜷)

𝜕𝛽𝑚)′ .

Ricordando che:

d E per l’indipendenza stocastica di 𝑌1, 𝑌2, … , 𝑌𝑛

3-13 Novembre 2015


56


Nel caso di collegamento canonico, dalla

In tal caso la matrice hessiana della log-verosimiglianza è definita negativa e quindi, come anticipato, la log-verosimiglianza è strettamente concava.

Fino ad ora sono stati considerati gli elementi per la stima del parametro di regressione. Anche il

parametro 𝝓 di dispersione se non è noto può essere stimato con il metodo della massima verosimiglianza.

Si tratta di risolvere la seguente equazione dove con 𝜽 si indica la stima del vettore dei parametri

canonici, ottenuta come funzione della stima del vettore 𝜷 dei parametri di regressione

3-13 Novembre 2015

57



DISTRIBUZIONE ASINTOTICA

Dalle proprietà asintotiche degli stimatori di ML (𝜷 ), se n è “sufficientemente grande”, si può supporre che lo stimatore di massima verosimiglianza di 𝜷 abbia distribuzione normale con matrice di varianze e covarianze data dall’inversa della matrice di informazione attesa di Fisher

calcolata nella stima 𝜷 :

Dove

E’ la matrice di informazione attesa di Fisher

Si può scrivere anche che

Dove

E’ la matrice hessiana.

3-13 Novembre 2015


58


MODELLI CON DATI INDIVIDUALI E CON DATI RAGGRUPPATI

Finora abbiamo supposto che i dati fossero individuali ovvero che per ogni i la determinazione della variabile risposta e il vettore delle determinazioni delle variabili esplicative corrispondessero ad un’unica unità statistica.

Spesso nella tariffazione lo stesso vettore di determinazioni dei regressori è comune a più unità statistiche e in tal caso i dati possono essere raggruppati ottenendo un GLM che ai fini della stima dei

parametri di regressione è equivalente al primo.

In sintesi:

Nel modello con dati individuali la matrice di regressione contiene le determinazioni delle

variabili esplicative per singola unità statistica

Nel modello con dati raggruppati contiene solo righe di determinazioni dei regressori diverse tra di loro.

Vediamo nel seguito come definire opportunamente le variabili risposta nel secondo modello.

3-13 Novembre 2015


59


Premettiamo il seguente teorema

Osserviamo che le distribuzioni hanno la stessa distribuzione cumulante e gli stessi parametri, canonico e di dispersione, al variare di i possono invece variare i pesi.

La distribuzione del numero aleatorio Y, media ponderata di 𝑌1, 𝑌2, … , 𝑌𝑛 con pesi 𝜔1, 𝜔2, … , 𝜔𝑛, ha ancora da stessa funzione cumulante e parametri, mentre il peso della distribuzione è la somma dei pesi.

3-13 Novembre 2015


60


(1)

Modello con dati individuali

3-13 Novembre 2015


61


3-13 Novembre 2015


62


Modello con dati raggruppati

3-13 Novembre 2015


63


(1)

3-13 Novembre 2015


64


Quale scegliere?

MODELLI CON QUASI-VEROSIMIGLIANZA

La classe dei GLM e le relative tecniche per l’inferenza statistica sono state estese in diversi modi per aumentare ulteriormente la flessibilità e l’applicabilità dei modelli.

I modelli con quasi-verosimiglianza (QL), sono modelli semiparametrici, nei quali si specificano solamente le strutture dei primi due momenti delle distribuzioni delle variabili risposta e non anche una particolare forma di distribuzione.

In questo caso si ottengono stime del valore atteso e della varianza delle variabili risposta, ma si perde, in generale, la possibilità di ottenere una distribuzione stimata.

3-13 Novembre 2015


65


Stima del parametro

3-13 Novembre 2015


66


(*)

(**)

INFERENZA STATISTICA PER I GLM

D

d

d

3-13 Novembre 2015


67

BONTA’ DI ADATTAMENTO AI DATI

L’introduzione di un modello statistico consente di descrivere e sintetizzare un fenomeno a partire da un insieme di dati e di ottenere i valori stimati di una grandezza di interesse che si adattano ai valori

osservati, nasce quindi l’esigenza di valutare la sua bontà di adattamento (Goodness of fit).

A partire da n osservazioni si può stimare un GLM che contiene fino ad n parametri di regressione:

Modello nullo con un unico parametro, si sta implicitamente assegnando la medesima speranza matematica alle variabili risposta, tale modello è troppo semplice;

Modello saturo con un numero di parametri quante sono le osservazioni che porta ad ottenere come stime delle speranze atematiche delle variabili risposta proprio i valori osservati. Si adatta perfettamente ai dati ma non realizza alcuna sintesi.

Il modello saturo è utile per valutare l’accostamento ottenuto von un modello fissato, detto modello corrente, contenente p parametri con p<n.

Supponiamo dapprima 𝝓 noto.

Devianza scalata o statistica del log-rapporto di verosimiglianza

Si confrontano le massime verosimiglianze ottenibili con il modello corrente c e con il modello saturo f.

Intuitivamente, il modello corrente spiega bene i dati se la corrispondente ML non è molto diversa da quella ottenibile con il modello saturo.

3-13 Novembre 2015


68

I modelli lineari generalizzati – INFERENZA STATISTICA PER I GLM

Indicate con 𝛽 e 𝛽 * le stime di ML del parametro di regressione per i modelli c ed f

che si può scrivere

Considerando nella precedente espressione la variabile aleatoria Y invece delle sue determinazioni,

il numero aleatorio 𝑺 (𝒄, 𝒇) ottenuto è detto devianza scalata o statistica del log-rapporto di

verosimiglianza (likelihood ratio statistic).

Devianza

Un’altra statistica collegata alla precedente è la devianza che ha valore osservato:

Osserviamo che non dipende da 𝝓.

3-13 Novembre 2015


69


Statistica Chi-quadrato di Pearson

Un’altra misura dello scostamento tra modello corrente e modello saturo basata sui residui, è definita dalla

Anche di questa statistica si considera una versione scalata

Il valore osservato di quest’ultima è dunque la somma dei quadrati dei residui ordinari rapportati alle stime delle varianze delle variabili risposta.

3-13 Novembre 2015


70


Test

Nel modello di regressione lineare normale, sotto le ipotesi del modello corrente, le precedenti statistiche hanno distribuzione con chiquadro con (n - p) gradi di libertà, per ogni n. Si possono allora effettuare test formali di verifiche di ipotesi.

Con 𝜙 = 𝜎2.

Sia 𝛽 ∈ 𝑅𝑛 il vettore dei parametri di regressione del modello saturo e sia 𝛽 = (𝛽 0 , 𝛽(1)) dove 𝛽 0 è il

sottovettore dei parametri che compaiono anche nel modello corrente e 𝛽 1 il sottovettore dei

parametri che non compaiono nel modello corrente.

𝐻0: 𝛽

1 = 0

𝐻1: 𝛽1 ≠ 0

𝑆 (𝑐, 𝑓) sotto 𝐻0 ha distribuzione

3-13 Novembre 2015


71


Per i GLM diversi dal modello lineare normale non si hanno, in generale, risultati esatti sulle

distribuzioni delle statistiche. Basandosi su proprietà asintotiche si assume che per n elevato, nelle ipotesi del modello corrente, valga l’approssimazione .

L’approssimazione in generale non è buona.

Accogliendo tuttavia tale approssimazione poiché la speranza matematica è n-p, si ricava

una regola pratica per avere una prima indicazione sulla bontà di adattamento di un modello

se sono maggiori di 1 possono indicare un adattamento non soddisfacente.

3-13 Novembre 2015


72


Dati raggruppati

3-13 Novembre 2015


73


STIMA DEL PARAMETRO DI DISPERSIONE

Se 𝝓 non è noto è sostituito con una sua stima si può ottenere, con il metodo della massima verosimiglianza oppure, spesso tale parametro è però visto come parametro di disturbo e viene

stimato con il metodo dei momenti. A tal proposito sono proposti due stimatori consistenti, uno basato sulla devianza e l’altro sulla statistica di Pearson.

Tra gli stimatori spesso è preferito quello basato sulla statistica di Pearson, in quanto i restanti due

possono portare a stime molto instabili quando la famiglia di distribuzioni delle variabili risposta ha funzione di varianza non costante rispetto a 𝜇. Inoltre con tali due stimatori, le stime risentono di errori di arrotondamento in presenza di osservazioni prossime a zero.

3-13 Novembre 2015


74


VERIFICHE DI IPOTESI E CONFRONTO TRA MODELLI

Problema. Consideriamo il confronto tra due modelli, 𝑀0 e 𝑀1, con

distribuzioni delle variabili risposta appartenenti alla medesima famiglia esponenziale lineare,

la medesima funzione di collegamento,

diversa struttura di regressione: il modello 𝑀1 con p parametri; il modello vincolato 𝑀0 con p- s parametri, che sia un sottovettore del vettore dei parametri del modello 𝑀1.

Rispetto a 𝑀1, 𝑀0 è detto modello ridotto o annidato o sottomodello.

Obiettivo del confronto: valutare la significatività delle variabili che compaiono nel modello 𝑀1 e non nel modello 𝑀0, tenuto conto delle variabili che compaiono nel modello 𝑀0.

Si può effettuare una verifica di ipotesi: 𝐻0

𝑛𝑜𝑛 𝐻0

Esempi.

1) Per valutare la significatività di un’unica variabile numerica, la condizione espressa dall’ipotesi nulla riguarda un unico parametro

2) Per valutare globalmente la significatività di alcune variabili corrispondenti ai parametri si formula l’ipotesi nulla

Rientra in quest’ultimo esempio il confronto tra modello corrente e modello saturo, in cui 𝑀0 è il modello corrente e 𝑀1 il modello saturo.

3-13 Novembre 2015


75


3) Consideriamo una variabile di classificazione 𝐶𝑘 , codificata mediante un vettore di variabili indicatrici. Per valutare se mantenere separati i due livelli 𝑗ℎ , 𝑗𝑔 , si formula l’ipotesi nulla

Gli esempi sono casi particolari di verifiche di ipotesi in cui l’ipotesi nulla esprime un vincolo lineare per il vettore dei parametri di regressione.

Più in generale, possiamo considerare verifiche di ipotesi per 𝛽 del tipo

dove L è una matrice sxp, con s ≤ p, di rango pieno s.

Negli esempi, ξ è il vettore nullo e la matrice L:

3-13 Novembre 2015


76


Per i test si considerano le seguenti statistiche.

La statistica del log-rapporto di verosimiglianza, di valore

Dove 𝑙 è la log-verosimiglianza del modello 𝑀1, 𝜷 è il punto di massimo di 𝑙, 𝜷 (0) il punto di massimo di

𝑙 , vincolato dalla condizione 𝐋𝜷 = 𝝃

Intuitivamente, se la massima log-verosimiglianza non vincolata l(𝛽 ) è significativamente maggiore di

quella vincolata l(𝛽 (0)) , e quindi λ è “grande”, si rifiuta l’ipotesi 𝐻0, se λ è “piccolo”, si accetta l’ipotesi 𝐻0.

Dai risultati asintotici sulle stime di massima verosimiglianza, si ha

con s rango della matrice L. Nel caso dei modelli annidati, s = df0 - df1, differenza tra i numeri di gradi di libertà del sottomodello 𝑀0 e del modello 𝑀1.

Per calcolare λ si devono ottenere entrambe le stime 𝜷 e 𝜷 (𝟎).

3-13 Novembre 2015


77


La statistica di Wald, di valore

Dove è la matrice d’informazione di Fisher calcolata in 𝜷 .

Il valore w è una misura della distanza tra 𝐋𝜷 , stima non vincolata del vettore 𝐋𝜷 , 𝝃 valore vincolato di 𝐋𝜷 .

Intuitivamente, se la distanza tra 𝐋𝜷 e 𝝃 è elevata, e quindi se w è “grande”, si rifiuta l’ipotesi 𝐻0, se w è “piccolo”, si accetta l’ipotesi 𝐻0.

Dai risultati asintotici sulle stime di massima verosimiglianza, riesce

con s rango della matrice L. Per calcolare la statistica di Wald basta stimare il modello non vincolato.

Esempio 1) Nel test con

è l’elemento di posto (k,k) dell’inversa della matrice d’informazione di Fisher calcolata in 𝜷 vkk è una

stima della varianza asintotica di 𝜷𝒌 . Per w si ha

3-13 Novembre 2015


78


La statistica score

Dove , 𝒔(𝜷 (0)) è il vettore score calcolato nel punto di massimo vincolato.

Il valore u è una misura della distanza tra 𝒔(𝜷 (0)) e il vettore nullo, quest’ultimo può essere visto come il vettore score calcolato nella stima di massima verosimiglianza 𝜷 .

Intuitivamente, se la distanza è elevata, e quindi se u è “grande”, si rifiuta l’ipotesi 𝐻0, se u è “piccolo”, si accetta l’ipotesi 𝐻0.

Dai risultati asintotici sulle stime di massima verosimiglianza, riesce

con s rango della matrice L.

Per calcolare la statistica score basta stimare il punto di massimo vincolato.

Osservazioni

Se il parametro di dispersione 𝝓 non è noto i precedenti risultati restano validi se si sostituisce una sua stima ottenuta con uno stimatore consistente.

Nell’ambito di modelli con quasi-verosimiglianza, il test del log-rapporto di verosimiglianza non può essere effettuato perché, non essendo fissata una forma di distribuzione, non si può calcolare la log-verosimiglianza. Possono essere utilizzate le restanti due statistiche considerando le derivate della quasi-verosimiglianza

3-13 Novembre 2015


79


SELEZIONE DELLE VARIABILI:

FORWARD BACKWARD E

STEPWISE

3-13 Novembre


80

PROCEDIMENTI DI SELEZIONE DELLE

VARIABILI

I modelli di regressione sono spesso utilizzati in situazioni in cui ci sono numerose variabili esplicative potenzialmente influenti sulla valutazione probabilistica delle variabili risposta.

La costruzione di un modello con molte variabili comporta l’introduzione di molti parametri mentre una desiderabile proprietà di ogni modello statistico è quella della parsimonia nel numero dei parametri.

I procedimenti di selezione delle variabili hanno l’obiettivo di determinare un sottoinsieme di variabili esplicative significative, in modo che il modello stimato realizzi un buon adattamento ai valori osservati, ma che dipenda da un numero relativamente basso di parametri.

I procedimenti automatici di selezione hanno un duplice obiettivo:

ridurre il numero di modelli da analizzare,

guidare nella selezione.

I più diffusi sono procedimenti automatici iterativi di tipo forward, backward e stepwise. Si basano sul confronto tra modelli, uno annidato nell'altro.

3-13 Novembre 2015


81

PROCEDIMENTO FORWARD

1. Si parte dal modello nullo che ha come unico parametro l’intercetta 𝜷𝟎. Si inserisce nel modello per prima la variabile maggiormente significativa:

Si considera il modello che contiene l’intercetta e una fissata variabile esplicativa con s+1 parametri (s=1 se la

variabile è quantitativa); si confronta il modello nullo con quest’ultimo, formalmente si effettua la verifica

d’ipotesi

Indicato con 𝑀0 il modello nullo e con 𝑀1 il modello con s+1 parametri , si considera una delle statistiche λ 𝑤 𝑢 , dato il valore osservato della statistica si calcola il p-value al livello di significatività 𝛼 e si stabilisce attraverso il

confronto se rifiutare o meno l’ipotesi H0. Si effettua la precedente operazione per tutte le variabili esplicative e

si inserisce nel modello la variabile, tra le significative (con p-value < 𝛼), alla quale corrisponde il p-value più

piccolo.

2. Al secondo passo, si confronta il modello così ottenuto con tutti i modelli che contengono, oltre alla variabile selezionata al passo precedente, una nuova variabile e si procede come sopra.

3. Il procedimento termina quando non ci sono più variabili significative, cioè quando a partire da un modello selezionato l’introduzione di una ulteriore variabile, qualunque essa sia, comporta un p-value maggiore o uguale del fissato livello 𝛼; in alternativa si può arrestare il procedimento

quando si è raggiunto un numero prefissato di variabili.

Spesso è usata la statistica λ , anche se per il procedimento forward può essere più conveniente, da un punto di vista computazionale, usare la statistica score 𝑢 che, ad ogni passo, si basa sul modello già stimato. Nei modelli con quasi-verosimiglianza si usa in prevalenza la statistica di Wald 𝑤 .

3-13 Novembre 2015


82

I modelli lineari generalizzati – PROCEDIMENTI DI SELEZIONE DELLE VARIABILI

PROCEDIMENTO BACKWARD

1. Si parte dal modello completo con tutte le variabili inserite. Si toglie dal modello per prima la variabile meno significativa: quella tra le non significative (con p-value ≥ 𝛼) alla quale corrisponde il p-value più elevato:

Formalmente si effettua una verifica d’ipotesi dove l’ipotesi nulla pone la condizione di nullità dei parametri di

regressione associati alla variabile esplicativa tolta dal modello, confrontando due modelli annidati. Si considera

una della statistiche λ 𝑤 𝑢 , per le quali sotto H0 hanno una distribuzione chiquadrato con gradi di libertà pari alla

differenza tra il numero dei gradi di libertà dei due modelli. Dato il valore osservato della statistica si calcola il p-

value al livello di significatività 𝛼 (=q), se q< 𝛼 si rifiuta H0 giudicando la variabile significativa.

2. Al secondo passo, si confronta il modello così ottenuto con tutti i modelli che si ottengono eliminando un’ulteriore variabile esplicativa, procedendo come sopra.

3. Il procedimento termina quando, a partire da un modello, l’eliminazione di una variabile,

qualunque essa sia, comporta un p-value minore di 𝛼.

Spesso è usata la statistica λ , anche se per il procedimento backward può essere più conveniente, da un punto di vista computazionale, usare la statistica di Wald 𝑤 che, ad ogni passo, si basa sul modello già stimato.

3-13 Novembre 2015


83


PROCEDIMENTO STEPWISE

1. Combina il procedimento forward con il procedimento backward.

2. Con riferimento al generico passo, si considera un passo forward che conduce ad introdurre nel modello una nuova variabile.

3. A questo punto, si attua un passo backward per verificare se la variabile appena inserita renda superflua qualcuna delle variabili precedentemente inserite nel modello.

4. Il procedimento termina quando si trova un modello uguale ad uno già ottenuto.

I procedimenti di selezione forward e stepwise sono convenienti quando ci sono molte variabili esplicative potenzialmente influenti e relativamente poche osservazioni.

In tali casi il procedimento backward potrebbe addirittura non essere applicabile. Ad esempio, se nel modello completo ci sono molte variabili di classificazione ed eventualmente anche diverse interazioni, mentre per qualche classe tariffaria ci sono poche osservazioni, il procedimento per ottenere le stime MLE potrebbe non convergere, non riuscendo a stimare il modello completo che è la base del procedimento di selezione backward.

Si suggerisce di analizzare dapprima gli effetti principali ad esempio con un procedimento di tipo backward e vedere se è poi possibile migliorare il modello statistico inserendo effetti di interazione delle variabili selezionate. A tal fine si può utilizzare un procedimento forward o stepwise per inserire una o due interazioni tra coppie, poi eventualmente tra terne e così via.

3-13 Novembre 2015


84


CONTROLLO DEL MODELLO STIMATO

Accenniamo ad altri elementi che possono essere considerati per effettuare analisi su

singoli parametri,

previsore lineare,

il modello nel suo complesso.

Questi elementi si possono ottenere come output dei software statistici.

Analisi su singoli parametri

Per ogni parametro stimato 𝛽𝑘, indicazioni sulla sua significatività si possono ricavare da:

Standard error: 𝜎 𝑘 = 𝑣𝑘𝑘

Dove 𝑣𝑘𝑘 è l’elemento di posto (k,k) dell’inversa della matrice di informazione di Fisher calcolata nella

stima 𝜷 . Ricordando che fornisce una stima della varianza asintotica dello

stimatore 𝛽 𝑘, 𝜎 𝑘 una stima dello scarto quadratico medio dello stimatore.

Un valore elevato di 𝜎 𝑘 può indicare non affidabilità della stima 𝛽 𝑘.

Intervallo di confidenza per 𝛽𝑘 con livello 1 − 𝛼 :

dove 𝑧1−𝛼/2 è il quantile di ordine 1 − 𝛼/2 della N(0,1).

Un intervallo ampio può indicare non attendibilità della stima. Un intervallo che contenga lo zero può indicare non significatività della variabile esplicativa corrispondente a 𝛽𝑘.

3-13 Novembre 2015


85


Analisi sul previsore lineare

Per effettuare analisi sul valore stimato del previsore lineare η𝑖 = 𝒙𝑖′𝜷 relativo all’osservazione i-esima:

Standard error:

Stima dello scarto quadratico medio dello stimatore di η𝑖.

Intervallo di confidenza per 𝜼𝒊 con livello 𝟏 − 𝜶 :

dove 𝑧1−𝛼/2 è il quantile di ordine 1 − 𝛼/2 della N(0,1).

Per la monotonia della funzione di collegamento da un intervallo di confidenza per il previsore

lineare si può ottenere un corrispondente intervallo di confidenza per la stima della speranza matematica.

Intervallo di confidenza per 𝝁𝒊 con livello 𝟏 − 𝜶 :

dove 𝑧1−𝛼/2 è il quantile di ordine 1 − 𝛼/2 della N(0,1), se gli estremi dell’intervallo

appartengono al dominio di 𝑔−1.

3-13 Novembre 2015


86


Analisi mediante i residui

Analisi informali mediante i residui possono evidenziare scostamenti sistematici tra valori stimati e osservati ed essere quindi utilizzate per esplorare l’adeguatezza della funzione di varianza, della

funzione di collegamento, delle variabili esplicative presenti nel previsore lineare, nonché evidenziare

singole osservazioni che si discostino dalla maggior parte delle rimanenti.

Residui ordinari (raw residuals)

Forniscono per ogni osservazione, indicazioni sullo scostamento tra valore osservato della variabile risposta e valore stimato. In generale non sono adatti per il controllo nell’ambito dei GLM perché’, guardando ai residui come una valutazione empirica delle differenze 𝑌𝑖 − 𝜇𝑖 (vettore degli errori), tali differenze non hanno varianza costante.

Residui di Pearson

Si noti che il quadrato del residuo fornisce il contributo dovuto all’osservazione i-esima nell’espressione del valore della statistica chi-quadrato di Pearson:

Pertanto fornisce indicazione sull’impatto dell'osservazione i-esima nella valutazione dell’adattamento del modello ai dati, effettuata mediante tale statistica.

3-13 Novembre 2015


87


Residui della devianza

Dove 𝑑𝑖 è l’addendo i-esimo nell’espressione della devianza

E

Il residuo ha dunque lo stesso segno di e la somma dei quadrati dei residui è il valore della

devianza

Pertanto fornisce indicazione sull’impatto Dell'osservazione i-esima nella valutazione della bontà di adattamento del modello ai dati, effettuata mediante la devianza.

Si considerano anche versioni standardizzate dei precedenti due tipi di residui analoghe ai residui

studentizzati dei modelli lineari.

Residui di Pearson studentizzati Residui della devianza studentizzati

Dove ℎ𝑖𝑖è l’elemento diagonale della matrice hat con 𝑊 = 𝑊(𝜷 ) è la matrice che interviene nel procedimento iterativo per la stima di 𝜷.

3-13 Novembre 2015


88


Da proprietà asintotiche degli stimatori di ML (valide nel caso di dati raggruppati) se il modello è adeguato, se i dati sono raggruppati e se nell’ambito di ciascun gruppo c’è un numero “sufficientemente” elevato di osservazioni, i residui dovrebbero mostrare un andamento analogo a

quello di osservazioni di numeri aleatori con distribuzione approssimativamente normale di media nulla e varianza costante, unitaria per le versioni standardizzate.

Analisi grafiche mediante i residui

1. Per evidenziare scostamenti sistematici tra valori osservati e valori stimati:

grafici dei residui al variare dei valori attesi stimati, per es. il grafico delle coppie 𝜇 𝑖 , 𝑟𝐷𝑖𝑠

, 𝑖 =

1…𝑛 per una migliore visualizzazione 𝑓(𝜇 𝑖), 𝑟𝐷𝑖𝑠

con 𝑓() che dipende dalla famiglia delle

distribuzioni delle variabili risposta; es. Poisson 𝑓 𝜇 𝑖 = 2 𝜇 𝑖 , Gamma 𝑓 𝜇 𝑖 = 2log (𝜇 𝑖);

grafici dei residui al variare dei valori stimati del previsore lineare, per es. il grafico delle

coppie 𝜂 𝑖 , 𝑟𝐷𝑖𝑠

, 𝑖 = 1…𝑛

grafici dei residui al variare delle possibili determinazioni di una variabile esplicativa, per ogni variabile.

Se il modello è adeguato i punti del grafico dovrebbero disporsi in una “banda” orizzontale attorno all’asse delle ascisse.

3-13 Novembre 2015


89


Deviazioni sistematiche tipiche:

una curvatura nella media può indicare una scelta non adeguata della funzione di collegamento, che potrebbe non essere stata inserita qualche variabile esplicativa rilevante,

che potrebbe essere opportuno trasformare variabili esplicative (es. log o quadratiche),

variazioni sistematiche della banda dei valori dei residui al variare dei valori stimati, può indicare inadeguatezza della funzione di varianza.

I grafici sono poco indicativi se le variabili risposta hanno poche determinazioni.

2. Per verificare l’adeguatezza della funzione di varianza:

grafico delle coppie 𝜇 𝑖 , 𝑟𝐷𝑖𝑠

, 𝑖 = 1…𝑛.

Se il modello è adeguato il grafico non dovrebbe evidenziare andamenti tendenziali.

La presenza di un trend può essere indicativa di una scelta non adeguata della funzione di varianza. Un trend crescente può indicare che la funzione di varianza cresce troppo lentamente rispetto alla media, viceversa un trend decrescente.

Per modelli con funzione di varianza di tipo potenza 𝑉𝜉(𝜇) = 𝜇𝜉 , si può analizzare la bontà

dell’adattamento, al variare di 𝜉.

3-13 Novembre 2015


90


3. Per verificare l’adeguatezza della funzione di collegamento:

grafico delle coppie 𝜇 𝑖 , 𝑧 𝑖∗ , 𝑖 = 1…𝑛 con

𝑧 𝑖∗ è il valore in 𝑦𝑖 dell’approssimante lineare di g() relativamente a 𝜇 𝑖 (pseudodati).

Se il modello è adeguato, il grafico dovrebbe mostrare un andamento approssimativamente lineare.

Grafici che evidenzino andamenti che si discostino in modo sistematico da un andamento lineare,

suggeriscono di modificare la scelta della funzione di collegamento.

Per modelli con funzione collegamento di tipo potenza,

si può analizzare la bontà dell’adattamento, al variare di 𝛾.

4. Per evidenziare la presenza di osservazioni “anomale”, i cosiddetti outliers,

i grafici dei residui al variare dell’indice dell’osservazione 𝑖, 𝑟𝐷𝑖𝑠

, 𝑖 = 1…𝑛

il grafico delle coppie 𝜇 𝑖 , 𝑦𝑖 , 𝑖 = 1…𝑛 dei valori osservati rispetto ai valori stimati

3-13 Novembre 2015


91


L’effetto dell’inserimento o meno di alcuni tipi di osservazioni, in particolare di quelle evidenziate come anomale dai grafici precedenti, può essere determinato stimando il modello prima considerando l’osservazione e successivamente senza l’osservazione, verificando l’effetto sulla stima

dell’intercetta e degli altri parametri di regressione.

A tal fine si può considerare l’estensione della distanza di Cook che con riferimento all’analisi della i-esima osservazione è data da

Dove 𝛽 (𝑖) è il vettore delle stime ottenute togliendo l’osservazione. Un valore elevato di Di è indicativo

di un’ osservazione influente.

Ricordiamo che nei GLM la stima dei parametri di regressione è ottenuta con un procedimento iterativo, pertanto eliminare in sequenza ciascuna osservazione e stimare il modello può essere molto

dispendioso da un punto di vista computazionale. Usualmente 𝛽 (𝑖) si ottiene effettuando un unico

passo del procedimento iterativo a partire dal punto iniziale 𝛽 (lo indichiamo con 𝛽 𝑖 ,1). Si può

provare che:

Si evidenziano due componenti: la prima tiene conto dell’adattamento fornito dal modello e la seconda legata al grado di leva.

3-13 Novembre 2015


92


Documents

Modelli lineari generalizzati e tariffazione RCA · Cluster Analysis: punto di vista statistico (Cenni) Applicazione pratica ... Esiste una sola compagnia ALPHA che opera in regime