29
1 La regressione 1 Definizioni e relazioni fondamentali 1.1 Correlazione e regressione Molto spesso le grandezze idrologiche che si possono rappresentare come variabili casuali risultano legate tra loro da relazioni, non funzionali, ma comunque più o meno evidenti. Tra gli afflussi meteorici annui, o tra i deflussi annui, relativi a due bacini idrografici posti l'uno accanto all'altro, per esempio, deve sussistere una qualche sorta di legame statistico, perché molto verosimilmente, data la vicinanza, gli anni più piovosi (o meno piovosi) per un bacino lo sono anche per l'altro, essendo molto estese le aree interessate dai fenomeni atmosferici che determinano il regime pluviometrico. A maggior ragione, un legame deve sussistere tra gli afflussi meteorici annui e i deflussi annui di uno stesso bacino, dato che i deflussi sono causati proprio dagli afflussi meteorici. E gli esempi si possono moltiplicare. Altre grandezze idrologiche rappresentabili come variabili casuali, ma tra loro legate, sono la portata media giornaliera di un certo giorno dell'anno e quella osservata il giorno precedente, il massimo annuale della portata al colmo osservato in una data sezione di un corso d'acqua e quello osservato in una stazione posta a monte, e così via. Caratteristica comune a tutti gli esempi considerati è che il legame tra le due variabili casuali si può esprimere dicendo che la distribuzione di probabilità di una delle due variabili dipende dal particolare valore assunto dall'altra, e che il legame stesso si può quindi rappresentare per mezzo di distribuzioni condizionate. Per semplicità si è fin qui preso in considerazione soltanto il caso di variabili idrologiche tra loro legate a due a due. E` chiaro però che il legame può interessare anche più di due variabili, come accade, per esempio, nel caso dei totali annui di pioggia osservati in più stazioni meteorologiche tra loro abbastanza vicine. Per descrivere i legami esistenti tra due o più variabili casuali si adopera la loro distribuzione congiunta. Lo studio dell'interdipendenza delle variabili casuali considerate si può svolgere in due modi, il primo più generale del secondo. Consideriamo, per semplicità, il caso in cui le variabili casuali sono soltanto due. Innanzi tutto è possibile che si sia interessati a descrivere il legame statistico tra le due variabili considerandole in modo assolutamente paritetico, senza fare distinzioni particolari e senza assegnare una qualche precedenza logica a nessuna delle due. Consideriamo, per esempio, il caso dell'afflusso meteorico relativo a due bacini idrografici tra loro vicini. Il legame tra le due variabili dipende dall'esistenza di una causa comune (l'andamento del tempo sulla regione in cui i due bacini si trovano) e non c'è, in generale, una particolare ragione per seguire un particolare ordine logico nel prenderle in

La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

1

La regressione

1 Definizioni e relazioni fondamentali

1.1 Correlazione e regressione

Molto spesso le grandezze idrologiche che si possono rappresentare comevariabili casuali risultano legate tra loro da relazioni, non funzionali, ma comunque più omeno evidenti. Tra gli afflussi meteorici annui, o tra i deflussi annui, relativi a due baciniidrografici posti l'uno accanto all'altro, per esempio, deve sussistere una qualche sorta dilegame statistico, perché molto verosimilmente, data la vicinanza, gli anni più piovosi (omeno piovosi) per un bacino lo sono anche per l'altro, essendo molto estese le areeinteressate dai fenomeni atmosferici che determinano il regime pluviometrico. A maggiorragione, un legame deve sussistere tra gli afflussi meteorici annui e i deflussi annui di unostesso bacino, dato che i deflussi sono causati proprio dagli afflussi meteorici. E gliesempi si possono moltiplicare. Altre grandezze idrologiche rappresentabili come variabilicasuali, ma tra loro legate, sono la portata media giornaliera di un certo giorno dell'anno equella osservata il giorno precedente, il massimo annuale della portata al colmo osservatoin una data sezione di un corso d'acqua e quello osservato in una stazione posta a monte,e così via. Caratteristica comune a tutti gli esempi considerati è che il legame tra le duevariabili casuali si può esprimere dicendo che la distribuzione di probabilità di una delledue variabili dipende dal particolare valore assunto dall'altra, e che il legame stesso si puòquindi rappresentare per mezzo di distribuzioni condizionate.

Per semplicità si è fin qui preso in considerazione soltanto il caso di variabiliidrologiche tra loro legate a due a due. E` chiaro però che il legame può interessare anchepiù di due variabili, come accade, per esempio, nel caso dei totali annui di pioggiaosservati in più stazioni meteorologiche tra loro abbastanza vicine. Per descrivere i legamiesistenti tra due o più variabili casuali si adopera la loro distribuzione congiunta.

Lo studio dell'interdipendenza delle variabili casuali considerate si può svolgerein due modi, il primo più generale del secondo. Consideriamo, per semplicità, il caso incui le variabili casuali sono soltanto due.

Innanzi tutto è possibile che si sia interessati a descrivere il legame statistico tra ledue variabili considerandole in modo assolutamente paritetico, senza fare distinzioniparticolari e senza assegnare una qualche precedenza logica a nessuna delle due.Consideriamo, per esempio, il caso dell'afflusso meteorico relativo a due baciniidrografici tra loro vicini. Il legame tra le due variabili dipende dall'esistenza di una causacomune (l'andamento del tempo sulla regione in cui i due bacini si trovano) e non c'è, ingenerale, una particolare ragione per seguire un particolare ordine logico nel prenderle in

Page 2: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

2

considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della lorodistribuzione congiunta. Uno studio di questo tipo si indica comunemente come studiodella correlazione tra le due variabili.

Il problema del legame statistico tra due variabili si può però presentare anche inun modo un po' diverso. Consideriamo, per esempio, l'afflusso meteorico annuo e ildeflusso annuo relativi a uno stesso bacino idrografico. Anche in questo caso èprevedibile l'esistenza di una relazione tra i valori corrispondenti delle due variabili, e amaggior ragione che in quello considerato nell'esempio precedente, perché si puòaddirittura ipotizzare a priori l'esistenza di un rapporto di causalità. Tra l'afflussometeorico e il deflusso non è però possibile stabilire un vero e proprio legame funzionale,perché per uno stesso valore dell'afflusso meteorico si osservano, in anni diversi, valoridiversi del deflusso, così che la corrispondenza tra i valori assunti dalle due variabilirisulta irregolare e, almeno entro certi limiti, casuale. Sicuramente comunque esiste unasorta di precedenza logica di una delle due variabili rispetto all'altra, che rispecchia illegame fisico di causa ed effetto: ha senso parlare di dipendenza del deflussodall'afflusso, ma non di dipendenza dell'afflusso dal deflusso.

Lo studio della dipendenza statistica di una variabile da un'altra prende il nome distudio della regressione della variabile dipendente (il deflusso) sulla variabile indipendente(l'afflusso). Lo studio della dipendenza statistica di una variabile dall'altra si può fare,nell'ambito di una distribuzione congiunta, ricavando dalla funzione di probabilità delladistribuzione congiunta la funzione di probabilità condizionata della variabile dipendente.

A proposito della regressione vale la pena di fare alcune osservazioni.In primo luogo, non è necessario che tra la variabile dipendente e quella

indipendente esista una qualche forma di legame causale, come nel caso dell'afflussometeorico e del deflusso. Se le due variabili sono costituite, per esempio, dai totali annuidi precipitazione osservati in due stazioni meteorologiche vicine, si può ancora essereparticolarmente interessati a considerare la dipendenza di una variabile dall'altra (peresempio perché si vuole stimare l'altezza di precipitazione, incognita, della prima stazionea partire da quella, nota, della seconda), sebbene il legame tra le due non sia propriamentecausale, ma costituito dalla dipendenza di entrambe le variabili da una causa comune (lasituazione meteorologica, che interessa in generale una regione abbastanza ampia).

In secondo luogo, all'interno dello studio della correlazione tra due variabilicasuali si possono prendere in considerazione due diverse regressioni: quella della primavariabile sulla seconda e quella della seconda sulla prima. (Naturalmente, non è detto cheentrambe rivestano lo stesso interesse, o addirittura che siano entrambe significative nelcontesto del problema considerato.)

In terzo luogo, infine, osserviamo - ed è questa un'osservazione particolarmenteimportante - che per lo studio della regressione non è necessario che entrambe le variabilisiano casuali. Negli esempi considerati fin qui entrambe le variabili lo sono, ma non èsempre necessariamente così. Tutte le volte che il valore della variabile indipendente puòessere liberamente scelto dall'osservatore (come accade negli esperimenti di laboratorio),

Page 3: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

3

la casualità rimane confinata al legame tra le due variabili, senza toccare la variabileindipendente, che non ha nulla di casuale. La casualità si può attribuire allora alla solavariabile dipendente, considerandola come una variabile casuale la cui distribuzione diprobabilità risulta condizionata dal valore assunto da quella indipendente. Il non doversinecessariamente considerare casuale la variabile indipendente è una caratteristicafondamentale della regressione.

Naturalmente i concetti di correlazione e di regressione si estendonoimmediatamente a più di due variabili. Lo studio della dipendenza statistica di unavariabile dipendente da più variabili indipendenti prende il nome di analisi dellaregressione multipla.

1.2 La regressione e l'errore di regressione

Consideriamo un sistema di due variabili casuali x1 e x2. Indichiamo con µ(x1|x2)la media della variabile x1 condizionata alla variabile x2, che è espressa dalla relazione

(1) µ(x1|x2) = ∫-∞

+∞ x1p(x1|x2)dx1.

La media condizionata µ(x1|x2) è una funzione della variabile x2, perché a ognivalore della x2 corrisponde un particolare valore - in generale diverso - di µ(x1|x2).

La curva che rappresenta su un piano cartesiano la funzione rappresentata dalla(1) si chiama curva di regressione della variabile dipendente x1 sulla variabileindipendente x2.

Osserviamo che, essendo casuale la variabile x2, anche la media µ(x1|x2) lo è, inquanto funzione di una variabile casuale.

Poiché per ogni valore della x2 risulta determinato il corrispondente valore dellamedia condizionata µ(x1|x2), si può associare a ogni coppia di valori x1 e x2 quello dellanuova variabile

(2) z = x1 - µ(x1|x2),

differenza algebrica tra la variabile casuale x1 e la sua media condizionata µ(x1|x2), cheprende il nome di errore di regressione.

A rigore, l'espressione (2) si dovrebbe scrivere nella forma

(2a) z|x2 = x1|x2 - µ(x1|x2),

perché sia la distribuzione della variabile dipendente x1 sia quella dell'errore diregressione z sono in effetti delle distribuzioni condizionate. Per non appesantire in modo

Page 4: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

4

Fig. 1 Curva di regressione della variabile x1 sulla variabile x2

Fig. 2 Esempio di campione estratto dalla distribuzione congiunta di duevariabili, con distribuzione dell'errore di regressione debolmente variabilenel campo in cui ricadono le osservazioni

x1

x2

x1

x2

µ(x1|x2)

z= x1-µ(x1|x2)

Page 5: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

5

eccessivo le notazioni, però, qui e nel seguito, conformemente all'uso comune, si adotteràla forma adoperata nell'espressione (2).

Sul piano cartesiano (x2, x1) la variabile z rappresenta la distanza, misurataparallelamente all'asse delle ordinate, tra il punto di coordinate x2, x1 e la curva diregressione della x1 sulla x2 (fig. 1).

Quanto minore è la variabilità della z, cioè quanto più improbabili sono le coppiedi valori rappresentate da punti lontani dalla curva di regressione, tanto più stretto è illegame tra la x1 e la x2.

Quando il legame tra la x1 e la x2 diventa funzionale, cioè a ogni valore della x2

corrisponde un solo valore della x1, la z assume il valore costante zero.Il discorso si estende immediatamente alla regressione di una variabile dipendente

x1 su più variabili indipendenti x2, x3, ..., xp. Alla media µ(x1|x2) della variabile x1

condizionata al valore assunto dalla variabile x2 si sostituisce infatti la mediaµ(x1|x2, x3, ..., xp) della variabile x1 condizionata ai valori assunti dalle variabilix2, x3, ..., xp e l'errore di regressione risulta uguale alla differenza

(3) z = x1 - µ(x1|x2, x3, ..., xp).

In questo caso naturalmente non si può più parlare di curva di regressione, perché lamedia condizionata della x1 non è più funzione di una sola variabile, ma solo di funzionedi regressione (che, incidentalmente, rappresenta una superficie quando le variabiliindipendenti sono due).

L'errore z è una variabile casuale, la cui distribuzione di probabilità(condizionata) dipende, in generale, dai valori assunti dalle variabili indipendentix2, x3, ..., xp. E` anche possibile, però, che la distribuzione condizionata di z nondipenda dal valore assunto dalle variabili indipendenti. L'errore z si dice alloraomoscedastico (o omoschedastico). In caso contrario si dice eteroscedastico (oeteroschedastico). (Può valere la pena osservare che, mentre nel caso di erroreeteroscedastico la notazione z|x2, x3, ..., xp sarebbe, a rigore, più corretta di quella quiadoperata, nel caso di errore omoscedastico la semplice notazione z risulta del tuttocorretta, perché la distribuzione condizionata di z coincide sempre con quella marginale.)Il caso di maggiore interesse pratico, perché dà luogo a un'algebra abbastanza semplice, èsenz'altro quello di errore omoscedastico.

Per la verità nelle applicazioni idrologiche l'errore di regressione è, a rigore, il piùdelle volte eteroscedastico. Si pensi, per esempio, alla regressione del deflusso annuo inuna data sezione di un fiume sul deflusso in una sezione a monte di quella. Il deflussonella sezione di valle non è esattamente determinato da quello nella sezione di monte,perché la differenza tra i due, che ovviamente corrisponde all'apporto degli affluenti edelle sorgenti del tratto intermedio, ha il carattere di una variabile casuale. E naturalmenteè da attendersi che la variabilità dell'apporto degli affluenti e delle sorgenti sia maggiore inun anno piovoso che non in un anno asciutto, perché in un anno asciutto tutti i deflussi

Page 6: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

6

assumono valori minori, che quindi necessariamente variano in un campo più ristretto. (Inaltre parole: se le differenze che si possono osservare tra i deflussi di anni piovosi sonouguali in termini relativi a quelle che si possono osservare tra i deflussi di anni asciutti - egrosso modo ci si può attendere che debba essere così - in termini assoluti debbono esseremaggiori negli anni piovosi che non in quelli asciutti.) La differenza di variabilità è però inpratica abbastanza limitata, perché sono limitate le differenze tra anni piovosi e anniasciutti. Si può quindi ragionevolmente assumere che l'errore di regressione siaomoscedastico, anche se in realtà non lo è. Il caso di errore omoscedastico condistribuzione dell'errore di regressione poco variabile nel campo di valori della variabileindipendente che riveste interesse pratico (v. fig. 2) è molto comune nelle applicazioniidrologiche.

Dalla formula di definizione dell'errore z discende immediatamente che la suamedia condizionata (ai valori assunti dalle variabili indipendenti) è sempre nulla, essendoper definizione l'errore uguale alla differenza tra la variabile dipendente (condizionata) e lasua media (condizionata).

Il concetto di regressione è stato introdotto qui con riferimento a un sistema divariabili che sono tutte casuali. In realtà, come è già stato fatto rilevare, non è necessarioassumere che le variabili indipendenti siano casuali. Per introdurre il concetto diregressione basta infatti assumere che la x1 sia una variabile casuale la cui distribuzionevaria al variare dei valori assunti dalle variabili x2, x3, ..., xp, indipendentemente dal fattoche anch'esse siano casuali oppure no. In effetti in molte applicazioni pratiche (peresempio in molti esperimenti) i valori delle variabili indipendenti sono fissatidall'osservatore, nel modo ritenuto più opportuno.

1.3 L'indice di regressione

Quando le variabili indipendenti x2, x3, ..., xp sono variabili casuali, anche la

media condizionata µ(x1|x2, x3, ..., xp) deve essere una variabile casuale, in quanto

funzione di variabili casuali.Per chiarire meglio il concetto, si può pensare di estrarre dalla distribuzione

congiunta delle variabili x2, x3, ..., xp un campione di N osservazioni (dove quindi ogni

osservazione è composta da p elementi), e di far corrispondere a ogni valore osservatodella variabile dipendente x1 il valore della media condizionata µ(x1|x2, x3, ..., xp)

individuato dai corrispondenti valori osservati delle p - 1 variabili indipendentix2, x3, ..., xp (fig. 3). In questo modo si costruisce un campione di dimensione N che, al

tendere di N a infinito, viene a coincidere con la distribuzione congiunta delle due variabilicasuali x1 e µ(x1|x2, x3, ..., xp).

In un grafico in cui il valore osservato della variabile dipendente x1 e quello della

media condizionata µ(x1|x2, x3, ..., xp) corrispondente ai valori osservati delle variabili

indipendenti sono riportati, rispettivamente, sull'asse delle ascisse e su quello delle

Page 7: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

7

y = 5.085LOG(x) + 1.081

µ(x1|x2)

x1

x1

x2

µ(x1|x2)

x1

Fig. 3 Curva di regressione della x1 sulla x2

Fig. 4 Confronto tra i valori osservati di x1 e i corrispondenti

valori della media condizionata µ(x1|x2)

Page 8: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

8

ordinate, i punti che rappresentano un certo insieme di osservazioni risultano dispostiintorno a una retta con coefficiente angolare uguale a uno (fig. 4). Naturalmente, i punti siaddensano tanto più intorno alla retta, quanto più stretto è il legame tra la variabiledipendente e quelle indipendenti.

La strettezza del legame tra le due variabili x1 e µ(x1|x2, x3, ..., xp), che come si èappena visto è di tipo lineare, è misurata dal coefficiente di correlazione lineare tra le duevariabili (sempre positivo), che prende il nome di indice di regressione.L'indice di regressione, che indichiamo con η, risulta legato alla varianza σ2(z) dell'erroredi regressione (omoscedastico oppure eteroscedastico) e alla varianza σ2(x1) dellavariabile dipendente dalla relazione

(4) η2 = 1 - σ2(z)

σ2(x1) .

L'indice di regressione costituisce una misura del legame tra la variabiledipendente da una parte e l'insieme delle variabili indipendenti dall'altra. Se la variabiledipendente non è legata a quelle indipendenti da alcun legame deterministico - vale a direse la distribuzione della variabile dipendente non è in alcun modo condizionata dai valoriassunti da quelle indipendenti - la varianza dell'errore di regressione risulta uguale aquella della variabile dipendente e l'indice di regressione risulta uguale a zero(naturalmente in questo caso appare del tutto superfluo fare uso della nozione diregressione). Se, al contrario, la variabile dipendente è funzione di quelle indipendenti (equindi il legame è puramente deterministico), la varianza dell'errore di regressione risultanulla e l'indice di regressione risulta uguale a uno. Se infine - ed è questo il caso cheinteressa nelle applicazioni - il legame tra la variabile dipendente e quelle indipendenti èsolo in parte deterministico (vale a dire, se la variabile dipendente risulta distribuita, alvariare dei valori assunti dalle variabili indipendenti, secondo una distribuzione chedipende dai valori assunti da queste variabili), la varianza dell'errore di regressione risultaminore di quella della variabile dipendente e l'indice di regressione (sempre positivo,perché la media condizionata di x1 mediamente cresce con x1) risulta minore di uno.

La differenza tra la varianza delle variabile dipendente (che prende il nome divarianza totale) e quella dell'errore di regressione rappresenta quella parte della varianzatotale che è spiegata dall'esistenza del legame deterministico (perché il legamedeterministico fa sì che, a parità di errore di regressione, al cambiamento dei valoriosservati delle variabili indipendenti corrisponda in generale un cambiamento del valoreosservato della variabile dipendente) e prende quindi il nome di varianza spiegata. Lavarianza dell'errore di regressione invece rappresenta quella parte della varianza totale chenon è spiegata dalla regressione, e prende il nome di varianza residua.

L'indice di regressione η si può definire anche quando le variabili indipendentix2, x3, ..., xp non sono casuali. Si pone però un problema.

Quando la media µ(x1|x2, x3, ..., xp) è una variabile casuale (perché lo sono levariabili indipendenti x2, x3, ..., xp), la varianza σ2(x1) della distribuzione marginale della

Page 9: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

9

variabile dipendente si può identificare con la media pesata delle varianze della variabile x1

condizionate ai diversi valori possibili dell'altra variabile µ(x1|x2, x3, ..., xp), calcolataassumendo come pesi le corrispondenti probabilità di µ (x1|x2, x3, ..., xp) .[L'identificazione è immediata se µ(x1|x2, x3, ..., xp) è una variabile discreta.] Quando levariabili indipendenti non sono casuali, la definizione di σ2(x1) implica l'assegnazione diun peso a ciascun valore di µ(x1|x2, x3, ..., xp), e quindi a ciascun insieme di valori dellevariabili indipendenti x2, x3, ..., xp. La soluzione più semplice è di attribuire un pesouguale a ciascun insieme.

1.4 La regressione lineare e la regressione lineare multipla

Un tipo di regressione particolarmente importante nelle applicazioni è laregressione lineare. Nella regressione lineare la media condizionata della variabiledipendente x1 è una funzione lineare delle variabili indipendenti x2, x3, ..., xp.

Quando la variabile indipendente è una sola, la media condizionata è rappresentatadalla funzione lineare

(5) µ(x1|x2) = β1 + β2x2

e di conseguenza la curva di regressione è rappresentata da una retta (v. fig. 3).Quando le variabili indipendenti sono più di una la funzione di regressione è

costituita dall'espressione lineare

(6) µ(x1|x2, x3, ..., xp) = β1 + β2x2 + β3x3 + ... + βpxp

e la regressione prende il nome di regressione lineare multipla.La funzione di regressione è ovviamente individuata dai parametri β1, β2, ..., βp

dell'espressione lineare che fornisce la media µ(x1|x2, x3, ..., xp) della variabiledipendente x1 condizionata ai valori assunti dalle variabili indipendenti. Il parametro β1 èil termine noto, β2, β3, ..., βp sono i coefficienti della regressione lineare.

La regressione lineare multipla (di cui la regressione con una sola variabileindipendente costituisce ovviamente un caso particolare) è il tipo di regressione multipla digran lunga più usato nelle applicazioni.

Alla regressione lineare multipla è facile ricondursi, attraverso opportunetrasformazioni delle variabili, in molti casi in cui la regressione considerata è di tipodiverso. Un'espressione monomia, per esempio, si trasforma in un'espressione linearesostituendo alle variabili originarie i loro logaritmi; un'espressione quadratica si trasformain un'espressione lineare sostituendo al quadrato della variabile indipendente una nuovavariabile; e così via.

Page 10: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

10

Benché, come si è già più volte avuto modo di dire, le variabili indipendenti diuna regressione non debbano necessariamente essere delle variabili casuali, consideriamoqui la regressione lineare multipla della variabile dipendente x1 sulle variabili indipendentix2, x3, ..., xp, facendo l'ipotesi che le variabili indipendenti siano variabili casuali e chel'errore di regressione sia omoscedastico.

Per rendere la descrizione più semplice e chiara adottiamo l'ordinaria notazionematriciale, modificando un poco i simboli rispetto a quelli usati sin qui.

Introduciamo dunque, indicando per una maggiore semplicità di notazione lamedia µ(xi) della variabile xi con il simbolo µi e la covarianza σ(xi, xj) delle variabili xi exj con il simbolo σij , il vettore

(7) x =

x1x2……xp

delle p variabili casuali, il vettore

(8) m =

µ1

µ2……µp

delle medie e la matrice

(9) S =

σ11σ12 … … σ1p

σ21σ22 … … σ2p … … … … …

… … … … …

σp1σp2 … … σpp

delle covarianze (la cui diagonale principale è costituita dalle varianze, che coincidono conle covarianze di ogni variabile con se stessa).

Osserviamo incidentalmente che gli elementi del vettore x si possono sempreassumere disposti, come si è fatto qui, in modo che la variabile dipendente sia la primadelle p variabili.

Page 11: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

11

La definizione della funzione di regressione (lineare) e della varianza dell'erroredi regressione z si basa su una partizione preliminare del vettore x delle variabili casuali,del vettore m delle medie e della matrice S delle covarianze della distribuzione originariadelle p variabili. Il vettore x si suddivide nello scalare x1, che coincide con la variabiledipendente, e nel vettore x2, i cui elementi coincidono con le variabili indipendenti. Allapartizione in due del vettore x corrispondono una partizione in due del vettore m e unapartizione in quattro della matrice S.

Gli scalari, i vettori e le matrici prodotti dalle partizioni sono i seguenti:

(10) x1 , x2 =

x2x3. . .. . .xp

,

(11) µ1 , m2 =

µ2

µ3. . .. . .µp

,

(12) σ11 , S12 = [ ]σ12 σ13 … … σ1p ,

S21 =

σ21

σ31

σp1

, S22 =

σ22 σ23 … … σ2p

σ32 σ33 … … σ3p

… … … … …

… … … … …

σp2 σp3 … … σpp

.

Indichiamo ora con x1.2 la variabile x1 condizionata al fatto che siano statiassegnati i valori delle variabili che costituiscono il vettore x2 e con µ1.2 e σ11.2 la mediae la varianza di x1.2.

Si può dimostrare che la media condizionata µ1.2 e la varianza condizionata σ11.2

sono fornite dalle relazioni

(13) µ1.2 = µ1 + S12S22-1(x2 - m2),

(14) σ11.2 = σ11 - S12S22-1S21.

Page 12: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

12

Osserviamo che il prodotto matriciale S12S22-1 è un vettore riga. Indicando con

b il corrispondente vettore colonna (trasposto del vettore riga)

(15) b =

β2

β3. . .. . .βp

(ai cui elementi si assegnano qui indici uguali a quelli dei corrispondenti elementi delvettore differenza x2 - m2, per cui il vettore riga bT si moltiplica) risulta

(16) µ1.2 = µ1 + bT (x2 - m2) = µ1 - bTm2 + bTx2 = β1 + bTx2.

Ricordiamo ora che, per definizione, la variabile dipendente condizionata ai valoridelle variabili indipendenti, che indichiamo qui con x1.2, è legata all'errore di regressionedall'espressione

(17) x1.2 = µ1.2 + z,

dove µ1.2 è, per un insieme assegnato di valori di x2, x3, ..., xp, una costante.E` quindi immediato riconoscere che la varianza condizionata σ11.2, che appunto

esprime la variabilità di x1 sotto la condizione che i valori delle variabili del vettore x2

siano tenuti fissi, coincide con la varianza dell'errore di regressione z.L'espressione (14) mostra che la varianza condizionata σ11.2 non dipende dagli

specifici valori assunti dalle variabili indipendenti. Dal momento che σ11.2 coincide conσ2(z), è necessario che sia così, perché l'errore z è per ipotesi omoscedastico.

Ricordando l'espressione del vettore b, si può anche riscrivere la (14) nella forma

(18) σ11.2 = σ11 - bTST1 2

(dove, ricordiamo, ST12 è un vettore colonna).

Dunque la varianza condizionata della variabile dipendente x1 - che come si èappena visto coincide con la varianza dell'errore di regressione σ2(z) - è uguale allavarianza incondizionata di x1, diminuita di un termine che è la media pesata dellecovarianze della variabile dipendente e di ciascuna di quelle indipendenti, calcolataassumendo come pesi i valori dei rispettivi coefficienti di regressione β2, β3, ..., βp.

Nelle applicazioni è comune assumere che la distribuzione dell'errore z sianormale. La conoscenza della media (sempre nulla) e della varianza di z è allorasufficiente per individuarne completamente la distribuzione.

Page 13: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

13

1.5 Il coefficiente di correlazione lineare multipla

Assumiamo che la regressione della variabile x1 sulle p - 1 variabilix2, x3, ..., xp sia lineare, che cioè la media condizionata µ1.2 della variabile dipendentesia legata ai valori assegnati alle variabili indipendenti dalla relazione lineare

(19) µ1.2 = β1 + β2x2 + β3x3 + ... + βpxp,

e che la distribuzione dell'errore di regressione sia omoscedastica.Indicando, al solito, con bT il vettore

(20) bT = [ ]β2 β3 ... ... βp

e con S12 il vettore

(21) S12 = [ ]σ12 σ13 ... ... σ1p ,

la varianza dell'errore di regressione σ2(z) risulta fornita dall'espressione già vista

(22) σ2(z) = σ11 - bTST1 2.

L'indice di regressione η - che è definito dalla relazione

(23) η2 = 1 - σ2(z)

σ11

e coincide, come si è visto nel par. 1.3, con il coefficiente di correlazione lineare tra lavariabile dipendente x1.2 e la sua media condizionata µ1.2 - prende in questo caso il nomedi coefficiente di correlazione lineare multipla e comunemente si indica con il simbolo R.Utilizzando l'espressione (22) della varianza σ2(z) si ottiene

(24) R2 = bTST

1 2

σ11

.

Come si verifica immediatamente, la varianza σ2(z) si annulla (e quindi l'errore diregressione risulta sempre nullo) solo se R (che è sempre positivo) è uguale a uno, cioèsolo se la variabile x1 coincide sempre con la propria media condizionata µ1.2 (in altreparole solo se x1 è funzione lineare delle variabili x2, x3, ..., xp).

Il coefficiente di correlazione lineare multipla si può definire, per mezzo della(24), anche quando la regressione non è lineare. In questo caso però l'indice diregressione, fornito dalla (23), e il coefficiente di regressione lineare multipla, fornitodalla (24), risultano diversi tra loro - e tanto più diversi, quanto maggiore è loscostamento della funzione di regressione dalla linearità.

Page 14: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

14

2 Stima dei parametri

2.1 Stima del termine noto e dei coefficienti di una regressione lineare

Lo studio della regressione lineare multipla, rappresentata dalla relazione

(25) µ1.2 = β1 + β2x2 + β3x3 + ... +βpxp,

comporta innanzi tutto la stima dei parametri β1, β2, ..., βp.Il metodo di stima più largamente diffuso, adottabile indipendentemente dal fatto

che le variabili indipendenti siano o non siano delle variabili casuali, è il metodo deiminimi quadrati, che in effetti è praticamente il solo utilizzato per la regressione linearemultipla. Omettendo del tutto la dimostrazione, ci limitiamo qui a riportare i risultati.

Adottare il metodo dei minimi quadrati significa imporre che, indicando al solitocon xik il valore osservato della i-esima variabile che corrisponde alla k-esimaosservazione del campione, le stime b1, b2, ..., bp dei coefficienti β1, β2, ..., βp siano talida rendere minima la somma dei quadrati degli scarti

(26) zk = x1k - (b1 + b2x2k + b3x3k + ... + bpxpk).

Vale forse la pena di osservare che lo scarto z qui considerato è la differenza - calcolabileper ogni osservazione, a partire dall'intero campione di osservazioni disponibile - tra ilvalore osservato della variabile dipendente e il valore stimato della sua mediacondizionata, mentre l'errore di regressione considerato in precedenza è la differenza tra ilvalore osservato della variabile dipendente e il valore - vero, e in linea di principio nonricavabile dalla conoscenza di un campione, perché relativo all'intera popolazione - dellasua media condizionata.

Occorre dunque minimizzare la somma dei quadrati degli scarti rappresentatidall'espressione (26). Per risolvere il problema introduciamo il vettore

(27) X1 = [ ]x11 x12 ... ... x1N

dei valori osservati della variabile dipendente. Introduciamo inoltre la matrice

(28) X2 =

1 1 ... ... 1x21 x22 ... ... x2N

... ... ... ... ... ... ... ... ... ... xp1 xp2 ... ... xpN

Page 15: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

15

che contiene i valori osservati delle variabili indipendenti (con l'aggiunta di una rigainiziale di elementi tutti uguali a uno) e il vettore

(29) b =

b1b2. . .. . .bp

delle stime dei coefficienti di regressione lineare.Minimizzando la somma dei quadrati degli scarti si ottiene il sistema di p equazioni

lineari

(30) X 2X T2b = X 2X T

1,

che si può riscrivere, ponendo

(31) C = X2XT2,

(32) B = X2XT1,

nella forma

(33) C b = B.

E` utile esplicitare nei singoli elementi costitutivi la matrice C dei coefficienti e ilvettore B dei termini noti. Ponendo

(34) Σxi = ∑k=1

N

xik ,

(35) Σxixj = ∑k=1

N

xikxjk ,

la matrice C dei coefficienti e il vettore B dei termini noti risultano composti di somme edi somme di prodotti:

(36) C =

N Σx2 ... ... Σxp

Σx2 Σx2x2 ... ... Σx2xp

... ... ... ... ... ... ... ... ... ... Σxp Σxpx2 ... ... Σxpxp

,

Page 16: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

16

(37) B =

Σx1

Σx2x1. . .. . .

Σxpx1

.

Vale la pena di fare un'osservazione. Come si è visto nel par. 1.4, il termine notoβ1 e i coefficienti di regressione β2, β3, ..., βp di una regressione lineare con erroreomoscedastico sono legati alle medie e alle covarianze delle variabili indipendenti dallerelazioni

(38) β1 = µ1 - S12S22-1m2,

(39) bT = S12S22-1.

Attraverso le relazioni (38) e (39) si può dunque ricondurre la stima dei parametriβ1, β2, ..., βp a una stima di medie e covarianze. E` interessante osservare che le stime diβ1, β2, ..., βp ottenute risolvendo il sistema

(40) C b = B

coincidono con quelle che si ricavano dalle equazioni lineari (38) e (39), assumendo comestime della media µi e della covarianza σij la media m(xi) e la covarianza s(xi, xj) (noncorretta contro la distorsione) del campione.

Vale infine la pena di sottolineare che la matrice C e la matrice S22, che inentrambi i casi stanno alla base del calcolo dei coefficienti di regressione, non hanno lestesse dimensioni: C è una matrice quadrata di dimensione p, mentre S22 è una matricequadrata di dimensione p - 1. La riga (la prima) e la colonna (la prima) in più della matriceC da una parte forniscono l'equazione in più necessaria per ricavare il coefficiente b1 (checon l'altro metodo si ricava con un'equazione a parte) e dall'altra servono a tener contodel fatto che nella matrice C e nel vettore B compaiono delle somme di prodotti, mentrenella matrice S22 e nel vettore S12 compaiono delle covarianze.

Le stime b1, b2, ..., bp del termine noto e dei coefficienti di regressione lineare sipossono ricavare sempre, anche quando la media condizionata della variabile dipendentenon è rappresentata da una funzione lineare delle p - 1 variabili x2, x3, ..., xp. In questocaso le stime b1, b2, ..., bp non sono le stime dei parametri dell'espressione della mediacondizionata: sono le stime dei parametri della relazione lineare assunta ad approssimare larelazione vera, che non è lineare e non si conosce.

Page 17: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

17

2.2 Stima della varianza dell'errore di regressione lineare

Consideriamo ancora una regressione lineare multipla con errore omoscedastico.La somma dei quadrati degli scarti

(41) zk = x1k - (b1 + b2x2k + b3x3k + ... + bpxpk)

è fornita dall'espressione matriciale

(42) S = (X1 - bTX2)(X1 - bTX2)T

che, tenendo conto della (30), si trasforma nell'espressione matriciale

(42a) S = X1XT1 - bT X2XT

1.

Adottando le notazioni già viste, la (42) si riscrive nella forma

(43) S = ∑x1x1 - (b1∑x1 + b2∑x1x2 + ... + bp∑x1xp).

Una stima indistorta della varianza dell'errore di regressione σ2(z) è fornita dal rapporto

(44) s2(z) = S

N - p .

2.3 Incertezza nella stima del termine noto e dei coefficienti diregressione lineare

Molto spesso i valori osservati delle variabili indipendenti non sono casuali, comesi è già avuto modo di dire, ma sono fissati dall'osservatore o comunque non scelti acaso. Invece quelli della variabile dipendente presentano sempre una componente casuale,che è la caratteristica fondamentale della regressione.

Consideriamo, come si è fatto fin qui, il caso di regressione lineare con erroreomoscedastico, e assumiamo che le stime dei parametri si ottengano con il metodo deiminimi quadrati.

Le stime b1, b2, ..., bp del termine noto β1 e dei coefficienti β2, ..., βp ottenuteper lo stesso insieme di valori osservati di x2, x3, ..., xp variano generalmente da uncampione all'altro (perché varia x1), anche se i valori assunti dalle variabili indipendentirestano gli stessi per tutti i campioni, e sono dunque delle variabili casuali, che hanno unapropria distribuzione congiunta. (Incidentalmente osserviamo che, se la distribuzionedell'errore z è normale, sono normali anche le distribuzioni delle stime b1, b2, ..., bp.)

Page 18: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

18

Di una stima importano la distorsione e la variabilità. La variabilità di una stima èparticolarmente importante, perché è una misura dell'incertezza da cui è gravata, e quindidella sua affidabilità.

Per misurare la variabilità della stima bi è naturale fare ricorso al suo scartoquadratico medio σ(bi). Il confronto tra la media della stima µ(bi) e lo scarto quadraticomedio σ(bi) deve senza dubbio fornire delle indicazioni utili - anche se non esatte - sullasignificatività dell'introduzione della variabile xi (oppure del termine noto) nellaregressione. Supponiamo, per esempio, che il coefficiente di regressione βi sia stimatocon tale incertezza che lo scarto quadratico medio della stima σ(bi) risulti uguale oaddirittura superiore al suo valor medio µ(bi) - e supponiamo anche, benché non siaessenziale, che la distribuzione della stima bi sia normale, con media µ(bi) uguale alvalore vero del coefficiente βi. Appare senz'altro evidente che non avrebbe alcun senso,in questo caso, introdurre nella regressione la variabile xi, perché con probabilità troppogrande per poter essere accettata la stima bi non risulterebbe nemmeno di segno concordecon il valore vero βi.

Nell'ipotesi di regressione lineare ed errore omoscedastico la distribuzione dellagenerica stima bi ricavata con il metodo dei minimi quadrati per un certo insieme di valoridelle variabili indipendenti ha media uguale a βi , e quindi la stima è indistorta.

Quanto alla variabilità, si può dimostrare che la matrice delle covarianze dellestime b1, b2, ..., bp del termine noto β1 e dei coefficienti di regressione β2, ..., βp ricavateper un certo insieme di valori delle variabili indipendenti è data, sotto la sola condizioneche la distribuzione dell'errore di regressione z sia omoscedastica (quindi anche se laregressione non è lineare), dall'espressione

(45) V(b) = (X2 XT2)-1σ2(z) = C-1σ2(z).

Gli elementi della matrice V(b) che presentano il maggiore interesse sono quellidella diagonale principale, che coincidono con le varianze delle stime b. La varianza dellastima bi di un generico parametro βi dipende dunque sia dalla varianza dell'errore diregressione σ2(z) sia - attraverso la matrice C-1 - dalla dimensione N del campioneadoperato per la stima e dai valori assunti in questo dalle variabili indipendenti.

Particolarmente diffuso nelle applicazioni è il caso in cui la variabile indipendenteè una sola. Indicando, al solito, con x1 la variabile dipendente e con x2 la variabileindipendente, la (45) fornisce per le stime delle varianze del termine noto e del coefficientedi regressione della variabile indipendente le espressioni

(45a) V(b1) = 1N

1 +

m2(x2)s2(x2)

σ2(z),

(45b) V(b2) = 1

Ns2(x2) σ2(z),

Page 19: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

19

nelle quali N è la dimensione del campione ed m(x2), s2(x2) sono la media e la varianza(distorta, perché calcolata dividendo la somma dei quadrati degli scostamenti dalla mediaper la dimensione N del campione) delle osservazioni che costituiscono il campione dellavariabile indipendente. Vale la pena di sottolineare che nelle espressioni (45a) e (45b) legrandezze m(x2) ed s2(x2) sono da considerarsi semplicemente delle funzioni dei valoriosservati della variabile x2, e non delle stime dei parametri della sua distribuzione, perchéx2 non è necessariamente una variabile casuale.

Nelle applicazioni il valore della varianza σ2(z) è sconosciuto. E` quindinecessario sostituire nell'espressione (45) a σ2(z) la sua stima, fornita dalla formula (44),che dipende anch'essa dal campione, e risulta tanto più variabile, e quindi incerta, quantomaggiori sono le varianze delle stime b1, b2, ..., bp.

Vale la pena di fare un'osservazione. Il sistema lineare (40) si può risolvere anchese in realtà la media condizionata della variabile dipendente non è legata alle variabiliindipendenti da una relazione lineare. Le varianze delle stime che costituiscono il vettore bcosì ottenute sono ancora fornite dalla (45). Il risultato espresso dalla (45) presenta però ilmaggiore interesse quando la media condizionata della variabile dipendente èeffettivamente rappresentata da una funzione lineare delle p - 1 variabili x2, x3, ..., xp. Inquesto caso b1, b2, ..., bp sono stime indistorte del termine noto β1 e dei coefficientiβ2, ..., βp, e lo scarto quadratico medio della stima bi è direttamente legato all'errore chesi può commettere nell'individuare l'espressione delle medie condizionate.

Quando la distribuzione dell'errore z è normale anche le distribuzioni delle stimeb1, b2, ..., bp sono normali.

2.4 Stima del coefficiente di correlazione lineare multipla

Come si è visto nel par. 1.5, il coefficiente di correlazione lineare multipla si puòesprimere con la formula

(46) R2 = bT ST

1 2

σ11

= S12 S22

-1ST1 2

σ11

.

Una stima del coefficiente di correlazione lineare multipla R, che indichiamo conR ̂, si ottiene dalla (46) assumendo come stime delle varianze e delle covarianze (dallequali dipendono anche gli elementi del vettore b dei coefficienti di regressione) le varianzee le covarianze del campione (non corrette contro la distorsione).

Sempre nel par. 1.5 si è visto che il coefficiente di correlazione lineare multipla sipuò anche esprimere con la formula

(47) R2 = 1 - σ2(z)

σ11

.

Page 20: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

20

Assumendo come stime di σ2(z) e di σ11 quelle non corrette contro la distorsione,e quindi in particolare assumendo come stima di σ2(z) l'espressione

(48) σ2(z) = Σx1x1 - (b1Σx1 + b2Σx1x2 + ... + bpΣx1xp)

N ,

si ottiene ovviamente dalla formula (47) la stessa stima R ̂ fornita dalla formula (46). Seinvece si adoperano le stime di σ2(z) e di σ11 corrette contro la distorsione si ottiene unvalore di R̂ minore di quello ottenuto nell'altro modo, perché la stima del rapportoσ2(z)/σ11 risulta moltiplicata per il rapporto (N - 1)/(N - p), che è sempre maggiore di uno.

2.5 La regressione nella distribuzione multinormale

Quando la distribuzione congiunta della variabile dipendente x1 e delle variabiliindipendenti x2, x3, ..., xp è multinormale, la regressione è lineare e quindi rappresentatadalla solita espressione

(49) µ1.2 = β1 + β2x2 + β3x3 + ... +βpxp,

e la distribuzione dell'errore è omoscedastica. Il termine noto β1 e i coefficientiβ2, β3, ... , βp risultano dunque espressi dalle stesse formule già viste, valide in generaleper una regressione lineare multipla con errore omoscedastico.

Per la stima dei parametri si può dunque fare ricorso ai metodi che si adoperanoper la regressione lineare multipla. In particolare si può fare ricorso al metodo dei minimiquadrati, oppure - che è lo stesso, come si è visto - si possono sostituire nelle espressionidel termine noto β1 e dei coefficienti β2, β3, ..., βp le medie e le covarianze del campione(non corrette contro la distorsione).

Vale infine la pena di osservare che quando la distribuzione congiunta dellevariabili casuali x2, x3, ..., xp è multinormale le medie e le covarianze (distorte) delcampione coincidono con le stime delle medie e delle covarianze ricavate con il metododella massima verosimiglianza.

3 Controllo delle ipotesi

Anche nell'analisi della regressione si incontra il problema del controllo delleipotesi. Le ipotesi possono riguardare il valore del coefficiente di regressione di unasingola variabile indipendente, oppure la correlazione tra una singola variabileindipendente e quella dipendente, oppure ancora la correlazione tra la variabile dipendentee l'intero insieme delle variabili indipendenti.

Page 21: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

21

3.1 Il test della F parziale

Quando lo scarto z di una regressione lineare è distribuito normalmente, anche lestime del termine noto e dei coefficienti di regressione lineare, che compongono il vettoreb, sono distribuite normalmente, con varianze uguali agli elementi della diagonaleprincipale della matrice

(50) V(b) = (X2 XT2)-1σ2(z) = C-1σ2(z).

Come stima della varianza σ2(z), che nelle applicazioni di solito è a prioriincognita, si assume, come si è visto, l'espressione

(51) s2(z) = S

N - p =

Σx1x1 - (b1Σx1 + b2Σx1x2 + ... + bpΣx1xp)N - p

,

nella quale i simboli hanno il significato già visto quando si è illustrato il problema dellastima dei coefficienti di regressione lineare con il metodo dei minimi quadrati. Come stimas2(bi) della varianza di bi (a sua volta stima del termine noto o del coefficiente diregressione lineare βi della variabile indipendente xi) si assume dunque l'i-esimo terminedella diagonale principale della matrice

(52) (X 2 XT2)-1s2(z) = C-1s2(z).

Ora, nell'ipotesi che l'errore di regressione z sia distribuito normalmente, lagrandezza

(53) F = (bi - βi)2

s2(bi)

risulta distribuita come una F di Fisher con uno ed N - p gradi di libertà (la quale coincidecon un t2 con N - p gradi di libertà).

Questo permette di istituire un test per provare l'ipotesi che il valore delcoefficiente di regressione della variabile indipendente xi, per il quale il campionedisponibile fornisce la stima bi, sia uguale a un valore βi assegnato.

Indicando con Fc il valore della F di Fisher con probabilità di superamento ugualeal livello di significatività α prescelto, si definisce come intervallo di accettazione quelloper cui il valore di F ricavato dal campione soddisfà alla disuguaglianza

(54) F ≤ Fc.

Un'applicazione particolare di questo test si ha nel controllo dell'ipotesi dicorrelazione nulla tra la variabile dipendente x1 e una qualunque variabile indipendente xi.Anche quando si sa a priori che l'ipotesi di linearità della regressione è corretta, come

Page 22: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

22

avviene per esempio quando la distribuzione congiunta è multinormale, rimane infatti ilproblema di decidere, per ciascuna variabile indipendente, se il valore del corrispondentecoefficiente di regressione ricavato dal campione è significativamente diverso da zerooppure no, vale a dire di decidere se la variabile considerata si debba includere nellaregressione oppure no. (In pratica la stima bi risulta sempre diversa da zero, anchequando il valore vero βi è nullo, perché l'informazione contenuta nel campione è limitata.)

Per provare l'ipotesi che il coefficiente di regressione βi di un'assegnata variabilexi sia nullo (e che quindi la media condizionata della variabile dipendente x1 non sia inalcun modo influenzata dal valore assunto dalla xi) si può adoperare questo test.

Se il valore vero βi è nullo, la grandezza F risulta definita dal rapporto

(55) F = bi

2

s2(bi) .

Indicando con Fc il valore della F di Fisher con probabilità di superamento uguale allivello di significatività α prescelto, si può dunque definire come intervallo di accettazionedell'ipotesi di correlazione nulla quello per cui il valore di F (criterio del test) ricavato dalcampione soddisfà alla disuguaglianza

(56) F ≤ Fc.

Nelle applicazioni pratiche non si dà comunemente il caso di dover confrontarecon la stima bi ricavata dal campione un valore del coefficiente di regressione βi assegnatoa priori. Comunemente invece interessa controllare l'attendibilità dell'ipotesi (composta)che il valore del coefficiente di regressione sia diverso da zero. Come ipotesi alternativadell'ipotesi di correlazione non nulla si assume naturalmente quella di correlazione nulla.

Ora, la distribuzione del criterio F nel caso in cui l'ipotesi che il valore delcoefficiente di regressione sia diverso da zero sia vera non è nota. Un test dell'ipotesi dicorrelazione non nulla si può comunque istituire, definendo come intervallo diaccettazione quello per cui il valore del rapporto

(57) F = bi

2

s2(bi)

ricavato dal campione supera un valore assegnato Fc.La probabilità di superamento che corrisponde a Fc nella distribuzione della F di

Fisher rappresenta allora la probabilità di accettare l'ipotesi di correlazione non nullaquando è falsa (livello di rischio del test, solitamente indicato con il simbolo β).

Il rischio di commettere un errore includendo nella regressione una variabileindipendente xi è dunque misurato dalla probabilità di superamento (nella distribuzionedella F di Fisher) del valore del corrispondente rapporto F ricavato dal campione.

E` forse opportuno sottolineare che il livello di rischio β è una misura del rischioche si corre per il solo fatto di accettare l'ipotesi che il coefficiente di regressione βi della

Page 23: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

23

variabile indipendente considerata sia diverso da zero, non una misura del rischio che sicorre accettando la particolare stima bi del coefficiente di regressione ricavata dalcampione.

3.2 Il test della F di Fisher per l'ipotesi di correlazione multipla nulla inuna distribuzione multinormale

Consideriamo un insieme di p variabili casuali x1, x2, ..., xp, con distribuzionecongiunta multinormale, e indichiamo con R ^ la stima (ottenuta dalle formule didefinizione, senza correggere varianza e covarianza contro la distorsione, come indicatonel par. 2.4), del coefficiente di correlazione multipla che caratterizza la regressione di x1

sulle altre variabili.Nell'ipotesi che il coefficiente di correlazione lineare sia uguale a zero la grandezza

(58) F = R̂

2

1 - R̂ 2 N - pp - 1

è distribuita come una F di Fisher con p - 1 ed N - p gradi di libertà.Tenendo conto di questo si può istituire un test per provare l'ipotesi che il

coefficiente di correlazione lineare sia nullo.Poiché il valore della grandezza F (che costituisce il criterio del test) cresce al

crescere del valore di R ̂ calcolato, come regione di rigetto dell'ipotesi di coefficiente dicorrelazione nullo si sceglie quella definita dalla disuguaglianza

(59) F > Fc,

dove Fc è il valore della F di Fisher con probabilità di non superamento uguale alcomplemento a uno del livello di significatività α prescelto.

Può essere utile ricordare che, ponendo

(60) Σxi = ∑k=1

N

xi k

(61) Σxixj = ∑k=1

N

xikxj k

(62) B =

Σx1

Σx2x1. . .. . .

Σxpx1

Page 24: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

24

e tenendo conto della (47) e della (48) la grandezza F risulta fornita dall'espressione

(63) F = bTB - [(Σx1)2/N]

Σx12

- bTB N - p

p - 1 .

Analogamente a quanto avviene per il test della F parziale, l'ipotesi a cui si è piùcomunemente interessati è quella che il coefficiente di correlazione lineare multipla siadiverso da zero. In questo caso si assume come regione di accettazione il campo dei valoridi F maggiori di Fc. La probabilità di superamento che corrisponde a Fc nelladistribuzione della F di Fisher rappresenta allora la probabilità β di accettare l'ipotesi dicorrelazione non nulla quando è falsa (livello di rischio del test).

Il rischio di commettere un errore ammettendo che il coefficiente di regressionelineare multipla R sia diverso da zero, cioè ammettendo che sia diverso da zero ilcoefficiente di regressione di almeno una delle variabili indipendenti considerate, èdunque misurato dalla probabilità di superamento (nella distribuzione della F di Fisher)del valore del corrispondente rapporto F ricavato dal campione.

Anche in questo caso, come in quello del test della F parziale, è opportunosottolineare che il livello di rischio β è una misura del rischio che si corre per il solo fattodi accettare l'ipotesi che almeno uno dei coefficienti di regressione delle variabiliindipendenti considerate sia diverso da zero, non una misura del rischio che si correaccettando le stime b dei coefficienti di regressione ricavate dal campione.

3.3 Confronto tra valori osservati e valori stimati per mezzo dellaregressione

Nella maggior parte delle applicazioni pratiche lo studio della regressione èfinalizzato a individuare una sorta di dipendenza "media" della variabile dipendente daquelle indipendenti, che si assume in qualche modo disturbata dalla presenza dell'errore diregressione. In altre parole, si utilizza la regressione per individuare un legamedeterministico, che risulta tanto più stretto, e quindi tanto più attendibile, quanto minore èmediamente l'errore di regressione, e quindi quanto più vicini alle rispettive mediecondizionate sono i valori della variabile dipendente.

Un modo molto semplice di controllare l'attendibilità del legame individuatoattraverso l'analisi della regressione è di confrontare i valori osservati della variabiledipendente con quelli "attesi", o "stimati", che coincidono con le medie condizionate esono quindi forniti dalla funzione di regressione. Il confronto si può effettuare facendoricorso all'indice di regressione (par. 1.3), che come si è visto è uguale a uno quando ladipendenza è esclusivamente deterministica, e minore di uno quando è in partedeterministica e in parte casuale. Ma si può anche effettuare in modo visivo e immediato,riportando in un diagramma cartesiano i punti che hanno come ascisse i valori osservati

Page 25: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

25

della variabile dipendente e come ordinate i valori della media condizionata forniti - incorrispondenza dei valori osservati delle variabili indipendenti - dalla funzione diregressione. Quando il legame individuato è effettivamente deterministico, e l'errore diregressione è sempre nullo, i punti del grafico giacciono necessariamente su una rettauscente dall'origine, con coefficiente angolare uguale a uno. Quando invece l'errore diregressione non è nullo, i punti giacciono semplicemente nelle vicinanze della retta concoefficiente angolare uguale a uno (fig. 4). Quanto più il legame diventa debole, tanto piùi punti si allontanano dalla retta. Non soltanto si allontanano, però: in corrispondenza deivalori minori della variabile dipendente i valori stimati tendono a essere maggiori di quelliosservati, mentre in corrispondenza di quelli maggiori accade il contrario. In altre parole,l'insieme dei punti e la retta di coefficiente angolare uno tendono a formare una sorta diforbice.

Per dar conto della tendenza, consideriamo il caso particolarmente semplice di duesole variabili, una dipendente e una indipendente. Quando il coefficiente di correlazionelineare delle due variabili diventa nullo, la retta di regressione diventa parallela all'assedelle ascisse (fig. 5). Quindi, necessariamente, i valori stimati della variabile dipendenterisultano tutti uguali tra loro, e si dispongono a formare una sorta di forbice con la retta dicoefficiente angolare uguale a uno (fig. 6).

4.3 Scelta delle variabili in un problema di regressione lineare multipla

Un aspetto importante dell'analisi della regressione multipla è quello della sceltadelle variabili indipendenti da introdurre nell'espressione della media condizionata dellavariabile dipendente.

Le considerazioni sulle quali si basa la scelta sono di due tipi: da una parte sivaluta la significatività dei risultati da un punto di vista puramente statistico, dall'altra sene valuta la congruenza con quanto si conosce circa i fenomeni fisici.

Ricordiamo qui brevemente alcune tecniche di analisi della regressione linearemultipla, di uso comune in moltissimi campi e utili in particolare nelle applicazioniidrologiche.La prima è una procedura di successiva eliminazione delle variabili, nota con il nomeinglese di backward regression analysis. Essa consiste nel prendere innanzi tutto inconsiderazione la regressione della variabile dipendente x1 su tutte le variabiliindipendenti, che indichiamo con x2, x3, ..., xp, eseguendo il test della F parziale suciascuno dei coefficienti di regressione stimati b1, b2, ..., bp.

Senza ripetere la descrizione del test, al quale è dedicato il par. 3.1, ricordiamoche, nell'ipotesi che il valore vero del coefficiente di regressione βi sia nullo e quindi lavariabile xi debba essere esclusa dalla regressione, la grandezza

(64) Fi = bi

2

s2(bi) ,

Page 26: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

26

0

2

4

6

8

10

0 2 4 6 8 10

0

2

4

6

8

10

0 2 4 6 8 10

x1

x2

µ(x1|x2)

µ(x1|x2)

x1

Fig. 5 Variabili non correlate: retta di regressione della x1 sulla x2 edesempio di insieme di osservazioni

Fig. 6 Variabili non correlate: confronto tra valori osservati e valoriattesi della variabile dipendente

Page 27: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

27

dove s2(bi) è la varianza stimata della stima bi in un campione di dimensione appuntouguale a N, è distribuita come una F di Fisher con uno ed N - p gradi di libertà.

Scelto dunque un valore Fc corrispondente al livello di rischio prefissato, siconfronta con questo il valore Fmin più basso tra tutti i valori Fi calcolati. (Vale forse lapena di ricordare che al valore più basso del criterio F corrisponde il valore più alto dellivello di rischio con cui si introduce la relativa variabile nella regressione.) Se Fmin èmaggiore di Fc si accetta la regressione di x1 su tutte le variabili x2, x3, ..., xp. Altrimentisi esclude dalla regressione la variabile che ha fornito il valore Fmin e si ripete ilprocedimento, continuando fino a che tutte le variabili rimaste risultano significative.

La seconda procedura di regressione multipla che richiamiamo è quella nota con ilnome di forward regression analysis. Questa procedura implica, all'opposto di quellaprecedente, la successiva aggiunta di una variabile indipendente dopo l'altra. Innanzi tuttosi sceglie la variabile indipendente xi maggiormente correlata con la variabile dipendentex1. Supponiamo, per fissare le idee, che questa variabile sia la x2. Si calcolano allora iparametri della regressione lineare della x1 sulla x2 e si esegue il test della F parziale sullax2, confrontando il valore calcolato del criterio del test, che indichiamo con F2, con Fc.Se il risultato del test è negativo (F2 < Fc) si assume che la variabile x1 non dipenda dallevariabili x2, x3, ..., xp e la procedura ha termine immediatamente. Se invece il risultato deltest è positivo si calcolano i coefficienti di correlazione parziale della x1 (condizionati alfatto che sia assegnato il valore della variabile x2) con ciascuna delle rimanenti variabilix2, x3, ..., xp. Supponiamo, sempre per fissare le idee, che la variabile con il coefficientedi correlazione parziale più alto sia la x3. Si calcolano allora i parametri della regressionelineare della x1 sulle x2 e x3 e si esegue il test della F parziale sulla x3, calcolando ilrelativo valore del criterio, che indichiamo con F3. Se il risultato è negativo (F3 < Fc) siassume che la x1 dipenda soltanto dalla x2 e la procedura ha termine. Altrimenti sicontinua così, eseguendo il test della F parziale su ogni nuova variabile inserita nellaregressione. Il procedimento ha termine quando l'aggiunta di una nuova variabile non èpiù considerata significativa in base al test della F parziale.

Una forma modificata di questo procedimento è nota con il nome di stepwiseregression analysis. Questa tecnica, che è probabilmente la tecnica di regressione multiplapiù diffusa, è una combinazione della tecnica forward e della tecnica backward. Comenella tecnica forward, si procede per successiva aggiunta di variabili indipendenti, apartire da quella più correlata con la variabile dipendente. Dopo avere introdotto unanuova variabile, però, si esegue il test della F parziale su tutte le variabili già inserite nellaregressione: in altre parole, si applica la tecnica backward all'insieme delle variabiliindipendenti già introdotte nela regressione, escludendo quelle che non risultano piùsignificative. E` infatti possibile che una o più variabili, già accolte nella regressione, nonrisultino più significative dopo l'inserimento di un'altra.

Vale la pena di segnalare che il termine stepwise regression analysis si adoperaspesso per indicare in generale una tecnica di analisi della regressione che procede perpassi successivi (in accordo con il significato letterale del termine), inserendo o

Page 28: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

28

eliminando una variabile dopo l'altra. (In sostanza, si definisce come stepwise regressionanalysis qualunque tecnica che proceda in modo automatico per passi successivi.) Latecnica forward, la tecnica backward e la tecnica stepwise sopra descritta si devono allorariguardare tutti come esempi particolari di stepwise regression analysis.

E` importante osservare che le diverse tecniche di analisi della regressioneforniscono risultati tra loro diversi, anche quando utilizzano sempre lo stesso tipo di test(come accade nel caso delle tre tecniche descritte sopra, che utilizzano tutte il test della Fparziale). I risultati sono diversi perché le tecniche non sono esaustive, vale a dire nonprendono in considerazione tutte le possibili combinazioni di variabili indipendenti. (Sonoanzi state pensate proprio come procedure alternative a un'analisi esaustiva, snelle maabbastanza affidabili.)

Le tecniche di analisi della regressione multipla si possono comunque adoperarecongiuntamente, confrontando i risultati, valutandone la congruenza con la descrizionefisica dei processi studiati e quindi operando una scelta. In particolare, il criterio del testdella F parziale si può adoperare come misura dell'importanza della variabile nellaregressione multipla considerata. La probabilità di superamento che corrisponde al valoreFi calcolato per la variabile xi rappresenta il minimo livello di rischio a cui l'ipotesi diintroduzione della variabile xi nella regressione può ancora essere accettata. Questaprobabilità, assunta come indice della significatività dell'introduzione della variabile, sipuò adoperare per eseguire confronti e, insieme con altre considerazioni, per deciderequali variabili includere nella regressione.

5 Trasformazioni di variabile

La tecnica della regressione lineare costituisce uno strumento utilissimo perindividuare la dipendenza di una grandezza da una o più altre a partire da un certo numerodi osservazioni empiriche. Ed è importante osservare che si può applicare anche in molticasi in cui la dipendenza non è lineare o approssimativamente lineare. Spesso, infatti, ci sipuò ricondurre a una relazione lineare, con opportune trasformazioni delle variabilioriginarie. Si consideri, per esempio, la relazione monomia

(65) x1 = ax2mx3n.

Con le posizioni

(66) y1 = lnx1,

(67) y2 = lnx2,

(68) y3 = lnx3,

Page 29: La regressione...La regressione 2 considerazione. Il legame tra le due variabili casuali si descrive allora per mezzo della loro distribuzione congiunta. Uno studio di questo tipo

La regressione

29

(69) β1 = lna,

(70) β2 = m,

(71) β3 = n,

la relazione non lineare (65) tra le variabili originarie si trasforma immediatamente nellarelazione lineare tra le nuove variabili

(72) y1 = β1 + β2y2 + β3y3,

i cui coefficienti si possono stimare applicando le tecniche illustrate.