55
1 Università degli Studi di Siena Facoltà di Economia “R.M. GOODWIN” Corso di Statistica Economica I Laura Neri

1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

Embed Size (px)

Citation preview

Page 1: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

1

Università degli Studi di Siena

Facoltà di Economia

“R.M. GOODWIN”

Corso di

Statistica Economica I

Laura Neri

Page 2: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

2

Introduzione al modello di regressione lineare (da deterministico a stocastico)

Modello di regressione lineare semplice (ipotesi di base, stima OLS dei parametri, stimatori BLUE, test, intervalli di confidenza, previsione, scomposizione devianza, coeff. determinazione

MODELLO DI REGRESSIONE

LINEARE SEMPLICE

Page 3: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

3

RELAZIONI DI TIPO DETERMINISTICO TRA VARIABILI

VARIABILE DIPENDENTE

VARIABILI ESPLICATIVE O INDIPENDENTI

SE IL LEGAME È DI TIPO LINEARE ED IL NUMERO DELLE ESPLICATIVE È PARI AD UNO, IL MODELLO DIVIENE:

CHE IN UN SISTEMA DI ASSI CARTESIANI RAPPRESENTA UNA RETTA CON COEFFICIENTE ANGOLARE ED INTERCETTA (ORDINATA ALL’ORIGINE)

Y

),...,( 1 KXXfY

KXX ,...,1

XY

Page 4: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

4

X1 X2y

= X

Y1

Y2

BISETTRICE 1° e 3°

QUADRANTE

0

1

X1 X2 X3 X4

X

y X

}

y X

y X

}}

Y5

Y4

Y3

Y2

Y1

Y

Page 5: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

5

La vera relazione tra Y e l’insieme di

covariate X può essere

approssimata tramite il modello di

regressione ),...,( 1 KXXfY

Dove si ipotizza come l’errore casuale che

rappresenta la discrepanza

dell’approssimazione. Avendo introdotto il

termine di errore il suddetto modello

esprime una relazione STOCASTICA.

Se f(.) esprime una funzione lineare, il

modello di regressione è di tipo lineare e si

presenta nella forma

KKXXXY ...22110

)...,,( 210 K coefficienti di regressione o parametri di regressione

Page 6: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

6

ANALISI DI REGRESSIONE

La regressione è sostanzialmente un

metodo per investigare relazioni funzionali

tra variabili. La relazione viene espressa

sotto forma di equazione o modello che

lega la variabile dipendente ad una o più

variabili indipendenti.

ESEMPIO: se vogliamo verificare se il

consumo di sigarette è legato a variabili

demografiche individuali ed a variabili

socioeconomiche, possiamo specificare

come Y il numero di sigarette fumate al

giorno e come insieme di variabili X, l’età

dell’individuo, il genere, il reddito, il titolo

di studio, ecc.

Se osserviamo tali variabili su un campione

di n unità statistiche, avremo n

osservazioni per ognuna delle variabili

osservate

Page 7: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

7

IL MODELLO DI REGRESSIONE

LINEARE SEMPLICE

La relazione tra la variabile dipendente

(o di risposta) e la variabile indipendente

è espressa da un modello lineare

Dove rappresentano i

coefficienti di regressione o parametri e

rappresenta la componente casuale

del modello. Si assume che relativamente

alle osservazioni campionarie tra Y e X vi

sia approssimativamente un legame

lineare.

XY 10

),( 10

Y X

Y1 X1

… …

Yn Xn

Per ogni singola osservazione i il modello può essere scritto così n1,...,i ,10 iii XY

Page 8: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

8

X

Y

y

x

1 1,x y

2, 2x y

3 3,x y

4 4,x y

5 5,x y

6 6,x y

A questo punto l’obiettivo è determinare l’equazione della retta che meglio approssima i punti di coordinate (X, Y). Per determinare l’equazione della retta

è sufficiente stimare I parametri intercetta coefficiente angolare.

Scatter plot

XY 10ˆˆˆ

Page 9: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

9

210

1

2

1

)ˆˆ()ˆ( i

n

iii

n

ii XYYY

Per questo si adotta il METODO DEI

MINIMI QUADRATI ORDINARI (Ordinary Least Square-OLS) BASATO SULLA MINIMIZZAZIONE DELLA FUNZIONE AUSILIARIA:

Il minimo della funzione ausiliaria si ottiene derivando rispetto ai parametri incogniti , ponendo pari a zero le due equazioni e risolvendo il sistema. Le soluzioni che si ottengono sono:

2 2

ˆ i i i i

ii

X X Y Y x y

xX X

ˆˆ Y X

Page 10: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

10

CON

1

1

i i

i i

i

i

x X X

y Y Y

X Xn

Y Yn

Tornando alla natura probabilistica del modello ed all’esempio del consumo individuale di sigarette. Se ad esempio fosse Y il numero di sigarette fumate al giorno e X l’età dell’individuo, è plausibile che, nel campione osservato, per ogni valore di X (per ogni età) vi siano molti valori di Y (numero di sigarette fumate al giorno). Quando, per questo esempio, si specifica un modello probabilistico è come se si assumesse che ogni età, il consumo di sigarette varia in ‘modo casuale’. Cerchiamo di approfondire questa idea.

Page 11: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

11

UN MODELLO DI TIPO STOCASTICO SI ADEGUA MOLTO MEGLIO DI UN MODELLO DETERMINISTICO AL TIPO DI REALTÀ RAPPRESENTATA DA n COPPIE DI OSSERVAZIONI Xi E Yi NON ESATTAMENTE ALLINEATE SU DI UNA RETTA. OVVIAMENTE L’INTRODUZIONE DI PROVOCA NOTEVOLI COMPLICAZIONI, MA ANCHE RISULTATI FORTEMENTE PIÙ UTILI E DENSI DI SIGNIFICATO.

PRIMA CONSIDERAZIONE:COME SI GIUSTIFICA L?INTRODUZIONE DELLA

COMPONENTE STOCASTICA?

1.1 PRESENZA DI ERRORI NEL MODELLO

1.2 LIMITATEZZA NEL NUMERO DELLE VARIABILI ESPLICATIVE (REGRESSORI);

1.3 CASUALITÀ DERIVANTE PREVALENTEMENTE DALLA RILEVAZIONE CAMPIONARIA DELLE OSSERVAZIONI EMPIRICHE;

1.4 PRESENZA DI ERRORI DI MISURA

i

Page 12: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

12

SECONDA CONSIDERAZIONE:

L’INTRODUZIONE DI PROVOCA LA RIDEFINIZIONE DI Y IN TERMINI DI VARIABILE CASUALE (V.C.)

NON SOLO, MA OGNI VALORE ESPRESSO IN FUNZIONE DI Y, DIVIENA ANCH’ESSO V.C.

TERZA CONSIDERAZIONE:

PER POTER UTILIZZARE AL MASSIMO LA PORTATA INTERPRETATIVA ED ESPLICATIVA DI UN MODELLO LINEARE STOCASTICO, DEVONO ESSERE INTRODOTTE ALCUNE ASSUNZIONI:

1. LINEARITÀ DELLA RELAZIONE FUNZIONALE

2. NATURA DETERMINISTICA DEI REGRESSORI

3. NORMALITÀ DELLA DISTRIBUZIONE DEI TERMINI DI ERRORE per ogni i=1….n

4. VALORE ATTESO NULLO DI TALI ERRORI:

5. OMOSCHEDASTICITÀ DEI MEDESIMI:

i

i 0iE

2iVAR

6. 0i jCOV DATA LA NATURA NORMALE DEGLI ASSICURA ANCHE L’INDIPENDENZA

iPer ogni i diverso da j

Page 13: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

13

ANCORA SULLE ASSUNZIONI • LA 1. È ABBASTANZA BANALE ANCHE SE SOLO PARZIALMENTE REALISTICA. VEDREMO CHE MOLTE RELAZIONI NON LINEARI POSSONO RIDURSI, CON OPPORTUNE TRASFORMAZIONI, A RELAZIONI LINEARI.

• LA 2. È FORSE LA PIÙ IRREALISTICA IN AMBITO SOCIO-ECONOMICO MA MOLTO UTILE A FINI COMPUTAZIONALI infatti comporta:

•LA 3. DERIVA DALLA TEORIA DELLA PROBABILITÀ SULLA DISTRIBUZIONE DEGLI ERRORI. DATE LE CARATTERISTICHE DALLA V.C. NORMALE (CONTINUITÀ, DEFINIZIONE NEL DOMINIO INFINITO, SIMMETRIA, FORMA CAMPANULARE) RISULTA PLAUSIILE.

• LA 4. CI ASSICURA CHE L’ERRORE MASSIMAMENTE PROBABILE (DAL MOMENTO CHE IN UNA V.C. NORMALE IL VALOR MEDIO COINCIDE CON IL VALORE MODALE) È QUELLO DI ENTITÀ ZERO. SI NOTI COMUNQUE CHE SE

SI PUO’ SPECIFICARE IL MODELLO IN MODO DA TORNARE ALL’ASSUNZIONE

0)()( iiii EXXE

0)( kE i

Page 14: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

14

i i iy x k k

i ik x k

i ix

k CON i i k E

0i i iE E k E k k k

CIOÈ SI PUO’ SEMPRE DEFINIRE UN MODELLO CON MEDIA NULLA DEGLI ERRORI.

• LA 5., POCO REALISTICA IN CASO DI OSSERVAZIONI “CROSS SECTION”, COMPORTA PROBLEMI DI ENTITÀ RILEVANTE, SE TRALASCIATA. ANALIZZEREMO COMUNQUE A FONDO TALE CIRCOSTANZA.

• LA 6., POCO REALISTICA IN CASO DI OSSERVAZIONI DIPENDENTI DAL TEMPO (SERIE STORICHE), COMPORTA PROBLEMI RILEVANTI SE TRALASCIATA.

Page 15: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

15

Yt

YY

XtXt

X XETEROSCHEDASTICITÀ

VARIANZA FUNZIONE VARIANZA FUNZIONE DECRESCENTE DI X CRESCENTE DI X

Yt

AUTOCORRELAZIONE

POSITIVA NEGATIVA

Page 16: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

16

Esaminiamo le caratteristiche degli stimatori dei parametri incogniti della retta di regressione ottenuti con OLS.

Per questo ricordiamo che le stime ottenute derivano da un’ennupla di osservazioni campionarie (estratte con campionamento probabilistico da una popolazione target) osservate sulle variabili (X, Y).

Se estraessimo un altro campione dalla stessa popolazione di riferimento, il campione sarebbe diverso dal precedente e le stime dei parametri sarebbero diverse, quindi si può dire che quelle stime sono associate ad una variabile casuale.

Concludendo quando si scrive si intende: i) il coefficiente angolare della retta di regressione, stimato a partire da una determinata un’ennupla di osservazioni campionarie, ii) lo stimatore che segue una certa distribuzione di probabilità.

Page 17: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

17

SI CONSIDERINO GLI STIMATORI OLS

ˆˆ Y X 2ˆ i i

i

x y

x

TEOREMA DI GAUSS-MARKOV :

Date le assunzioni 1., 2., 4., 5., 6.

gli stimatori OLS

sono i MIGLIORI (più efficienti)

STIMATORI LINEARI e CORRETTI

(BLUE – BEST LINEAR

UNBIASED ESTIMATOR) dei

parametri

Il senso del teorema è che tali

stimatori sono quelli a varianza

minima nella classe degli stimatori

lineari e corretti.

Page 18: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

18

Dimostrazione del TEOREMA DI GAUSS-MARKOV:

SI CONSIDERI LO STIMATORE OLS DI β E LO SI RISCRIVA COME:

2ˆ i i

i

x y

x

i iw y

SISTEMA DI PESI

CON PROPRIETÀ:

2i

ii

xw

x

OSSERVAZIONI

0iw

22

i ii i

i i

X X Xx X

x X X

i i i i i i iw x w X X w X X w

LINEARITA’ DELLO STIMATORE

Page 19: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

19

SI DIMOSTRA ANALOGAMENTE CHE:

1ˆ i iXw y

n

OSSERVAZIONIPESI

COSTANTI

MEDIA STIMATORI

i i i i i i iw w X w w

ˆi i i iE E w w E

ˆE

11

1

22

22

ii

ii

Xn

X

Xn

X

iiiiiii wYYwYYwyw )(

CORRETTEZZA DELLO STIMATORE

Page 20: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

20

ANALOGAMENTE SI OTTIENE PER CHE

ˆE

QUINDI E SONO ENTRAMBI STIMATORI CORRETTI

VARIANZA STIMATORI

2 2ˆ ˆi iVAR E E w

2 2 2 21 1 1 2 1 2 1 1... 2 ... 2n n n n n nE w w w w w w

22 2

2ii

wx

2 2

0

i

i j

E

E

2 2 2 22 2i i i j i j i i j i ji i j i j

E w ww w ww E

+

Page 21: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

21

STIMATORI OLS COME BLUE

SIA

CON

ˆi ic y

i i ic w d

ˆi i iE c c X

QUINDI

SE E SOLO SE

E

ˆE

0ic 1i ic X

Altro stimatore lineare

stimatore corretto

Page 22: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

22

2 2 2ˆi i iVAR E c c

2 2 2 2i i i iw d wd 2 2ˆ

iVAR d QUINDI

OVVERO HA VARIANZA MINIMA NELLA CLASSE DEGLI STIMATORI LINEARI E CORRETTI. ANALOGHI RISULTATI SI OTTENGONO PER .

SI PUÒ PERVENIRE AI RISULTATI MINIMIZZANDO

CON I VINCOLI

2ˆiVAR c

0ic

1i ic X

ˆ ˆVAR VAR

2222

11)(

iii

iii

i

iiii

xxx

wcx

x

dxdw

Page 23: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

23

DISTRIBUZIONE DEGLI STIMATORI OLS

e

2

2ˆ ,

i

Nx

:

22

2ˆ , i

i

XN

N x

:

Poiché è una media pesata di y e le y sono normalmente distribuite, ha una distribuzione normale

analogamente

In virtù del Teorema del Limite Centrale, anche se le y non fossero distribuite normalmente (sotto condizioni abbastanza generali) si avrebbe comunque una distribuzione asintoticamente normale per i suddetti parametri

OLS = ML

OLS SONO MIGLIORI, LINEARI, CORRETTI E ASINTOTICAMENTE CONSISTENTI

Page 24: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

24

STIMA DELLA VARIANZA DELL’ERRORE

L’analisi non è ancora completa, resta da stimare la varianza del termine stocastico del modello.

Il computo di questo stimatore coinvolge l’applicazione del Metodo della Massima Verosimiglianza (che omettiamo). Riportiamo direttamente lo stimatore varianza residua

2

2

)ˆˆ(

2

ˆˆ

2222

n

XY

ns iii

ii YYi

ˆˆ rappresenta il residuo

La varianza residua è uno stimatore corretto e consistente della varianza del termine di errore.

Page 25: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

25

OSSERVAZIONE

Perché il denominatore della varianza residua deve essere pari a (n-2) per ottenere uno stimatore corretto?

Perché le osservazioni campionarie sulle quali si basa la stima sono n, ma la stima dell’intercetta e del coefficiente angolare impongono 2 vincoli, quindi restano (n-2) gradi di libertà.

Page 26: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

26

ˆVAR

•FUNZIONE DIRETTA DELLA ;

ERRORI MOLTO VARIABILI PROVOCANO DIMINUZIONE DI PRECISIONE E DI AFFIDABILITÀ PER .

•FUNZIONE INVERSA DELLA ;

SE LE Xi SONO CONCENTRATE IN UN PICCOLO INTERVALLO, PEGGIORA LA QUALITÀ DI .

iVAR

iVAR X

X Xi

Osservazione sulla

Page 27: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

27

STANDARD ERROR DEGLI STIMATORI OLS

Avendo ottenuto una stima della varianza del termine stocastico del modello di regressione si sostituisce nell’espressione della varianza degli stimatori OLS per ottenere gli errori standard (standard error)

22

ˆ 2i

ss

x

22 2

ˆ 2

i

i

Xs s

n x

2

2ˆˆ,

i

XsCOV

x

Gli errori standard FORNISCONO UNA MISURA DELLA DISPERSIONE DELLE STIME INTORNO ALLE RISPETTIVE MEDIE.

Page 28: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

28

INFERENZA NEL MODELLO DI

REGRESSIONE LINEARE SEMPLICE

• E’ necessaria l’ipotesi di normalità dei termini stocastici

• Interpretazione dell’intervallo di confidenza, fissato il livello di significatività (ad esempio per ).Se estraessi più campioni; ognuno fornirebbe valori diversi della stima OLS di e quindi diversi intervalli di confidenza; l’(1-)% di questi intervalli includerebbe , mentre solo nell’ % dei casi devierebbe da per più di un certo .

Page 29: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

29

•Verifica d’ipotesi, fissato il livello di significatività (ad esempio per ).

Sia data una congettura (ipotesi nulla), che si assume vera, attraverso la verifica d’ipotesi si valuta l’entità della discrepanza tra quanto osservato nei dati campionari e quanto previsto sotto ipotesi nulla. Se, fissato il livello di significatività , la “discrepanza” è significativa l’ipotesi nulla viene rifiutata, altrimenti l’ipotesi nulla non può essere rifiutata.

Page 30: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

30

INTERVALLI DI CONFIDENZA

SICCOME

0,1N:

2

2n :

OVVERO:

ˆnts

:

2

2

ˆ

2

2

ix

n s

n

/g.l.

T-Student con (n-2) g.l.

2

2ˆ ,

i

Nx

:

)1,0(:ˆ

2

N

xi

standardizza

ndo

Page 31: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

31

1Prob 2/22/ ttt n

Quindi l’intervallo di confidenza per

all’(1-)% si determina nel seguente modo:

1ˆˆProb ˆ2/ˆ2/ stst

Limite inferiore

Limite superior

e

In sostanza l’intervallo di confidenza fornisce il range di valori in cui verosimilmente cade il vero valore del parametro

Page 32: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

32

VERIFICA DI IPOTESI

• Fissato il livello di significatività

• Ipotesi nulla• Ipotesi alternativa• Statistica test

Regione di Accettazione o di Rifiuto del test

Page 33: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

33

VERIFICA DI IPOTESI:

SIGNIFICATIVITA’ di

0 : 0H : 0AH

NON ESISTE RELAZIONE LINEARE TRA X ED Y

STATISTICA TEST

SI RESPINGE L’IPOTESI NULLA SE:

REGOLA D’ORO

QUANDO n è grande, t-student ad una Normale, quindi se fissiamo il 5% come livello di significatività, possiamo adottare la “regola d’oro”: se

0 : 0H

ALLORA SI RIFIUTA L’IPOTESI NULLA:

ˆ

ˆ2

s

2ˆˆ

ˆ0ˆ

ntss

2,2/ˆ

ˆ nt

s

REGIONE CRITICA

Page 34: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

34

VERIFICA DI IPOTESI H0: = 0

• Se 0 è una costante si può verificare:

H0: = 0

01 : H

nts

STATISTICA TEST

SI RESPINGE L’IPOTESI NULLA SE:

2,2/ˆ

nts

N.B. ancora una volta se n è grande la distribuzione t-Student si approssima alla distribuzione normale standardizzata

Page 35: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

35

Significato del coefficiente

esprime di quanto varia mediamente Y in conseguenza di una variazione unitaria di X.

• Se >0, al crescere di X cresce anche Y (relazione lineare diretta)

• Se <0, al crescere di X, Y decresce (relazione lineare inversa)

Page 36: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

36

REGRESSIONE E CORRELAZIONE

0 A X

X

Y

Y

B

ix

iy

T

R

PQ

S

V

N COPPIE DI PUNTI

,S X Y

,i iP x y

i=1, …, N

iPV X

iPT Y

I QUADRANTE: IL PRODOTTO

II QUADRANTE: IL PRODOTTO

III QUADRANTE: IL PRODOTTO

IV QUADRANTE: IL PRODOTTO

i i i ix y X X Y Y

iX

iY

0i ix y

0i ix y

0i ix y

0i ix y

Page 37: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

37

LA FUNZIONE MISURA l’intensità del LEGAME LINEARE TRA X ED Y.

i ix y

COEFFICIENTE DI CORRELAZIONE DI

BRAVAIS-PEARSON

n

xs iX

2

n

ys iY

2

ii

ii

yxn

YYXXn

YXCov

1

))((1

),(

COVARIANZA

YX

ii

ss

yxr

R è un indice relativo, ossia non dipende dall’unità di misura delle variabili X, Y

Page 38: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

38

SE SULLE N COPPIE DI OSSERVAZIONI STIMIAMO UN MODELLO LINEARE

SICCOME

ALLORA ABBIAMO:

2ˆ i i

i

x y

x

MISURA DEL LEGAME LINEARE TRA X ED Y

MISURA DELLA DIPENDENZA LINEARE DI Y DA X

Osservazione: SE SI È ACCERTATA L’ESISTENZA DI UN LEGAME LINEARE SONO POSSIBILI DUE TIPI DI DIPENDENZA LINEARE: QUELLO DI Y DA X E QUELLO DI X DA Y;

CONSIDERAZIONE: NELL’ANALISI DI REGRESSIONE È NECESSARIO DECIDERE “EX ANTE” QUALE TIPO DI DIPENDENZA SI VUOLE CONSIDERARE;

ˆ x

y

sr

s

XY 10

Page 39: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

39

CONSIDERAZIONE: L’ANALISI DI CORRELAZIONE PRESCINDE DA LEGAMI CAUSALI; QUELLA DI REGRESSIONE È BASATA SUI LEGAMI CAUSALI;

CONSIDERAZIONE: CORRELAZIONE E CAUSALITÀ. ESEMPIO: NUMERO DI MALATI DI UNA DATA PATOLOGIA PER ZONA (X), NUMERO DI MEDICI PRESENTI PER ZONA (Y). SE r INDICA ALTA CORRELAZIONE QUESTO NON SIGNIFICA CHE UN ELEVATO NUMERO DI MEDICI CAUSA UN ELEVATO NUMERO DI MALATI MA SIGNIFICA SOLO CHE TRA LE DUE VARIABILI ESISTE UN ALTO LEGAME LINEARE;

Page 40: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

40

PROPRIETÀ DEI RESIDUI

• •

••

••

••

•••••

••

Y

XS

R

Q

P(xi,yi)

ˆ ˆi iQR Y Y y i iPR Y Y y

Y

X

RESIDUO

ˆ 0ie ˆˆ ˆi i i i ie y y y x

ˆ ˆi i iPQ Y Y e

XY ˆˆˆ

xy ˆ

0ˆˆ iii xye

Sono somme degli scarti dalla media, quindi sono zero

Page 41: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

41

ˆ 0i ie X ˆ ˆ ˆi i i i ie X e x e x 0

222

ˆ 0i ii i i i i i

i

x yx y x x y x

x

)ˆ( iii xyx

Page 42: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

42

SCOMPOSIZIONE DELLA DEVIANZA

• Dal precedente grafico:

)ˆ()ˆ( YYYYYY iiii

)ˆ)(ˆ(2)ˆ()ˆ(

)(22

2

YYYYYYYY

YY

iiiiii

i

0)ˆˆ(

ˆ)ˆ(

ii

iiiii

Xe

eYYeYYe

222 )ˆ()ˆ()( YYYYYY iiii

DEVIANZA DEVIANZA DEVIANZA

TOTALE RESIDUASPIEGATA

TSS = RSS + ESSTotal Sum = Residual Sum + Explained Sum Square Square

Square

Page 43: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

43

1RSS ESS

TSS TSS

Si definisce COEFFICIENTE DI DETERMINAZIONE

TSS

RSS

TSS

ESSR 12

Dividendo tutto per TSS si ottiene:

Tale coefficiente rappresenta la proporzione di devianza totale spiegata dal modello di regressione lineare di Y su X.Dato che

MAX ESS TSS 10 2 R

Quando il modello non spiega niente della variabilità di Y

Tutta la variabilità di Y è spiegata dal modello

Page 44: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

44

SE R²=0 SIGNIFICA CHE IL CONTRIBUTO ESPLICATIVO ALLA DEVIANZA COMPLESSIVA APPORTATO DAL MODELLO È IDENTICAMENTE NULLO; LA DEVIANZA COMPLESSIVA È SOLO SPIEGATA DALLA COMPONENTE CASUALE (RESIDUO).

SE R²=1 TUTTI GLI N VALORI EMPIRICI OSSERVATI GIACCIONO ESATTAMENTE SULLA RETTA DI REGRESSIONE; IL CONTRIBUTO ALLA DEVIANZA COMPLESSIVA È SOLO FORNITO DAL MODELLO.

NEI CASI INTERMEDI, QUANTO PIÙ R² È PROSSIMO AD UNO O A ZERO, TANTO PIÙ/MENO LA VARIABILITÀ COMPLESSIVA È SPIEGATA DAL MODELLO PRESCELTO. AD

ESEMPIO, UN VALORE r²=0.80 SIGNIFICA CHE IL MODELLO PRESCELTO RIESCE A SPIEGARE L’80 PER CENTO DELLA VARIABILITÀ COMPLESSIVA.

Page 45: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

45

Il coefficiente di determinazione rappresenta un indice di fitting (da prendere con cautela!), in quanto misura l’adattabilità del modello specificato ai dati.

Vediamo che relazione c’è tra ed i parametri della retta di regressione. Per fare questo consideriamo il modello in forma di scarti

2R

ii xy ˆ

Ogni osservazione della variabile dipendente può essere scomposta in

iii eyy ˆ

2222ˆ)ˆ( iiiii eyeyy

0ˆˆ iiii xeye

222ˆii ex

Page 46: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

46

Ne consegue che

222

22

2

22 )()ˆ(ˆˆ

rs

s

y

x

y

y

TSS

ESSR

Y

X

i

i

i

i

UNA SEMPLICE ED EFFICIENTE RELAZIONE PER IL COEFFICIENTE DI DETERMINAZIONE

SI PUÒ RICAVARE ANCHE DA:

2

2

2 11i

i

y

e

TSS

RSSR

QUINDI IL COEFFICIENTE DI DETERMINAZIONE È UGUALE AL QUADRATO DEL COEFFICIENTE DI CORRELAZIONE.

Page 47: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

47

ANALISI DELLA VARIANZA (ANOVA)

La scomposizione

O equivalentemente

MOSTRA LA SCOMPOSIZIONE DELLA VARIABILITÀ TOTALE (in forma di DEVIANZA) NEI CONTRIBUTI della COMPONENTE DI ERRORE e del MODELLO specificato. INOLTRE:

SAPPIAMO CHE:

2 2 2ˆ ˆi i iy e y

0,1ix

N

:

TSS RSS ESS

2 2 2ˆˆi iESS y x

Page 48: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

48

ALLORA:

SI PUÒ DIMOSTRARE CHE:

ALLORA:

Pertanto per verificare l’ipotesi

Si può utilizzare la suddetta statistica test che sotto ipotesi nulla è

22

212

ˆix

:

22

22

in

e

:

0 : 0H

Quadrato di una N(0,1)

)2,1(2

22

:)2/(

ˆ

n

i

i Fne

x Rapporto tra Chi-Quadrato divise per i propri g.l.

01 : H

)2,1(2

22

:)2/(

1/

)2/(

ˆ

n

i

i FnRSS

ESS

ne

x

Page 49: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

49

Intuitivamente un forte legame lineare tra X e Y determinerà valori elevati per la statistica testbontà del modello. Pertanto valori grandi della statistica test portano al rifiuto dell’ipotesi nulla. Formalmente, se

viene rifiutata,

1, 2nF F 0 : 0H

Valore empirico

Valore teorico

Osservazione: nel caso del modello di regressione lineare semplice, applicare il test t o F è equivalente, in entrambi i casi si verifica la significatività dell’unico parametro di regressione, ma nel caso del modello di regressione lineare multipla il test F servirà per verificare la ‘bontà’ del modello nel suo complesso e quindi la significatività congiunta di tutti i parametri di regressione.

Page 50: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

50

TAVOLA ANOVA

CAUSA DEVIANZE GRADI DI STIME CORRETTE VARIAZIONE LIBERTÀ DELLA VARIANZA

MODELLO 1

RESIDUO (n-2)

TOTALE (n-1)

ˆ 1i ix y

2ie 2ˆ 2ie n

22 2ˆ ˆi iy y e

2ˆ iy

Page 51: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

51

PREVISIONE• Il modello di regressione

stimato spesso viene utilizzato a fini previsivi, ovvero per stimare il valore della variabile dipendente che corrisponde ad un determinato valore della variabile indipendente00

ˆˆˆ XY

Lo standard error di tale valore previsto è

2

20

0 )(

)(11)ˆ.(.

XX

XX

nsYes

i

Pertanto i limiti dell’intervallo di confidenza per il valore previsto, fissato un livello di confidenza pari a 1-

Page 52: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

52

)ˆ.(.ˆ0)2/,2(0 YestY n

Si osservi che il valore dello s.e. aumenta al crescere della distanza tra X0 e il valor medio di X, pertanto la qualità della previsione diverrà sempre peggiore.

Inoltre può accadere che la linearità della relazione tra Y e X sia limitata alla nuvola di punti osservati e che fuori tale relazione non sia valida, pertanto può essere totalmente fuorviante prevedere un valore di Y partendo da un valore di X che è al di fuori del range dei valori osservati

Page 53: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

53

ESEMPIO NUMERICO

ANNI Yi Xi yi xi xiyi xi²

1947 166 352 -51.8 -167.2 8660.96 27955.84

1948 153 373 -64.8 -146.2 9473.76 21374.44

1949 177 411 -40.8 -108.2 4414.56 11707.24

1950 201 441 -16.8 -78.2 1313.76 6115.24

1951 216 462 -1.8 -57.2 102.96 3271.84

1952 208 490 -9.8 -29.2 286.16 852.64

1953 227 529 9.2 9.8 90.16 96.04

1954 238 577 20.2 57.8 1167.56 3340.84

1955 268 641 50.2 121.8 6114.36 14835.24

1956 268 692 50.2 172.8 8674.56 29859.84

1957 274 743 56.2 223.8 12577.56 50086.44

n=11 Σ=2396 Σ=5711 Σ=52876.36 Σ=169495.64

MEDIAy=217.8 MEDIAx=519.2

ˆˆ 217.8 0.312 519.2 55.81y x

2

52876.36ˆ 0.312169495.64

i i

i

x y

x

ˆ 55.81 0.312i iy x

}

0 X

Y

y

x

Y→ INCIDENTI STRADALI (X1000)

X →VEICOLI CIRCOLANTI (X1000)

Page 54: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

54

2

2

2

2

11, 5711, 2396

3134543, 1296836

169495.64, 52876.36

ˆˆ17619.64, 55.81, 0.312

ˆ ˆ 2 11.18

i i

i i i

i i i

i

i

n X Y

X X Y

x x y

y

s e n

FONTE SS DF MS

MODELLO 16497.42 1 16497.42RESIDUO 1124.33 9 124.93TOTALE 17621.75 10

2

2

ˆ 2.262 11.18ˆ 0.312411.7

t s

x

INTERVALLO DI CONFIDENZA0.025

2t t ;

95%

ˆˆ 0.03s

0.2506 0.3734

95 VOLTE SU 100 IL VALORE DI β È COMPRESO TRA 0.25 E 0.37

0.01;1.9

0

132, 10.56

: 0; ;

F F

H F F RESPINTA

Page 55: 1 Università degli Studi di Siena Facoltà di Economia R.M. GOODWIN Corso di Statistica Economica I Laura Neri

55

1

22 2

52876.360.97

169495.64 17619.64

i i

i i

x yr

x y

LEGAME LINEARE POSITIVO E MOLTO ELEVATO, PARI AL 97% DEL MASSIMO VALORE POSSIBILE

VERIFICA D’IPOTESI DISGIUNTA PER β

ˆ

ˆ 0.31210.4

0.03t

s

0 : 0H È RESPINTA

Quindi la variabile veicoli circolanti risulta significativa

0.025;9 2.262t t