Download pdf - Máximo Camacho Alonso Universidad de Murcia … · [email protected]. Maximo Camacho Estimación no-paramétrica 2 Contenido del tema ... • Estimación de funciones – Nadaraya-Watson

Maximo Camacho Estimación no-paramétrica 1

Estimación no-paramétrica

Máximo Camacho Alonso

Universidad de Murcia

www.um.es/econometria/tecpre

[email protected]


Contenido del tema• Introducción: ventajas e inconvenientes• Estimación función de densidad

– Algunos tipos de estimación– Propiedades asintóticas– El papel del kernel– El papel de la ventana

• Estimación de funciones– Nadaraya-Watson– Predicción


1. Introducción

• Estimación paramétrica

• Estimación no-paramétrica

• Ventajas

• Inconvenientes


• Supongamos que– Disponemos de n observaciones de y, x.– Pensamos

yt = m(xt) + et

• Deseamos estimar– Función de densidad de y– La función m

1. Introducción


1. Introducción

• Supuesto 1: m es lineal

• Supuesto 2:

– Implica

• Estimamos a, b, σ

ttt ebxay ++=

),0(Ne 2σ≈

1.1. Estimación paramétrica

),(/ 2σttt bxaNxy +≈

)ˆ,ˆˆ(/ˆ 2σttt xbaNxy +≈


• No exigimos a priori que– la densidad de y– la función m

pertenezcan a una familia paramétrica

• Trataremos de estimarlas dejando que losdatos “hablen por sí mismos”

1. Introducción1.2. Estimación no-paramétrica


• Principio de parquedad

• Método flexible– ¿Qué método paramétrico?

• Fácil de implementar

• Evitamos el error al elegir– funciones de densidad erróneas– m errónea

1. Introducción1.3. Ventajas


• Muestras grandes

• Existen varios no-paramétricos– ¿Qué método usar?

• Resultados menos intuitivos

• Inferencia

1. Introducción1.4. Inconvenientes


2. Funciones de densidad• Introducción• Tipos de estimación no-paramétrica

– Histograma– Kernel– Kernel adaptativa– “Vecino más cercano”

• Estimación kernel– Propiedades– Datos multivariantes


• Densidad univariante

• Ejemplo– Copas y Fryer (1980)– yt duración 86 pacientes tras suicidio

– Nótese:• y > 0• y suele ser pequeña

2. Estimación funciones densidad2.1. Introducción


• Histograma

• Kernel: Rosenblatt (1956)

• Vecino más cercano: Loftsgaarcen y Quesenberry

(1965)

• Kernel variable: Breiman, Meisel y Purcell (1977)

2. Estimación funciones densidad2.2. Tipos de estimación no-paramétrica



• Sean:– Un punto de partida y0

– Un radio h

• Para cada natural m se define– La bola [ y0+mh, y0+(m+1)h ), m = 0,1,2,...

1. Histograma

nhB#

)y(f ii =


0

0,001

0,002

0,003

0,004

0,005

0,006

0,007

0,008

0,009

-50

10

70

130

190

250

310

370

430

490

550

610

670

730

790


1. Histograma

• y0 = -50• h = 30



1. Histograma

• Ventajas– Fácil aplicación

• Inconvenientes– Depende de y0

– Discontinuidades:no derivadas

– Múltiplesexplicativas



2. Estimación kernel: definiciones

• Una función de densidad f(y) satisface:

1.

2. f (y) ≥ 0

• Una función kernel K(y) sólo satisface 1

∫∞

∞−

=1dy)y(f



2. Estimación kernel: estimador

• Definimos estimador kernel:

• Simplificamos: K es la normalestandarizada

∑

−=

=

n

i

i

hyyK

nhyf

1

1)(ˆ



2. Estimación kernel: intuición

∑=

−=

n

1i

i )h

yy(Knh1)y(f

y

F(y )

xx xx xxx



2. Estimación kernel: el papel de h

y

F(y )

x xxxx

∑=

−=

n

1i

i )h

yy(Knh1)y(f



2. Estimación kernel: kernel a examen

• Ventajas: ciertos K– función densidad– continua– diferenciable

)y(f

)y(f

)y(f

• Inconvenientes– Elección de K, h– h fija: problemas en

distribicionesasimétricas




h=15

-200 -50 100 250 400 550 700 850




h=60

-200 -50 100 250 400 550 700 850



3. Estimación kernel adaptativa

• Definimos

• λi adapta la ventana a cada observación: resta peso

a observaciones “aisladas”

∑=

−=

n

1i i

i

i

)h

yy(Kh1

n1)y(f

λλ



3. Estimación kernel adaptativa

-200 -50 100 250 400 550 700 850



4. Estimación “vecino más cercano”

• Consideremos: d (x,y) = | x - y |

• Ordenamos: d1 (y) ≤ d2 (y) ≤ ... ≤ dn (y)dn ( y ) = distancia entre ( observación más lejana a y, y )

• Definimos

• Ventana grande (curva suave) en obs. atípicas

∑=

−=

n

1i k

i

k )y(dyyK

)y(nd1)y(f k ~ n ^ (1/2)



4. Estimación “vecino más cercano”

-200 -50 100 250 400 550 700 850


2. Estimación funciones densidad2.3. Estimación Kernel

1. Supuestos adicionales

• K simétrica

∫ = 1dt)t(K

∫ = 0dt)t(tK

∫ ≠= 0kdt)t(Kt 22

• f derivadascontinuas decualquier orden



2. Error Cuadrático Medio: definición

( ) dy)y(f)y(fEECM2

∫ −=

{ }∫ −= dy)y(fE)y(f2

{ }∫ −+ dy)y(fE)y(fE2 !!!! (varianza) dy

!!!!(sesgo)2 dy



2. Error Cuadrático Medio: sesgo

!!!!(sesgo)2 dyAplicar propiedades de K Expansión de Taylor

( ) ∫≅ dy)y(''fkh41 22

24

(Aumenta con h)



2. Error Cuadrático Medio: varianza

!!!!varianza dyAplicar propiedades de K Expansión de Taylor

∫≅ dy)y(Knh1 2

(Disminuye con h)



3. El papel de la ventana

• h: aumenta sesgo y diminuye varianza

• .

– minimiza el ECM– pequeña para

• n grande• densidades fluctuación rápida

• hNopt = 1.06 σ n-1/5

( ) ( ) ( ) 5/15/125/125/22opt ndy)y(''fdt)y(Kkh −−− ∫∫=



4. El papel del Kernel

• Es mínimo para Epanechnikov (Ke)

• Compararemos ECM de otras Kernel conKe para analizar eficiencia relativa

ECMopt = ( )∫ dy)y(K,''f,ng 2



4. El papel del Kernel

Epanechnikov

Gausiana

Rectangular

<

−

resto0

5|y|5/y511

43 2

)y)2/1exp((2/1 2π

1/2 para |y | < 1, y 0 resto

Kernel K(t) Eficiencia

1

0.95

0.93



4. Elección de h

• Validación cruzada máximo verosímil

• h tal que maximiza

• Buscando entre ( 1/4 hNopt , 3/2 hNopt )

∑==

−

n

iii yf

nhVCMV

1)(ˆlog1)(



5. Propiedades asintóticas

• Consistencia puntual. Bajo f continua y:

– ! |K(y)| dy < ∞ , !K(y)dy = 1

– | y K(y) | → 0 si | y | → ∞

– hn→ 0 y nhn→ ∞ si n → ∞

entonces)y(f)y(f →

p



5. Propiedades asintóticas

• Consistencia funcional.– Bajo los supuestos anteriores

– K no negativa

entonces, con probabilidad 1:

0|)()(ˆ| →∫ − dyyfyf



6. Datos multivariantes

• Suponemos Yi vector d-dimensional

• Definición

• Ejemplo: si el Kernel es gausiano

( )∑=

−=

n

1iid YY

h1K

nh1)Y(f

( ) )Y'Y2/1exp(2)Y(K 2/d −= −π



6. Datos multivariantes: consideraciones

• Gran importancia de las colas

• n grande. Ej.: para asegurar ECM (y = 0) < 0.1

– d = 3.............n > 67

– d = 5.............n > 770

– d = 10............n > 850.000


3. Estimación de funciones

• Introducción• Nadaraya-Watson

– Estimación– Propiedades asintóticas

• “Vecino más cercano”

• Muchas variables explicativas

• Predicción


3. Estimación de funciones3.1. Introducción

• Disponemos {yt , xt } i=1,...,n

• Suponemos yt = m(xt) + et

• Tratamos de estimar m (x) sin hacer ningún

supuesto previo sobre la naturaleza de m


3. Estimación de funciones3.2. Nadaraya-Watson : estimador

• Si E (e / x) = 0

• m (x) = E (y / x) = !!!! y f (y / x) dy

= !!!! y f (y , x) / f (x) dy

• El estimador natural de– f (x) es K (x)

– f (y , x) = K (y , x)


3. Estimación de funciones3. 2. Nadaraya-Watson: estimador

• Bajo los supuestos K

– Media 0: !!!! y K (y , x) dy = 0

– Marginalizable: !!!! K (y , x) dy = K (x)

• Nadaraya y Watson (1964)

iii

ii

y)x(w

hxxK

yh

xxK)x(m ∑∑

∑=

−

−

=


3. Estimación de funciones3. 2. Nadaraya-Watson: propiedades asintóticas

• Si K satiface– !!!! | K (u) | du < ∞

– lim u K(u) = 0 , cuando |u |→ ∞

• m(x), f(x), σ2 (x) continuas en x• f(x) > 0entonces

)x(m)x(m p→ ∞ →

→∞→nnh

0hsi


3. Estimación de funciones3. 2. Nadaraya-Watson: ECM

( ) dy)x(m)x(mEECM2

∫ −=

= !!!!(sesgo)2 dy + !!!!varianza dy

= h4 B2(x) + n-1 h-1 V(x)

donde B2(x) y V(x) dependen de:

m, f y var(x)


3. Estimación de funciones3. 2. Nadaraya-Watson: papel de h

Serie: tasa crecimiento US GDP 1947.2-2000.3

Serie real Serie estimadah = 0.01


3. Estimación de funciones3. 2. Nadaraya-Watson: papel de h

Serie: tasa crecimiento US GDP 1947.2-2000.3

h = 2 Serie estimadaSerie real


3. Estimación de funciones3. 2. Nadaraya-Watson: elección de h

• Härdle y Vieu (1990)

• Para series temporales: validación cruzada

• h que minimiza

∑≠−

=ji

jjii )x(wy1n

1)x(mcon

( )∑=

−=n

1i

2iii )x(my

n1)h(CV


3. Estimación de funciones3. 3. Estimación vecino más cercano

donde wki (x) = n / k si xi es una de las kobservaciones más cercanas a x (0 en otro caso)

• Efectos de k– k >= n ⇒ serie estimada = media de y– k = 1 ⇒ serie estimada = serie real

∑−= iki1 y)x(wn)x(m


3. Estimación de funciones3. 3. Estimación vecino más cercano

• Ejemplo. Queremos m(4) con k = 3 en:

• m(4) = (5+5+6)/3

xy

1 2 3 4 52 4 5 5 6

w 0 0 1/3 1/3 1/3


3. Estimación funciones3.4. Datos multivariantes

• ↑ variables explicativas ⇒ ↑ ↑ n

• Reducción de la dimensión d → d’"5

– Proyection Pursuit

(eliminar las que más disminuyan la varianza)

– Análisis de componentes informativos(eliminar las que menos aumentan el sesgo)


• Ver comentarios de predicción en STAR

• Sólo a título orientativo, supongamos

– y1 , y2 , ... , yn

– yt = m( yt-1 ) + et

• Para predecir:

– Estimamos m con información hasta n

– Predecimos :

)...y(my)y(my

)y(my

2n3n

1n2n

n1n

++

++

+

===

3. Estimación funciones3.5. Predicción