View
1.070
Download
2
Category
Preview:
Citation preview
Departament d’estadísticoa
Grup d’estadísticoa Computacional
Introducción a la metodología bootstrap
Jordi OcañaDepartament d’estadísticoa
Secció Departamental de BiologiaUniversitat de Barcelona
Departament d’estadística
Puntos a tratar
Elementos de un problema de inferencia estadísticoa
Determinación de la distribución muestral (o de alguna de sus características)
Principio “plug-in” y bootstrap Principio de Montecarlo y bootstrap Necesaria correspondencia entre
“mundo real” y “mundo bootstrap” Ejemplos
Departament d’estadística
Procesamiento
Elementos de un problema de inferencia estadística
“los datos”
Xxmuestra observada
( )t x estadísticos( ), ,R t F x Medidas de
precisióny
khi2
(5)
0 2 4 6 8 10 12 14
0.0
0.05
0.10
0.15
Estudio experimental u observacional
Modelo probabilístico,
mecanismo “generador” de
los datos
F Î F
Departament d’estadística
13.1, 12.2, 15.5, ...
Medimos la presión sanguinea sistólica de una muestra aleatoria de individuos de una población
Elementos de un problema de I.E. Ejemplo introductorio
( )( )
1
1,
ˆ
n
ii
x nx x t
n sm
=
-= =å x
Normal de media y varianza
desconocidas
( ) ( )( )2
2212
1; , 2
ixn
if e
msms s p-
--
== Õx( )1, , nx x=x K
muestra aleatoria simple de tamaño n
y
t(2
0)
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Departament d’estadística
Distribución exacta de la media muestral
Llamemos G a la distribución del estadístico , G = G(F(;,),...)X
Bajo fuerte suposición sobre la forma de F (normalidad), forma de G conocida de manera exacta: N(,n), para todo n
Dependiente de parámetros desconocidos: ,. En la práctica, aproximación
2ˆ,N
ns
mæ ö÷ç ÷ç ÷çè ø
( )
válida solamentepara estimarvar X
Departament d’estadística
Distribución muestral exacta del estadístico t
Llamemos H a la distribución del estadístico t(X), H = H(F(;,),...)
Bajo fuerte suposición sobre la forma de F (normalidad), conocida de forma exacta: t de Student con n 1 g.d.ll
Gracias al carácter pivotal de t(x), no depende de parámetros desconocidos
Pero que pasa bajo otras formas de F?
Departament d’estadística
Distribución muestral bajo condicions más generales
Según el Teorema Central del Límite, si n “grande”( )2, / ,en la prácticaX N nms»
( ) ( )2 2ˆ ˆ, / (p.e. , / )X N n N x s nms»
Igualmente, según el T. C. L., es razonable la aproximaciónn t N(0,1)
Casos más generales más problemáticos:
( )( )( )
, ,ˆ nU
n UU
qs
-XX K
Departament d’estadística
Esquema general de estas aproximaciones
Determinación previa de la forma de la distribución muestral, G(,...)=G(F(;),...)
x
dn
orm
(x)
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Ajuste de los parámetros de la distribución muestral, G( , ,...)
q h
x
dn
orm
(x, m
ea
n =
0.5
, sd
= 0
.75
)
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
0.5
Departament d’estadística
Principio “plug-in” y bootstrap (en sentido amplio)
Fijémonos en el paso G = G(F(;,),...)
Si es una buena estimación de F a partir de los datos, parece razonable aproximar G mediante
F
( )ˆ,G F K
Principio “plug-in”
Metodologia bootstrap inferencia basada en el Principio “plug-in”
Departament d’estadística
A menudo es la distribución empírica, Fn, discreta, que assigna probabilidad 1/n a cada valor muestral y 0 a cualquier otro
F
Ejemplo: aplicación automàtica del Principio “plug-in”
Si interessa característica concreta como ( )
( )varvar F
F
XX
n=
Según Principio “plug-in”:
( )( ) 2var
var n
n
FF
X sX
n n= =
Departament d’estadística
( )( )( )
( ) ( )( )
( ) ( )
2
1
22 2
1
var
1
1
n n
n
n n
n
F FF
n
iF Fi
n
iFi
E X E XX
n
E X x x E Xn
E X x x x sn
=
=
-=
= = =
- = - =
å
å
( )( )( )
( ) ( )( )
( ) ( )
2* **
* *
1
2 2* 2
1
var
1
1
n n
n
n n
n
F FF
n
iF Fi
n
iFi
E X E XX
n
E X x x E Xn
E X x x x sn
=
=
-=
= = =
- = - =
å
å
Detalles del cálculo anterior
Conveniencia de notación X* en lugar de X: no es la misma v.a
Departament d’estadística
Dificultades en la aplicación del Principio “plug-in”
No tan (o a veces nada) clara su aplicación en situaciones más complejas: otras características de la distribución
muestral, incluso para estadísticos sencillos como la media muestral (p.e. un cuantil, ...)
otros estadísticos que no sean medias ni funciones senzilles de medias
determinación de la distribución muestral completa ( )ˆ;G F
Departament d’estadística
El método de Montecarlo
( ) ( )
( ) ( )
( ) ( )
1 11 1 1 1
2 21 2 2 2
1
, ,
, ,
, ,
n
n
m mn m mm
F
x x U u
x x U u
x x U u
= =
= =
= =
¯x
x
x
xx
x
K a
K a
M
K a
Modelo probabilístico, completamente especificado ( )2p.e. réplicas ,n N iidms
Generación de m muestras independientes (o no) según F
(gran) muestra de m valores del estadístico
“Leyes de los grandes números”( )
( )
2
1
1( ) var
1ˆ ; , etc.
m
j Fj
u u Um
G G F=
- @-
@
å
Departament d’estadística
Generación de B “remuestras” de tamaño n (muestras aleatorias con reemplazo de los elementos de x)
Bootstrap y Montecarlo
( ) ( )( ) ( )
( ) ( )
1 11 1 1 1
2 21 2 2 2
1
* * * * *
* * * * *
* * * * *
ˆ
, ,
, ,
, ,
n
n
B B Bn B B
F
x x U u
x x U u
x x U u
= =
= =
= =
¯
x
x
x
x
x
x
K a
K a
M
K a
estimación del Modelo probabilístico, { }*
* * * 11
si , ,p.e.
0 en caso contrario
nx x xnP X x
ìï Îïïé ù= = íë û ïïïî
K
muestra de B valores del estadístico“Leyes de los grandes números”( )
( )
* * 2 *ˆ
1*
1( ) var
1ˆ ˆ; , etc.
b
B
Fb
u u UB
G G F=
- @-
@
å
Departament d’estadística
Qué estimamos a partir del Montecarlo bootstrap?
( ) ( ) ( )
( ) ( )
· ( ) ( ) ( ) ( )
( )
( ){ }( ) ( )[ ]
*
* * *1
* *ˆ*
1
2* * *ˆ*
1
** *
ˆ*
"Verdadero"MontecarloPlug-in valor delbootstrap
funcional
ˆ ˆ ˆ, , ; ;
1
1var var var
1
#ˆ
B
B
b FFb
B
b FFb
bFF
G G u u G F G F
u u E U E UB
U u u U UB
u UP U U P U U P U U
B
=
=
@ @
= @ @
= @ @
= - @ @-
³é ù é ù³ = @ ³ @ ³ë û ë û
å
å
xx x x
K
Problema “clásico” de precisión
estadística
Error de aproximación de Montecarlo
Departament d’estadística
Validez de la aproximación bootstrap
Resultado general (pero no muy útil): Según Leyes de los grandes números, Fn(x)
tiende (en diversos sentidos) hacia F(x). Extensible a funciones suficientemente “suaves”
Validez: resultado sobre funcionales, funciones globales de Fn (u otras estimaciones) y de F: teoremas límite sobre distancias entre distribuciones
Más interés práctico: comparación entre aproximación bootstrap y otras, para n finito
Departament d’estadística
Características generales de los ejemplos
Modelo probabilístico subyacente conocido
Normal = 15, = 3, o bien Exponencial = 1/ = 1/15
( distribución muestral conocida) Análisis de única muestra (pequeña, n =
10), generada según uno u otro modelo. caso normal: 15.54, 21.06, 16.52, 13.62,
16.14, 10.98, 13.53, 16.02, 16.79, 15.90 caso exponencial: 8.51, 8.71, 69.19, 10.05,
23.64, 8.67, 1.51, 20.36, 1.23, 5.27
Departament d’estadística
Características generales de los ejemplos
estadísticos: media muestral y t aproximaciones: normal, bootstrap no
paramétrico y bootstrap paramétrico aproximaciones bootstrap: estima
“kernel” a partir de B = 1000 valores del estadístico (media o t, según el caso)
Cada uno de estos valores calculado sobre una remuestra de tamaño n = 10
Departament d’estadística
Media muestral, caso normal: n = 10, = 15, = 3
( )Verdadera distribución: 15,3/ 10X N:
( )Aproximación normal:
ˆ15.62, / 2.63/ 10X N x s n» = =
( )( )
1
* *
* * *
Bootstrap: 1000 valores para remuestras , ,
n
x Xx x
==
xx K
*: cada escogido con probabilidad1/ entre los de la no paramétri
muestra ori nc
alo
giix
n
( )*: cada generado segúnpar amét 15.ric 6 .o 2,263ix N
Departament d’estadística
Media muestral, caso normal: Verdadera densidad, aprox normal, bootstrap no paramétrico y paramétrico
rang.xBarra
de
ns.
veri
tat
12 13 14 15 16 17
0.0
0.1
0.2
0.3
0.4
0.5
rang.xBarra
de
ns.
no
rmA
pro
x
12 13 14 15 16 17
0.0
0.1
0.2
0.3
0.4
0.5
dens.bootstrap$x
de
ns.
bo
ots
tra
p$
y
12 13 14 15 16 17 18
0.0
0.1
0.2
0.3
0.4
0.5
dens.bootstrap.param$x
de
ns.
bo
ots
tra
p.p
ara
m$
y
12 13 14 15 16 17 18
0.0
0.1
0.2
0.3
0.4
0.5
Departament d’estadística
Media muestral, caso exponencial: = 1/ = 1/15
( )Verdadera distribución: 10/ 15,10X Gam:
( )Aproximación normal:
ˆ15.71, / 20.13/ 10X N x s n» = =
( )( )
1
* *
* * *
Bootstrap: 1000 valores
remuestras , , , 1, ,b nb
b b
b
B x X
x x b B
= =
= =
x
x K K*: cada elegido con probabilidad
1/ entre los de lano paramétri
muestra ori n lc
i ao
gibx
n
( )*: generados coparamét moric 1/ 15.7o 1ibx Exp
Departament d’estadística
Media muestral, exponencial: verdadera densidad, aprox normal, bootstrap no paramétrico y paramétrico
rang.xBarra
de
ns.
veri
tat
5 10 15 20 25
0.0
0.0
20
.04
0.0
60
.08
0.1
0
rang.xBarra
de
ns.
no
rmA
pro
x
5 10 15 20 25
0.0
0.0
20
.04
0.0
60
.08
0.1
0
dens.bootstrap$x
de
ns.
bo
ots
tra
p$
y
5 10 15 20 25
0.0
0.0
20
.04
0.0
60
.08
0.1
0
dens.bootstrap.param$x
de
ns.
bo
ots
tra
p.p
ara
m$
y
5 10 15 20 25
0.0
0.0
20
.04
0.0
60
.08
0.1
0
Departament d’estadística
Estadístico t, caso normal: n = 10, = 15, = 3
( )Verdadera distribución: 1 9t n - =t:
( )Aproximación normal: 0,1t N»
( )( )
1
* *
* * *
Bootstrap: 1000 valores para remuestras , ,
n
t tx x
==
xx K
*: cada escogido con probabilidad1/ entre los de la no paramétri
muestra ori nc
alo
giix
n
( )*: cada generado segúnpar amét 15.ric 6 .o 2,263ix N
Departament d’estadística
Detalle y justificación del proceso de remuestreo
( )
( )
( )
( )
( )
1, ,
1 2ˆˆ (
"Mundo
)1
real"
,
1
ˆ
nx x
x X
ns S x xin i
n xt
s
E X F
F
m
m
¯
=
¯
=
= = -å- =¯
-=
=
x
x
x
K
( )
( )
( )
( )
( )
*
* * *1
* *
* * * *
**
*
"Mundo bootstrap"
ˆ ,
, ,
1 2ˆˆ ( )1 1
ˆ
n
n
i
x x
x X
ns S x x
n i
n x xt
E
s
x X F
nFm= =
¯
=
¯
=
= = -å- =¯
-=
x
x
x
K
Departament d’estadística
Estadístico t, normal: verdadera densidad, aprox normal, bootstrap no paramétrico y paramétrico
rang.t
de
ns.
veri
tat
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
rang.t
de
ns.
no
rmA
pro
x
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
dens.bootstrap$x
de
ns.
bo
ots
tra
p$
y
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
dens.bootstrap.param$x
de
ns.
bo
ots
tra
p.p
ara
m$
y
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Departament d’estadística
Estadístico t, exponencial: n = 10, = 1/ = 1/15
Verdadera distribución:estimada por simulación
( )Aproximación normal: 0,1t N»
( )( )
1
* *
* * *
Bootstrap: 1000 valores para remuestras , ,
n
t tx x
==
xx K
*: cada escogido con probabilidad1/ entre los de la no paramétri
muestra ori nc
alo
giix
n
( )*: cada generado segúpar n amétr 1/ 15.62ico ix Exp
Departament d’estadística
Estadístico t, exponencial: verdadera dens, aprox normal, boot no paramétrico y paramétrico
dens.veritat$x
de
ns.
veri
tat$
y
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
rang.t
de
ns.
no
rmA
pro
x
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
dens.bootstrap$x
de
ns.
bo
ots
tra
p$
y
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
dens.bootstrap.param$x
de
ns.
bo
ots
tra
p.p
ara
m$
y
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Departament d’estadística
Caso exponencial, t, n = 40
dens.veritat$x
de
ns.
veri
tat$
y
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
rang.t
de
ns.
no
rmA
pro
x
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
dens.bootstrap$x
de
ns.
bo
ots
tra
p$
y
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
dens.bootstrap.param$x
de
ns.
bo
ots
tra
p.p
ara
m$
y
-4 -2 0 2 4
0.0
0.1
0.2
0.3
0.4
Recommended