80
Teoría de Muestreo Yves Tillé Groupe de Statistique, Université de Neuchâtel Espace de l’Europe 4, Case postale 1825, 2002 Neuchâtel , Suisse email : [email protected] 18 de enero de 2005

Curso Teoria de Muestreo

Embed Size (px)

Citation preview

Page 1: Curso Teoria de Muestreo

Teoría de Muestreo

Yves TilléGroupe de Statistique, Université de Neuchâtel

Espace de l’Europe 4, Case postale 1825, 2002 Neuchâtel , Suisseemail : [email protected]

18 de enero de 2005

Page 2: Curso Teoria de Muestreo

Índice general

1. Población, diseño muestral, y estimación 41.1. Población finita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2. Plan de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4. Estimación de N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5. Mala propiedad del estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . . . . 61.6. El problema de los elefantes de Basu (1971) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2. Muestreo simple 72.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.) . . . . . . . . . . . . 72.2. La varianza del plan simple sin reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . 82.3. Algoritmo de selección-rechazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.4. Planes simples con reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.5. Comparación de los planes simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3. Estratificación 113.1. Población y estratos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.2. Muestra, probabilidad de inclusión , estimación . . . . . . . . . . . . . . . . . . . . . . . . . 123.3. Probabilidad de inclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.4. Plan estratificado con afijación proporcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.5. Plan estratificado óptimo para el total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.6. Nota sobre la optimalidad en estratificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.7. Optimalidad y coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.8. Tamaño de muestra mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4. Planes con conglomerados, multi-etápicos, y multi-fases 184.1. Planes con conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.1.1. Notación y definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.1.2. Selección de los conglomerados con probabilidades iguales . . . . . . . . . . . . . . . . 204.1.3. El plan sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.2. Plan bietápico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2.1. Población, unidades primarias y secundarias . . . . . . . . . . . . . . . . . . . . . . . . 214.2.2. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2.3. Selección de las unidades primarias con probabilidades iguales . . . . . . . . . . . . . . 254.2.4. Plan bietápico autoponderado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.3. Planes multi-etápicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.4. Muestreo en dos fases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

5. Muestreo con probabilidades desiguales 295.1. Información auxiliar y probabilidades de inclusión . . . . . . . . . . . . . . . . . . . . . . . . 295.2. Cálculo de las probabilidades de inclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295.3. Muestreo con probabilidades desiguales con reemplazamiento . . . . . . . . . . . . . . . . . . 305.4. Plan de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315.5. Muestreo de entropía máxima con tamaño fijo . . . . . . . . . . . . . . . . . . . . . . . . . . . 315.6. El diseño muestral sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1

Page 3: Curso Teoria de Muestreo

5.7. El método de escisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325.7.1. Escisión en dos partes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325.7.2. Escisión en M partes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.7.3. Plan con un soporte mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.7.4. Escisión en planes simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355.7.5. El método del pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355.7.6. Método de Brewer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.8. Varianza en planes con probabilidades desiguales . . . . . . . . . . . . . . . . . . . . . . . . . 36

6. Muestreo equilibrado 376.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376.2. Representación por un cubo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386.3. Muestras equilibradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386.4. La martingala equilibrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406.5. Implementación de la fase de vuelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406.6. Método simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416.7. Implementación de la fase de aterrizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416.8. Varianza en un plan equilibrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

7. Estimación con informaciones auxiliares y planes simples 427.1. Postestratificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

7.1.1. El problema y la notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427.1.2. El estimador postestratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437.1.3. Propiedad del estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

7.2. Estimación de calibración sobre márgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457.2.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457.2.2. Calibración sobre márgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467.2.3. Estimación de calibración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

7.3. La variable auxiliar es cuantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487.3.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487.3.2. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487.3.3. Estimación de diferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497.3.4. Estimación de razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497.3.5. Precisión del estimador de razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507.3.6. Estimación de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 507.3.7. Discusión de los tres métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517.3.8. Comparación del estimador de diferencia y del estimador de Horvitz-Thompson . . . 527.3.9. Comparación del estimador de razón y del estimador de Horvitz-Thompson . . . . . . 527.3.10. Comparación del estimador de razón y del estimador de diferencia . . . . . . . . . . . 527.3.11. Comparación del estimador de regresión con los otros estimadores . . . . . . . . . . . 52

8. Estimación con informaciones auxiliares y planes complejos 548.1. El problema y la notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 548.2. El estimador de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

8.2.1. Otra presentación del estimador de regresión . . . . . . . . . . . . . . . . . . . . . . . 558.2.2. Calibración del estimador de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . 568.2.3. Estimación de razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 568.2.4. Plan simple y estimación de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

8.3. Estimación de calibración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 578.3.1. El método . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 578.3.2. Elección de la pseudo-distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 588.3.3. El método lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 598.3.4. El método del “raking ratio” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 608.3.5. El método logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 628.3.6. El método lineal truncado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2

Page 4: Curso Teoria de Muestreo

9. Estimación de la varianza por linealización 659.1. Orden de magnitud en probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 659.2. Aproximación de la varianza por linealización . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

9.2.1. Linealisación de una función de totales . . . . . . . . . . . . . . . . . . . . . . . . . . . 699.3. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719.4. Linealización por etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 729.5. Descomposición en etapas de la linealización . . . . . . . . . . . . . . . . . . . . . . . . . . . . 729.6. Linealización del estimador de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

10.Referencias 74

3

Page 5: Curso Teoria de Muestreo

Capítulo 1

Población, diseño muestral, y estimación

1.1. Población finitaEl objetivo es estudiar una población finita

U = {1, . . . , N}

de tamaño N .La variable de interés y toma el valor yk, k ∈ U.

Vamos a estudiar una función de interés de los yk,

θ = f(y1, . . . , yk, . . . , yN ).

El total y la media

Y =∑

k∈U

yk, e Y =1N

k∈U

yk.

La varianzaσ2

y =1N

k∈U

(yk − Y )2.

La cuasivarianzaS2

y =1

N − 1

k∈U

(yk − Y )2.

1.2. Plan de muestreoUna muestra s es un subconjunto de la población

s ⊂ U.

Un diseno muestral p(s) es una distribución de probabilidad sobre todas las muestras posibles∑

s⊂U

p(s) = 1.

La muestra aleatoria S toma el valor s con la probabilidad

Pr(S = s) = p(s).

Las variables indicadoras son definidas por :

Ik ={

1 si la unidad k ∈ S0 si la unidad k /∈ S

4

Page 6: Curso Teoria de Muestreo

La probabilidad de inclusiónπk = E(Ik) = Pr(k ∈ S) =

s3k

p(s).

La probabilidad de inclusión de segundo orden:

πk` = E(IkI`) = Pr(k y ` ∈ S) =∑

s3k,`

p(s).

Además∆k` = Cov(Ik, I`)

{πk(1− πk) si k = `πk` − πkπ` si k 6= `

Si el diseño muestral es de tamaño fijo, entonces∑

k∈U

πk = n

`∈U

πk` = nπk (con )πkk = πk.

1.3. El estimador de Horvitz-ThompsonEl estimador de Horvitz-Thompson viene dado por

Yπ =∑

k∈S

yk

πk,

eY π =

1N

k∈S

yk

πk.

El estimador de Horvitz-Thompson es insesgado, si πk > 0, k ∈ U,

E(Yπ

)= E

(∑

k∈S

yk

πk

)

= E

(∑

k∈U

yk

πkIk

)

=∑

k∈U

yk

πkE (Ik)

=∑

k∈U

yk

πkπk

=∑

k∈U

yk

= Y.

La varianza del estimador de Horvitz-Thompson es

V ar(Yπ

)=

k∈U

y2k

π2k

πk(1− πk) +∑

k∈U

`∈U` 6=k

yky`

πkπ`∆k`. (1.1)

Se puede demostrar que con un tamaño fijo de muestra

V ar(Yπ

)=−12

k∈U

`∈U` 6=k

(yk

πk− y`

π`

)2

∆k`. (1.2)

5

Page 7: Curso Teoria de Muestreo

La varianza puede estimarse por

V ar(Yπ

)=

k∈S

y2k

π2k

(1− πk) +∑

k∈S

`∈S6=k

yky`

πkπ`

∆k`

πkl. (1.3)

Si el plan es de tamaño fijo,

V ar(Yπ

)=−12

k∈S

`∈S6=k

(yk

πk− y`

π`

)2 ∆k`

πk`. (1.4)

1.4. Estimación de N

Como N es un totalN =

k∈U

1,

podemos estimar N por el estimador de Horvitz-Thompson

Nπ =∑

k∈S

1πk

.

1.5. Mala propiedad del estimador de Horvitz-ThompsonEl estimador de Horvitz-Thompson tiene una mala propiedad, cuando la variable es constante, yk = C

Y π =1N

k∈S

yk

πk=

1N

k∈S

C

πk= C

1N

k∈S

1πk

= CNπ

N

1.6. El problema de los elefantes de Basu (1971)The circus owner is planning to ship his 50 adult elephants and so he needs a rough estimate of the total

weight of the elephants. As weighing an elephant is a cumbersome process, the owner wants to estimate thetotal weight by weighing just one elephant. Which elephant should he weigh ? So the owner looks back on hisrecords and discovers a list of the elephants’ weights taken 3 years ago. He finds that 3 years ago Sambo themiddle-sized elephant was the average (in weight) elephant in his herd. He checks with the elephant trainerwho reassures him (the owner) that Sambo may still be considered to be the average elephant in the herd.Therefore, the owner plans to weigh Sambo and take 50 y (where y is the present weight of Sambo) as anestimate of the total weight Y = Y1 + Y2 + . . . + Y50 of the 50 elephants. But the circus statistician ishorrified when he learns of the owner’s purposive samplings plan. “How can you get an unbiased estimate of Ythis way ?” protests the statistician. So, together they work out a compromise sampling plan. With the helpof a table of random numbers they devise a plan that allots a selection probability of 99/100 to Sambo andequal selection probabilities 1/4900 to each of the other 49 elephants. Naturally, Sambo is selected and theowner is happy. “How are you going to estimate Y?”, asks the statistician. “Why ? The estimate ought to be50y of course,” says the owner. Oh! No! That cannot possibly be right,” says the statistician, “I recently readan article in the Annals of Mathematical Statistics where it is proved that the Horvitz-Thompson estimatoris the unique hyperadmissible estimator in the class of all generalized polynomial unbiased estimators.”“What is the Horvitz-Thompson estimate in this case?” asks the owner, duly impressed. “Since the selectionprobability for Sambo in our plan was 99/100,” says the statistician, “the proper estimate of Y is 100y/99and not 50y.” “And, how would you have estimated Y,” inquires the incredulous owner, “if our samplingplan made us select, say, the big elephant Jumbo?” “According what I understand of the Horvitz-Thompsonestimation method,” says the unhappy statistician, “the proper estimate of Y would then have been 4900y,where y is Jumbo’s weight.” That is how the statistician lost his circus job (and perhaps became teacher ofstatistics!).

6

Page 8: Curso Teoria de Muestreo

Capítulo 2

Muestreo simple

2.1. Muestreo simple sin reemplazamiento (o muestro aleatorio sim-ple m.a.s.)

Definición 1 Un diseño muestral es aleatorio simple si todas las muestras de mismo tamaño tienen lamisma probabilidad de ser seleccionadas.

Existe solamente un solo plan simple de tamaño fijo.

p(s) =

(N

n

)−1

si #s = n

0 en caso contrario ,

donde (N

n

)=

N !n!(N − n)!

.

πk =∑

s3k

p(s) =∑

s3k

(N

n

)−1

=(

N − 1n− 1

) (N

n

)−1

=n

N, para todo k ∈ U.

Probabilidades de inclusión del segundo orden :

πk` =∑

s3k,`

p(s) =∑

s3k,`

(N

n

)−1

=(

N − 2n− 2

) (N

n

)−1

=n(n− 1)N(N − 1)

,

para todos k 6= ` ∈ U . Luego tenemos,

∆k` =

πk` − πkπ` =n(n− 1)N(N − 1)

− n2

N2= − n(N − n)

N2(N − 1)si k 6= `

πk(1− πk) =n

N

(1− n

N

)=

n(N − n)N2

si k = `.

(2.1)

Y π =1N

k∈S

yk

πk=

1N

k∈S

ykN

n=

1n

k∈S

yk.

Yπ =∑

k∈S

yk

πk=

k∈S

ykN

n=

N

n

k∈S

yk = NY π.

7

Page 9: Curso Teoria de Muestreo

2.2. La varianza del plan simple sin reemplazamiento

V ar[Yπ

]=

−12

k∈U

`∈U6=k

(yk

πk− y`

π`

)2

∆k` (2.2)

=12

k∈U

`∈U6=k

(ykN

n− y`N

n

)2n(N − n)N2(N − 1)

(2.3)

=N(N − n)

n

12N(N − 1)

k∈U

`∈U` 6=k

(yk − y`)2 (2.4)

= N2 N − n

N

S2y

n. (2.5)

Teorema 1 En un m.a.s., la cuesivarianza de la población es

S2y =

1N − 1

k∈U

(yk − Y )2,

y puede estimarse por

s2y =

1n− 1

k∈S

(yk − Y π)2

Demostración

E(s2y) = E

{1

n− 1

k∈S

(yk − Y π)2}

= E

12n(n− 1)

k∈S

`∈S` 6=k

(yk − y`)2

=1

2n(n− 1)

k∈U

`∈U` 6=k

(yk − y`)2E (IkI`)

=1

2n(n− 1)

k∈U

`∈U` 6=k

(yk − y`)2n(n− 1)N(N − 1)

=1

2N(N − 1)

k∈U

`∈U` 6=k

(yk − y`)2

= S2y .

2

2.3. Algoritmo de selección-rechazoFan, Muller y Rezucha (1962)y Bebbington (1975)

2.4. Planes simples con reemplazamiento

Selección con reemplazamiento de manera independiente S las unidades de la muestra son

y1, ..., yi, ..., ym

8

Page 10: Curso Teoria de Muestreo

Algorítmo 1

Cuadro 2.1: Método de selección-rechazo∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣∣

Definición k, j : entero;u : real;k = 0;j = 0;

Repetir mientras j < n

��������������

u = variable aleatoria uniforme a[0, 1[;∣∣∣∣∣∣Si u <

n− jN − k

∣∣∣∣seleccionar la unidad k + 1;j = j + 1;

sino pasar la unidad k + 1;k = k + 1.

Los yi son m variables aleatorias de varianza

σ2y =

1N

k∈U

(yk − Y )2.

Se puede estimar Y sin sesgo por

Y CR =1m

m∑

i=1

yi =1m

k∈eSyk.

La varianza de Y CR es

V ar(Y CR) =1

m2

m∑

i=1

V ar(yi) =1

m2

m∑

i=1

σ2y =

σ2y

m. (2.6)

y puede estimarse por

s2y =

1m− 1

m∑

i=1

(yi − Y CR)2.

La varianza del estimador de la media puede estimarse por

V ar(Y CR) =s2

y

m.

9

Page 11: Curso Teoria de Muestreo

2.5. Comparación de los planes simples

Cuadro 2.2: Planes simplesPlan simple Sin reemplazamiento Con reemplazamiento

Tamaño de la muestra n m

Estimador de la media Y SR =1n

k∈S

yk Y CR =1m

k∈eSyk

Varianza del estimador V ar(Y SR

)=

(N − n)nN

S2y V ar

(Y CR

)=

σ2y

m

Esperanza de la varianza E(s2

y

)= S2

y E(s2

y

)= σ2

y

Estimador de la varianza V ar(Y SR

)=

(N − n)nN

s2y V ar

(Y CR

)=

s2y

m

Ejercicio 1Seleccione una muestra de tamaño 4 en una población de tamaño 10 según un plan simple sin reemplazamientocon el método de selección-rechazo. Use las realizaciones siguientes de una variable aleatoria uniforme [0, 1]:

0, 375489 0, 624004 0, 517951 0, 0454450 0, 6329120, 246090 0, 927398 0, 32595 0, 645951 0, 178048.

10

Page 12: Curso Teoria de Muestreo

Capítulo 3

Estratificación

3.1. Población y estratosPoblación U = {1, ..., k, ..., N} dividida en H subconjuntos, Uh, h = 1, .., H, llamados estratos

H⋃

h=1

Uh = U y Uh

⋂Ui = ∅, h 6= i.

Siendo Nh el tamaño del estrato Uh.H∑

h=1

Nh = N.

El objetivo es estimar

Y =∑

k∈U

yk =H∑

h=1

k∈Uh

yk =H∑

h=1

Yh,

dondeYh =

k∈Uh

yk.

Y =1N

k∈U

yk =1N

H∑

h=1

k∈Uh

yk =1N

H∑

h=1

NhY h,

donde Y h es la media calculada en el estrato h

Y h =1

Nh

k∈Uh

yk.

Además, σ2yh representa la varianza del estrato h

σ2yh =

1Nh

k∈Uh

(yk − Y h

)2

y S2yh la cuasivarianza

S2yh =

Nh

Nh − 1σ2

yh.

La varianza total σ2y se logra por

σ2y =

1N

k∈U

(yk − Y )2 =1N

H∑

h=1

Nhσ2yh +

1N

H∑

h=1

Nh(Y h − Y )2. (3.1)

Esta igualdad es la descomposición clásica de la varianza, que se escribe

σ2y = σ2

y(intra) + σ2y(inter)

11

Page 13: Curso Teoria de Muestreo

donde σ2y(intra) es la varianza intra-estratos

σ2y(intra) =

1N

H∑

h=1

Nhσ2yh

y σ2y(inter) es la varianza inter-estratos

σ2y(inter) =

1N

H∑

h=1

Nh(Y h − Y )2.

3.2. Muestra, probabilidad de inclusión , estimaciónUn diseño muestral es estratificado si,- en cada estrato, se selecciona una muestra simple aleatoria de tamaño fijo nh

- la selección de una muestra en un estrato es independiente de selección de las muestras de los otros estratos.

Sh representa la muestra aleatoria seleccionada en el estrato h con el plan ph(.), donde ph(sh) = Pr(Sh = sh).La muestra aleatoria total es

S =H⋃

h=1

Sh.

Además, de manera general s representa un valor posible de S donde

s =H⋃

h=1

sh.

Figura 3.1: Plan estratificado

1

1 hU U

sss

U

H

H

h

El diseño muestral global es p(.) dondep(s) = Pr(S = s).

Por la independencia de las selecciones en cada estrato, tenemos

p(s) =H∏

h=1

ph(sh), s =H⋃

h=1

sh.

nh representa el tamaño de la muestra en el estrato h, tenemos

H∑

h=1

nh = n,

donde n es el tamaño de la muestra.

12

Page 14: Curso Teoria de Muestreo

3.3. Probabilidad de inclusiónSi la unidad k está en el estrato h,

πk =nh

Nh, k ∈ Uh.

Para calcular las probabilidades de inclusión de segundo orden, tenemos que separar dos casos :

En el caso donde las unidades k y ` están en el mismo estrato

πk` =nh(nh − 1)Nh(Nh − 1)

, k y ` ∈ Uh.

Si dos individuos k y ` están en dos estratos distintos,

πk` =nhni

NhNi, k ∈ Uh y ` ∈ Ui.

Se logra

∆k` =

nh

Nh

Nh − nh

Nhsi ` = k, k ∈ Uh

−nh(Nh − nh)N2

h(Nh − 1)si k y ` ∈ Uh, k 6= `

0 si k ∈ Uh y ` ∈ Ui, h 6= i.

(3.2)

El π-estimador

Yestrat =∑

k∈S

yk

πk=

H∑

h=1

Nh

nh

k∈Sh

yk =H∑

h=1

Yh,

y

Y strat =1N

k∈S

yk

πk=

1N

H∑

h=1

Nh

nh

k∈Sh

yk =1N

H∑

h=1

NhY h.

donde Yh es el estimador del total del estrato h

Yh =Nh

nh

k∈Sh

yk.

e Y h es la media de la muestra en el estrato h

Y h =1nh

k∈Sh

yk.

Como la selecciones son independientes entre los estratos y que los planes son simples en los estratos :

V ar(Ystrat

)= V ar

(H∑

h=1

Yh

)=

H∑

h=1

V ar(Yh

)=

H∑

h=1

NhNh − nh

nhS2

yh. (3.3)

La varianza de este estimador puede estimarse sin sesgo por

V ar(Ystrat

)=

H∑

h=1

NhNh − nh

nhs2

yh, (3.4)

dondes2

yh =1

nh − 1

k∈Sh

(yk − Y h)2, h = 1, ...,H.

13

Page 15: Curso Teoria de Muestreo

3.4. Plan estratificado con afijación proporcionalUn plan estratificado tiene una afijación proporcional, si

nh

Nh=

n

N, h = 1, ..., N.

Suponemos que nh = nNh/N son enteros. El estimador del total es

Yprop =H∑

h=1

Yh =N

n

k∈S

yk,

y el estimador de la media

Y prop =1N

H∑

h=1

NhY h =1n

k∈S

yk,

donde Y h es la media de la muestra en el estrato h e Yh es el estimador del total en el estrato h

Y h =1nh

k∈Sh

yk.

La varianza del estimador del total se simplifica

V ar(Yprop) =N − n

n

H∑

h=1

NhS2yh, (3.5)

y la varianza del estimador de la media viene dada por :

V ar(Y prop) =N − n

nN2

H∑

h=1

NhS2yh. (3.6)

Si N es grande, S2yh ≈ σ2

yh.

V ar(Y prop) ≈ N − n

nN2

H∑

h=1

Nhσ2yh =

N − n

N

σ2y(intra)

n. (3.7)

Comparación del plan estratificado con el muestro aleatorio simple.

V ar(Y srs) ≈ N − n

N

σ2y

n. (3.8)

La varianza del estimador de la media puede estimarse por :

V ar(Y prop) =N − n

nN2

H∑

h=1

Nhs2yh, (3.9)

dondes2

yh =1

nh − 1

k∈Sh

(yk − Y h)2, h = 1, ...,H.

3.5. Plan estratificado óptimo para el totalNeyman (1934)Se busca la afijación para los tamaños en la muestra n1, ..., nh, ..., nH que maximiza la varianza del estimadorde Horvitz-Thompson para un tamaño de muestreo fijo.Tenemos que minimizar

V ar(Ystrat) =H∑

h=1

NhNh − nh

nhS2

yh, (3.10)

14

Page 16: Curso Teoria de Muestreo

en n1, ..., nh, ..., nH sujeta a queH∑

h=1

nh = n. (3.11)

Podemos escribir la ecuación de Lagrange

L(n1, ..., nH , λ) =H∑

h=1

NhNh − nh

nhS2

yh + λ

(H∑

h=1

nh − n

).

Anulamos las derivadas parciales respecto a los nh e a λ, se logra

∂L∂nh

= −N2h

n2h

S2yh + λ = 0, h = 1, ..., H, (3.12)

y∂L∂λ

=H∑

h=1

nh − n = 0. (3.13)

Luego

nh =Nh√

λSyh, h = 1, ..., H. (3.14)

yH∑

h=1

nh = n =∑H

h=1 NhSyh√λ

.

Obtenemos√

λ =∑H

h=1 NhSyh

n. (3.15)

y finalmente

nh =nNhSyh∑Hh=1 NhSyh

, h = 1, ...,H. (3.16)

Nota

Hay un problema de redondeo,

Se puede obtener nh > Nh.

3.6. Nota sobre la optimalidad en estratificaciónSea una población dividida en dos estratos H = 2 donde queremos estimar la diferencia D = Y 1 − Y 2.El estimador

D = Y 1 − Y 2.

Como las selecciones de las muestras son independientes entre los estratos

V ar(D

)= V ar

(Y 1

)+ V ar

(Y 2

)=

N1 − n1

n1N1S2

y1 +N2 − n2

n2N2S2

y2. (3.17)

Se minimiza (3.17) sujeta a que n1 + n2 = n y se logra

nh =Syh√

λ, h = 1, 2,

donde λ es el multiplicador de Lagrange. Como n1 + n2 = n, se logra

nh =nSyh

Sy1 + Sy2, h = 1, 2.

15

Page 17: Curso Teoria de Muestreo

3.7. Optimalidad y costeEl problema es estimar un total Y para un coste fijado C. Minimizamos la expresión (3.10) sujeta a que

H∑

h=1

nhCh = C,

donde Ch es el coste de la entrevista en el estrato h.Obtenemos

nh =NhSyh√

λCh

, h = 1, ...,H,

H∑

h=1

nhCh = C,

donde λ es el multiplicador de Lagrange, y

nh =CNhSyh√

Ch

∑H`=1 N`Sy`

√C`

.

3.8. Tamaño de muestra mínimoOtra manera de abordar el problema es buscar la afijación que da el tamaño de muestra mínimo para unavarianza fijada.Sea

ah = nh/n, h = 1, ..., H,

entoncesH∑

h=1

ah = 1.

De (3.10),

V ar(Ystrat) =H∑

h=1

NhNh − nah

nahS2

yh. (3.18)

Buscamos entonces un valor mínimo de (3.18) en a1, ..., aH , para un valor fijado V ar(Ystrat) representadopor V . Sustituyendo (3.18) en V ar(Ystrat) por V , se logra

V =1n

H∑

h=1

N2h

ahS2

h −H∑

h=1

NhS2h,

lo que se puede escribir

n =

∑Hh=1

N2h

ahS2

h

V +∑H

h=1 NhS2h

. (3.19)

Entonces minimizamos

n =

∑Hh=1

N2h

ahS2

h

V +∑H

h=1 NhS2h

. (3.20)

en a1, ..., aH , sujeta a queH∑

h=1

ah = 1,

y después de algunos cálculos, tenemos

ah =NhSyh∑H`=1 N`Sy`

. (3.21)

16

Page 18: Curso Teoria de Muestreo

Se logra el mismo tipo de afijación . Finalmente se puede fijar el tamaño de la muestra

n∗ =

(∑Hh=1 NhSyh

)2

V +∑H

h=1 NhS2yh

.

Ejercicio 2Queremos estimar medias para las empresas de un departamento. Las empresas son clasificadas según elvolumen de negocios y son clasificadas en tres clases. Los datos de un censo son los siguientes :

Volumen de negocios Número de empresasde 0 a 1 1000de 1 a 10 100

de 10 a 100 10

Se quiere seleccionar una muestra de 111 empresas. Si se supone que la distribución es uniforme en cadaestrato, calcule la varianza del estimador de la media del volumen de negocios para un plan con representaciónproporcional y para un plan estratificado óptimo.

17

Page 19: Curso Teoria de Muestreo

Capítulo 4

Planes con conglomerados,multi-etápicos, y multi-fases

4.1. Planes con conglomerados

4.1.1. Notación y definiciónLa población U = {1, ..., k, ..., N} se divide en M subconjuntos, Ui, i = 1, .., M, llamados conglomerados

M⋃

i=1

Ui = U y Ui ∩ Uj = ∅, i 6= j.

El número Ni de unidades del conglomerado i se llama el tamaño del conglomerado :

M∑

i=1

Ni = N,

donde N es el tamaño de la población U . El total puede escribirse

Y =∑

k∈U

yk =M∑

i=1

k∈Ui

yk =M∑

i=1

Yi

y la media

Y =1N

k∈U

yk =1N

M∑

i=1

k∈Ui

yk =1N

M∑

i=1

NiY i,

e Yi es el total del conglomerado i e Y i la media del conglomerado i :

Yi =∑

k∈Ui

yk, i = 1, ..., M,

Y i =1Ni

k∈Ui

yk, i = 1, ..., M.

Además, σ2yi representa la varianza del conglomerado i

σ2yi =

1Ni

k∈Ui

(yk − Y i

)2

y S2yi la varianza corregida

S2yi =

Ni

Ni − 1σ2

yi.

Un plan es por conglomerados si

18

Page 20: Curso Teoria de Muestreo

se selecciona una muestra de conglomerados sI con un plan pI(sI), SI representa la muestra aleatoriatal que Pr(SI = sI) = pI(sI) y m = #SI , el número de conglomerados seleccionados.

Todas las unidades de los conglomerados seleccionados son observadas :

Figura 4.1: Plan con conglomerados

M-2 M-1 MU U UU U U U U 1 2 3 4 5U U U

i-1 i i+1

La muestra aleatoria completa viene dada por

S =⋃

i∈SI

Ui.

El tamaño de S esn =

i∈SI

Ni.

El tamaño de la muestra es generalmente aleatorio.La probabilidad de seleccionar un conglomerado es

πIi =∑

sI3i

pI(sI), i = 1, ...,M,

La probabilidad de seleccionar dos conglomerados distintos es

πIij =∑

sI3i,j

pI(sI), i = 1, ...,M, j = 1, ..., M, i 6= j.

Si la unidad k está en el conglomerado i, tenemos

πk = πIi, k ∈ Ui.

Para las probabilidades de inclusión del segundo orden hay que separar dos casos :

Si k y ` están en el mismo conglomerado i,

πk` = πIi, k y ` ∈ Ui.

Si k y ` no están en el mismo conglomerado respectivamente i y j,

πk` = πIij , k ∈ Ui y ` ∈ Uj , i 6= j.

Las condiciones de Sen-Yates-Grundy no se verifican.En efecto, si k y ` ∈ Ui, entonces

πkπ` − πk` = π2Ii − πIi = −πIi(1− πIi).

El estimador de Horvitz-Thompson del total y de la media son

Yπ =∑

i∈SI

Yi

πIi,

19

Page 21: Curso Teoria de Muestreo

y

Y π =1N

i∈SI

NiY i

πIi.

La varianza

V ar(Yπ) =M∑

i=1

Y 2i

πIi(1− πIi) +

M∑

i=1

M∑

j=1j 6=i

YiYj

πIiπIj(πIij − πIiπIj). (4.1)

Si el número de conglomerados es fijo,

V ar(Yπ) =12

M∑

i=1

M∑

j=1j 6=i

(Yi

πIi− Yj

πIj

)2

(πIiπIj − πIij). (4.2)

Estimación de la varianza

V ar(Yπ)1 =∑

i∈SI

Y 2i

π2Ii

(1− πIi) +∑

i∈SI

j∈SIj 6=i

YiYj

πIiπIj

πIij − πIiπIj

πIij. (4.3)

Cuando el número de conglomerados seleccionados es fijo, se puede construir otro estimador de esta varianzamediante (4.2)

V ar(Yπ)2 =12

i∈SI

j∈SIj 6=i

(Yi

πIi− Yj

πIj

)2πIiπIj − πIij

πIij.

Una aproximación practica (pero sesgada) es

V ar(Yπ)3 =∑

i∈SI

cIi

π2Ii

(Yi − Y ∗

i

)2

, (4.4)

donde

Y ∗i = πIi

∑j∈S cIjYj/πIj∑

j∈S cIj,

y dondecIi = (1− πIi)

m

m− 1.

En los planes por conglomerados, el estimador de Horvitz-Thompson tiene una mala propiedad.Si la variable es constante (yk = C, para todos k ∈ U), se logra

Y π = C1N

i∈SI

Ni

πIi.

En este caso, es preferible usar el razón de Hájek :

Y R =

(∑

i∈SI

Ni

πIi

)−1 (∑

i∈SI

Yi

πIi

).

4.1.2. Selección de los conglomerados con probabilidades igualesUn plan clásico es seleccionar los conglomerados por un m.a.s. de tamaño m.

πIi =m

M, i = 1, ..., M,

y

πIij =m(m− 1)M(M − 1)

, i = 1, ..., M.

20

Page 22: Curso Teoria de Muestreo

El tamaño de la muestra es aleatorio. Su esperanza es

E (nS) = E

(∑

i∈SI

Ni

)=

i∈UI

Nim

M=

Nm

M,

lo que permite construir el estimador de Horvitz-Thompson del total :

Y =M

m

i∈SI

Yi

y de la media

Y π =M

Nm

i∈SI

NiY i.

La varianza es

V ar(Y ) =M −m

M − 1M

m

M∑

i=1

(Yi − Y

M

)2

, (4.5)

y puede estimarse sin sesgo por

V ar(Y ) =M −m

m− 1M

m

i∈SI

(Yi − Y

M

)2

. (4.6)

4.1.3. El plan sistemáticoEl plan sistemático puede verse como un plan con conglomerados donde se selecciona un solo conglom-

erado.

4.2. Plan bietápico

4.2.1. Población, unidades primarias y secundariasSea la población U = {1, ..., k, ..., N} compuesta de M subpoblaciones, Ui, i = 1, ..., M, llamadas unidadesprimarias. Cada unidad Ui se compone de Ni unidades secundarias , tenemos

M∑

i=1

Ni = N,

donde N es el tamaño de la población U .De manera general, un plan bietápico se define de la manera siguiente :

Una muestra de unidades primarias es seleccionada con un plan pI(sI). SI representa la muestraaleatoria tal que Pr(SI = sI) = pI(sI) y m = #SI ;

Si una unidad primaria Ui se selecciona en la primera etapa Ui, se selecciona una muestra si de unidadessecundarias con el plan pi(si). Si representa la muestra aleatoria de unidades primarias seleccionadasde manera que Pr(Si = si) = pi(si) y ni = #Si.Los planes bietápicos tienen que tener las dos propiedades de invarianza y de independencia. La in-varianza significa que los planes pi(si) de la segunda etapa no dependen de lo que pasó en la primeraetapa, entonces Pr(Si = si) = Pr(Si = si|SI). La independencia significa que las selecciones de lasegunda etapa son independientes las unas de las otras (como en estratificación).

La muestra aleatoria viene dada porS =

i∈SI

Si.

Para la variable y, el total se escribe

Y =∑

k∈U

yk =M∑

i=1

k∈Ui

yk =M∑

i=1

Yi,

21

Page 23: Curso Teoria de Muestreo

Figura 4.2: Plan bietápico

M-2 M-1 MU U UU U U U U 1 2 3 4 5 i-1 i i+1 U U U

donde Yi es el total calculado en la unidad primaria i

Yi =∑

k∈Ui

yk, i = 1, ..., M.

Del mismo modo, la media calculada en la población se escribe

Y =1N

k∈U

yk =1N

M∑

i=1

k∈Ui

yk =1N

M∑

i=1

NiY i,

donde Y i es la media calculada en la unidad primaria i

Y i =1Ni

k∈Ui

yk, i = 1, ..., M.

σ2yi es la varianza en Ui

σ2yi =

1Ni

k∈Ui

(yk − Y i

)2,

y S2yi la varianza corregida

S2yi =

Ni

Ni − 1σ2

yi.

La muestra aleatoria total està formada par :

S =⋃

i∈SI

Si.

El tamaño de S esn =

i∈SI

ni.

El tamaño de S es generalmente aleatorio.Podemos definir- πIi : La probabilidad de seleccionar la unidad primaria Ui.- πIij , La probabilidad de inclusión del segundo orden para dos unidades primarias Ui y Uj .Estas probabilidades vienen del plan pI(sI). Al final, tenemos

∆Iij ={

πIij − πIiπIj si i 6= jπIi(1− πIi) si j = i.

(4.7)

- πk|i, la probabilidad de seleccionar la unidad k dado que i ha sido seleccionada- πk`|i la probabilidad de seleccionar conjuntamente k y ` dado que i ha sido seleccionada.

∆k`|i ={

πk`|i − πk|iπ`|i si k 6= `πk|i(1− πk|i) si k = `

, i = 1, ..., M. (4.8)

La probabilidad de inclusión de la unidad es

πk = πIiπk|i, k ∈ Ui.

Para las probabilidades de inclusión del segundo orden, hay que separar dos casos :

22

Page 24: Curso Teoria de Muestreo

Si dos unidades k y ` están en la misma unidad primaria Ui,

πk` = πIiπk`|i.

Si dos unidades k y ` están en dos unidades primarias distintas , Ui y Uj ,

πk` = πIijπk|iπ`|j .

4.2.2. El estimador de Horvitz-ThompsonEl estimador de Horvitz-Thompson del total es

Yπ =∑

i∈SI

k∈Si

yk

πIiπk|i=

i∈SI

Yi

πIi,

donde Yi es el estimador de Horvitz-Thompson de Yi

Yi =∑

k∈Si

yk

πk|i,

y el estimador de Horvitz-Thompson de la media por

Y π =1N

i∈SI

k∈Si

yk

πIiπk|i.

Teorema 2 En un plan bietápicoV ar(Yπ) = VUP + VUS ,

donde VUP es la parte que se refiere a las unidades primarias

VUP =M∑

i=1

M∑

j=1

YiYj

πIiπIj∆Iij ,

VUS es la parte que se refiere a las unidades secundarias

VUS =M∑

i=1

V ar(Yi)πIi

,

yV ar(Yi) =

k∈Ui

`∈Ui

yky`

πk|iπ`|i∆k`|i, i = 1, ...,M. (4.9)

DemostraciónLa varianza se divide en dos partes :

V ar[Yπ

]= V arE

[Yπ|SI

]+ EV ar

[Yπ|SI

].

La varianza de la esperanza condicional es

V arE[Yπ|SI

]= V arE

[ ∑

i∈SI

Yi

∣∣∣∣∣ SI

].

Por la propiedad de invarianza

E

[ ∑

i∈SI

Yi

∣∣∣∣∣ SI

]=

i∈SI

E[Yi

∣∣∣ SI

]=

i∈SI

E[Yi

]=

i∈SI

Yi

πIi.

Luego

V arE[Yπ|SI

]= V ar

[∑

i∈SI

Yi

πIi

]=

M∑

i=1

M∑

j=1

YiYj

πIiπIj∆Iij .

23

Page 25: Curso Teoria de Muestreo

La esperanza de la varianza condicional es

EV ar[Yπ|SI

]= EV ar

[ ∑

i∈SI

Yi

πIi

∣∣∣∣∣ SI

].

Por las propiedades de invarianza y de independencia

V ar

[ ∑

i∈SI

Yi

πIi

∣∣∣∣∣ SI

]=

i∈SI

V ar

[Yi

πIi

∣∣∣∣∣ SI

]=

i∈SI

V ar[Yi

]

π2Ii

.

Luego,

EV ar[Yπ|SI

]= E

i∈SI

V ar[Yi

]

π2Ii

=

M∑

i=1

V ar[Yi

]

πIi,

donde V ar[Yi

]es dado en (4.9). 2

Teorema 3 En un plan bietápicoV ar1(Yπ) = VUP + VUS

es un estimador insesgado de V ar(Yπ), donde VUP es la parte de la varianza que se refiere a las unidadesprimarias

VUP =∑

i∈SI

j∈SI

YiYj

πIiπIj

∆Iij

πIij,

(con πIii = πIi,) VUS es la parte de la varianza que se refiere a las unidades secundarias

VUS =∑

i∈SI

V ar(Yi)πIi

,

y

V ar(Yi) =∑

k∈Si

`∈Si

yky`

πk|iπ`|i

∆k`|iπk`|i

,

con πkk|i = πk|i.

DemostraciónComo

E[YiYj |SI

]=

{V ar(Yi) + Y 2

i si i = jYiYj si i 6= j,

E[VUP ] = EE

i∈SI

j∈SI

YiYj

πIiπIj

∆Iij

πIij

∣∣∣∣∣∣SI

= E

i∈SI

j∈SI

YiYj

πIiπIj

∆Iij

πIij+

i∈SI

V ar(Yi)π2

Ii

(1− πIij)

=M∑

i=1

M∑

j=1

YiYj

πIiπIj∆Iij +

M∑

i=1

V ar(Yi)(

1πIij

− 1)

.

24

Page 26: Curso Teoria de Muestreo

De otra parte

E[VUS ] = EE

[ ∑

i∈SI

V ar(Yi)πIi

∣∣∣∣∣ SI

]

= E

[∑

i∈SI

V ar(Yi)πIi

]

=M∑

i=1

V ar(Yi)

=M∑

i=1

V ar(Yi)πIi

+M∑

i=1

V ar(Yi)(

1− 1πIi

).

Entonces tenemosE[VUP ] + E[VUS ] = V ar[Yπ].

2

Es importante ver que VUP es un estimador sesgado de VUP y que VUS es un estimador sesgado de VUS . Elestimador VUP sobrestima VUP y prácticamente VUP es a veces más grande VUS .De nuevo, hay un estimador más práctico, pero sesgado

V ar2(Yπ) =∑

i∈SI

cIi

π2Ii

(Yi −

Y ∗i

)2

+∑

i∈SI

1πIi

k∈Si

ck|iπ2

k|i

(yk − y∗k

)2

, (4.10)

dondeY ∗

i = πIi

∑j∈S cIj Yj/πIj∑

j∈S cIj,

cIi = (1− πIi)m

m− 1,

y∗k = πk|i

∑k∈Si

ck|iyk/πk|i∑k∈Si

ck|i,

ck|i = (1− πk|i)ni

ni − 1.

4.2.3. Selección de las unidades primarias con probabilidades igualesEn las dos etapas se usa un plan simple.Las probabilidades de inclusión para la primera etapa

πIi =m

M, i = 1, ...,M

y

πIij =m(m− 1)M(M − 1)

, i = 1, ..., M, j = 1, ...,M, i 6= j.

Para la segunda etapa ni, La probabilidad de inclusión para todo el diseño muestral

πk =mni

MNi.

El estimador de Horvitz-Thompson es

Yπ =M

m

i∈SI

k∈Si

Niyk

ni,

y su estimador de varianza se simplifica

V ar(Yπ) = M2 M −m

Mms2

I +M

m

i∈SI

N2i

Ni − ni

niNis2

i ,

25

Page 27: Curso Teoria de Muestreo

donde

s2I =

1m− 1

i∈SI

(Yi − Yπ

M

)2

,

y

s2i =

1ni − 1

k∈Si

(yk − Yi

Ni

)2

.

Se puede coger tamaños de muestras de unidades secundarios proporcionales a los tamaños de la población

ni = n0Ni

N,

Se lograπk|i =

n0

N, k ∈ Ui.

Al final, la probabilidad de inclusión para todo el diseño muestral

πk =n0mNi

MN.

Este plan tiene problemas importantes. El tamaño de la muestra nS es aleatorio, y es de media

E (nS) = E

( ∑

k∈SI

ni

)= E

( ∑

k∈SI

n0Ni

N

)=

k∈UI

n0Ni

N

m

M=

mn0Ni

N.

4.2.4. Plan bietápico autoponderadoEn la primera etapa, se selecciona las unidades primarias con probabilidades de inclusión proporcionales altamaño de las unidades primarias

πIi =Ni

Nm,

Se supone πIi < 1.En la segunda etapa se selecciona unidades secundarias según un plan aleatorio simple sin reemplazamientocon un tamaño de muestra ni = n0 constante (en cada unidad primaria).

πk|i =n0

Ni.

La probabilidad de inclusión es

πk = πIiπk|i =Ni

N

mn0

Ni=

mn0

N, k ∈ Ui.

Las probabilidades de inclusión son constantes para todas las unidades primarias de la población.El plan es de tamaño fijo.El estimador de Horvitz-Thompson del total es :

Yπ =N

n

k∈S

yk.

4.3. Planes multi-etápicosSuponemos que tenemos M unidades primarias y que el primer diseño muestral consiste en seleccionar munidades primarias con probabilidades de inclusión πIi para i = 1, ..., M. También SI representa la muestraaleatoria de unidades primarias seleccionadas. Suponemos que en cada unidad primaria, se puede calcular elestimador de Horvitz-Thompson Yi del total Yi para las m unidades primarias seleccionadas. El estimadorde Horvitz-Thompson del total viene dado por

Yπ =∑

k∈SI

Yi

πIi.

26

Page 28: Curso Teoria de Muestreo

Usando exactamente el mismo desarrollo que por los planes bietápicos, la varianza del estimador de Horvitz-Thompson es

V ar(Yπ) =M∑

i=1

M∑

j=1

YiYj

πIiπIj∆Iij , +

M∑

i=1

V ar(Yi)πIi

,

y puede estimarse sin sesgo por

V ar1(Yπ)2 =∑

i∈SI

j∈SI

YiYj

πIiπIj

∆Iij

πIij+

i∈SI

V ar(Yi)πIi

o por

V ar2(Yπ)2 =∑

i∈SI

cIi

π2Ii

(Yi −

Y ∗i

)2

+∑

i∈SI

V ar(Yi)πIi

,

donde

Y ∗i = πIi

∑j∈S cIjYj/πIj∑

j∈S cIj,

y dondecIi = (1− πIi)

m

m− 1.

Conclusión : la expresión es recursivaEl estimador de Horvitz-Thompson y su estimador de varianza se escribe como una función del estimadordel total y del estimador de la varianza calculada al nivel inferior.

Yπ = T(Yi, πIi, i ∈ SI

),

yV ar(Yπ) = Q

(Yi, V ar(Yi), πIi, i ∈ SI

).

El estimador V ar(Yi) puede igualmente escribirse como una función de las etapas inferiores.

4.4. Muestreo en dos fases- En la primera fase, se selecciona una muestra con cualquier plan pI(Sa) de tamaño n (eventualmente conun plan multi-etápico).- En la segunda fase, se selecciona una muestra Sb según otro diseño muestral en Sa con un plan p(sb|Sa) =Pr(Sb = sb|Sa).El plan de segundo etapa puede depender de lo que pasó en la primera etapa. Tenemos

πak = Pr (k ∈ Sa) ,

πak` = Pr (k y ∈ Sa) , k 6= `, con πakk = πak,

∆ak` ={

πak` − πakπa`, k 6= `πak(1− πak), k = `

ademásπbk = Pr (k ∈ Sb|Sa) ,

πbk` = Pr (k y ∈ Sb|Sa) , k 6= `, con πbkk = πbk,

∆bk` ={

πbk` − πbkπb`, k 6= `πbk(1− πbk), k = `

Los πbk, πbk` y ∆bk` son variables aleatorias que dependen de Sa.La probabilidad de inclusión de la unidad k es

πk = πakE(πbk).

27

Page 29: Curso Teoria de Muestreo

Pero esta probabilidad no puede ser calculada. Se estima el total por

YE =∑

k∈Sb

yk

πakπbk,

que no es el estimador de Horvitz-Thompson, en efecto no se divide los yk por las probabilidades de inclusión.Este estimador se llama : estimador por expansión. Es insesgado. En efecto,

E(YE

)= EE

( ∑

k∈Sb

yk

πakπbk

∣∣∣∣∣ Sa

)= E

( ∑

k∈Sb

yk

πak

).

La varianza del estimador por expansión Särndal y Wretman (1987).

Teorema 4

V ar(YE

)=

k∈U

`∈U

yky`

πakπa`∆ak` + E

( ∑

k∈Sa

`∈Sa

yky`

πakπbkπa`πb`∆bk`

),

Esta varianza puede estimarse por

V ara

(YE

)=

k∈Sb

`∈Sb

yky`

πakπa`

∆ak`

πak`πbk`+

k∈Sb

`∈Sb

yky`

πakπbkπa`πb`

∆bk`

πbk`. (4.11)

28

Page 30: Curso Teoria de Muestreo

Capítulo 5

Muestreo con probabilidades desiguales

Brewer y Hanif, 1983, Gabler, 1990

5.1. Información auxiliar y probabilidades de inclusiónVariable auxiliar x conocida sobre U .x es aproximadamente proporcional a y.Selección de las unidades con probabilidades de inclusión proporcional a x.Varianza

V ar(Yπ

)=

12

k∈U

`∈U6=k

(yk

πk− y`

π`

)2

(πkπ` − πk`). (5.1)

5.2. Cálculo de las probabilidades de inclusiónCalculamos

πk =xkn∑

`∈U

x`

, para todo k ∈ U.

Algunos de los πk pueden tener πk > 1.Estas unidades son incluidas en la muestra con una probabilidad 1.Se vuelve a empezar el cálculo sobre las unidades que quedan.Al final, tenemos dos grupos :- un primer grupo de unidades con probabilidades de inclusión iguales a 1- un segundo grupo con probabilidades de inclusión 0 < πk < 1 y proporcional a xk.

El problema es seleccionar n unidades con probabilidades de inclusión fijadas con

0 < πk < 1, para todo k ∈ U, tal que∑

k∈U

πk = n. (5.2)

Ejemplo 1. Si N = 6, n = 3, x1 = 1, x2 = 9, x3 = 10, x4 = 70, x5 = 90, x6 = 120, tenemos

X =∑

k∈U

xk = 300,

y entoncesnx1

X=

1100

,nx2

X=

9100

,nx3

X=

110

,nx4

X=

710

,nx5

X=

910

,nx6

X=

65

> 1.

La unidad 6 es seleccionada (con una probabilidad 1). Luego, volvemos a calcular las probabilidades deinclusión ∑

k∈U\{6}xk = 180,

29

Page 31: Curso Teoria de Muestreo

y entonces(n− 1)x1∑`∈U\{6} x`

=190

,(n− 1)x2∑`∈U\{6} x`

=110

,(n− 1)x3∑`∈U\{6} x`

=19,

(n− 1)x4∑`∈U\{6} x`

=79,

(n− 1)x5∑`∈U\{6} x`

= 1.

Las probabilidades de inclusión son

π1 =190

, π2 =110

, π3 =19, π4 =

79, π5 = 1, π6 = 1.

Dos unidades son seleccionadas con una probabilidad 1. El problema es reducido a la selección de una unidaden una subpoblación de tamaño 4.

5.3. Muestreo con probabilidades desiguales con reemplazamientoHansen y Hurwitz (1943).Sea

pk =xk∑

`∈U x`, k ∈ U,

y

vk =k∑

`=1

p`, con v0 = 0.

- u es una variable continua, uniforme en [0, 1[- se selecciona la unidad k tal que vk−1 ≤ u < vk.- esta operación es repetida m veces de manera independiente.yi es la iésima unidad seleccionada en la muestraY es estimado por el estimador de Hansen-Hurwitz

YHH =1m

m∑

i=1

yi

pi.

ComoE

[yi

pi

]=

k∈U

yk

pkpk = Y,

YHH es un estimador insesgado Y . En efecto,

E(YHH

)=

1m

m∑

i=1

E

(yi

pi

)=

1m

m∑

i=1

Y = Y.

Varianza :

V ar[YHH ] =1m

(∑

k∈U

y2k

pk− t2y

)=

1m

k∈U

pk

(yk

pk− Y

)2

, (5.3)

y puede estimarse por

V ar[YHH ] =1

m(m− 1)

m∑

i=1

(yi

pi− YyHH

)2

.

30

Page 32: Curso Teoria de Muestreo

5.4. Plan de PoissonCada unidad de U es seleccionada de manera independiente con una probabilidad de inclusión πk.

πk` = πkπ`,

∆k` = πk` − πkπ` = 0, para todos k 6= `.El diseño muestral viene dado por

p(s) =

{∏

k∈s

πk

k∈U\s(1− πk)

, para todos s ⊂ U. (5.4)

En un plan de Poisson, ∆k` = 0 cuando k 6= `,la varianza del estimador puede ser calculada simplemente

V ar[Yπ

]=

k∈U

πk(1− πk)y2k

π2k

, (5.5)

y puede estimarse por

V ar[Yπ

]=

k∈Se

(1− πk)y2k

π2k

. (5.6)

5.5. Muestreo de entropía máxima con tamaño fijoBuscamos un diseño muestral con la entropía máxima sobre el conjunto de todas las muestras de U de

tamaño fijo n.Sn = {s|#s = n}.

El problema es maximizarI(p) = −

s∈Sn

p(s) log p(s),

sujeta a que ∑

s3ks∈Sn

p(s) = πk, y∑

s∈Sn

p(s) = 1. (5.7)

Existe una solución pero es complicada.

p(s) =exp

∑k∈s λk∑

s∈Snexp

∑k∈s λk

Un algoritmo (ver Chen y Dempster, y Deville) permite calcular los πk a partir de los λk.

5.6. El diseño muestral sistemáticoMadow (1949)Método con tamaño fijo.Tenemos 0 < πk < 1, k ∈ U con ∑

k∈U

πk = n.

Sea

Vk =k∑

`=1

π`, para todos k ∈ U, con Vo = 0. (5.8)

Una variable uniforme es generada en [0, 1].- la primera unidad seleccionada k1 es tal que Vk1−1 ≤ u < Vk1 ,

31

Page 33: Curso Teoria de Muestreo

- la segunda unidad seleccionada es tal que Vk2−1 ≤ u + 1 < Vk2 y- la jésima unidad seleccionada es tal que Vkj−1 ≤ u + j − 1 < Vkj .

Ejemplo 2. N = 6 y n = 3π1 = 0, 2, π2 = 0, 7, π3 = 0, 8, π4 = 0, 5, π5 = π6 = 0, 4,V1 = 0, 2, V2 = 0, 9, V3 = 1, 7, V4 = 2, 2, V5 = 2, 6, V6 = 3.u = 0, 3658,Las unidades 2, 3 y 5 son seleccionadas.

Figura 5.1: Muestreo sistemático

0

u

1 2 3

1.7 2.2 2.60,90.2

+1 +2u u

El algoritmo puede también ser presentado de la manera siguiente :Primero, se selecciona la unidad k tal que los intervalos [Vk−1 − u, Vk − u[ contienen un número entero.

Algoritmo de muestreo sistemático

∣∣∣∣∣∣∣∣∣∣∣∣

Definición a, b, u real; k entero;u = un número aleatorio uniforme en [0,1];a = −u;

Repetir para k = 1, .., N

∣∣∣∣∣∣

b = a;a = a + πk;si bac 6= bbc seleccionar k.

El problema es que la mayoría des las probabilidades de inclusión son iguales a cero.La matriz de probabilidades de inclusión viene dada por :

− 0 0, 2 0, 2 0 00 − 0, 5 0, 2 0, 4 0, 3

0, 2 0, 5 − 0, 3 0, 4 0, 20, 2 0, 2 0, 3 − 0 0, 30 0, 4 0, 4 0 − 00 0, 3 0, 2 0, 3 0 −

5.7. El método de escisión

5.7.1. Escisión en dos partes

La técnica básica es muy simple : cada πk se separa en dos partes π(1)k y π

(2)k que verifican :

πk = λπ(1)k + (1− λ)π(2)

k ; (5.9)

0 ≤ π(1)k ≤ 1 y 0 ≤ π

(2)k ≤ 1, (5.10)

k∈U

π(1)k =

k∈U

π(2)k = n, (5.11)

donde λ puede elegirse libremente con 0 < λ < 1. El método consiste en seleccionar n unidades con proba-bilidades desiguales {

π(1)k , k ∈ U, con una probabilidad λ

π(2)k , k ∈ U, con una probabilidad 1− λ.

32

Page 34: Curso Teoria de Muestreo

π1

...πk

...πN

©©©©©©©©©¼

HHHHHHHHHj

π(1)1...

π(1)k...

π(1)N

π(2)1...

π(2)k...

π(2)N

λ 1− λ

Figura 5.2: Escisión en dos partes

El problema es reducido a otro problema de muestreo con probabilidades desiguales. Si la escisión es talque uno o algunos de los π

(1)k y de los π

(2)k son iguales a 0 o 1, el problema de muestreo será más simple en

la próxima etapa porque la escisión es aplicada a una población más pequeña.

5.7.2. Escisión en M partesEl método puede ser generalizado a una técnica de escisión en M vectores de probabilidades de inclusión.

Primero, construimos los π(j)k y los λj de manera que

M∑

j=1

λj = 1,

0 ≤ λj ≤ 1 (j = 1, ..., M),M∑

j=1

λjπ(j)k = πk,

0 ≤ π(j)k ≤ 1 (k ∈ U, j = 1, ..., M),

k∈U

π(j)k = n (j = 1, ...,M).

El método consiste en seleccionar uno de los vectores π(j)k con probabilidades λj (j = 1, ...,M). De nuevo,

los π(j)k son tales que el problema de muestreo será más simple en la próxima etapa.

5.7.3. Plan con un soporte mínimo(π(1), ..., π(k), ..., π(N)) representa el vector de probabilidades de inclusión. Luego, definimos

λ = mın{1− π(N−n), π(N−n+1)},

π(1)(k) =

{0 si k ≤ N − n1 si k > N − n,

33

Page 35: Curso Teoria de Muestreo

π1

...πk

...πN

©©©©©©©©©¼

HHHHHHHHHj?

π(1)1...

π(1)k...

π(1)N

π(i)1...

π(i)k...

π(i)N

π(M)1...

π(M)k...

π(M)N

λ1 λj λM

. . .. . .

Figura 5.3: Escisión en M partes

π(2)(k) =

π(k)

1− λif k ≤ N − n

π(k) − λ

1− λif k > N − n.

Ejemplo 1. Suponemos que N = 6, n = 3, π1 = 0,07, π2 = 0,17, π3 = 0,41, π4 = 0,61, π5 = 0,83,π6 = 0,91. En este caso, la solución se encuentra en 4 etapas. El vector de probabilidades de inclusión sesepara en dos partes dadaos en las columnas 2 y 3 de la Tabla 1. Con la probabilidad λ = 0,59, la muestra{4, 5, 6} es seleccionada y con probabilidad 1 − λ = 0,41, otro diseño muestral se aplica con probabilidadesde inclusión dadas por (0.171, 0.415, 1, 0.049, 0.585, 0.780). En la etapa 2, la escisión se aplica al vector y,en 4 etapas la muestra es seleccionada. El diseño muestral es el siguiente p({4, 5, 6}) = 0, 59; p({3, 5, 6}) =

Cuadro 5.1: Plan con soporte mínima

Etapa 1 Etapa 2 Etapa 3 Etapa 4πk λ = 0, 59 λ = 0, 585 λ = 0, 471 λ = 0, 778

0, 07 0 0, 171 0 0, 412 0 0, 778 1 00, 17 0 0, 415 0 1 1 1 1 10, 41 0 1 1 1 1 1 1 10, 61 1 0, 049 0 0, 118 0 0, 222 0 10, 83 1 0, 585 1 0 0 0 0 00, 91 1 0, 780 1 0, 471 1 0 0 0

(1− 0, 59)× 0, 585 = 0, 24; p({2, 3, 6}) = (1− 0, 59− 0, 24)× 0, 471 = 0, 08; p({1, 2, 3}) = (1− 0, 59− 0, 24−0, 08)× 0, 778 = 0, 07; p({2, 3, 4}) = 1− 0, 59− 0, 24− 0, 08− 0, 7 = 0, 02.

El diseño muestral viene dado por p({4, 5, 6}) = 0,59, p({3, 5, 6}) = (1−0,59)×0,585 = 0,24, p({2, 3, 6}) =(1 − 0,59 − 0,24) × 0,471 = 0,08, p({1, 2, 3}) = (1 − 0,59 − 0,24 − 0,08) × 0,778 = 0,07, p({2, 3, 4}) =(1− 0,59− 0,24− 0,08− 0,7) = 0,02.

34

Page 36: Curso Teoria de Muestreo

5.7.4. Escisión en planes simplesEste método permite separar el vector de probabilidades de inclusiones en dos partes. Definimos

λ = mın{

π(1)N

n,

N

N − n(1− π(N))

}, (5.12)

y calculamos, para k ∈ U,

π(1)(k) =

n

N, π

(2)(k) =

πk − λ nN

1− λ.

Si λ = π(1)N/n, entonces π(2)(1) = 0; si λ = (1− π(N))N/(N − n), entonces π

(2)(N) = 1. En la próxima etapa, el

problema se reduce en la selección de una muestra de tamaño n− 1 o n en una población de tamaño N − 1.En N − 1 etapas, el problema es reducido.

Ejemplo 2 Con los mismos πk que en el ejemplo 1, el resultado del método viene dado en la Tabla 2. El

Cuadro 5.2: Descomposición en planes simples

Etapa 1 Etapa 2 Etapa 3 Etapa 4 Etapa 5πk λ = 0, 14 λ = 0, 058 λ = 0, 173 λ = 0, 045 λ = 0, 688

0, 07 0, 5 0 0 0 0 0 0 0 0 00, 17 0, 5 0, 116 0, 600 0, 086 0, 5 0 0 0 0 00, 41 0, 5 0, 395 0, 600 0, 383 0, 5 0, 358 0, 667 0, 344 0, 5 00, 61 0, 5 0, 628 0, 600 0, 630 0, 5 0, 657 0, 667 0, 656 0, 5 10, 83 0, 5 0, 884 0, 600 0, 901 0, 5 0, 985 0, 667 1 1 10, 91 0, 5 0, 977 0, 600 1 1 1 1 1 1 1

problema consiste finalmente en seleccionar uno de los 6 planes simples definidos en las columnas de la Tabla3. λ1 = 0,14, λ2 = (1− 0,14)× 0,058 = 0,050, λ3 = (1− 0,14)× (1− 0,058)× 0,173 = 0,14, λ4 = (1− 0,14)×(1−0,058)× (1−0,173)×0,045 = 0,03, λ5 = (1−0,14)× (1−0,058)× (1−0,173)× (1−0,045)×0,688 = 0,44,λ6 = (1− 0,14)× (1− 0,058)× (1− 0,173)× (1− 0,045)× (1− 0,688) = 0,200.

Cuadro 5.3: Escisión en N planes simples

k λ1 = 0, 14 λ2 = 0, 050 λ3 = 0, 14 λ4 = 0, 03 λ5 = 0, 44 λ6 = 0, 2001 0, 5 0 0 0 0 02 0, 5 0, 6 0, 5 0 0 03 0, 5 0, 6 0, 5 0, 667 0, 5 04 0, 5 0, 6 0, 5 0, 667 0, 5 15 0, 5 0, 6 0, 5 0, 667 1 16 0, 5 0, 6 1 1 1 1

5.7.5. El método del pivoteSolamente dos probabilidades de inclusión son modificadas : i y j.Si πi + πj > 1, entonces

λ =1− πj

2− πi − πj,

π(1)k =

πk k ∈ U\{i, j}1 k = iπi + πj − 1 k = j,

π(2)k =

πk k ∈ U\{i, j}πi + πj − 1 k = i1 k = j.

35

Page 37: Curso Teoria de Muestreo

Por otra parte, si πi + πj < 1, entoncesλ =

πi

πi + πj,

π(1)k =

πk k ∈ U\{i, j}πi + πj k = i0 k = j,

π(2)k =

πk k ∈ U\{i, j}0 k = iπi + πj k = j.

5.7.6. Método de BrewerBrewer y Hanif, 1983, método 8, p. 26.

Brewer, 1975.draw by draw procedure

λj =

{N∑

z=1

πz(n− πz)1− πz

}−1

πj(n− πj)1− πj

.

Luego, calculamos

π(j)k =

πk(n− 1)n− πj

si k 6= j

1 si k = j.

La validez del método se deriva del resultado siguiente :

Teorema 5N∑

j=1

λjπ(j)k = πk,

para todo k = 1, . . . , N,

5.8. Varianza en planes con probabilidades desigualesAproximación de la varianza

V ar(Yπ) =∑

k∈U

bk

π2k

(yk − y∗k)2 .

con

y∗k = πk

∑`∈U b`y`/π`∑

`∈U b`

bk =Nπk(1− πk)

(N − 1).

Estimación de la aproximación de la varianza

V ar(Yπ) =∑

k∈S

ck

π2k

(yk − y∗k)2 .

con

y∗k = πk

∑`∈S c`y`/π`∑

`∈S b`

ck =nπk(1− πk)

(n− 1).

36

Page 38: Curso Teoria de Muestreo

Capítulo 6

Muestreo equilibrado

6.1. IntroducciónThionet (1953)

Royall y Herson (1973)Deville, Grosbras y Roth (1988),Ardilly (1991),Hedayat y Majumdar (1995)Brewer (1999)

Definición 2 Un diseño muestral p(s) es equilibrado sobre las variables x1, ..., xp, si verifica las ecuacionesde equilibrio dadas por

Xπ = X, (6.1)lo que se puede también escribir ∑

k∈s

xkj

πk=

k∈U

xkj ,

para toda s ∈ S tal que p(s) > 0, y para todos j = 1, ..., p, o con otras palabras

V ar(Xπ

)= 0.

Ejemplo 3. Un muestreo de tamaño fijo es equilibrado sobre la variable xk = πk, k ∈ U. En efecto,∑

k∈S

xk

πk=

k∈S

1 =∑

k∈U

πk = n.

Ejemplo 4. Un plan estratificado es equilibrado sobre las variables

δkh ={

1 si k ∈ Uh

0 si k /∈ Uh.

Ejemplo 5. N = 10, n = 7, πk = 7/10, k ∈ U,xk = k, k ∈ U .

k∈S

k

πk=

k∈U

k,

lo que da que ∑

k∈S

k = 55× 7/10 = 38,5,

ES IMPOSIBLE: Problema de redondeo.

37

Page 39: Curso Teoria de Muestreo

6.2. Representación por un cuboRepresentación geométrica de un diseño muestral.

s = (I[1 ∈ s] ... I[k ∈ s] ... I[N ∈ s])′,

donde I[k ∈ s] toma el valor 1 si k ∈ s y 0 sino.Geométricamente, cada vector s es un vértice de un N -cubo.

E(s) =∑

s∈Sp(s)s = π,

donde π = [πk] es el vector de probabilidad de inclusión.

π

(000) (100)

(010)

(011) (111)

(101)

(110)

Figura 6.1: Muestras posibles en una población de tamaño N = 3

6.3. Muestras equilibradasMétodo del cubo

1. fase de vuelo,

2. fase de aterrizaje.

Las ecuaciones de equilibrio (6.1) pueden también ser escritas∑

k∈U

akck =∑

k∈U

akπk (6.2)

ck ∈ {0, 1}, k ∈ U,

donde ak = xk/πk, k ∈ U. (6.2) define un subespacio en RN de dimensión N − p.

El problemaSe elige un vértice del N -cubo (una muestra) que queda en el subespacio Q.

Si C representa el N -cubo en RN . Los vértices del N -cubo son las muestras de U , la intersección entreC y Q es no-vacio, porque π es en el interior de C y pertenecen a Q.

La intersección entre el N -cubo està un subespacio lineal define un poliedro convexo K que es definidopor

K = C ∩Q ={[0, 1]N ∩ (π + Ker A)

}

y tiene la dimensión N − p.

38

Page 40: Curso Teoria de Muestreo

Ejemplo 6.π1 + π2 + π3 = 2.xk = πk, k ∈ U y

∑k∈S ck = 2.

(101)

(000) (100)

(010) (110)

(011) (111)

Figura 6.2: Plan de tamaño fijo

Ejemplo 7.

6× π2 + 4× π3 = 5.

x1 = 0, x2 = 6× π2 y x3 = 4× π3.

6c2 + 4c3 = 5.

(101)

(000) (100)

(010) (110)

(011) (111)

Figura 6.3: Los vértices de K no son vértices del cubo

Ejemplo 8.π1 + 3× π2 + π3 = 4.

39

Page 41: Curso Teoria de Muestreo

(110)

(000) (100)

(010)

(011) (111)

(101)

Figura 6.4: Algunos vértices de K son vértices del cubo y otros no le son

x1 = π1, x2 = 3× π2 y x3 = π3.c1 + 3c2 + c3 = 4.

6.4. La martingala equilibradaDefinición 3 Un proceso aleatorio discreto π(t) = [πk(t)], t = 0, 1, ... en RN se llama una martingalaequilibrada para un vector de probabilidades de inclusión π y para las variables auxiliares x1, ..., xp, si

1. π(0) = π,

2. E [π(t)|π(t− 1), ....,π(0)] = π(t− 1), t = 1, 2, ...

3. π(t) ∈ K ={[0, 1]N ∩ (π + Ker A)

}, donde A es una matriz p×N dada por A = (x1/π1 . . .xk/πk . . .xN/πN ) .

6.5. Implementación de la fase de vueloPrimero, inicializamos por π(0) = π. Luego, En la etapa t = 1, ...., T,

1. Definimos un vector u(t) = [uk(t)] 6= 0 tal que(i) u(t) es en el núcleo (kernel)de la matriz A,(ii) uk(t) = 0 si πk(t) es entero.

2. Calculamos λ∗1(t) y λ∗2(t), el valor más grande tal que0 ≤ π(t) + λ1(t)u(t) ≤ 1,0 ≤ π(t)− λ2(t)u(t) ≤ 1.

3. Elegimos

π(t) ={

π(t− 1) + λ∗1(t)u(t) con una probabilidad q1(t)π(t− 1)− λ∗2(t)u(t) con una probabilidad q2(t),

dondeq1(t) = λ∗2(t)/{λ∗1(t) + λ∗2(t)}q2(t) = λ∗1(t)/{λ∗1(t) + λ∗2(t)}.

40

Page 42: Curso Teoria de Muestreo

6.6. Método simple.Definimos un vector v(t) = [vk(t)].

uk(t) =

vk(t)− a′k

`∈Ut−1

a`a′`

`∈Ut−1

a`v`(t) k ∈ Ut−1

0 k /∈ Ut−1,

donde Ut = {k ∈ U |0 < πk(t) < 1} y(∑

`∈Ut−1a`a′`

)−es una generalización de

∑`∈Ut−1

a`a′`.

6.7. Implementación de la fase de aterrizajeSea T la ultima etapa de la fase 1,

y notamos por π∗ = [π∗k] = π(T ). Sea también U∗ = {k ∈ U |0 < π∗k < 1} ,El problema es buscar un plan de muestreo que da una muestra s ⊂ U tal que

k∈s

ak ≈∑

k∈U

akπ∗k =∑

k∈U

akπk,

lo que es equivalente a buscar un diseño muestral que da una muestra s∗ ⊂ U∗ tal que∑

k∈s∗ak ≈

k∈U∗akπ∗k,

donde s∗ = U∗ ∩ s.Como q = #U∗ es inferior o igual a p,

SoluciónAplicación del algoritmo del símplex sobre el programa lineal,

mınp(.)

s∗⊂U∗C(s∗)p(s∗),

sujeto a que ∑

s∗⊂U

p(s∗) = 1,

s∗3k

p(s∗) = πk, k ∈ U,

0 ≤ p(s∗) ≤ 1, s∗ ⊂ U,

donde C(s∗) es el coste asociado a la muestra s∗. Este coste aumenta si las ecuaciones de equilibrio (6.1) nose verifican.

6.8. Varianza en un plan equilibrado

V ar(Ybal

)= V ar

(Epoiss

)=

N

N − p

k∈U

E2k

π2k

πk (1− πk) ,

dondeEk = yk − x′kB.

41

Page 43: Curso Teoria de Muestreo

Capítulo 7

Estimación con informaciones auxiliaresy planes simples

Un estimador de La clase de los estimadores lineales es de la forma

Yw = w0(S) +∑

k∈S

wk(S)yk, (7.1)

donde los pesos wk(S) pueden depender de la información auxiliar disponible y de los datos observados.

7.1. Postestratificación

7.1.1. El problema y la notaciónHolt y Smith (1979), Jagers (1986); Jagers, Oden y Trulsson (1985).La variable auxiliar es cualitativa y puede coger H valores distintos.

Partición de la población U = {1, ..., k, ..., N} en H subconjuntos, Uh, h = 1, .., H, llamados postestratos, talque

H⋃

h=1

Uh = U y Uh

⋂Ui = ∅, h 6= i.

El número de elementos del postestrato es Nh.H∑

h=1

Nh = N.

El total en la población puede escribirse :

Y =∑

k∈U

yk =H∑

h=1

k∈Uh

yk =H∑

h=1

NhY h,

y la media :

Y =1N

k∈U

yk =1N

H∑

h=1

k∈Uh

yk =1N

H∑

h=1

NhY h,

donde Y h representa la media del postestrato h

Y h =1

Nh

k∈Uh

yk, h = 1, ..,H.

Además, σ2yh representa la varianza del postestrato h

σ2yh =

1Nh

k∈Uh

(yk − Y h

)2,

42

Page 44: Curso Teoria de Muestreo

y S2yh la varianza corregida

S2yh =

Nh

Nh − 1σ2

yh.

La varianza total σ2y se obtiene a partir de la formula clásica de descomposición de varianza.

σ2y =

1N

k∈U

(yk − Y )2 =1N

H∑

h=1

Nhσ2yh +

1N

H∑

h=1

Nh(Y h − Y )2. (7.2)

7.1.2. El estimador postestratificadoSe selecciona en la población una muestra aleatoria S con un muestreo aleatorio simple .Las frecuencias de los postestratos nh son variables aleatorias que tienen una distribución geométrica.Como πk = n/N, k ∈ U, el estimador de Horvitz-Thompson de Y viene dado por

Yπ =N

n

k∈S

yk =N

n

H∑

h=1nh>0

nhY h;

donde Y h es la media de la muestra en el postestrato h

Y h =1nh

k∈Sh

yk.

El estimador postestratificado se define por :

Ypost =H∑

h=1nh>0

NhY h.

Es necesario el conocimiento de las frecuencias de la población Nh para calcular este estimador .Los postestratos tienen que ser bastante grandes

nNh

N≥ 30,

lo que hace que sea muy improbable tener nh nulos.

7.1.3. Propiedad del estimador

E(Ypost|nh, h = 1, ...,H) =H∑

h=1nh>0

NhE(Y h|nh, h = 1, ...,H)

=H∑

h=1nh>0

NhY h

= Y −H∑

h=1nh=0

NhY h. (7.3)

El sesgo se escribe

EE(Ypost|nh, h = 1, ..., H) = E

Y −

H∑

h=1nh=0

NhY h

= Y −H∑

h=1

NhY hPr[nh = 0].

43

Page 45: Curso Teoria de Muestreo

Como los nh tienen una distribución geométrica,

Pr[nh = r] =

(Nh

r

)(N −Nh

n− r

)

(N

n

) , r = 0, ..., n,

se obtiene

Pr[nh = 0] =(N −Nh)[n]

N [n],

dondeN [n] =

N !(N − n)!

= N × (N − 1)× ...× (N − n + 2)× (N − n + 1),

lo que da finalmente

E(Ypost) = Y −H∑

h=1

NhY h(N −Nh)[n]

N [n]≈ Y.

La varianza

V ar(Ypost) = V arE(Ypost|nh, h = 1, ..., H)

+ EV ar(Ypost|nh, h = 1, ..., H).

Por (7.3),V arE(Ypost|nh, h = 1, ..., H) ≈ 0,

y entoncesV ar(Ypost) ≈ EV ar(Ypost|nh, h = 1, ...,H). (7.4)

Condicionalmente a los nh, el plan es m.a.s. en cada postestrato.La varianza condicional es entonces la misma que para un plan estratificado

V ar(Ypost|nh, h = 1, ..., H) =H∑

h=1nh>0

NhNh − nh

nhS2

yh. (7.5)

La varianza no-condicional es

V ar(Ypost) = E

H∑

h=1nh>0

NhNh − nh

nhS2

yh

≈H∑

h=1

Nh

{NhE

(1nh

)− 1

}S2

yh. (7.6)

Tenemos que calcular la esperanza de n−1h . Si

ε = 1− nh

E(nh)= 1− Nnh

nNh,

tenemosE

(1nh

)=

1E(nh)

E

(1

1− ε

).

Cuando n es grande, podemos considerar que ε está cerca de cero y usar un desarrollo en serie.

E

(1nh

)≈ 1

E(nh)E(1 + ε + ε2).

ComoE(nh) = n

Nh

Ny V ar(nh) = n

Nh

N

N −Nh

N

N − n

N − 1,

44

Page 46: Curso Teoria de Muestreo

se obtiene

E

(1nh

)≈ 1

E(nh)E

{1 +

(1− nhN

nNh

)+

(1− nhN

nNh

)2}

=N

Nhn

{1 + 0 +

N2V ar(nh)n2N2

h

}

=N

Nhn+

(N −Nh)NN2

h

N − n

n2(N − 1). (7.7)

Usando el resultado (7.7) en la expresión (7.6),

V ar(Ypost) ≈ N − n

n

H∑

h=1

NhS2yh +

(N − n)N2

n2(N − 1)

H∑

h=1

N −Nh

NS2

yh. (7.8)

Esta varianza se compone de dos partes. La primera es igual a la varianza del estimador de Horvitz-Thompsonpara el plan estratificado con afijación proporcional.

V ar(Ypost)

V ar(Yprop)=

{N − n

n

H∑

h=1

NhS2yh

}−1

×{

N − n

n

H∑

h=1

NhS2yh +

(N − n)N2

n2(N − 1)

H∑

h=1

N −Nh

NS2

yh

}

= 1 +N

n(N − 1)

(H∑

h=1

Nh

NS2

yh

)−1 H∑

h=1

N −Nh

NS2

yh

= 1 + O(n−1).

7.2. Estimación de calibración sobre márgenes

7.2.1. El problemaSean dos variables auxiliares cualitativas.La primera variable permite dividir la población en H subconjuntos U1., ..., Uh., ..., UH., yla segunda en I subconjuntos U,1, ..., U.i, ..., U.I .

U11 . . . U1i . . . U1I U1.

......

......

Uh1 . . . Uhi . . . UhI Uh.

......

......

UH1 . . . UHi . . . UHI UH.

U,1 . . . U.i . . . U.I U

Nhi = #Uhi, h = 1, ...,H, i = 1, ..., I, (desconocidos)Nh. = #Uh., h = 1, .., H, (conocidos)N.i = #U.i, i = 1, ..., I, (conocidos)Sea una muestra aleatoria simple de tamaño fijo.El objetivo es entonces estimar el total

Y =∑

k∈U

yk. (7.9)

El estimador lineal esYw =

k∈S

wk(S)yk, (7.10)

donde los pesos wk(S) dependen de los nhi y de los totales marginales de la población Nh. y Nh..

45

Page 47: Curso Teoria de Muestreo

Cuadro 7.1: Frecuencias según dos variables

n11 . . . n1i . . . n1I n1.

......

......

nh1 . . . nhi . . . nhI nh.

......

......

nH1 . . . nHi . . . nHI nH.

n,1 . . . n.i . . . n.I n

Estimador “calado” sobre los márgenes.Idea de calibración

Nh. =∑

k∈U

zk,

donde zk es igual a 1 si k ∈ Uh. y 0 sino.El estimador Nh. Se dice que es de calibración sobre Nh. si

Nh. =∑

k∈S

wk(S)zk = Nh..

7.2.2. Calibración sobre márgenesDeming y Stephan (1940) y Stephan (1942). Frielander, (1961), Ireland y Kullback, (1968), Fienberg, (1970),Thionet, (1959 et 1976), Froment y Lenclud, (1976) y Durieux y Payen, (1976).“método iterativo del cociente”Iterative Proportional Fitting Procedure (IPFP).“calibración sobre márgenes”

Calibración, tabla de partida

a11 . . . a1i . . . a1I a1.

......

......

ah1 . . . ahi . . . ahI ah.

......

......

aH1 . . . aHi . . . aHI aH.

a,1 . . . a.i . . . a.I a..

Buscamos una tabla que està próxima a la tabla de los ahi Con las márgenes bh., h = 1, ..., H, y b.i, i = 1, ..., I.Inicialización

b(0)hi = ahi, h = 1, ..., H, i = 1, ..., I.

Luego se repite los dos afijaciones siguientes para j = 1, 2, 3, ....

b(2j−1)hi = b

(2j−2)hi

bh.

b(2j−2)h.

, h = 1, ..., H, i = 1, ..., I,

b(2j)hi = b

(2j−1)hi

b.i

b(2j−1).i

, h = 1, ...,H, i = 1, ..., I,

donde

b(2j−2)h. =

I∑

i=1

b(2j−2)hi , h = 1, ...,H,

y

b(2j−1).i =

H∑

h=1

b(2j−1)hi , h = 1, ...,H.

46

Page 48: Curso Teoria de Muestreo

El algoritmo puede verse como un problema de optimización donde se minimiza la entropía.Se busca la tabla de los bhi que minimiza

H∑

h=1

I∑

i=1

bhi logbhi

ahi,

sujeta a queI∑

i=1

bhi = bh., h = 1, ..., H, (7.11)

yH∑

h=1

bhi = b.i, i = 1, ...,H. (7.12)

Tenemos la ecuación de Lagrange

L(bhi, λh, µi)

=H∑

h=1

I∑

i=1

bhi logbhi

ahi+

H∑

h=1

λh

(I∑

i=1

bhi − bh.

)

+I∑

i=1

µi

(H∑

h=1

bhi − b.i

).

Anulando las derivadas de L con respecto a los bhi, tenemos :

logbhi

ahi+ 1 + λh + µi = 0, (7.13)

Si αh = exp (−1/2− λh) y βi = exp (−1/2− µi), de (7.13), podemos escribir

bhi = ahiαhβi, h = 1, ..., H, i = 1, ..., I. (7.14)

7.2.3. Estimación de calibraciónEstimador de calibración

YC =H∑

h=1

I∑

i=1

NChiY hi,

dondeY hi =

1nhi

k∈Shi

yk

y Shi = Uhi

⋂S.

El estimador es entonces linear y puede escribirse

Y =∑

k∈S

wk(S)yk,

donde

wk(S) =NChi

nhi, k ∈ Uhi.

Los pesos wk(S) son funciones no-lineales de los nhi y de los márgenes conocidos.

47

Page 49: Curso Teoria de Muestreo

7.3. La variable auxiliar es cuantitativa

7.3.1. El problemaSupongamos que el total X de la variable auxiliar x es conocido,

X =∑

k∈U

xk,

donde x1, ..., xk, ..., xN son los N valores tomados por la variable x sobre las unidades de U . Queremosestimar

Y =∑

k∈U

yk,

7.3.2. NotaciónX = N−1X y Y = N−1Y representan las medias de las variables x y y en la población. Las varianzas

corregidas son

S2y =

1N − 1

k∈U

(yk − Y )2

y

S2x =

1N − 1

k∈U

(xk −X)2.

y

Sxy =1

N − 1

k∈U

(xk −X)(yk − Y ),

la covarianza entre las dos variables.En un plan simple, los estimadores de Horvitz-Thompson s de los totales son

Yπ =N

n

k∈S

yk = NY ,

y

Xπ =N

n

k∈S

xk = NX,

dondeY =

1n

k∈S

yk

y

X =1n

k∈S

xk.

Tenemos igualmente

s2y =

1n− 1

k∈S

(yk − Y )2,

s2x =

1n− 1

k∈S

(xk − X)2

y

sxy =1

n− 1

k∈S

(xk − X)(yk − Y ).

48

Page 50: Curso Teoria de Muestreo

7.3.3. Estimación de diferenciaEl estimador de diferencia viene dado por

YD = Yπ + X − Xπ.

Es un estimador linear con :wk(S) = N/n, k ∈ U, yw0(S) = X − Xπ.El estimador de diferencia verifica :

E(YD) = E(Yπ) + E(X)− E(Xπ) = Y + X −X = Y.

Como este estimador es insesgado, su error cuadrático medio es igual a su varianza

V ar(YD) = V ar(Yπ) + V ar(Xπ)− 2Cov(Xπ, Yπ)

=N(N − n)

n

(S2

y + S2x − 2Sxy

).

Esta varianza puede estimarse sin sesgo por

V ar(YD) =N(N − n)

n

(s2

y + s2x − 2sxy

).

7.3.4. Estimación de razónEl estimador de razón (en ingles ratio estimator) es definido mediante

Yregr =XYπ

.

Este estimador es lineal conwk(S) =

XN

Xπn.

Para calcular el sesgo, tenemos que calcular la esperanza de

YR − Y = XYπ

− Y = XYπ − rXπ

,

donder =

Y

X.

Si

ε =Xπ −X

X,

se puede escribir

YR − Y =Yπ − rXπ

1 + ε.

Con un desarrollo de YR − Y , se logra

YR − Y = (Yπ − rXπ)(1− ε + ε2 − ε3 + ...)

≈ (Yπ − rXπ)(1− ε)

≈ (Yπ − rXπ)

(1− Xπ −X

X

). (7.15)

49

Page 51: Curso Teoria de Muestreo

Si se supone que ε es pequeño cuando n es grande, se logra una aproximación del sesgo de este estimador

E(YR − Y ) ≈ E(Yπ − rXπ)

(1− Xπ −X

X

)

≈ E(Yπ − rXπ)

−E

{Yπ(Xπ −X)

}− rE

{Xπ(Xπ −X)

}

X

≈ rV ar(Xπ)− Cov(Xπ, Yπ)X

≈ N(N − n)n

rS2x − Sxy

X.

La esperanza del estimador de razón es entonces dada por

E(YR − Y ) + Y ≈ Y +N − n

n

rS2x − Sxy

X.

El sesgo es despreciable cuando n es grande.

7.3.5. Precisión del estimador de razón

ECM(YR) = E(YR − Y )2.

En una primera aproximación, por (7.15),

ECM(YR) ≈ E(Yπ − rXπ)2

≈ E{

(Yπ − Y )− r(Xπ −X)}2

≈ V ar(Yπ) + r2V ar(Xπ)− 2rCov(Xπ, Yπ)

≈ N(N − n)n

(S2

y + r2S2x − 2rSxy

).

Este error cuadrático medio puede estimarse por

ECM(YR) =N(N − n)

n

(s2

y + r2s2x − 2rsxy

),

donde

r =Yπ

.

7.3.6. Estimación de regresiónEl estimador de regresión viene dado por

Yregr = Yπ + b(X − Xπ),

dondeb =

sxy

s2x

,

sxy =1

n− 1

k∈S

(xk − X)yk.

El estimador es linear con w0(S) = 0 y

wk(S) =N

n+

1n− 1

(X − Xπ)(xk − X)

s2x

, k ∈ U.

50

Page 52: Curso Teoria de Muestreo

No es posible calcular exactamente la esperanza matemática y la varianza del estimador de regresión. Pero,

Yregr = Yπ + b(X − Xπ) + (b− b)(X − Xπ), (7.16)

dondeb =

Sxy

S2x

.

Si se suprime el último termino de la expresión (7.16),

Yregr ≈ Yπ + b(X − Xπ).

Tenemos entoncesE(Yregr) ≈ E

{Yπ + b(X − Xπ)

}≈ Y

y

ECM(Yregr) ≈ E{

Yπ + b(X − Xπ)− Y}2

≈ N(N − n)n

(S2

y − 2bSxy + b2S2x

)

≈ N(N − n)n

S2y

(1− ρ2

),

dondeρ =

Sxy

SxSy.

Este error cuadrático medio puede estimarse por

ECM(Yregr) =N(N − n)

ns2

y

(1− ρ2

),

dondeρ =

sxy

sxsy.

La estimación de regresión puede ser generalizada al uso de varias variables auxiliares

7.3.7. Discusión de los tres métodos

Cuadro 7.2: Métodos de estimación

Estimador Definición{

N(N−n)n

}−1

× ECM

estimador HT Yπ =N

n

k∈S

yk S2y

de diferencia YD = Yπ + X − Xπ S2y + S2

x − 2Sxy

de razón Yregr = YπX/Xπ S2y + r2S2

x − 2rSxy

de regresión YRY = Yπ + b(X − Xπ) S2y

(1− ρ2

)

51

Page 53: Curso Teoria de Muestreo

7.3.8. Comparación del estimador de diferencia y del estimador de Horvitz-Thompson

V ar(Yπ)− V ar(YD)

=N(N − n)

nS2

y −N(N − n)

n

{S2

y + S2x − 2Sxy

}

=N(N − n)

n

{2Sxy − S2

x

}.

El estimador de diferencia es entonces mejor que el estimador de Horvitz-Thompson cuando

2Sxy − S2x > 0;

lo que puede escribirse de la forma

b >12.

7.3.9. Comparación del estimador de razón y del estimador de Horvitz-Thompson

ECM(Yπ)− ECM(Yregr)

≈ N(N − n)n

S2y −

N(N − n)n

{S2

y + r2S2x − 2rSxy

}

≈ N(N − n)n

{2rSxy − r2S2

x

}.

El estimador de razón es generalmente mejor que el estimador de Horvitz-Thompson cuando

2rSxy − r2S2x > 0,

es decir, cuandob >

r

2si r > 0 y b <

r

2si r < 0.

7.3.10. Comparación del estimador de razón y del estimador de diferencia

ECM(YD)− ECM(Yregr)

≈ N(N − n)n

(S2y + S2

x − 2Sxy)− N(N − n)n

{S2

y + r2S2x − 2rSxy

}

≈ N(N − n)n

{2(1− r)Sxy − (1− r2)S2

x

}.

El estimador de razón es generalmente preferible cuando

2(1− r)Sxy − (1− r2)S2x > 0,

es decir cuando2(1− r)b > (1− r2).

7.3.11. Comparación del estimador de regresión con los otros estimadores

ECM(Yπ)− ECM(Yregr) ≈ ρ2ECM(Yπ) ≥ 0,

52

Page 54: Curso Teoria de Muestreo

ECM(YD)− ECM(YRY )

≈ N(N − n)n

(S2y + S2

x − 2Sxy)− N(N − n)n

(1− ρ2)S2y

≈ N(N − n)n

(Sx − Sxy

Sx)2 ≥ 0,

y

ECM(YR)− ECM(YRY )

≈ N(N − n)n

(S2y + r2S2

x − 2rSxy)− N(N − n)n

(1− ρ2)S2y

≈ N(N − n)n

(rSx − Sxy

Sx)2 ≥ 0.

53

Page 55: Curso Teoria de Muestreo

Capítulo 8

Estimación con informaciones auxiliaresy planes complejos

8.1. El problema y la notaciónEl objetivo es siempre estimar el total

Y =∑

k∈U

yk,

La información auxiliar viene dada por : J variables auxiliares

x1, ..., xj , ..., xJ .

El valor tomado por la variable xj sobre la unidad k es xkj .xk = (xk1, ..., xkj , ..., xkJ )′ es el vector de los valores tomados por las J variables auxiliares sobre k.

Xj =1N

k∈U

xkj = y Xj =∑

k∈U

xkj , j = 1, ..., J,

oX =

1N

k∈U

xk = y X =∑

k∈U

xk.

El vector X es conocido sobre la población total.Dos estimadores

El estimador de regresión :Särndal, Swensson y Wretman (1992).

CalibraciónDeville y Särndal (1992) y Deville, Särndal y Sautory (1993).

Estimadores de la clase de los estimadores lineales

YG =∑

k∈S

wk(S)yk.

8.2. El estimador de regresiónSi existe una relación lineal entre los xk e yk, se busca el vector de coeficientes de regresión b ∈ RJ queminimiza: ∑

k∈U

ck (yk − x′kb)2 , (8.1)

donde ck es un coeficiente de ponderación estrictamente positivo que permite dar una importancia particulara cada unidad. Anulando la derivada de (8.1) con respecto a b, buscamos

k∈U

ckxk (yk − x′kb) = 0,

54

Page 56: Curso Teoria de Muestreo

lo que da ∑

k∈U

ckxkyk =∑

k∈U

ckxkx′kb.

SiT =

k∈U

ckxkx′k

yt =

k∈U

ckxkyk

y que suponemos que T es inversible, logramos el coeficiente de regresión :

b = T−1t.

Como T y t son totales podemos estimarlos por estimadores de Horvitz-Thompson :

T =∑

k∈S

ckxkx′kπk

yt =

k∈S

ckxkyk

πk,

que no tienen sesgo para T y t. Luego se estima b por

b = T−1t.

Atención b no es insesgado para b.El estimador de regresión :

Ygreg = Yπ + (X− Xπ)′b. (8.2)

8.2.1. Otra presentación del estimador de regresión

Ygreg es un estimador linealYgreg =

k∈S

wk(S)yk,

dondewk(S) =

1πk

{1 + (X− Xπ)′T−1ckxk

}.

Otra presentación viene dada por

Ygreg = X′b + Yπ − X′πb

= X′b +∑

k∈S

ek

πk,

dondeek = yk − x′kb.

Los ek son los residuos : las diferencias entre los valores observados y los valores predichos. En algunos casos∑

k∈S

ek

πk

es nulo; el estimador de regresión tiene entonces una forma más simple.

Teorema 6 Una condición suficiente para que∑

k∈S

ek

πk= 0,

es que existe un vector λ tal que

λ′xk =1ck

, para todo k ∈ U.

55

Page 57: Curso Teoria de Muestreo

Demostración

k∈S

ek

πk=

k∈S

1πk

(yk − x′kb

)

=∑

k∈S

1πk

(yk − ckλ

′xkx′kb)

= Yπ −∑

k∈S

ckλ′xkx′kπk

T−1t

= Yπ −λ′∑

k∈S

ckxkyk

πk

= Yπ − Yπ

= 0.

2

En el caso donde la condición suficiente del teorema 6 es verificada, el estimador de regresión puede escribirsesimplemente

Ygreg = X′b.

8.2.2. Calibración del estimador de regresiónUn estimador se llama de calibración sobre un total de una variable auxiliar si es exactamente igual a estetotal. Suponemos que calculemos el estimador de regresión para la variable auxiliar xj . El coeficiente deregresión es

b =

(∑

k∈S

ckxkx′kπk

)−1 ∑

k∈S

ckxkxkj

πk= (0 . . . 0 1 0 . . . 0)′.

El estimador esXj,greg = Xjπ + (X− Xπ)′b = Xjπ + (Xj − Xjπ) = Xj .

8.2.3. Estimación de razónEl estimador de razón se logra usando una sola variable auxiliar y cogiendo xk = xk, ck = 1/xk. Tenemos

b =∑

k∈S yk/πk∑k∈S xk/πk

=Yπ

,

y por (8.2)

Ygreg = Yπ + (X − Xπ)Yπ

= XYπ

, (8.3)

que es el estimador de razón.

8.2.4. Plan simple y estimación de regresiónEl estimador de regresión en el m.a.s. se logra cogiendo πk = n/N, ck = 1, y xk = (1, xk)′. Luego tenemos

T =

N Xπ

XπN

n

k∈S

x2k

,

T−1 =n

N2s2x(n− 1)

N

n

k∈S

x2k −Xπ

−Xπ N

,

56

Page 58: Curso Teoria de Muestreo

t =

N

n

k∈S

xkyk

,

T−1t =n

N2s2x(n− 1)

N

n

k∈S

x2k − Xπ

N

n

k∈S

xkyk

N2sxy

,

donde

s2x =

n

n− 1

(1n

k∈S

x2k −

X2π

N2

),

y

sxy =n

n− 1

(1n

k∈S

xkyk − XπYπ

N2

).

Como X− Xxπ = (0, X − Xπ)′, tenemos finalmente

Ygreg = Yπ +(X− Xπ

)′T−1t = Yπ +

(X − Xπ

) sxy

s2x

,

que es el estimador de regresión clásico.

8.3. Estimación de calibración

8.3.1. El métodoDeville y Särndal (1992) y Deville, Särndal y Sautory (1993).La información auxiliar usada es un vector de totales conocidos X.El método de calibración consiste en buscar nuevos coeficientes de ponderación.Estimador lineal que se escribe

YG =∑

k∈S

wk(S)yk,

donde los wk(S), k ∈ S son los pesos que dependen de la muestra.Propiedad de calibración

X =∑

k∈S

wkxk = X. (8.4)

Como existe une infinidad de pesos wk que verifican la relación (8.4), vamos a buscar pesos próximos a lospesos π−1

k del estimador de Horvitz-Thompson , lo que va dar un pequeño sesgo.Definimos

dk =1πk

, k ∈ S,

El objetivo consiste entonces en la búsqueda a los pesos wk próximos de los dk que verifican la calibración.Pseudo-distancia Gk(wk, dk), (la simetría no es requerida.)Gk(wk, dk) es positiva, derivable con respecto a wk estrictamente convexa, tal que Gk(dk, dk) = 0.Los pesos wk, k ∈ S, se logran minimizando

k∈S

Gk(wk, dk)qk

sujeto a que la calibración sea verificada.qk coeficientes de ponderación

L(wk, k ∈ S, λj , j = 1, ..., J)

=∑

k∈S

Gk(wk, dk)qk

−J∑

j=1

λj

{∑

k∈S

wkxkj −Xj

},

57

Page 59: Curso Teoria de Muestreo

donde los λj son los multiplicadores de Lagrange.

∂L(wk, k ∈ S, λj , j = 1, ..., J)∂wk

=gk(wk, dk)

qk−

J∑

j=1

λjxkj = 0, (8.5)

dondegk(wk, dk) =

∂Gk(wk, dk)∂wk

.

Como Gk(., dk) es estrictamente convexo y positivo y

Gk(dk, dk) = 0,

gk(., dk) es estrictamente creciente y gk(dk, dk) = 0.Los pesos

wk = dkFk

J∑

j=1

λjxkj

, (8.6)

donde dkFk(.) es la función inversa de gk(., dk)/qk.La función Fk(.) es estrictamente creciente y Fk(0) = 1, y F ′k(.) la derivada de Fk(.) es entonces estrictamentepositiva.Además, suponemos que F ′k(0) = qk.Ecuaciones de calibración :

k∈S

dkxkjFk

(J∑

i=1

λixki

)= Xj , j = 1, ..., J, (8.7)

que permite obtener los λj .Con una escritura matricial ∑

k∈S

dkxkFk

(x′kλ

)= X, (8.8)

donde λ = (λ1, ..., λj , ..., λJ)′.Al final,una vez calculado λ, podemos calcular el estimador de calibración :

YCAL =∑

k∈S

dkykFk

(x′kλ

). (8.9)

8.3.2. Elección de la pseudo-distancia

Gα(wk, dk) =

wαk

dα−1k

+ (α− 1)dk − αwk

α(α− 1) α ∈ R\{0, 1}wk log

wk

dk+ dk − wk α = 1

dk logdk

wk+ wk − dk α = 0.

Si derivamos Gα(wk, dk) con respecto a los wk, logramos

gα(wk, dk) =

1

(α− 1)

(wα−1

k

dα−1k

− 1)

α ∈ R\{1}

logwk

dkα = 1.

La inversa de gα(wk, dk)/qk con respecto a wk es :

dkFαk (u) =

{dk

α−1√

1 + qku(α− 1) α ∈ R\{1}dk exp qku α = 1.

Según los diferentes valores de α, logramos varias pseudo-distancias. Les distancias más usadas son los casosα = 2 (khi-cuadrado) y α = 1 (entropía).

58

Page 60: Curso Teoria de Muestreo

Cuadro 8.1: Pseudo-distancias para la calibración

α Gα(wk, dk) gα(wk, dk) Fαk (u) Tipo

2 (wk−dk)2

2dk

wk

dk− 1 1 + qku Khi-cuadrado

1 wk log wk

dk+ dk − wk log wk

dkexp(qku) Entropía

1/2 2(√

wk −√

dk)2 2(1−

√dk

wk

)(1− qku/2)−2 Distancia de Hellinger

0 dk log dk

wk+ wk − dk 1− dk

wk(1− qku)−1 Entropía Inversa

−1 (wk−dk)2

2wk

(1− d2

k

w2k

)/2 (1− 2qku)−1/2 Khi-cuadrado inverso

8.3.3. El método linealUn caso particular importante se logra usando como pseudo-distancia una función de tipo chi-cuadrado (casoα = 2) :

0 10 20 30 400

5

10

15

20

25

Figura 8.1: Método lineal : función G(wk, dk) con qk = 1 y dk = 10

G2(wk, dk) =(wk − dk)2

2dk,

obtenemos una función linealFk(u) = 1 + qku.

Las ecuaciones de calibración son

Xj =∑

k∈S

xkjdk

(1 + qk

J∑

i=1

λixki

), j = 1, ..., J,

o, con escritura matricial,X = Xπ +

k∈S

dkxkqkx′kλ

donde λ′ = (λ1, ..., λj , ..., λJ). Si la matriz∑

k∈S dkxkqkx′k es inversible, podemos calcular λ :

λ =

(∑

k∈S

dkxkqkx′k

)−1 (X− Xπ

). (8.10)

59

Page 61: Curso Teoria de Muestreo

0 10 20 30 40

-1

0

1

2

3

Figura 8.2: Método lineal: función g(wk, dk) con qk = 1 y dk = 10

-4 -2 0 2 4-4

-2

0

2

4

6

Figura 8.3: Método lineal: función Fk(u) con qk = 1

Luego, podemos calcular los wk mediante

wk = dk

1 + qk

J∑

j=1

λjxkj

= dk

(1 + qkλ

′xk

)

= dk

1 + qk

(X− Xπ

)′(∑

k∈S

dkxkqkx′k

)−1

xk

.

Al final, el estimador se escribe

YL =∑

k∈S

wkyk

= Yπ +(X− Xπ

)′(∑

k∈S

dkxkqkx′k

)−1 ∑

k∈S

xkdkqkyk.

Si cogemos qk = ck, k ∈ U .

8.3.4. El método del “raking ratio”El método del “raking ratio” que incluye el estimador de calibración sobre márgenes se logra usando unapseudo-distancia de tipo “Entropía” (caso α = 1) :

G1(wk, dk) = wk logwk

dk+ dk − wk.

ObtenemosFk(u) = exp qku.

60

Page 62: Curso Teoria de Muestreo

0 10 20 30 40

2

4

6

8

10

12

14

Figura 8.4: “Raking ratio": función G(wk, dk) con qk = 1 y dk = 10

-5 0 5 10 15 20 25 30

-6

-5

-4

-3

-2

-1

0

1

Figura 8.5: “Raking ratio": función g(wk, dk) con qk = 1 y dk = 10

-4 -2 0 2 40

10

20

30

40

50

60

70

Figura 8.6: “Raking ratio": función Fk(u) con qk = 1

Los pesos son siempre positivos.El estimador viene dado por

wk = dk exp

qk

J∑

j=1

λjxkj

,

donde les λj son calculados por la ecuación

k∈S

dkxkj exp

(qk

J∑

i=1

λixki

)= Xj , j = 1, ..., J.

Caso particular : la calibración sobre márgenes.En este caso, los xki son iguales a 1 o 0 según que la unidad i esté o no en la subpoblación Ui ⊂ U. Si,además, qk = 1, k ∈ U, tenemos

wk = dk

i|Ui3k

βi

61

Page 63: Curso Teoria de Muestreo

donde βj = exp λj . Los βj son calculados mediante la ecuación∑

k∈S

dkxkj

i|Ui3k

βi = Xj , j = 1, ..., J.

8.3.5. El método logit

0 10 20 30 40

0.5

1

1.5

2

Figura 8.7: Método logístico: función G(wk, dk) con qk = 1, dk = 10, L = 0, 2 y H = 3

0 10 20 30 40

-0.1

0

0.1

0.2

0.3

0.4

0.5

Figura 8.8: Método logístico: función g(wk, dk) con qk = 1, dk = 10, L = 0, 2 y H = 3

-4 -2 0 2 40

0.5

1

1.5

2

2.5

3

Figura 8.9: Método logístico : función Fk(u) con qk = 1, L = 0, 2, y H = 3

A veces se quiere que los wk no sean demasiado variable.Es posible imponer que los pesos wk se encuentren entre dos valores Ldk y Hdk (L < 1 < H) usando unafunción de tipo logit

G(wk, dk)

=

{ �ak log

ak

1− L+ bk log

bk

H − 1

�1

ALdk < wk < Hdk

∞ en otro caso,

62

Page 64: Curso Teoria de Muestreo

dondeak =

wk

dk− L, bk = H − wk

dk, A =

H − L

(1− L)(H − 1).

ObtenemosFk(u) =

L(H − 1) + H(1− L) exp(Aqku)H − 1 + (1− L) exp(Aqku)

.

Tenemos Fk(−∞) = L,Fk(∞) = H. Los pesos obtenidos estan entonces siempre en el intervalo [Ldk,Hdk].

8.3.6. El método lineal truncadoMás simplemente, para restringir el intervalo de soluciones, podemos usar una función del tipo

0 10 20 30 40

5

10

15

20

25

Figura 8.10: Método lineal truncado : función G(wk, dk) con qk = 1, dk = 10, L = 0, 2 y H = 3

0 10 20 30 40

-1

0

1

2

3

Figura 8.11: Método lineal truncado: función g(wk, dk) con qk = 1, dk = 10, L = 0, 2 y H = 3

-4 -2 0 2 40

0.5

1

1.5

2

2.5

3

Figura 8.12: Método lineal truncado: función Fk(u) con qk = 1, L = 0, 2, y H = 3

G(wk, dk) =

(wk − dk)2

dkLdk < wk < Hdk

∞ sino.

63

Page 65: Curso Teoria de Muestreo

Obtenemos una función lineal truncada

Fk(u) =

1 + qku si (L− 1)/qk ≤ u ≤ (H − 1)/qk

H si u > (H − 1)/qk ≥ HL si u < (L− 1)/qk ≤ L

64

Page 66: Curso Teoria de Muestreo

Capítulo 9

Estimación de la varianza porlinealización

Las funciones de interés estimadas por muestreo son a veces funciones mas complejas que simples totales,por ejemplo coeficientes de regresión, de correlación, varianza, índices de desigualdades. Además, se usageneralmente una información auxiliar para la calibración de los estimadores, lo que da una forma mascompleja a los estimadores.

Es posible aproximar la varianza por las técnicas de linealización para estimar la precisión de estosestimadores. Las técnicas de linealizsación han sido introducida por Woodruff (1971). Las aplicaciones en lateoría de muestreo han sido desarrolladas por Binder (1983), Binder y Patak (1994), Wolter (1985), Deville(1999).

9.1. Orden de magnitud en probabilidadLas técnicas de linealización estàn basadas en los métodos de desarrollo en Serie de Taylor. El desarrollo

se hace con respeto a una variable aleatoria. Para tratar estos problemas vamos a introducir los ordenes demagnitud en probabilidad

Definición 4 Una sucesión de números fn, n = 1, 2, ... es dice que es de orden de magnitud inferior ahn > 0, n = 1, 2, ..., si

lımn→∞

fn

hn= 0.

Se escribefn = o (hn) .

Definición 5 Una sucesión de números fn, n = 1, 2, ... està acotada por hn > 0, n = 1, 2, ..., si existe M > 0tal que

| fn |≤ Mhn,

para todo n = 1, 2, .... Se escribefn = O (hn) .

Se puede también definir el orden de magnitud en probabilidad.

Definición 6 Una sucesión de variables aleatorias Xn converge en probabilidad hacia una variable aleatoriaX si, para todo ε > 0,

lımn→∞

Pr [| Xn −X |> ε] = 0.

Se escribep lım

n→∞Xn = X,

o mas simplemente

Xn

P−→ X.

65

Page 67: Curso Teoria de Muestreo

La convergencia en probabilidad permite introducir la noción de orden de magnitud aleatoria :

Definición 7 Sea Xn una sucesión de variables aleatorias, Xn se dice que es inferior en probabilidad ahn > 0, si

p lımn→∞

Xn

hn= 0.

Se escribeXn = op (hn) .

Definición 8 Sea Xn una sucesión de variables aleatorias, Xn se dice que està acotada por hn > o enprobabilidad por hn > 0 si para todo ε > 0, existe un número Mε > 0 tal que

Pr [| Xn |≥ Mεhn] ≤ ε,

para todo n = 1, 2, 3, ... se escribeXn = Op (hn) .

Teorema 7 Sean Xn y Yn dos sucesiones de variables aleatorias, tales que

Xn = op(hn) e Yn = op(gn),

si a es un real α > 0, entonces(i) aXn = op(hn),(ii) | Xn |α= op(hα

n),(iii) XnYn = op(hngn),(iv) Xn + Yn = op (max(hn, gn)) .

Demostración(i) Si Xn = op(hn) e Yn = op(gn), entonces

lımn→∞

Pr

[∣∣∣∣Xn

hn

∣∣∣∣ > ε

]= 0, (9.1)

y

lımn→∞

Pr

[∣∣∣∣Yn

gn

∣∣∣∣ > ε

]= 0.

para todo ε > 0. Lo que implica queaXn = op(hn).

(ii) Como

Pr

[∣∣∣∣Xn

hn

∣∣∣∣ > ε

]= Pr

[∣∣∣∣Xn

hn

∣∣∣∣α

> εα

],

se obtiene | Xn |α= op(hαn).

(iii) Luego, tenemos que, para todo ε > 0,

Pr

[∣∣∣∣Xn

hn

∣∣∣∣ > ε

]+ Pr

[∣∣∣∣Yn

gn

∣∣∣∣ > ε

]≥ Pr

[∣∣∣∣Xn

hn

∣∣∣∣ > ε donde∣∣∣∣Yn

gn

∣∣∣∣ > ε

]

≥ Pr

[∣∣∣∣XnYn

hngn

∣∣∣∣ > ε2]

,

lo que implica que

lımn→∞

Pr

[∣∣∣∣XnYn

hngn

∣∣∣∣ > ε2]

= 0,

yXnYn = Op(hngn).

(iv) Al final, Xn + Yn = op (max(hn, gn)) es obvio. 2

66

Page 68: Curso Teoria de Muestreo

Teorema 8 Sean Xn y Yn los dos sucesiones de variables aleatorias, tales que

Xn = Op(hn) e Yn = Op(gn),

si a es un real y α > 0,aXn = Op(hn),

| Xn |α= Op(hαn),

XnYn = Op(hngn),

Xn + Yn = Op (max(hn, gn)) .

Los demostraciones son similares a la precedente. 2

Teorema 9 Desigualdad de Bienaymé-Tchebychev (caso discreto) Sean α > 0 y X una variablealeatoria discreta tal que E[Xα] < ∞, entonces para todo ε > 0 y para todo A ∈ R,

Pr [| X −A |≥ ε] ≤ E [| X −A |α]εα

.

DemostraciónSi se nota X1, ..., Xi, ..., XI , a los valores posibles X, se puede escribir

E [| X −A |α] =I∑

i=1

| Xi −A |α Pr[X = Xi]

=I∑

i=1|Xi−A|<ε

| Xi −A |α Pr[X = Xi]

+I∑

i=1|Xi−A|≥ε

| Xi −A |α Pr[X = Xi]

≥ εαI∑

i=1|Xi−A|≥ε

Pr[X = Xi]

= εαPr [| X −A |≥ ε] .

2

Teorema 10 Sea Xn una sucesión de variables aleatorias tal que

E[X2

n

]= O(hn),

entonces Xn = Op(√

hn).

Demostración

Como E[X2

n

]= O(hn) entonces existe un MA > 0 tal que

E[X2

n

] ≤ MAhn

para todo n. Por otro lado, con α = 2, A = 0, y ε =√

MBhn, por la desigualdad de Bienaymé-Tchébichev,se tiene

Pr[| Xn |≥

√MBhn

]≤ E

[X2

n

]

MBhn.

Si tomamos, MB ≥ MAα, se tieneE

[X2

n

]

MBhn=

MA

MB≤ α,

lo que daPr

[| Xn |≥

√MBhn

]≤ α,

y entonces Xn = Op(√

hn). 2

67

Page 69: Curso Teoria de Muestreo

Teorema 11 Sea Xn una sucesión de variables aleatorias tales que

E[(Xn − E[Xn])2

]= O(hn),

y queE [Xn] = O(

√hn),

entonces Xn = Op(√

hn)

DemostraciónComo

E[X2

n

]= E

[(Xn − E[Xn])2

]+ E[Xn]2 = O(hn),

el resultado viene del teorema 11. 2

Ejemplo 9. Sea X1, ..., Xn, n variables independientes con la misma distribución de media µ y con desviacióntipica σ. La variable

Xn =1n

n∑

i=1

Xn

tiene varianza

V ar[Xn

]=

σ2

n,

y entonces Xn = Op(n−1/2).

Teorema 12 Sea Xn una sucesión de variables aleatorias tales que Xn = x0 + Op(hn), f(x) una funciónderivable α veces con derivadas continuas en el punto x = x0, y hn una sucesión de números positivos talesque lımn→∞ hn = 0,

f(Xn) = f(x0) +α−1∑

i=1

(Xn − x0)i f(i)(x0)

i!+ Op(hα

n),

donde f (i)(x0) es la i-ésima derivada de f(x) calculada en el punto x = x0.

DemostraciónCon un desarrollo en Serie de Taylor, tenemos

f(Xn) = f(x0) +α−1∑

i=1

(Xn − x0)i f(i)(x0)

i!+ (Xn − x0)α f (α)(b)

α!,

donde b varia entre x0 y Xn. Puesto que f (α)(.) es una función continua, f (α)(b) està acotado, en probabilidad,i.e. f (α)(b) = Op(1). Se obtiene

(Xn − x0)α f (α)(b)α!

= Op(hαn).

2

Teorema 13 Sean X1n, ..., Xjn, ..., Xpn, p sucesiones de variables aleatorias tales que Xjn = xj0+Op(hn), j =1, ..., p, f(x1, ..., xp) una función continua cuyas derivadas parciales existen y son continuas en los puntosxj = xj0, y hn una sucesión de números positivos tales que lımn→∞ hn = 0, entonces

f(X1n, ..., Xpn) = f(x10, ..., xp0)

+p∑

j=1

(Xjn − xj0)∂f(x1, ..., xp)

∂xj

∣∣∣∣xj=xj0

+ Op(h2n).

68

Page 70: Curso Teoria de Muestreo

DemostraciónAplicando un desarrollo en Serie de Taylor, se logra

f(X1n, ..., Xpn)= f(x10, ..., xp0)

+p∑

j=1

(Xjn − xj0)∂f(x1, ..., xp)

∂xj

∣∣∣∣xj=xj0

+p∑

j=1

p∑

i=1

(Xjn − xj0)(Xin − xi0)2!

∂2f(x1, ..., xp)∂xj∂xi

∣∣∣∣xj=bj

,

donde los bj están entre Xjn y xj0. Como en el teorema precedente, (Xjn − xj0)(Xin − xi0) = Op

(h2

n

)que

multiplica una cantidad acotada en probabilidad. 2

9.2. Aproximación de la varianza por linealización

9.2.1. Linealisación de una función de totalesEl objetivo es estimar la varianza de una función de p totales cuyas derivadas existen y son continuas

hasta el orden dosθ = f(Y1, ..., Yj , ...Yp).

Para estimar esta función, se utiliza el estimador por substitución

θ = f(Y1, ..., Yj , ...Yp),

donde los Yj son los estimadores (eventualmente sesgados) de los Yj . Generalmente los Yj son los estimadoresde Horvitz-Thompson, pero pueden también ser estimadores de razón, de regresión o más complejos.

Definición 9 Si N−αθ está acotado para todo valor de N, entonces θ se dice que es de grado α.

Por ejemplo R = Y/X es de grado 0, Y es de grado 1, y = Y/N es de grado 0 (porque es una razón de dosfunciones de grado 1) y V ar[Yπ] es de grado 2.

En muestreo, no existe una teoría asintótica general. Existen resultados particulares para los planessimples (Madow, 1948) y para algunos planos con probabilidades desiguales (Rosen, 1972a, 1972b). Vamosa suponer que los Yj verifican las condiciones siguientes :

1. Los Yj son lineales homogéneos, es decir que pueden ser escritos de la manera siguiente

Yj =∑

k∈S

wk(S)ykj , j = 1, ..., p, (9.2)

donde ykj es el valor tomado por la j-isima variable sobre la unidad k. El caso más simple viene dadopor el estimador de Horvitz-Thompson donde wk(S) = 1/πk.

2.Yj − Yj

N= Op

(1√n

), j = 1, ..., p.

3. Tenemos un estimador de la varianza de cada uno de los Yj que se nota por V ar(Yj

).

4. Las V ar(Yj

)−1/2 (Yj − Yj

)tienen una distribución normal centrada reducida.

Estas cuatro hipótesis son bastante simple y son verificadas para los planes simples y los planes estrati-ficados (si el numero de estratos es n) y para los planes con conglomerados (si el numero de conglomeradoscrece con n).

69

Page 71: Curso Teoria de Muestreo

Definición 10 La variable

vk =p∑

j=1

ykj∂f(a1, ..., ap)

∂aj

∣∣∣∣a1=Y1,...,ap=Yp

, k ∈ U, (9.3)

es llamada la variable linearizada de θ = f(Y1, ..., Yp).

Teorema 14 Sea vk, k ∈ U, la variable linealizsada de una función de interés θ de grado α estimada por θ,sobre los dos primeras condiciones, entonces

N−αθ = N−αθ + N−α(V − V

)+ Op

(1n

),

dondeV =

k∈U

vk,

V =∑

k∈S

wk(S)vk,

y los wk(S) están definidos de la misma manera que en (9.2).

DemostraciónSi se nota Y j = Yj/N, tenemos

N−αθ = N−αf(Y1, ..., Yj , ..., Yp) = N−αf(NY 1, ..., NY j , ..., NY p).

La condición 2 implica que Y j = yj + Op(n−1/2) y con el teorema 13, tenemos

N−αθ = N−αf(NY 1, ..., NY j , ..., NY p)= N−αf(Ny1, ..., Nyj , ..., Nyp)

+N−α

p∑

j=1

(Y j − yj

) ∂f(Na1, ..., Nap)∂aj

∣∣∣∣a1=y1,...,ap=yp

+Op

(1n

)

= N−αθ

+N−α

p∑

j=1

(Yj − Yj

) ∂f(a1, ..., ap)∂aj

∣∣∣∣a1=Y1,...,ap=Yp

+Op

(1n

)

= N−αθ + N−α(V − V

)+ Op

(1n

).

2

Observar que N−α(V − V

)= Op(n−1/2). La varianza del estimador de la función de interés puede ser

aproximada simplemente. En efecto,

V ar[N−αθ

]

= V ar

[N−αθ + N−α(V − V ) + Op

(1n

)]

= V ar[N−αV

]+ 2E

[N−α(V − V )×Op

(1n

)]+ E

[Op

(1n

)2]

= V ar

[V

]+ EOp

(1

n3/2

).

Considerando que EOp

(n−3/2

)es despreciable, se puede construir una aproximación de la varianza

AV ar[θ] = V ar[V

].

70

Page 72: Curso Teoria de Muestreo

9.3. Estimación de la varianzaPara estimar la varianza, no se puede usar directamente los vk, porque los vk dependen de los totales de

la población Yj quienes son desconocidos. Se aproximan los vk combinado los totales desconocidos por losestimadores, y vk es la aproximación de la variable linealizsada. Deville (1999) ha probado que si el númerode totales a estimar en vk no crece con n, entonces la aproximación de la varianza lograda con los vk esválida para grandes tamaños de muestra.

Al final, para estimar la varianza de θ, se usa un estimador de la varianza. Si los Yj son estimadores deHorvitz-Thompson, se puede usar de manera general el estimador de la varianza de Horvitz-Thompson :

V ar[θ]

=∑

k∈S

v2k

π2k

(1− πk) +∑

k∈S

`∈S` 6=k

vkv`

πkπ`

πk` − πkπ`

πk`.

Ejemplo 10. El problema más clásico consiste en estimar la razón R = Y/X y la varianza en un plansimple. Primero, se define f(a1, a2) = a1/a2 y entonces

R = f(Y,X).

El estimador viene directamente dado par

R = f(Y, X) =Y

X.

Luego, se calculan las derivadas parciales

∂f(a1, a2)∂a1

∣∣∣∣a1=Y,a2=X

=1X

∂f(a1, a2)∂a2

∣∣∣∣a1=Y,a2=X

= − Y

X2

y por (9.3), se obtiene

vk =yk

X− Y

X2xk =

1X

(yk −Rxk) . (9.4)

La varianza aproximada se escribe

AV ar(R

)= N

N − n

nS2

v ,

donde

S2v =

1N − 1

k∈U

(vk − V

N

)2

=1

X2

(S2

y − 2RSxy + R2S2x

).

Para estimar la varianza de R, se empieza a estimar los vk por

vk =1

X

(yk − Rxk

),

y, como

V =N

n

k∈S

vk = 0,

se obtiene el estimador de la varianza

V AR(R

)= N

N − n

n

1n− 1

k∈S

v2k = N

N − n

n

1

X2

(s2

y − 2Rsxy + R2s2x

).

71

Page 73: Curso Teoria de Muestreo

Ejemplo 11. En un plan complejo con probabilidades de inclusión de segundo orden positivas, se quiereestimar la varianza del vector de coeficientes de regresión

b =

(∑

k∈S

ckxkx′kπk

)−1 ∑

k∈S

ckxkyk

πk.

La función de interés a estimar es

b =

(∑

k∈U

ckxkx′k

)−1 ∑

k∈U

ckxkyk.

Si se nota porT =

k∈U

ckxkx′k,

el vector de las variables linealizsadas es egual a

vk = T−1ckxkyk −T−1ckxkx′kT−1

k∈U

ckxkyk

= T−1xkck (yk − x′kb) .

Si se nota por ek = yk − x′kb, tenemosvk = T−1xkckek. (9.5)

Al final, se estima vk porvk = T−1xkckek,

dondeT =

k∈S

ckxkx′kπk

,

yek = yk − x′kb.

9.4. Linealización por etapas

9.5. Descomposición en etapas de la linealizaciónLa técnica de linealización puede ser aplicada por etapas. Suponemos que θ = f(Y1, ..., Yj , ..., Yp, λ)

donde λ es también una función de totales de la qual conocemos la variable linealizada uk, entonces es fácildemostrar que la linealizada de θ puede escribirse de la forma

vk =p∑

j=1

ykj∂f(a1, ..., ap, λ)

∂aj

∣∣∣∣a1=Y1,...,ap=Yp

+ uk∂f(Y1, ..., Yp, z)

∂z

∣∣∣∣z=λ

.

Ejemplo 12. Para un plan con probabilidades de orden 1 y 2 conocidas, queremos calcular la varianza delcuadrado del estimador de razón de Hájek dado por

Y H =

(∑

k∈S

1πk

)−1 ∑

k∈S

yk

πk.

Se observa que la linealizada para la media y = Y/N se deduce de la linealizada de un razón (9.4) :

uk =1N

(yk − y) .

72

Page 74: Curso Teoria de Muestreo

Aplicando el método de linealización por etapas, la linealizada de y2 es

vk = 2yuk =2yN

(yk − y) .

Se estima vk por

vk =2Y H

N

(yk − Y H

).

9.6. Linealización del estimador de regresiónEl estimador de regresión se definió en (8.2) :

Ygreg = Yπ + (tx − txπ)′b.

Podemos escribirlo de la formaYgreg = f(Yπ, txπ, b).

Este estimador depende de dos totales Yπ, txπ, y de b del cual conocemos la linealizada (9.5). Si se usa latécnica de linealisación por etapas f(Y, tx,b), se obtiene

uk = yk − x′kb + (tx − tx)′vk

= yk − x′kb (9.6)= ek,

donde vk es la linealizada de b que no interviene en la linealizada de uk. El estimador de la linealizada esentonces

uk = ek = yk − x′kb.

La varianza puede ser estimada simplemente mediante el residuo de la regresión.

73

Page 75: Curso Teoria de Muestreo

Capítulo 10

Referencias

Ardilly, P. (1994), Les Techniques de Sondage, Paris, Technip.Ardilly, P. (1991), Echantillonnage représentatif optimum à probabilités inégales, Annales d’Economie y de Statistique,

23, 91-113.Arora, H.R. y Brackstone, G.J. (1977), An investigation of the properties of raking ratio estimator : I with simple

random sampling, Survey Methodology, 3, 62-83.Basu, D. (1958), On sampling with and without replacement, Sankhya, 20, 287-294.Basu, D. (1964), Recovery of ancillary information, Sankhya, A26, 3-16.Basu, D. (1969), Role of the sufficiency and likelihood principles in sample survey theory, Sankhya, A31, 441-454.Basu, D. (1971), An essay on the logical foundations of survey sampling,in Godambe, V.P. y Sprott, D.A. Éds.,

Foundations of Statistical Inference, Toronto, Holt, Rinehart and Winston, pp. 203-233.Basu, D. y Ghosh, J.K. (1967), Sufficient statistics in sampling from a finite universe, Proceedings of the 36th Session

of International Statistical Institute, 850-859.Bebbington, A.C. (1975), A simple method of drawing a sample without replacement, Applied Statistics, 24, 136.Bellhouse D.R. (1988), A brief history of random sampling methods,in Krishnaiah, P.R. y Rao, C.R. Éds., Handbook

of Statistics, Vol 6 (Sampling), New York, Elsevier Science Publishers, pp. 1-14.Berger, Y. (1996), Asymptotic variance for sequential sampling without replacement with unequal probabilities, Vari-

ance asymptotique pour un plan séquentiel sans remise à probabilités inégales, Survey Methodology, Techniquesd’enquête, 22,167-173.

Berger, Y. (1998a), Comportements asymptotiques des plans de sondage à probabilités inégales pour un modèle depopulation fixe, Ph.D., Université Libre de Bruxelles.

Berger, Y. (1998b), Variance estimation using list sequential scheme for unequal probability sampling, Journal ofOfficial Statistics, 14, 315-323.

Berger, Y. (1998c), Rate of convergence for asymptotic variance for the Horvitz-Thompson estimator, Journal ofStatistical Planning and Inference, 74, 149-168.

Berger, Y., El Haj Tirari, M., Tillé, Y. (2000), Optimal generalised regression estimation under complex samplingdesigns, Document de travail, Rennes, CREST-ENSAI.

Bethlehem, J.G. y Keller J.W. (1987), Lineal weighting of sample survey data, Journal of Official Statistics, 3,141-153.

Bethlehem, J.G. y Schuerhoff, M.H. (1984), Second-order inclusion probabilities in sequential sampling withoutreplacement with unequal probabilities, Biometrika, 71, 642-644.

Binder, D.A. y Patak, Z. (1994), Use of estimating functions for estimation from complex surveys, Journal of theAmerican Statistical Association, 89, 1035-1043.

Binder, D.A. y Theberge, A. (1988), Estimating the variance of raking-ratio estimators, Canadian Journal of Statistics,16 supplement, 47-55.

Brackstone, G.J. y Rao, J.N.K. (1979), An investigation of raking ratio estimators, Sankhya, C41, 97-114.Brewer, K.R.W. (1963), Ratio estimation in finite populations : some results deductible from the assumption of an

underlying stochastic process, Australian Journal of Statistics, 5, 93-105.Brewer, K.R.W. (1975), A simple procedure for πpswor, Australian Journal of Statistics, 17, 166-172.Brewer, K.R.W. y Hanif, M. (1983), Sampling with Unequal Probabilities, New York, Springer-Verlag.Bülher, W. y Deutler, T. (1975), Optimal stratification and grouping by dynamic programming, Metrika, 22, 161-175.Caron, N. (1996), Les principales techniques de correction de la non-réponse, y les modèles associés, Document de

74

Page 76: Curso Teoria de Muestreo

travail n◦9604, Méthodologie statistique, INSEE.Caron, N. (1999), Le logiciel POULPE aspects méthodologiques, Actes des Journées de Méthodologie statistique, des

17 y 18 mars 1998, INSEE Méthodes 84-85-86, pp. 173-200.Cassel, C.-M., Särndal, C.-E. y Wretman, J.H. (1976), Some results on generalized difference estimation and gener-

alized regression estimation for finite population, Biometrika, 63, 615-620.Cassel, C.-M., Särndal, C.-E. y Wretman, J.H. (1993), Foundations of Inference in Survey Sampling, New York,

Wiley.Causey, B.D. (1972), Sensitivity of raked contingency table totals to change in problem conditions, Annals of Math-

ematical Statistics, 43, 656-658.Chao, M.T. (1982), A general purpose unequal probability sampling plan, Biometrika, 69, 653-656.Chaudhuri, A. (1988), Optimality of sampling strategies,in Krishnaiah, P.R. y Rao, C.R. Éds., Handbook of Statistics,

Vol 6 (Sampling), New York, Elsevier Science Publishers, pp. 47-96.Chen, X.-H., Dempster, A.P., y Liu, S.L. (1994), Weighted finite population sampling to maximize entropy, Biometri-

ka, 81, 457-469.Cochran, W.G. (1939), The use of the analysis of variance in enumeration by sampling, Journal of the American

Statistical Association, 24, 492-510.Cochran, W.G. (1942), Sampling theory when the sampling units are of unequal sizes, Journal of the American

Statistical Association, 37, 199-212.Cochran, W.G. (1946), Relative accuracy of systematic and stratified random samples for a certain class of population,

Annals of Mathematical Statistics, 17, 164-177.Cochran, W.G. (1961), Comparison of methods for determining stratum boundaries, Proceedings of the International

Statistical Institute, 38, 245-358.Cochran, W.G. (1977), Sampling Techniques, 3ème édition, New York, Wiley.Connor, W.S. (1966), An exact formula for the probability that specified sampling units will occur in a sample drawn

with unequal probabilities and without replacement, Journal of the American Statistical Association, 61, 384-490.Cornfield, J. (1944), On samples from finite populations, Journal of the American Statistical Association, 39, 236-239.Deming, W.E. (1950), Some Theory of Sampling, New York, Dover Publications.Deming, W.E. (1948), Statistical Adjustment of Data, New York, Wiley.Deming, W.E. (1960), Sample Design in Business Research, New York, Wiley.Deming, W.E. y Stephan, F.F. (1940), On a least square adjustment of sampled frequency table when the expected

marginal totals are known, Annals of Mathematical Statistics, 11, 427-444.Deville, J.-C. (sans date), Cours de Sondage, Chapitre III : Les Outils de Base, Polycopié, Paris, ENSAE.Deville, J.-C. (1988), Estimation linéaire y redressement sur informations auxiliaires d’enquêtes par sondage,in Mon-

fort, A. y Laffond, J.J. Éds., Essais en l’honneur d’Edmond Malinvaud, Paris, Economica, pp. 915-929.Deville, J.-C., (1992), Constrained samples, conditional inference, weighting : three aspects of the utilisation of

auxiliary information, Proceedings of the Workshop Auxiliary Information in Surveys, Örebro (Suède).Deville, J.-C. (1998a), Une nouvelle (encore une!) méthode de tirage à probabilités inégales, Document de travail

n◦9804, Méthodologie statistique, INSEE.Deville, J.-C. (1998b), La correction de la non-réponse par calage ou par échantillonnage équilibré,in Recueil de la

Section des méthodes d’enquêtes des communications présentées au 26ème congrès de la Société Statistique duCanada, Sherbrooke, pp.103-110.

Deville, J.-C. (1999), Estimation de variance pour des statistiques y des estimateurs complexes : techniques de résidusy de linéarisation, Variance estimation for complex statistics ans estimators : linealization and residual techniques,Techniques d’enquête, Survey methodology, 25, 219-230 (fr.), 193-204 (angl.).

Deville, J.-C. (2000a), Note sur l’algorithme de Chen, Dempster y Liu, Note manuscrite, CREST-ENSAI.Deville, J.-C. (2000b), Generalized calibration and application to weighting for non-response, Communication invitée,

Utrecht, COMPSTAT.Deville, J.-C. y Dupont, F. (1993), Non-réponse : principes y méthodes,in Actes des Journées de Méthodologie statis-

tique des 15 y 16 décémbre 1993, INSEE Méthodes n◦56-57-58, Paris, INSEE, pp. 53-70.Deville, J.-C. y Grosbras, J.-M. (1987), Algorithmes de tirage,in Droesbeke, J.-J., Fichet, B. y Tassi, P. Éds., Les

Sondages, Paris, Economica, pp. 209-233.Deville, J.-C., Grosbras, J.-M., y Roth N. (1988), Efficient sampling algorithms and balanced sample, COMPSTAT,

Proceeding in computational statistics, Physica Verlag, pp. 255-266.Deville, J.-C., y Särndal, C.-E. (1990), Estimateur par calage y technique de ratissage généralisé dans les enquêtes

par sondage, Document de travail, Paris, INSEE.Deville, J.-C., y Särndal, C.-E. (1992), Calibration estimators in survey sampling, Journal of the American Statistical

75

Page 77: Curso Teoria de Muestreo

Association, 87, 376-382.Deville, J.-C., Särndal, C.-E. y Sautory, O. (1993), Generalized Raking procedure in survey sampling, Journal of the

American Statistical Association, 88, 1013-1020.Deville, J.-C., y Tillé, Y. (1998), Unequal probability sampling without replacement through a splitting method,

Biometrika, 85, 89-101.Deville, J.-C., y Tillé, Y. (2000), Balanced sampling by means of the cube method, Document de travail, Rennes,

CREST-ENSAI.Deroo, M. y Dussaix, A.-M. (1980), Pratique y analyse des enquêtes par sondage, Paris, P.U.F.Durbin, J. (1953), Some results in sampling when the units are selected with unequal probabilities, Journal of the

American Statistical Association, 61, 384-490.Dussaix A.-M. (1987), Modèles de surpopulation,in Droesbeke, J.-J., Fichet, B. y Tassi, P. Éds., Les Sondages, Paris,

Economica, pp. 66-88.Dussaix A.-M. y Grosbras, J.-M. (1992), Exercices de sondages, Paris, Economica.Fan C.T., Muller, M.E. y Rezucha I. (1962), Development of sampling plans by using sequential (item by item)

selection techniques and digital computer, Journal of the American Statistical Association, 57, 387-402.Fienberg, S.E. (1970), An iterative procedure for estimation in contingency tables, Annals of Mathematical Statistics,

41, 907-917.Frielander, D., (1961), A technique for estimating a contingency table, given the marginal totals and some supple-

mentary data, Journal of the Royal Statistical Society, A124, 412-420.Fuller, W.A., y Isaki, C.T. (1981), Survey design under superpopulation models, inCurrents topics in survey sampling,

Eds Krewski, D., Platek, R., Rao, J.N.K., y Singh, M.P., New York, Academic Press, 196-226.Fuller, W.A. (1976), Introduction to Statistical Time Series, New York, Wiley.Gabler, S. (1984), On unequal probability sampling : sufficient conditions for the superiority of sampling without

replacement, Biometrika, 71, 171-175.Gabler, S. (1990), Minimax solutions in sampling from finite populations, Lecture Notes in Statistics, 64, Berlin,

Spinger Verlag.Ghiglione, R, y Matalon, B. (1991), Les enquêtes sociologiques : théorie y pratique, Paris, Armand Colin.

Hájek, J. (1960), Limiting distributions in simple random sampling from finite population, Matematikai KutatóIntézeténk közleményei (Publication of the Mathematical Institute of the Hungarian Academy of Sciences), A5,361-374.

Hájek, J. (1964), Asymptotic theory of rejective sampling with varying probabilities from a finite population, Annalsof Mathematical Statistics, 35, 1491-1523.

Hájek, J. (1971), Comment on a paper of D. Basu,in Godambe, V.P. y Sprott, D.A. Éds., Foundations of StatisticalInference, Toronto, Holt, Rinehart y Winston, p.236.

Hájek, J. (1981), Sampling in Finite Population, New York, Marcel Dekker.Hanif, M. y Brewer, K.R.W. (1980), Sampling with unequal probabilities without replacement : a review, International

Statistical Review, 48, 317-335.Hansen, M.H., Dalenius, T.D. y Tepping B.J. (1985), The development of sample survey in finite population,in

Atkinson, A. y Fienberg, S. Éds., A Celebration of Statistics, The ISI Centenary Volume, Springer-Verlag. pp.327-353.

Hansen, M.H., Hurwitz, W.N. (1943), On the theory of sampling from finite populations, Annals of MathematicalStatistics, 14, 333-362.

Hansen, M.H., Hurwitz, W.N. (1949), On the determination of the optimum probabilities in sampling, Annals ofMathematical Statistics, 20, 426-432.

Hansen, M.H., Hurwitz, W.N. y Madow, W.G. (1953a réimprimé en 1993), Sample Survey Methods and Theory, I,New York, Wiley.

Hansen, M.H., Hurwitz, W.N. y Madow, W.G. (1953b réimprimé en 1993), Sample Survey Methods and Theory, II,New York, Wiley.

Hansen, M.H. y Madow, W.G. (1974), Some important events in the historical development of sample survey,in Owen,D., Éd. On the History of Statistics and Probability, New York, Marcel Dekker.

Hansen, M.H., Madow, W.G. y Tepping B.J. (1983), An evaluation of model dependent and probability-sampling in-ferences in sample surveys, Journal of the American Statistical Association, 78, 776-793, Comments and rejoinder,794-807.

Hanurav, T.V. (1962a), Some sampling schemes in probability sampling, Sankhya, A24, 421-428.Hanurav, T.V. (1962b), On Horvitz and Thompson estimator, Sankhya, A24, 429-436.

76

Page 78: Curso Teoria de Muestreo

Hanurav, T.V. (1965), Optimum Sampling Strategies and some Related Problems, Thèse de doctorat, Indian StatisticalInstitute.

Hanurav, T.V. (1966), Some aspects of unified sampling theory, Sankhya, A28, 175-204.Hanurav, T.V. (1967), Optimum utilization of auxiliary information : IIPS sampling of two units from a stratum,

Journal of the Royal Statistical Society, B29, 374-391.Hanurav, T.V. (1968), Hyper-admissibility and optimum estimators for sampling finite population, Annals of Math-

ematical Statistics, 39, 621-642.Hartley, H.O. y Rao, J.N.K. (1962), Sampling with unequal probabilities and without replacement, Annals of Math-

ematical Statistics, 33, 350-374.Hartley, H.O. y Rao, J.N.K (1968), A new estimation theory for sample survey, Biometrika, 55, 547-557.Hedayat, A.S., Majumdar, Dibyen (1995), Generating desirable sampling plans by the technique of trade-off in

experimental design, Journal of Statistical Planning and Inference, 44, 237-247.Hedayat, A.S., y Sinha, B.K. (1991), Finite Population Sampling, New York, Wiley.Hedayat, A.S., Bing-Ying Lin y Stufken, J. (1989), The construction of ΠPS sampling designs through a method of

emptying boxes, Annals of Statistics, 4, 1886-1905.Holt, D. y Smith, T.M.F. (1979), Poststratification, Journal of the Royal Statistical Society, A142, Part 1, 33-46.Horvitz, D.G. y Thompson, D.J. (1952), A generalization of sampling without replacement from a finite universe,

Journal of the American Statistical Association, 47, 663-685.Ireland, C.T. y Kullback, S. (1968), Contingency tables with given marginals, Biometrika, 55, 179-188.Isaki, C.T. y Fuller, W.A. (1982), Survey design under a regression population model, Journal of the American

Statistical Association, 77, 89-96.Jagers, P. (1986), Poststratification against bias in sampling, International Statistical Review, 54, 159-167.Jagers, P., Odén, A. y Trulsson, L. (1985), Poststratification and ratio estimation : usages of auxiliary information

in survey sampling and opinion polls, International Statistical Review, 53, 221-238.Jessen, R.J. (1978), Statistical Survey Techniques, New York, Wiley.Johnson, N.L. y Smith, H. Éds. (1969), New Developments in Survey Sampling, New York, Wiley.Johnson, N.L, Kotz, S. y Kemp, A.W. (1992), Univariate Discrete Distributions, New York, Wiley.Keverberg, Baron de, (1827), Notes,in Quetelet, A., Nouveaux Mémoires de l’Académie royale des Sciences y Belles

Lettres de Bruxelles, 4, 175-192.Kiaer, A. (1896), Observations y expériences concernant des dénombrements représentatifs, Bulletin de l’Institut

International de Statistique, Berne, 9, livre 2, 176-183.Kish, L. (1965), Survey Sampling, New York, Wiley.Konijn, H.S. (1973), Statistical Theory of Sample Survey Design and Analysis, North-Holland, Amsterdam.Konijn, H.S. (1981), Biases, variances and covariances of raking ratio estimators for marginal and cell totals and

averages of observed characteristics, Metrika, 28, 109-121.Lanke, J. (1973), On the UMV-estimators in survey sampling, Metrika, 20, 196-202.Lanke, J. (1975), Some contributions to the theory of survey sampling, Lund, AV-Centralen.Lavallée, P. y Hidiroglou, M.A. (1987), On the stratification of skewed populations, Sur la stratification de populations

asymétriques, Survey Methodology, Techniques d’enquête, 14, 33-43.Laplace, S.P., (1847), Théorie analytique des probabilités, Paris, Imprimerie royale.McLeod, A.I. y Bellhouse, D.R. (1983), A convenient algorithm for drawing a simple random sampling, Applied

Statistics, 32, 182-184.Madow, W.G. (1948), On the limiting distribution based on samples from finite universes, Annals of Mathematical

Statistics, 19, 535-545.Madow, W.G. (1949), On the theory of systematic sampling, II, Annals of Mathematical Statistics, 20, 333-354.Marcus, M. et Minc, H. (1964), A survey of matrix theory and matrix inequalities. Boston : Allyn and Bacon.Montanari, G.E. (1987), Post sampling efficient QR-prediction in large sample survey, International Statistical Review,

55, 191-202.Narain, R.D. (1951), On sampling without replacement with varying probabilities, Journal of Indian Society for

Agricultural Statistics, 3, 169-174.Neyman, J., (1934), On the two different aspects of representative method : the method of stratified sampling and

the method of purposive selection, Journal of the Royal Statistical Society, 97, 558-606.Owen, D.B., Cochran, W.G. (1976), On the history of statistics and probability, Proceedings of a Symposium on the

American Mathematical Heritage, to celebrate the bicentennial of the United States of America, held at SouthernMethodist University, New York, M. Dekker.

77

Page 79: Curso Teoria de Muestreo

Raj, D. (1968), Sampling Theory, New York, McGraw-Hill.Raj, D. y Khamis, S.D. (1958), Some remarks on sampling with replacement, Annals of Mathematical Statistics, 29,

550-557.Rao, T.J. (1971), Π-ps sampling designs and the H.T. estimator, Journal of the American Statistical Association, 66,

872-875.Rao, C.R. (1971), Some aspects of statistical inference in problems of sampling from finite population,in Godambe,

V.P. y Sprott, D.A. Éds., Foundations of Statistical Inference, Toronto, Montréal.Rao, J.N.K. (1975), On the foundations of survey sampling,in Shrivastava, J.N. Éds., A Survey of Statistical Design

and Lineal Models, La Haye, North Holland, pp. 489-505.Rao, J. N. K. (1985), Conditional inference in survey sampling, Inférence conditionelle dans les enquêtes par sondage,

Survey Methodology, Techniques d’enquête, 11, 15-31.Rao, J. N. K. (1994), Estimating totals and distribution functions using auxiliary information at the estimation stage,

Journal of Official Statistics, 10, 153-165.Rao, J. N. K. (1997), Development in sample survey theory : an appraisal, Canadian Journal of Statistics, 25, 1-21.Rao, J.N.K., Hartley, H.O. y Cochran, W.G. (1962), On a simple procedure of unequal probability sampling without

replacement, Journal of the Royal Statistical Society, B24, 482-491.Rosen (1972a), Asymptotic theory for successive sampling I, Annals of Mathematical Statistics, 43, 373-397.Rosen (1972b), Asymptotic theory for successive sampling II, Annals of Mathematical Statistics, 43, 748-776.Royall, R., (1968), An old approach to finite population sampling theory, Journal of the American Statistical Asso-

ciation, 63, 1269-1279.Royall, R., (1970), On finite population sampling theory under certain lineal regression models, Biometrika, 57,

377-387.Royall, R., (1971), Lineal regression models in finite population sampling theory, in Godambe, V.P. y Sprott, D.A.

Éds., Foundations of Statistical Inference, Toronto, Montréal.Royall, R., (1976), The lineal least squares prediction approach to two-stage sampling, Journal of the American

Statistical Association, 71, 657-664.Royall, R. y Cumberland, W.G. (1981), An empirical study of the ratio estimator and its variance, Journal of the

American Statistical Association, 76, 66-77.Royall, R. y Eberhardt, K.R. (1975), Variance estimates for the ratio estimator, Sankhya, C37, 43-52.Royall, R. y Herson, J. (1973a), Robust estimation in finite populations I, Journal of the American Statistical Asso-

ciation, 68, 880-889.Royall, R. y Herson, J. (1973b), Robust estimation in finite populations II : stratification on a size variable, Journal

of the American Statistical Association, 68, 891-893.Särndal, C.-E. (1980), On π-inverse weighting versus best lineal unbiased weighting in probability sampling, Biometri-

ka, 67, 639-650.Särndal, C.-E (1982), Implication of survey design for generalized regression estimation of lineal functions, Journal

of Statistical Planning and Inference, 7, 155-170.Särndal, C.-E. (1984), Inférence statistique y analyse des données sous des plans d’échantillonnage complexes, Mon-

tréal, Presses de l’Université de Montréal.Särndal, C.-E. (1984), Design-Consistent versus Model dependent estimation for small domains, Journal of the Amer-

ican Statistical Association, 68, 880-889.Särndal, C.-E. y Swensson, B. (1987), A general view of estimation for two phases of selection with applications to

two-phase sampling and non-response, International Statistical Review, 55, 279-294.Särndal, C.-E., Swensson, B. y Wretman, J.H. (1989), The weighted residual technique for estimating the variance of

the general regression estimator of the finite population total, Biometrika, 76, 527-537.Särndal, C.-E., Swensson, B. y Wretman, J.H. (1992), Model Assisted Survey Sampling, New York, Springer Verlag.Särndal, C.-E. y Wright, R.L. (1984), Cosmetic form of estimators in survey sampling, Scandinavian Journal of

Statistics, 11, 146-156.Scott, A.J. (1975a), On admissibility and uniform admissibility in the finite sampling, Annals of Statistics, 2, 489-491.Scott, A.J. (1975b), Some comments on the problem of randomization in surveys, Proceedings of the 40th Session of

the International Statistical Institute, Varsovie.Sen, A.R. (1953), On the estimate of the variance in sampling with varying probabilities, Journal of Indian Society

for Agricultural Statistics, 5, 119-127.Sengupta, S. (1989), On Chao’s unequal probability sampling plan, Biometrika, 76, 192-196.Serfling, R.J. (1980), Approximation Theorems of Mathematical Statistics, New York, Wiley.Sheynin O.B. (1986), Adolphe Quetelet as a statistician, Archive for History of Exact Science, 36, 282-325.

78

Page 80: Curso Teoria de Muestreo

Sinha, B.K. (1973), On sampling schemes to realize preassigned sets of inclusion probabilities of first two orders,Bulletin of the Calcutta Statistical Association, 22, 89-110.

Skinner, C.J. (1991), On the efficiency of raking estimation for multiple frame surveys, Journal of the AmericanStatistical Association, 86, 779-784.

Smith, T.M.F. (1976), The foundations of survey sampling : a review, Journal of the Royal Statistical Society, A139,183-204.

Stephan, F. (1942), An iterative method of adjusting sample frequency data tables when expected marginal totalsare known, Annals of Mathematical Statistics, 13, 166-178.

Stephan, F. (1945), The expected value and variance of the reciprocal and other negative powers of a positiveBernoullan variate, Annals of Mathematical Statistics, 16, 50-61.

Stephan, F. (1948), History of the uses of modern sampling procedures, Journal of the American Statistical Associa-tion, 43, 12-49.

Sukhatme, P.V, Sukhatme, B.V. (1970), Sampling Theory of Surveys with Applications, 2ème édition, London, AsiaPublishing House.

Sunter, A. (1977), List sequential sampling with equal or unequal probabilities without replacement, Applied Statistics,26, 261-268.

Sunter, A. (1986), Solutions to the problem of unequal probability sampling without replacement, InternationalStatistical Review, 54, 33-50.

Thionet, P. (1953). La théorie des sondages. Etudes théoriquew 5, INSEE, Paris, Imprimerie nationale.Thionet, P. (1959), L’ajustement des résultats des sondages sur ceux des dénombrements, Revue de l’Institut Inter-

national de Statistique, 27, 8-25.Thionet, P. (1976), Construction y reconstruction de tableaux statistiques, Annales de l’INSEE, 22-23, 5-27.Thompson, S.K. (1992), Sampling, New York, Wiley.Tillé, Y. (1996a), An elimination procedure of unequal probability sampling without replacement, Biometrika, 83,

238-241.Tillé, Y. (1996b), Some remarks on unequal probability sampling designs without replacement, Annales d’ Économie

y de Statistique, 44, 177-189.Tillé, Y. (1996c), A moving stratification algorithm, Un algorithme de stratification mobile, Survey Methodology,

Techniques d’enquête, 22, 1, 85-94.Tillé, Y. (1998), Estimation in surveys using conditional inclusion probabilities : simple random sampling, Interna-

tional Statistical Review, 66, 303-322.Tillé, Y. (1999), Estimation in surveys using conditional inclusion probabilities : complex design, Estimation dans les

enquêtes par sondage en utilisant des probabilités d’inclusion conditionnelles : plans complexes, Survey Method-ology, Techniques d’enquête, 25, 57-66.

Tillé, Y., Newman, J.A. y Healy, S.D. (1996), New tests for departures from random behavior in spatial memoryexperiments, Animal Learning and Behavior, 24, 327-340.

Tillé, Y., (2001), Théorie des sondages, : échantillonnage et estimation en populations finies, Paris, Dunod.Tschuprow, A. (1923), On the mathematical expectation of the moments of frequency distributions in the case of

correlated observation, Metron, 3, 461-493, 646-680.Wolter, K.M. (1985), Introduction to Variance Estimation, New York, Springer-Verlag.Woodruff, R.S. (1971), A simple method for approximating de variance of a complicated estimate, Journal of the

American Statistical Association, 66, 411-414.Wynn, H.P. (1977), Convex sets of finite population plans, Annals of Statistics, 5, 414-418.Wright, R.L. (1983), Finite population sampling with multivariate auxiliary information, Journal of the American

Statistical Association, 78, 879-884.Yates, F. (1949), Sampling Methods for Censuses and Surveys, London, Griffin.Yates, F. y Grundy, P.M. (1953), Selection without replacement from within strata with probability proportional to

size, Journal of the Royal Statistical Society, B15, 235-261.

79