23
Capítulo 16 16. Estudios de muestreo 1 16.1. Por qué tomar sólo una muestra cuando la población es finita? Los estudios de muestreo son empleados por el ecólogo que desea obtener información para construir mapas de comunidades de plantas, por el silvicultor que desea conocer el rendimiento de madera de un bosque, y por el gerente de un servicio de evaluación (Rating) que desea determinar la popularidad de programas de TV entre los televidentes. Los estudios también se usan para pronosticar la recolección de la cosecha, identificar las condiciones sociales y económicas prevalecientes, como desempleo, cuidado de la salud, e inflación, y para examinar las actitudes de personas hacia la legislación propuesta. Un barómetro de opiniones públicas, tan importante para una democracia, se proporciona prontamente por los estimativos basados en una muestra de la reacción pública a los efectos de tales eventos como una nueva regulación salarial, un cambio mayor en políticas de comercio, o las acciones de líderes mundiales. Cuando cualquier característica de la población es de interés, un censo o una evaluación completa de todos los miembros de la población puede proporcionar razonablemente toda la información deseada. Sin embargo, las circunstancias a menudo no hacen posible una evaluación tan extensa. Tanto consideraciones de costo como la falta de personal calificado y, si se requiere, los equipos altamente especializados pueden limitar severamente el tamaño de un estudio propuesto. Por estas razones y/o cuando se desea obtener rápidamente información bastante exacta, es prudente renunciar a un censo y estudiar una muestra "representativa" de la población en cuestión. El propósito principal de este capítulo es presentar al lector los procedimientos para recoger tal muestra y los métodos para analizar los datos muestreados. Cuando se planea y se ejecuta adecuadamente el estudio, muestras consistentes de unos pocos centenares de unidades pueden proporcionar información exacta acerca de una población de centenares de miles. Las técnicas de la inferencia examinadas en este capítulo no son diferentes de los procedimientos discutidos anteriormente, excepto que los últimos han estado basados principalmente en el supuesto de una población infinita donde una muestra aleatoria está conformada de variables aleatorias distribuidas independiente e idénticamente. Los problemas del estudio de muestras tratados aquí involucran poblaciones finitas (aunque a menudo bastante grandes) y con la excepción del caso de muestreo simple con reemplazamiento, las observaciones en estudios de encuestas no pueden, estrictamente hablando, ser consideradas independientes. Para facilitar una comprensión de la naturaleza del estudio muestral, que es común a muchos campos de aplicación, empezamos con unas pocas definiciones y luego discutimos la idea de sesgo y el método de selección de muestras aleatorias. Seguidamente introducimos el concepto de estratificación, que nos lleva a un método ligeramente más complejo pero muy útil de obtener una muestra representativa de una población. 16.2. La especificación de la población y la característica de interés Una vez que se ha tomado la decisión de obtener información por medio de un estudio muestral, nos enfrentamos inmediatamente con dos tareas: definir cuidadosamente la población que deseamos estudiar, y seleccionar la característica o características para ser tomadas en cuenta. La población objetivo es la población sobre la que nosotros deseamos hacer inferencias con base en una muestra. 1 Traducción del capítulo 16 “Sample Surveys” del libro “Statistical Concepts And Methods”, Gouri K. Bhattacharyya and Richard A. Jhonson. John Wiley and Sons, Inc. 1977. Traducción por parte de estudiantes del curso de “Estadística Matemática I” (semestre 02 de 2000) del Departamento de Ingeniería Industrial de la Facultad de Ingeniería de la Universidad de Antioquia, con la recopilación, corrección y adaptación del profesor Bernardo A. Calderón C.

Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Embed Size (px)

Citation preview

Page 1: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Capítulo 16 16. Estudios de muestreo1

16.1. Por qué tomar sólo una muestra cuando la población es finita? Los estudios de muestreo son empleados por el ecólogo que desea obtener información para construir mapas de comunidades de plantas, por el silvicultor que desea conocer el rendimiento de madera de un bosque, y por el gerente de un servicio de evaluación (Rating) que desea determinar la popularidad de programas de TV entre los televidentes. Los estudios también se usan para pronosticar la recolección de la cosecha, identificar las condiciones sociales y económicas prevalecientes, como desempleo, cuidado de la salud, e inflación, y para examinar las actitudes de personas hacia la legislación propuesta. Un barómetro de opiniones públicas, tan importante para una democracia, se proporciona prontamente por los estimativos basados en una muestra de la reacción pública a los efectos de tales eventos como una nueva regulación salarial, un cambio mayor en políticas de comercio, o las acciones de líderes mundiales. Cuando cualquier característica de la población es de interés, un censo o una evaluación completa de todos los miembros de la población puede proporcionar razonablemente toda la información deseada. Sin embargo, las circunstancias a menudo no hacen posible una evaluación tan extensa. Tanto consideraciones de costo como la falta de personal calificado y, si se requiere, los equipos altamente especializados pueden limitar severamente el tamaño de un estudio propuesto. Por estas razones y/o cuando se desea obtener rápidamente información bastante exacta, es prudente renunciar a un censo y estudiar una muestra "representativa" de la población en cuestión. El propósito principal de este capítulo es presentar al lector los procedimientos para recoger tal muestra y los métodos para analizar los datos muestreados. Cuando se planea y se ejecuta adecuadamente el estudio, muestras consistentes de unos pocos centenares de unidades pueden proporcionar información exacta acerca de una población de centenares de miles. Las técnicas de la inferencia examinadas en este capítulo no son diferentes de los procedimientos discutidos anteriormente, excepto que los últimos han estado basados principalmente en el supuesto de una población infinita donde una muestra aleatoria está conformada de variables aleatorias distribuidas independiente e idénticamente. Los problemas del estudio de muestras tratados aquí involucran poblaciones finitas (aunque a menudo bastante grandes) y con la excepción del caso de muestreo simple con reemplazamiento, las observaciones en estudios de encuestas no pueden, estrictamente hablando, ser consideradas independientes. Para facilitar una comprensión de la naturaleza del estudio muestral, que es común a muchos campos de aplicación, empezamos con unas pocas definiciones y luego discutimos la idea de sesgo y el método de selección de muestras aleatorias. Seguidamente introducimos el concepto de estratificación, que nos lleva a un método ligeramente más complejo pero muy útil de obtener una muestra representativa de una población.

16.2. La especificación de la población y la característica de interés Una vez que se ha tomado la decisión de obtener información por medio de un estudio muestral, nos enfrentamos inmediatamente con dos tareas: definir cuidadosamente la población que deseamos estudiar, y seleccionar la característica o características para ser tomadas en cuenta. La población objetivo es la población sobre la que nosotros deseamos hacer inferencias con base en una muestra.

1 Traducción del capítulo 16 “Sample Surveys” del libro “Statistical Concepts And Methods”, Gouri K.

Bhattacharyya and Richard A. Jhonson. John Wiley and Sons, Inc. 1977. Traducción por parte de estudiantes del curso de “Estadística Matemática I” (semestre 02 de 2000) del Departamento de Ingeniería Industrial de la Facultad de Ingeniería de la Universidad de Antioquia, con la recopilación, corrección y adaptación del profesor Bernardo A. Calderón C.

Page 2: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 2

Aunque especificar una población puede parecer procedimiento sencillo, algunos casos dudosos pueden presentar dificultades en estudios incluso muy simples. Para dirigir un estudio de las actividades de ocio de estudiantes de la universidad, por ejemplo, tendríamos que decidir si incluir o no los estudiantes de tiempo parcial y estudiantes que están tomando menos del número mínimo especificado de créditos porque cancelaron cursos durante el semestre. La población a ser muestreada debe coincidir con la población objetivo. Cuando la población muestreada difiere substancialmente siendo más restrictiva, debe tenerse en cuenta que cualquier conclusión alcanzada sólo podría aplicarse a la población muestreada. Una dificultad práctica mayor encontrada en esta fase puede ser la construcción de una lista de todos los miembros de la población a ser muestreada. Los miembros individuales de la población son llamados unidades de muestreo o unidades, y una lista de todos los miembros de la población se llama una estructura (o marco). Construir una estructura es una parte básica de cualquier proceso objetivo de selección de la muestra. ¿Puede Usted imaginar las dificultades de construir una estructura (marco) para gatos que viven en una ciudad o para las personas que beben excesivamente?, Sin embargo normalmente es posible desarrollar una estructura razonablemente buena dedicándole algún tiempo e imaginación al problema de la estructura de la población objetivo.

La característica es la información básica de interés acerca de las unidades de muestreo. La característica puede ser la opinión de una persona sobre los programas de bienestar o la cantidad de dólares gastados en obras de caridad. Nuestra discusión en Sección 16.3 ilustra los conceptos subyacentes de estudio muestral (muestreo de encuestas) en términos de una sola característica, aunque varias características se estudien simultáneamente en la mayoría de estudios a gran escala.

16.3. Muestreo Probabilístico

Una vez se han especificado la población objetivo y las características, se enfoca la atención en escoger un método para obtener una muestra que será representativa de toda la población en cuanto concierne a la característica particular de interés. Para ser capaces de emplear correctamente los métodos estadísticos para deducir inferencias sobre una población a partir de una muestra, es esencial que la aleatoriedad entre en el proceso de selección de una manera explícita. Específicamente, antes de que se haga la elección a partir de la estructura, el método de selección debería especificar la probabilidad de que cualquier miembro particular o grupo de miembros sea incluido en la muestra. Todos los métodos de muestreo que satisfacen este criterio son llamados muestreos probabilísticos. Las probabilidades conocidas de las unidades de ser incluidas en la muestra permiten determinar estimativos puntuales y de intervalos de confianza para el valor de una cantidad (parámetro) de la población. Las dos formas más básicas de muestreo probabilístico denominadas “Muestreo Aleatorio Simple” y “Muestreo Estratificado” son examinados en este capítulo. Una muestra que no es al menos aproximadamente una muestra probabilística se llama muestra no probabilística (no aleatoria). Los métodos de muestreo no probabilísticos tienen el serio inconveniente de que no puede darse ninguna valoración de la varianza o de la incertidumbre del estimativo. Siempre que sea posible, deben evitarse los métodos de selección no probabilísticos.

16.4. Sesgo y sus fuentes En el muestreo probabilístico, se define el sesgo como la diferencia entre el valor esperado del estimador y la cantidad de población que está siendo estimada.

Sesgo = E ( estimador) – (valor de la población objetivo) Cuando esta diferencia es cero, se dice que el estimador es insesgado. Cuando se escoge un estimador hay que tener cuidado para estar seguro de que no esté subestimando o sobrestimando sistemáticamente la cantidad poblacional. El criterio de no sesgo se usa para salvaguardar contra este problema indeseable. En la literatura de estudios muestrales, la palabra “sesgo” tiene implicaciones más amplias que las incorporadas en las propiedades de la distribución de un estimador. Cualquier fuente o causa que tienda a hacer que el estimativo de la muestra difiera sistemáticamente de la cantidad de la población objetivo se llama una fuente de sesgo. Escoger, por ejemplo, una fórmula equivocada para un estimador puede ser una fuente de sesgo, pero esto está lejos de ser la fuente más importante de sesgo. Debido a un dispositivo de medida

Page 3: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 3

defectuoso, las observaciones mismas de la muestra pueden diferir de lo que se intenta medir. Aunque se use la fórmula adecuada para un estimador insesgado, la muestra puede producir estimativos sesgados. Al estimar el peso medio de una población de niños, puede demostrarse que el peso medio muestral es un estimador insesgado bajo el muestreo aleatorio simple. Pero si el nivel cero de la balanza del peso está en error, cada medida será afectada por este error constante y el estimativo será sesgado. Los cuestionarios pobremente redactados también pueden ser fuente de observaciones distorsionadas, debido a que los encuestados pueden contestar frecuentemente las preguntas incorrectamente. Preguntas que son demasiado técnicas pueden generar muchas respuestas que son puras adivinanzas. Aparte del sesgo introducido por un dispositivo de medida defectuoso, una fuente mayor de sesgo es a menudo la existencia de una diferencia sustancial entre la población muestreada y la población objetivo. Una de las situaciones más dramáticas en que se presentó este problema fue el fracaso de la encuesta de Literary Digest para predecir un ganador en la elección en Estados Unidos 1936 entre los candidatos presidenciales F. D. Roosevelt y A. Landon. Aunque se realizó una encuesta a gran escala, estos encuestadores sacaron su muestra de fuentes tales como directorios telefónicos y listados de dueños de automóvil. En esos días, tales lujos eran mucho más comunes entre los grupos de ingresos altos, y la muestra por consiguiente falló al no representar adecuadamente los grupos de ingresos bajos. Dado que el apoyo para el candidato Republicano era más fuerte en clases de ingresos altos, la encuesta predijo erróneamente la derrota para Roosevelt. Además, el muestreo fue no probabilístico; y no se podía establecer ningún límite de error en el porcentaje estimado de votos, incluso para la población muestreada. La metida de pata fue realzada aún mas por ignorar el 75% de quienes no respondieron. Otra fuente primaria de sesgo surge cuando hay un número grande de personas que no contestan la encuesta. Quienes no contestan difieren típicamente de los que responden con respecto a la característica estudiada, haciendo que la población realmente muestreada sea bastante diferente de la población objetivo. A menudo se realiza un estudio de seguimiento de quienes no contestan para rectificar esta posible fuente de sesgo. Además, el sustituir unidades que están convenientemente disponibles por unidades que no responden puede introducir sesgo. Un entrevistador que no encuentra nadie en casa en la residencia designada puede decidir entrevistar los vecinos, quines pueden tener un estilo de vida completamente diferente de los sujetos designados inicialmente.

16.5. Usando una tabla de números aleatorios Estamos ahora listos para examinar los aspectos técnicos de la extracción de una muestra aleatoria. Dada una lista de miembros de la población, podemos numerarIos de 1 a N y también podemos numerar un juego de bolas pequeñas de 1 a N. Estas balotas pueden ponerse entonces en una urna, mezcladas, y sacadas una a la vez hasta que hayamos seleccionado n balotas donde n es el tamaño deseado de la muestra. Los miembros de la población que correspondan a los números de las bolas muestreadas pueden entonces ser incluidos en la muestra, y las características de estas unidades pueden ser medidas. Como se ilustra en la Sección 16.6, se prefiere usar muestreo sin reemplazar una bola sacada antes de sacar la próxima. Sin embargo, recordemos por el momento, los dos tipos principales de muestreo originalmente xaminados en el Capítulo 5: e

Muestreo aleatorio con reemplazamiento: Las balotas se reemplazan después de cada extracción individual

Muestreo aleatorio sin reemplazamiento: Las balotas no se reemplazan después de cada extracción individual Si la población es bastante grande, este método mecánico de selección aleatoria puede ser difícil o prácticamente imposible de implementar. Esto nos lleva a la consideración de la tabla de números aleatorios. La Tabla 14 del apéndice contiene 5000 dígitos. Idealmente, estos números son generados por un mecanismo tal que cada dígito es el resultado de un ensayo que consiste en una extracción de un número de 0,1... ,9 con una probabilidad igual a 1/10; los dígitos en posiciones diferentes son los resultados de repeticiones independientes de tales ensayos. Como un primer procedimiento conceptual simple, suponga que las 10 balotas idénticas numeradas de 0, 1,...,9 son colocadas en una urna. Después de mezclar las balotas, se saca una a ciegas y su dígito es registrado. La pelota se devuelve a la urna, y el procedimiento se repite. Debido a consideraciones prácticas, las tablas de números aleatorios son generadas mediante un computador que simula aproximadamente este procedimiento, y el conjunto resultante de números son chequeados cuidadosamente para verificar la conformidad con los requerimientos de independencia y de igual probabilidad.

Page 4: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 4

El modelo en que está basada la tabla de números aleatorios asegura que todos los dígitos simples tienen la misma probabilidad de ocurrencia de 1/10, que todos los pares de dígitos 00, 01, ...,99 tienen una probabilidad de ocurrencia igual a 1/100, y así sucesivamente. ¿Cómo puede ayudarnos tal tabla a escoger una muestra aleatoria de una población finita específica? Para ilustrar el uso de la tabla de números aleatorios, suponga que tenemos 40 latas de sopas deshidratadas para acampar, y que deseamos tomar una muestra de tamaño n = 4 para estudiar su condición. Nuestro primer paso es numerar las cajas de 1 a 40 o apilarlas en algún orden de tal forma que puedan ser identificadas. En la tabla 14 del apéndice, los dígitos deben escogerse de a dos a la vez porque la población de tamaño N =40 es un número de dos dígitos. Empezamos seleccionando arbitrariamente una página, una fila, y una columna de la tabla. Suponga que nuestra selección es fila 60, y la columna 4. Leemos los pares de dígitos en las columnas 4 y 5,

13 02 18 74 39 13 74 33 Ignoramos los números mayores que 40 y también cualquier número repetido cuando aparezca una segunda vez, como el 13. Se continúa leyendo pares de dígitos hasta que cuatro unidades diferentes hayan sido seleccionadas.

13 2 18 33 Entonces se examinan los contenidos de las latas seleccionadas2. Para muestreos a gran escala o las aplicaciones frecuentes, se recomienda usar la tabla Un millón de números aleatorios, publicada por la Rand Corporation, o un generador de número aleatorios de un computador, adecuadamente probado.

16.6. Muestreo aleatorio simple

Según la terminología establecida para muestreo de encuestas, el muestreo sin reemplazamiento es conocido como muestreo aleatorio simple. Para ver por qué este método siempre es preferido al muestreo con reemplazamiento, suponga que tenemos N = 4 unidadesµ1, µ2, µ3, y µ4 en la población, y que las correspondientes medidas de las características son:

5x*1= 3x*

2 = 1x*3 = 2x*

4 =

Para los propósitos de esta discusión, los valores podrían ser el número de las personas que viven en cada una de cuatro unidades habitacionales que constituyen una población. Se realizará una comparación entre el muestreo aleatorio con y sin reemplazamiento para una muestra de tamaño n = 2. Primero se listan todas las posibles muestras no ordenadas de tamaño n = 2, de acuerdo a los valores que pueden tomar las variables: CON REEMPLAZAMIENTO SIN REEMPLAZAMIENTO (5, 5) (3, 3) (1, 1) (2, 2) (3, 1) (1, 2) (5, 3) (3, 1) (1, 2) (5, 1) (3, 2) (5, 1) (3, 2) (5, 2) (5, 2) En esta tabla, podemos observar que cualquier muestra que se pueda obtener en muestreo sin reemplazamiento, también es posible obtenerla con reemplazamiento. Sin embargo, las muestras que contienen valores repetidos no se pueden obtener al realizar el muestreo sin reemplazamiento. Dado que al medir una unidad más de una vez no se está obteniendo información adicional, es de esperase que con un

2 Se define un número aleatorio R como una variable aleatoria distribuida uniformemente entre cero y uno (0≤r<1), es decir, cualquier valor en este rango tiene igual probabilidad de ocurrencia. Se denomina generador de números aleatorios a cualquier procedimiento que produzca números entre cero y uno. Los números generados, además de distribuirse uniformemente, deben ser independientes, de tal forma que los fenómenos que reproduzcan no estén correlacionados entre sí. Los números aleatorios se usan en estudios de simulación para reproducir otra serie de fenómenos o variables aleatorias. Para el caso específico de seleccionar aleatoriamente un miembro de una lista de N personas, se genera o escoge un número aleatorio r, y se puede demostrar que el elemento seleccionado será el que ocupe la posición dada por el resultado de multiplicar el número aleatorio r por el número de elementos de la lista N, sumarle uno y tomar la parte entera del resultado, es decir, la posición J seleccionada será la parte entera de la siguiente expresión: J = [N r + 1]. Si usáramos este procedimiento para los números aleatorios escogidos (0.13, 0.02, 0.18 y 0.33) las latas a muestrear serían las correspondientes a los números [40x0.13+1, 40x0.02+1, 40x0.18+1 y 40x0.33 1] = [6.2, 1.8, 8.2 y 14.2] = [6, 1, 8, y 14].

Page 5: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 5

muestreo sin reemplazamiento tiende a recogerse mas información sobre la población de la que puede obtenerse con muestreo con reemplazamiento . Continuando con nuestro ejemplo, podríamos preguntarnos que tanto se acerca la media muestral de X =(X1+ X2)/2, a la media poblacional (5 + 3 + 1 + 2)/4 =2.75 en cada uno de los dos casos. Aunque en este

ejemplo conocemos la media de la población, en aplicaciones reales no podría conocerse sin un censo completo. Muestreo con reemplazamiento La muestra no ordenada (5,3) consta de la unión de [5 primero, luego 3] y [3 primero, luego 5]. La probabilidad de cada una de estos dos últimos eventos es 1/16, porque cada uno de los cuatro valores tiene igual probabilidad de aparecer en cada experimento. Por consiguiente, para esta muestra, x =(5+3)/2=4 tiene una probabilidad asociada de 2/16. Procediendo de esta manera, podemos obtener la distribución completa de x ; a partir de esta distribución, se calculan la esperanza y la varianza.

Distribución de 2

21 XXX

+=

Valor de x 1 1.5 2 2.5 3 3.5 4 5 Probabilidad 1/16

2/16

3/16 2/16 3/16 2/16 2/16 1/16

( ) 75.21615...

1625.1

1611 =×++×+×=XE

( ) ( ) 656.81615...

1625.1

1611 2222 =×++×+×=XE

( ) 094.175.2656.8)( 2 =−=XVar Muestreo sin reemplazamiento Cada una de las seis muestras es igualmente probable al realizar el muestreo sin reemplazamiento.

Distribución de 2

21 XXX

+=

Valor de x 1.5 2 2.5 3 3.5 4 Probabilidad 1/6 1/6 1/6 1/6 1/6 1/6

( ) 75.2614...

612

615.1 =×++×+×=XE

( ) ( ) 292.8614...

612

615.1 2222 =×++×+×=XE

( ) 729.075.2292.8)( 2 =−=XVar

Usando cualquiera de los 2 métodos de muestreo, la media muestral X presenta un valor esperado igual a la media poblacional. Sin embargo, la varianza de X es más pequeña cuando se realiza el muestreo sin reemplazamiento, de manera que la distribución de X se concentra más alrededor de la media. Estas conclusiones, que pueden demostrarse que son válidas sin importar el tamaño de la población o de la muestra, han respaldado el método de muestrear sin reemplazamiento, es decir al muestreo aleatorio simple. Antes de estudiar los estimadores, definamos las cantidades básicas poblacionales dentro de un marco conceptual general. La población consista de N unidades donde la característica tiene un valor de en la

unidad u

*ix

1, en la unidad u*2x 2,...

*Nx en la unidad uN . La media poblacional es entonces el promedio de las

características de todas las unidades:

Page 6: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 6

∑=

=µ=N

1ix*in

1lpoblacionaMedia

Cuando definimos la varianza poblacional sobre una población finita, usamos el divisor N, y no N–1, en analogía con la fórmula para varianza muestral. Estrictamente hablando, el término varianza poblacional debería reservarse para la expresión con el divisor de N, pero aquí nos hemos tomado la libertad para evitar la introducción de la última cantidad3.

( )∑=

µ−=σ=N

1ixi

2N12lpoblacionaVarianza

Un propósito principal del muestreo es tratar de obtener la media poblacional µ. Las inferencias acerca de la media población están basadas en la media muestral X , calculada a partir de las n unidades seleccionadas por el muestreo aleatorio simple. Por otra parte, la varianza poblacional desconocida puede estimarse usando la varianza muestral S2

Muestra aleatoria simple: X1, X2,..., Xn

∑=

==n

1iiXn

1XmuestralMedia

( )∑ −=−

==n

1i

22 XXS i1n1muestralVarianza

Afirmamos, sin probar, que E( X )=µ (la media poblacional), por lo cual X es un estimador insesgado de µ. También, E(S2)=σ2, de tal manera que la varianza muestral es un estimador insesgado de σ2. La varianza de X viene dada por:

( )1N1nfdonde,f1

n

2

1N)1n(1N

n

2

1NnN

n

2)X(V

−−

=−σ=

−−−−σ=

−−σ=

donde f = (n –1)/(N –1) es aproximadamente igual a la proporción de la población incluida en la muestra. Es importante observar que el tamaño finito de la población reduce la varianza de X desde el valor para población infinita σ2/n hasta σ2(1- f)/n. El factor (1 - f) es llamado factor de corrección para población finita. Cuando la proporción de muestreo f es menor que 0.1 puede ser ignorado.

Propiedades de X y S2 con muestreo aleatorio simple ( ) µ=XE

( )1N1nfdonde,f1

n

2)X(V

−−

=−σ=

( ) σ= 2S2E

)f1(n

XdeestimadaestándarDesviación −σ

=

Para aquellos que no están muy familiarizados con el asunto, puede parecerles sorprendente que de información muestreada de un pequeño porcentaje de la población, se pueda determinar con una buena 3 En la versión original del libro, se calcula la varianza poblacional usando N-1 en el divisor y no N, y como factor de corrección para población finita se usa (N-n)/N y no (N-n)/(N-1).

Page 7: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 7

precisión, un valor de la población. La inspección de la expresión para Var( X ), proporciona una explicación para ello, porque muestra que la desviación estándar de X decrece esencialmente como 1/ n . Por consiguiente, una muestra de unos pocos miles, produce un valor pequeño para la desviación estándar del estimativo X , cualquiera que sea el tamaño de la población.

Inferencias acerca de µ bajo muestreo aleatorio simple Estimador puntual: X

Límite aproximado del error al 95%: 1N1nf,)f1(

nS2

−−

=−±

donde nXX

X n++=

...1 y ( )

( )1n

XXs

n

1

2i

2

−=∑

El límite de error nfs /12 −± es aproximado, pero esta aproximación es bastante buena cuando tanto

el tamaño de la muestra n como N-n son muy grandes. Bajo estas circunstancias, la distribución de X es

casi normal y nfsX /12 −± puede considerarse como un intervalo de confianza del 95% para µ..4 Ejemplo 16.1 Alguien que está interesado en determinar como gastan su tiempo los directores de escuelas primarias, realiza un muestreo aleatorio simple usando 12 escuelas de las 30 que hay en un distrito particular. A los 12 directores se les pregunta cuanto tiempo a la semana necesitan para manejar problemas de disciplina. De las respuestas se concluye que

X =9.1 horas S2=22.3 Obtenga un límite aproximado del error al 95% para estimar µ, el número medio de horas semanales que dedican a solucionar problemas disciplinarios todos los directores del distrito. El estimativo es x =9.1, y el factor f=(n-1/(N-1) = 11/29=.38. El valor de f es demasiado grande para ser ignorado, y el limite aproximado del error es:

( )fns

−± 12 = 15.262.012

3.222 ±=±

Ejemplo 16.2 Se manifiesta el interés en conocer la cantidad de dinero que gastan los estudiantes cada mes en alojamiento. Una muestra aleatoria de 160 estudiantes de una universidad que tiene una población de 32,400 da las siguientes estadísticas, en US$:

X =$105.30 S2=453.6 Encuentre un intervalo de confianza aproximado del 95% para la cantidad media poblacional. El intervalo de confianza aproximado es

fnsx −± 12 =

323991591

1606.45323. −±105 = (101.94, 108.66)

El factor de corrección finita puede ser ignorado porque es extremadamente pequeño. Ignorando este factor, el intervalo de confianza será (101.93, 108.67), que es casi igual al que calculamos antes. Un resumen completo de la información obtenida de la muestra, requiere algo más que el cálculo de X y el límite del error. Los métodos descriptivos discutidos en el Capítulo 2 se aplican igualmente aquí. Debería

4 Para calcular el intervalo exacto se reemplaza 2 por t . Si n ≥30 el intervalo es exacto. 1n,2/α1 −−

Page 8: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 8

construirse un histograma para obtener una visión de la manera en que los valores se distribuyen sobre la población. También es aconsejable el registro de cualquier valor extremo y calcular otras medidas descriptivas si la distribución no parece ser simétrica.

16.7. Muestreo para determinar una proporción

Algunas veces deseamos estimar en la población la proporción de unidades que tengan cierto atributo. Ésta puede ser la proporción de personas desempleadas o la proporción de electores que apoyan un asunto particular. El valor 1 se le asigna a las unidades que tienen el atributo de interés, y el valor 0 a las restantes unidades. De este modo, la población se divide en dos grupos o tipos, según el valor numérico de la característica. Bajo el muestreo aleatorio simple, referido como "muestreo sin reemplazamiento", se sabe que la distribución hipergeométrica describe el número de unidades X en la muestra que poseen el atributo en cuestión. La tabla siguiente presenta las composiciones de la población y de la muestra:

La proporción muestral es un estimador insesgado

Cantidad Población Muestra Total numero de unidades N N Número de unidades con el atributo dado M X

Proporción de unidades con el atributo dado NM=θ

nxp=

θ=

=

nXE)P(E

y la varianza está dada por

( ) ( )

−−−

=1NnN

nθ1θPVar

Por supuesto, podríamos estimar esta varianza reemplazando θ por . Sin embargo, generalmente se emplea el siguiente estimador insesgado

n/X

( )

−−

−−

1NnN

1nP1P

Los procedimientos de inferencia para proporciones y para totales pueden resumirse en:

Los resultados para la población total M se derivaron de:

Muestreo aleatorio simple: Inferencia sobre proporciones.

Estimador puntual de p: nXP =

Límite aproximado del error al 95% para p: ( ) ( )

)1N(nN

)1n(P1P2

−−

−−

±

Estimador puntual del total de la población M =Np: PNnXNM ==

Límite aproximado del error al 95% para M:

−−

−−

±1NnN

1n)P1(P2 N2

θ=

=

N

nXNE

nXNE

y

Page 9: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 9

( ) ( ) ( )( )1N

nN1nP1PPVarN

nXVarN

nXNVar N222

−−

−−

==

=

En el capítulo 5, concluimos que el muestreo sin reemplazamiento es casi lo mismo que el muestreo con reemplazamiento cuando el tamaño de la población N es grande y la fracción de muestreo (n1)/(N-1) es pequeña. Para muestreo con reemplazamiento se aplica la distribución binomial, y la varianza de X/n es θ(1-θ)/n, la cual difiere de la expresión anterior por la ausencia del factor (N - n)/(N - 1). Este factor hace la varianza más pequeña para muestreo aleatorio simple. En todo caso, incrementando el tamaño de la muestra n, la varianza del estimador X/n decrece a la tasa 1/n. Una conclusión es que la varianza de la proporción de votos a favor basada en un tamaño de muestra de 5000 es aproximadamente igual para poblaciones de 100.000 y un millón. Este resultado, que no es intuitivo, explica parcialmente por qué las predicciones de elecciones modernas basadas en solamente una pequeña fracción del electorado a menudo son tan exitosas en pronosticar los resultados de la elección. Ejemplo 16.3. Suponga que tenemos una población de tiendas de campaña u1, u2, u3, u4, u5, u6, donde u2 y u4 no son herméticas. Consideremos estimar la proporción de tiendas de campaña defectuosas en la población con base en una muestra aleatoria simple de 2. Cada una de las siguientes muestras son igualmente probables; los valores para X = número de tiendas de campaña defectuosas en la muestra están dados en paréntesis:

u1 ,u 2(1) u 2,u 3(1) u3 ,u 4(1) u4 ,u 5(1) U5,u 6(0) u1 ,u 3(0) u2 ,u 4(2) u3 ,u 5(0) u4 ,u 6(1) u1 ,u 4(1) u2 ,u 5(1) u3 ,u 6(0) u1 ,u 5(0) u2 ,u 6(1) u1 ,u 6(0)

La distribución de X y la media para esta población son:

X 0 1 2 E(X)= 0 x 6/15 + 1x 8/15 + 2x 1/15 = 2/3

P(X=x) 6/15 8/15 1/15 E(X/n)= 1/2 x 2/3 = 1/3

Observe que E (X/n) = 1/3, que corresponde a la proporción de la población. El estudiante interesado también

debería verificar que P [X = x] está dada por la distribución hipergeométrica:

26

/x2

4x2

Si nuestra muestra consta de u2 y u5, entonces nuestra estimación de la proporción poblacional es 1/2, y la varianza estimada de la proporción de la muestra es:

( )( )

12

112

6 26 2 1

16

−−

=

Ejemplo 16.4. Para investigar irregularidades electorales, una muestra aleatoria simple de tamaño 60 es tomada de la lista de 1024 votantes inscritos en un barrio particular. Se encuentra en la muestra que 12 personas se registraron en direcciones inexistentes. ¿Qué podemos estimar para el barrio? Tenemos que: N = 1024, n = 60, y x = 12, de tal manera que

2.06012

nxP ===

es una estimación de la proporción poblacional. La varianza de P es estimada por:

( )( ) ( ) 0026.0)160(1023

6010248.02.0)P(Var =−

−=

El límite del error al 95% es 10.00026.02 ±=± . De modo semejante, (0.2)(1024)=204.8 es una estimación del número total registrado en direcciones inexistentes.

Page 10: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 10

16.8. Muestreo aleatorio estratificado

El objetivo principal de un diseño muestral es hacer uso eficiente del presupuesto asignado para un estudio obteniendo un estimativo tan preciso como sea posible de una cantidad de la población. El muestreo aleatorio simple es la técnica de muestreo más básica que no sólo asegura una muestra representativa sino que también produce una estimación de la cantidad de una población y una especificación de la precisión. Muchas ramificaciones han evolucionado a partir de este concepto central del muestreo aleatorio simple que permite alcanzar inferencias más precisas para diferentes tipos de poblaciones. Uno de los diseños prácticamente más útiles, llamado muestreo aleatorio estratificado, primero divide la población en segmentos homogéneos y después toma muestras aleatorias simples de esas subpoblaciones individuales. Al principio, puede parecer sorprendente que la técnica del muestreo aleatorio simple pueda ser mejorada. Para clarificar este punto, consideremos una ciudad en la cual los distritos del norte son predominantemente áreas con altos ingresos y los distritos del sur son primariamente áreas con bajos ingresos. Para determinar el costo promedio de vivienda en toda la ciudad, es intuitivamente aparente que muestras aleatorias simples relativamente pequeñas tomadas separadamente de cada uno de los distritos, es probable que muestren información más exacta que un único muestreo tomado en toda la ciudad. La esencia de la estratificación es que ésta saca provecho de la homogeneidad conocida de las subpoblaciones, de tal forma sólo se requieran muestras relativamente pequeñas para estimar las características de cada subpoblación. Estas estimaciones individuales pueden entonces ser fácilmente combinadas para producir una estimación de toda la población. Además de la economía en el tamaño de la muestra, un valioso subproducto del esquema de muestreo estratificado es que las estimaciones obtenidas para diferentes partes de la población se pueden usar posteriormente para hacer comparaciones. Para una descripción general del muestreo aleatorio estratificado y los métodos de inferencia asociados con este procedimiento, suponemos que la población está dividida en h subpoblaciones o estratos de tamaños conocidos N1, N2,...,Nh tal que las unidades en cada estrato sean homogéneas respecto a la característica en cuestión. La media y la varianza desconocidas para el i-ésimo estrato son denotadas por µi y σi

2, espectivamente. r

Estructura de población

Estrato 1 2 ........ h Tamaño (conocido) N1 N2 ........ Nh Media µ1 µ2 ........ µh Varianza σi

2 σ22 ........ σh

2

Tamaño de toda la población: ∑=

=h

1iiNN

Media de toda la población: µ ∑=

µ=h

1iN/iNi

El muestreo aleatorio estratificado consiste en tomar muestras aleatorias simples independientes de tamaños predeterminados n1, n2,...,nh de los estratos 1, 2, 3,...., h, respectivamente, y medir la característica para cada unidad muestreada. Denotando la j-ésima observación del i-ésimo estrato por Xij podemos registrar el resumen de estadísticas:

Estructura de la muestra Estratos 1 2 ... h Tamaño de cada muestra n1 N2 nh Media muestral X1 X2 Xh

Varianza muestral S21 S2

2 S2h

Donde ∑=

=ni

1jXijni

1Xi ( )∑

=−

−=

ni

1jXiXij

21ni

1S2

i

Page 11: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 11

Aplicando la propiedad del muestreo aleatorio simple a las subpoblaciones individuales, la media muestral X i un estimador insesgado de ui y su varianza es

Var ( X i ) = ni

2iσ

Nn

i

i1

porque la media global de la población µ es el promedio ponderado:

µ++µ+µ=µ hNNh...2N

N21N

N1

donde cada Ni es un tamaño de subpoblación conocida, un estimador insesgado de µ se obtiene como:

XNXNXNX hh

22

11

st N...

NN+++=

El sufijo st indica el hecho de que el estimador es construido a partir de muestras estratificadas. Además, debido a la independencia de las muestras, la varianza de Xst es la suma de las varianzas de las

componentes, donde:

( )

−−

−σ

==

1Ni

1ni1ni

2i

N2N2

iXiVarN2N2

iXiNNiVar

Al establecer los limites de error y los intervalos de confianza, la varianza desconocida σ puede estimarse

por la correspondiente varianza muestral simple s .

2i

2i

Estimación de µ por muestreo estratificado

Estimador puntual: XNXNXNXNX ih

1iih

h2

21

1st N

1N

...NN ∑

==+++=

µ=)(E Xst

( ) ( ) ( ) ( )

σ

−−

++σ

−−

−−

=nh

2h

1NhnhNhN2

h...n2

22

1N2n2N2N2

2n1

21

1N1n1N1N2

1N21

XstVar

ni

2i

1Ni

)niNi(h

1iN2

iN21 σ

−−

∑=

=

Límite aproximado del error al 95% para µ : nS

NnNNX

i

2i

i

iih

1i

2ist 1

)(N2

−−

± ∑=

Incidentalmente, debería observarse que el estimador insesgado Xst es generalmente diferente de la media muestral combinada

∑=

=+++=h

1iih

h2

21

1 nXnXnXn ndonde,n

...nn

X

Sin embargo, X y X st coinciden cuando los tamaños de muestra de los estratos prueban cumplen que

Nn,...,

Nn,

NnNnNnNn hh2211 ===

Page 12: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 12

Esta situación se la denomina asignación proporcional debido al hecho de que el tamaño de la muestra total n es asignado a los diferentes estratos en forma proporcional al tamaño del estrato. Ejemplo 16.5 Cada árbol en el huerto de manzanas mostrado en la figura 16.1 está marcado con su cosecha medido en fanegas (medida para granos equivalente a 38.23 litros). Los árboles de las tres últimas filas son más jóvenes que los otros. Estime la cosecha media de la población por árbol, basado en muestras estratificadas de tamaño 6 para la subpoblación de las primeras cinco filas y de tamaño 2 de la subpoblación de las últimas tres filas.

Producción del Huerto de Manzanas 7 8 5 6 6 10 7 6 5 4 4 7 6 6 3 8 4 7 8 10 8 4 6 6 6 4 6 4 8 7 9 8 6 3 9 9 7 8 11 9

6 3 4 3 5 2 4 3 5 3 3 4 5 4 3 4 4 5 4 3 3 4 3 6

Figura 16.1 La huerta de manzanas del ejemplo 16.5, indicando la cosecha en fanegas para cada árbol Aquí, N1 = 40, N2 = 24, n1 = 6, n1 = 2. Leyendo parejas de números de una tabla de números aleatorios, uno por fila y uno por columna, seleccionamos árboles con los valores: __ Estrato 1: 6 4 7 6 7 9 X1 = 6.5, s1

2 = 2.7 __ Estrato 2: 5 4 X2 = 4.5 s2

2 = 0.5 ºº Nuestro estimador puntual de µ es:

5.75 4.5 6424 6.5

6440

NN XNXNX 22

11

st =+=+=

con un límite del error del 95% de:

86.025.0

124)224(

67.2)

140640( 2/1

642

n2

S22

1)N2(

n1

S21

1)N1(

2/1

N2

2440NnNN

nN 22

2

222

1

121 ±=

−−

+−−

±=−−

+−−

±

Comenzamos esta discusión declarando que pueden hacerse inferencias más precisas con respecto a las diferentes poblaciones usando muestreo estratificado que usando muestreo aleatorio simple. Consideremos ahora una situación ideal para ver por qué esto es verdad. Suponga que deseamos obtener información sobre salarios y que la oficina de nómina nos dice que N1=20 obreros están en un nivel salarial y N2=4 están en otro. Claramente, dada esta estratificación, tomando una muestra de tamaño 1 de cada estrato se mantendría el sueldo medio correcto con respecto a la población de 24 obreros. Si se tomara una muestra aleatoria simple, la media de las dos observaciones de la muestra sería todavía insesgada. Sin embargo es posible que las dos observaciones pudieran seleccionarse del mismo estrato. Si los niveles de salario de los dos estratos fueran $100 y $400, por ejemplo, entonces la media de la muestra seria $100, $250 ó $400. Esta estimación variará en repetidas observaciones de la muestra, mientras que el muestreo estratificado proporciona un resultado exacto. Una comparación similar se extiende a situaciones más prácticas cuando la población se divide internamente en estratos homogéneos. Ejemplo 16.6. Compare la varianza de , basada en una muestra aleatoria simple de tamaño 8, con la varianza de st para el huerto de manzanas dado en la figura 16.1. Los cálculos que involucran los registros de producción de N = 64 árboles en la población entera nos da:

Page 13: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 13

Media de la población: µ = 5.5625 Varianza de la población: σ2 = 4.66

y cálculos por separado para los primeros 40 árboles del primer estrato y para el segundo estrato de 24 árboles nos da:

Media µi Varianza σ2i

Estrato 1 6.635 3.984 Estrato 2 3.795 0.781

Por consiguiente, con Muestreo Aleatorio Simple Muestreo Aleatorio Estratificado

−−

+−−

=n2

σ22

12)n2N2(

n1

σ21

1)n1N1(

N21)Xst(V NNN 2

21

21 )

1N1n1(

n

2)X(V

−−

−σ=

Var ( ) = )6371(

866.4

− Var ( st) =

−+

−2781.0

23)224(

698.3

39)640(1

244064

222

= 0.52 = 0.28 y el estimador basado en muestreo estratificado tiene una menor varianza.

16.9. Asignación de tamaños de muestras Aunque el tamaño total de la muestra n está generalmente limitado por el presupuesto disponible para el estudio, la asignación del tamaño de la muestra de cada estrato depende del criterio del investigador. Intuitivamente, la opción más plausible es la asignación proporcional que relaciona los tamaños de las muestras de los estratos en proporción a los tamaños de las subpoblaciones.

Asignación proporcional: n nNN

ii

=

i = 1…..h

La asignación proporcional está motivada por el concepto de una muestra representativa: si un estrato comprende una gran porción de la población total, deberá contribuir en buena proporción a la muestra. Debido a que nuestra principal meta es mejorar la precisión de nuestra estimación (es decir reducir su varianza), un criterio más importante de asignación de los tamaños de muestras debe ser la minimización de

( )XstVar . Esto es factible cuando las varianzas de los estratos son conocidas, o al menos cuando hay disponibles algunas estimaciones de éstas mediante una prueba piloto. Específicamente, la asignación n

σ2i

1, …, nk con (n1 + … + nk ) = n fijo que minimiza ( )XstVar está dado por:

σ∑=

σ=

jh

1jN j

iNinni:óptimaAsignación

Esto requiere que el tamaño de la muestra sea proporcional al producto del tamaño del estrato y la desviación estándar del estrato. Cuando todas las desviaciones estándares de los estratos son iguales, la asignación ptima coincide con la asignación proporcional. ó

Page 14: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 14

Ejemplo 16.7 Los tamaños de tres pequeños pueblos son: N1 = 40,000, N2 = 20,000 y N3 = 30,000. Se va a tomar una muestra aleatoria estratificada aleatoria con un tamaño total de muestra de n = 400. Determine el tamaño de la muestra que debe ser tomada de cada pueblo utilizando (a) asignación proporcional y (b) asignación óptima cuando de un estudio previo se conocen estimativos burdos de las desviaciones estándares, que son σ1 = 20, σ2 = 12 y σ3 = 14. (a) asignación proporcional:

n n = 400(4/9) = 178 NNi

1 =

n n

NNi

2 =

= 400(2/9) = 89 n n

NNi

3 =

= 400(3/9) = 133

(b) asignación óptima: N1σ1 = 800,000 N2σ2 = 240,000

N3σ3 = 420,000 Total = 1,460,000

n1 = nNNi i

1 1400

8001460

219σσ∑

=

= n2 = n

NNi i

2 2400

2401460

66σσ∑

=

=

n3 = n NNi i

3 3400

4201460

115σσ∑

=

=

Concluimos esta discusión planteando las situaciones para las cuales la estratificación es una técnica de muestreo beneficiosa. Primero, la estratificación generalmente crea una reducción en la varianza del estimador de una característica de una población. Esta reducción puede ser sustancial si cada estrato es homogéneo pero difiere de los otros con respecto a la característica. Segundo, si se requieren estimativos para ciertas subdivisiones de una población, puede ser útil tratar las subdivisiones como estratos para obtener estos estimativos. Por ejemplo, podemos querer estimar los ingresos de los miembros de cierto grupo minoritario mientras realizamos un estudio de los ingresos de una población urbana.

16.10. Muestreo estratificado para determinar una proporción Las técnicas de estratificación también proveen estimaciones mejoradas de la proporción de la población. La notación y la estructura son:

Estratos 1 2 .... h Combinado

Población Tamaño N1 N2 .... Nh ∑=

=h

1iiNN

Proporción θ1 θ2 .... θh ∑=

=θh

1i NpiNi

Muestra Tamaño n1 n2 .... nh ∑=

=h

1iinn

Conteo X1 X2 .... Xh

Proporción nXP

1

11=

nXP

2

22= ....

nXP

h

hh =

Las fórmulas para el estimador insesgado de la proporción de la población y su error estándar se obtienen exactamente de la misma forma que se obtiene el estimador de la media de la población.

Page 15: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 15

Muestra estratificada: Inferencia sobre una proporción

Estimador puntual: PiN

1iNiN

1PhN

Nh...P2NN2P1N

N1st ∑

==+++=P

Límite del error aproximado al 95%: ∑= −

−−

−±

h

1i 1ni

)Pi1(Pi1Ni

)niNi(N2i

N2 = ∑

= −−

−−

±

h

1i 1ni

)Pi1(Pi1Ni

)niNi(NNi

22

Con relación a la asignación de los tamaños muestrales, la distribución proporcional ni=n(Ni/N) puede implementarse convenientemente. La asignación óptima que minimiza la varianza de P requiere que nst i sea

proporcional a )i1(iiN θ−θ , o

Asignación optima

∑=

−= h

1j)jθ1(jθjN

)iθ1(iθiNnin

Obviamente, una implementación de la asignación óptima requiere algún conocimiento previo acerca del valor aproximado de la proporción de cada estrato θi. Muchos estudios, particularmente los que consisten en enviar un cuestionario por correo a un número de personas seleccionadas, son frecuentemente puestos en peligro porque hay un gran número de personas que no responden. Si un estudio requiere información sobre el salario actual de los que se han graduado alrededor de 1975, las personas que ganan bajos salarios están menos dispuestos a responder que las personas que ganan salarios altos. El estimativo muestral estará entonces seriamente sesgado hacia el lado de los de altos salarios. Para remediar esto, podríamos considerar los que no responden como un estrato e iniciar algún tipo de entrevistas de seguimiento hasta obtener la información necesaria de al menos unos pocos de los que no responden. Podríamos entonces combinar esta información con los datos obtenidos previamente para llegar al estimador de toda la población. Ejemplo 16.8 Ciertos estudiantes que van a una gran universidad del medio oeste, y viven en apartamentos, son encuestados por teléfono. Una de las preguntas de la encuesta es si se les exigió o no un depósito de seguridad para el apartamento. Originalmente, 200 estudiantes fueron seleccionados de un directorio del campo universitario, ignorando aquellos estudiantes que viven en otras residencias. Los depósitos de seguridad fueron requeridos para 108 de 160 estudiantes que respondieron en tres intentos de la encuesta. Los 40 que no respondieron fueron tratados como un estrato y 4 fueron seleccionados aleatoriamente para ser tenidos en cuenta en un estudio de seguimiento. De los 4 estudiantes, a uno se le solicitó hacer un deposito de seguridad. Estime la proporción de estudiantes que viven en apartamentos a quienes se les solicitó hacer un depósito de seguridad. Podemos suponer que la población se divide en dos estratos en las mismas proporciones que aquellas que se observaron en la muestra. En otras palabras, asumimos que N1/N es lo mismo proporción que 160/200 =.8, y que N2/N es lo mismo que 40/200=.2. El estimador se convierte entonces en

59.0412.0

1601088.0

NNpNpNp 2

21

1st =

+

=+=

Tomando los factores 1 – (n1-1)/(N1-1) y 1 – (n2-1)/(N2-1) como 1, el límite aproximado del error con una confiabilidad del 95% puede escribirse

Page 16: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 16

( ) ( )116.0

343

4122.0

1596052

16010828.0

2/1

2 ±=+±

16.11. Otros métodos de muestreo

La aleatorización y la estratificación constituyen los conceptos básicos del muestreo. Sin embargo, se han diseñado muchos otros métodos bien sea para explotar estructuras específicas de la población o por conveniencia administrativa. Aquí describiremos algunos de estos métodos adicionales y discutiremos sus ventajas y desventajas. 16.11.1. El Muestreo Sistemático Como el nombre lo sugiere, el muestreo sistemático, implica seleccionar las unidades de manera sistemática y por lo tanto de una manera no aleatoria. El propósito de esta técnica es usualmente seleccionar unidades de manera uniforme por toda la población. Específicamente si k = N/n, donde N es el tamaño de la población y n es el tamaño de la muestra deseado, este método toma una unidad de los primeros k elementos de la población y a partir de ahí cada k-ésimo elemento. Generalmente se introduce un factor aleatorio, escogiendo la primera unidad al azar. Sin embargo, la selección de la primera unidad determina el resto de los elementos escogidos en la muestra. La mayor ventaja del muestreo sistemático es su conveniencia operacional, especialmente cuando la muestra debe ser seleccionada de una lista, como una lista de estudiantes, un directorio telefónico o un grupo de tarjetas. El muestreo sistemático puede mirarse como una aproximación al muestreo aleatorio simple si el orden en la lista no es relevante a la característica en cuestión, como por ejemplo la "edad del estudiante" cuando la lista está organizada en orden alfabético según el apellido. También, si se miran los conjuntos consecutivos de k unidades como estratos, un muestreo sistemático tendrá la apariencia de un muestreo estratificado. Sin embargo, el rendimiento de una muestra sistemática puede ser muy inferior al de un muestreo estratificado correctamente ejecutado, debido a que en este caso los estratos son construidos arbitrariamente sin considerar la homogeneidad interna. A pesar de todo lo atrayente que pueda parecer, el muestreo sistemático a menudo produce una muestra no representativa cuando la lista contiene alguna periodicidad escondida. Por ejemplo, en una lista de jugadores de fútbol, organizados por equipo, un muestreo sistemático de cada primer lugar podría contener solo los nombres de los arqueros. 16.11.2. El Muestreo por Conglomerados En muchas situaciones puede lograrse un ahorro substancial en los costos haciendo un análisis con grupos o conglomerados de unidades muestrales seleccionados al azar, en lugar de hacer un muestreo aleatorio simple de toda la población. Suponga que se va a seleccionar una muestra de la población de todos los estudiantes de quinto grado de una región en particular. Podemos ver cada escuela en dicha región como un conglomerado de las unidades muestrales básicas, los estudiantes de quinto grado. En el muestro por conglomerados, primero escogemos una muestra aleatoria de unas pocas escuelas en la región y luego se entrevistan todos los estudiantes de quinto en dichas escuelas. Recolectar una muestra aleatoria simple de un tamaño comparable, es excesivamente costoso por dos razones. Primero, para construir una población, debemos hacer una lista de todos los estudiante de quinto grado en todas las escuelas de la región. Segundo, los elementos seleccionados en un muestreo aleatorio simple estarán típicamente distribuidos por toda la región, y los gastos de los viajes de los entrevistadores serán considerablemente altos. El muestro por conglomerados evita la necesidad de construir una población objetivo con todos los elementos posibles, lo cual es generalmente un trabajo extenuante y costoso en sí mismo. Adicionalmente, debido a que las unidades en los conglomerados son adyacentes entre sí y por la misma razón, fáciles de localizar, el proceso de muestreo es notablemente rápido. Sin embargo el precio que hay que pagar es la reducción en la precisión de los estimativos. Una muestra aleatoria simple de 400 estudiantes generalmente representa mejor una población, y por consiguiente provee mejor información sobre

Page 17: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 17

la población, que un grupo de 100 estudiantes analizados en cada una de las cuatro escuelas especificadas. Por eso la elección entre los dos métodos de muestreo debe ser guiada por consideraciones de costo y por el grado de precisión deseada en los estimativos. La mayoría de los resultados de las encuestas de muestreo, tales como la encuesta Gallup, los índices de precios al consumidor, y las cifras de desempleo que aparecen regularmente en los periódicos y otros medios de información masivos, no solo emplean estratificación y muestreo aleatorio sin reemplazamiento sino que también utilizan estratos dentro de estratos o incluso una combinación de muestreo por conglomerados y muestreo estratificado. A veces se usan métodos más sofisticados como el muestreo doble y el muestreo probabilístico proporcional al tamaño para obtener muestras representativas y estimadores precisos. Las ideas presentadas aquí ofrecen tan solo una introducción a algunos de los conceptos básicos que definen el la planeación de un muestreo por encuestas. Cochran[2] es una excelente referencia para estudiantes interesados en familiarizarse con técnicas de muestreo avanzadas. Cuando se emplea un método de muestreo no probabilístico, deben tomarse precauciones extras para evitar el sesgo. Si al entrevistador se le da demasiada amplitud, puede incluir en la muestra los individuos fáciles de contactar. Las opiniones de la gente que camina al medio día en las calles de una gran ciudad, pueden diferir de aquellas que están en sus casas al medio día; un estimativo de la proporción de los estudiantes que no trabajan en vacaciones, ciertamente no puede estar basada en las muestras recogidas en una playa.

16.12. Planeación de un estudio muestral En las secciones previas presentamos unos pocos métodos básicos de muestreo y de procedimientos de inferencia asociados con el muestreo aleatorio simple y estratificado. Planear y elaborar un estudio muestral es usualmente un proceso mucho más intrincado que requiere cuidadosa reflexión de las complejidades involucradas en la estructura de una población, en la factibilidad práctica de los métodos de muestreo, en la coordinación y supervisión del trabajo de campo, y finalmente, en el procesamiento y análisis de los datos. Para presentar brevemente estos elementos, analizaremos a continuación los pasos principales involucrados en la planeación y la ejecución de una encuesta. Debido a la diversidad de poblaciones al igual que a las facilidades y que el personal disponibles para un muestreo pueden presentar diversas dificultades al ejecutar un estudio; nuestra exposición tratará de ser ilustrativa en lugar de exhaustiva. Propósito del Estudio La necesidad de una clara definición del propósito del estudio no puede ser sobredimensionada. Sin establecer el objetivo de una investigación, incluyendo lo que esperamos aprender de los datos, cualquier deliberación acerca de la elección de diferentes métodos de muestreo no tendría ningún significado. Si no se sabe lo que se está buscando, no se sabrá donde buscar. La recompensa, por el cuidado y la planeación invertidos en la definición inicial del propósito de un estudio tan específicamente como sea posible, es que la información vital no será pasada por alto cuando las unidades sean muestreadas. Población Objetivo La población de la cual se hacen las inferencias, llamada población objetivo, debe ser definida tan claramente como sea posible. En el transcurso del desarrollo de un estudio, debe tenerse cuidado en asegurar que la población muestreada no se desvíe drásticamente de la población objetivo. Cuando la población muestreada se restringe por conveniencia práctica, debemos ser precavidos al extender las inferencias a la población objetivo. ¿Que Datos Deberían Recogerse? Guiado por la declaración del propósito, debemos determinar la naturaleza de los datos que se han de recoger de las unidades muestreadas. Debe tenerse cuidado especial para incluir todos los datos esenciales y, al mismo tiempo, evitar recoger datos que son irrelevantes al propósito del estudio. Al muestrear poblaciones humanas, el vehículo primario para obtener los datos es el cuestionario, y un cuestionario bien diseñado es crucial para el éxito de la encuesta. Frecuentemente hay una tendencia a preparar cuestionarios demasiado largos, pensando erróneamente que darán mucha más información. Por el contrario, una cantidad inusualmente grande de preguntas puede aburrir al encuestado y puede disminuir la calidad de los datos recolectados sobres puntos vitales. El propósito del estudio debe ser tenido en mente mientras se diseña el cuestionario y las preguntas deben ser cuidadosamente pensadas para evitar guiar las respuestas en cualquier dirección. Una pregunta no debe indicar la respuesta deseada (Evite preguntas como: "¿No cree usted que...?"). Por otro lado una pregunta no debe ser redactada de una manera ambigua. La pregunta "¿Cuantas personas que no trabajan hay en su familia?", no indica si deben incluirse o no los niños,

Page 18: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 18

estudiantes o jubilados. Por encima de cualquier otra consideración, las preguntas deben limitarse a puntos relevantes, y la brevedad debe ser una consideración primaria. Cada pregunta debe pasar esta prueba: ¿Qué información pertinente dará la respuesta?. ¿Qué método de Muestreo debe ser Utilizado? Determinar el método de muestreo a ser usado y la escogencia del tamaño de la muestra son elementos importantes en la planeación de un estudio. La selección de una método de muestreo apropiado se basa en factores como la estructura de la población, el tipo de información buscada y, las facilidades administrativas y el personal disponible para ejecutar el estudio. Junto con la elección del método apropiado de muestreo, debe determinarse el tamaño de la muestra especificando el grado de precisión deseado en los estimadores. También debe verificarse si el tamaño elegido de la muestra es factible con el presupuesto destinado para el estudio. Estudio Piloto Con frecuencia, es conveniente gastar una porción del presupuesto en realizar un estudio a pequeña escala llamado prueba piloto o pre-test. Una prueba piloto es la oportunidad de poner a prueba el cuestionario para detectar y corregir cualquier irregularidad seria o situación inadecuada. Una encuesta piloto también puede dar información o sugerencias para mejorar el diseño del estudio. En el muestreo estratificado, por ejemplo, la información sobre las varianzas puede obtenerse a partir del estudio piloto, información que puede ser utilizada para lograr una elección más adecuada (cerca de la óptima) de los tamaños muestrales en el estudio a gran escala. Análisis de los Datos Una vez que se ha completado la encuesta, la fuerza de las técnicas gráficas y numéricas puede ser empleada en su totalidad para interpretar los resultados. Histogramas y tablas de frecuencia conjuntas ayudan a mostrar la correlación entre las respuestas. Inventiva en crear gráficos puede sugerir interesantes relaciones y conclusiones. En el reporte de los estimativos de las cantidades poblacionales, debe darse la información sobre la incertidumbre en términos de errores probabilísticos o intervalos de confianza. Referencias 1.- A Million Random Digits with 100,000 Normal Deviates. The RAND Corporation. The Free Press, New York, 1995. 2.- Cochran, W. G., Sampling Techniques, 2nd Ed., JohnWiley & Sons, New York, 1963.

EJERCICIOS

1. Discutir las alternativas apropiadas para hacer un muestreo y el marco o estructura en cada uno de los

estudios siguientes: (a) Un departamento de justicia estatal desea estimar, en un área metropolitana en particular, la duración

promedio de detención antes del juicio de las personas que son arrestadas por cometer un delito grave. (b) La división de mercadeo de una compañía farmacéutica desea determinar el porcentaje de hospitales en

el país que usa su marca de solución desinfectante para esterilizar equipo quirúrgico. (c) Un cuerpo de gobierno universitario está interesado en estudiar opinión estudiantil sobre un cambio

reciente en el calendario académico propuesto por un comité de facultad. (d) Un juez elegido desea determinar cómo se siente su distrito electoral sobre un artículo propuesto en la

legislación contra la obscenidad. (e) Una agencia de salud pública estatal está emprendiendo un proyecto para evaluar la calidad del cuidado

de la salud en el estado. Parte del proyecto está diseñado para estimar el promedio del gasto anual para el cuidado dental en el que incurren las familias.

2. Para cada estudio (encuesta) en el Ejercicio 1, discuta: (a) La construcción de la estructura o marco y cualquier dificultad que podría encontrarse en el proceso. (b) Los métodos apropiados para realizar el muestreo: por teléfono, mandando por correo una encuesta, u

otros métodos pertinentes. (c) Las ventajas y las posibles desventajas de usar su método propuesto 3. Identifique las causas principales de sesgo en cada una de las situaciones siguientes: (a) Se realiza una encuesta para estudiar la extensión del uso de comidas convenientes (como las cenas

ofrecidas en la Televisión y las comidas enlatadas) en las casas de una comunidad. Se selecciona una

Page 19: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 19

muestra aleatoria de casas, y los datos son recogidos mediante entrevistas realizadas por teléfono hechas durante las horas de trabajo (De 8 AM a 5 PM). Los que no responden son ignorados.

(b) Para estudiar la participación de residentes en una ciudad particular en actividades deportivas al aire libre, los datos se recogen por entrevistadores que visitan las casas (de la muestra), normalmente durante las tardes de fines de semana. Si los residentes de una casa no están presentes, se visita en cambio una casa vecina.

(c) Una agencia decide usar un método conveniente y barato de muestreo para realizar una encuesta de opinión pública. Los entrevistadores, estacionados en los supermercados más importantes durante tardes de días laborales, recogen la información de los compradores cada tres minutos cuando se preparan para entrar en las tiendas.

(d) Una estación de radio realiza una encuesta de opinión pública sobre un tema político transmitiendo a sus oyentes una solicitud para que llamen a la estación y expresen sus opiniones.

4. Un sitio de descanso tiene 32 moteles, que se toman colectivamente como una población. La

característica a ser estudiada es el cargo por día para los cuartos dobles. Los valores de la población son las siguientes tasas por día, en dólares: 25, 20, 35, 21, 22, 22, 24, 25, 30, 28, 24, 20, 20, 25, 20, 19, 25, 23, 20, 24, 28, 24, 24, 22, 28, 26, 23, 25, 22, 27, 25, 23. Usando los números aleatorios en la tabla 14 del apéndice, tome una muestra aleatoria simple de tamaño 10 de esta población.

5. Refiriéndose al Ejercicio 4, use la muestra aleatoria simple que se tomó para calcular la media muestral.

También estime la varianza de la media de una muestra aleatoria simple de tamaño 10. 6. La varianza de la población en ejercicio 4 es σ2 = 13.97. ¿Cuál es la varianza de X basada en una

muestra aleatoria simple de tamaño 10? ¿De tamaño 20? ¿De tamaño 30? 7. Suponga que 588 granjas localizadas en una área particular constituyen una población y que el gasto de

capital de su último año en maquinaria y en equipo de la hacienda es la característica a ser estudiada. El registro completo para la población entera aparece en la Tabla 16-1 dividida en tres conjuntos de datos de acuerdo a una clasificación según el tamaño de las granjas (cortesía de Harlan Hughes). De la población entera de 588 granjas, tome una muestra aleatoria simple de tamaño 60 usando los números aleatorios del Apéndice de la Tabla 14. Registre las unidades de gasto y guarde sus datos para usarlos en el Ejercicio 8.

8. Refiriéndose al Ejercicio 7, suponga que el valor de la población no es conocido y que usted tiene sólo los

datos proporcionados por la muestra de tamaño 60. Estime el gasto promedio de la población por hacienda y establezca un error límite al 95% para su estimación.

9. Una muestra aleatoria simple de tamaño 350 se toma de una población de 4000 obreros emigrantes de las

granjas en un estado particular, y se registran los datos de sus sueldos horarios. La media muestral y la desviación estándar son $3.45 y $1.07, respectivamente. Construya un intervalo de confianza del 90% para el sueldo promedio horario de esta población.

10. Los errores que se presentan en las cuentas por cobrar son de importancia vital para los interventores. Un

interventor que trabaja para una compañía de transportes desea estimar la proporción de casos en los que clientes reciben facturas defectuosas. Suponga que durante un periodo dado de tiempo, se archivan 2325 cuentas por cobrar en la oficina del interventor. Una muestra aleatoria simple de 500 de estas cuentas se toman, y se encuentran que 48 de ellas involucran facturación defectuosa. Construya un intervalo de confianza del 95% para la proporción de cuentas por cobrar con facturación defectuosa que involucran a clientes.

Page 20: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 20

TABLA 16 - 1 GASTOS IMPORTANTES EN MAQUINARIA Y EQUIPO (EN MILES DE DOLARES)

GRANJAS PEQUEÑAS

17 38 9 7 11 14 17 10 31 24 22 21 9 41 19 9 13 26 36 18 8 11 23 19 16 14 14 17 20 20 9 18 6 19 52 14 5 27 14 14 28 17 9 11 12

25 19 28 15 18 24 23 27 24 20 21 27 21 34 26 21 9 29 22 10 18 45 24 16 95 40 42 11 17 17 13 14 23 17 27 18 34 18 16 17 20 23 18 42 22 18 23 16 26 11 37 23 32 24 16 24 34 37 31 29 15 41 38 21 34 23 24 27 34 5 34 29 22 26 30 26 27 39 30 31 28 39 28 34 28 24 44 22 23 40 16 5 19 36 36 17 21 43 21 19 14 14 31 27 39 30 41 28 19 32 18 19 33 27 28 26 23 32 36 21 24 32 19 18 31 25 26 21 18 36 29 47 26 31 26 32 27 43 45 45 25 17 30 27 28 16 44 20 15 31 21 42 27 32 33 21 35 44 24 26 38 57 54 24 37 21 33 19 20 32

GRANJAS MEDIANAS

37 30 41 17 38 29 32 21 39 41 28 33 35 24 36 28 20 23 27 34 33 36 25 28 39 36 22 25 54 53 36 14 22 32 21 35 35 39 32 40 24 48 41 30 42 20 38 23 17 38 16 23 28 32 18 60 28 47 61 25 22 25 48 53 35 25 23 44 18 56 42 55 39 24 38 42 27 30 34 43 29 35 43 62 25 15 66 34 25 11 45 28 40 32 38 33 48 46 54 45 35 31 30 42 22 23 46 14 42 33 31 75 50 44 33 41 32 45 44 51 39 35 22 44 35 24 29 23 32 30 35 50 28 21 21 12 30 28 60 35 49 33 22 58 25 23 39 40 44 41 14 37 32 22 27 23 37 59 50 46 40 47 41 38 48 40 32 31 22 24 25 33 54 36 52 39 61 46 36 16 37 38 51 25 35 49 9 46 35 53 43 59 41 52 51 47 72 46 29 25 42 42 43 46 43 29 58 47 85 52 48 23 39 40 43 52 36 35 27 56 47 39 51 48 48 23 24 39 30 59 35 39 32 51 18 27 38 36 41 11 42 42 65 27 34 72 49 39 44 57 64 51 53 55 63 39 31 48

GRANJAS GRANDES

53 63 44 66 40 42 48 44 27 56 37 39 37 40 66 49 39 54 30 68 36 42 28 29 41 57 30 39 28 80 79 61 81 53 57 54 29 94 77 52 61 49 52 67 36 35 57 63 32 48 57 50 62 51 52 59 55 22 18 84 57 86 50 54 96 45 28 59 64 42 41 77 76 83 36 42 39 72 84 34 55 51 66 96 63 88 87 63 91 117

107 48 56 71 54 64 45 61 59 68 50 74 100 144 80 64 101 105 77 85 60 63 66 36 95

Page 21: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 21

11. Un guardabosque desea estimar la proporción de árboles en un bosque de tierras bajas que tienen infecciones de madera mojada. Estas infecciones pueden descubrirse por la presencia de una bacteria particular en el jugo extraído de los agujeros taladrados. Se sabe que hay aproximadamente 5000 árboles en el bosque. Pruebas realizadas a una muestra aleatoria simple de 400 árboles indican que hay 139 árboles afectados. Construya un intervalo de confianza del 95% para la proporción de la población de árboles que tienen infecciones de madera mojada.

12. Un estudio de nutrición es dirigido para determinar la calidad de la comida ingerida por niños en una

escuela primaria. De un total de 1500 niños en escuelas primarias en una ciudad en particular, se selecciona una muestra aleatoria simple de 80, y se les pide a los padres llevar un registro de los alimentos comidos por sus niños para un periodo de una semana. Para cada niño se determina la ingestión media calórica por día. De los datos obtenidos para la muestra de 80 niños, se obtiene que la media muestral y la desviación estándar de ingestión calórica es de 752 y 138, respectivamente. Basado en esta información, construya un intervalo de confianza del 95% para el promedio diario calórico ingerido por la población.

13. Refiriéndose al Ejercicio 7, suponga que los tres grupos de granjas son tratados como tres estratos.

Usando los números aleatorios del Apéndice Tabla 14, tome muestras aleatorias simples e independientes de tamaños 22, 26, y 12 de los estratos de granjas pequeñas, medianas, y grandes, respectivamente, y registre sus datos para usarlos en el Ejercicio 14.

14. Usando su información de la muestra de Ejercicio 13 y la información sobre los estratos clasificados de los

tamaños de los estratos, estime el gasto medio capital de la población por granja. También construya un intervalo de confianza del 95% para la media poblacional.

15. Un departamento de transporte de una ciudad está dirigiendo una encuesta para determinar los usos de

gasolina de sus residentes. Se va a usar el muestreo aleatorio estratificado, y los cuatro distritos de la ciudad se tratan como los estratos. La cantidad de gasolina comprada en la última semana se registra para cada una de las casas de la muestra. Los tamaños de los estratos y la información resumen obtenida de la muestra son:

ESTRATO I II III IV

Tamaño del estrato 3750 3272 1387 2475 Tamaño de la muestra 50 45 30 30 Media muestral (en galones) 12,6 14,5 18,6 13,8 Varianza muestral 2,8 2,9 4,8 3,2

Estime el uso medio semanal de gasolina para las casas de la población de la ciudad y construya un límite del error al 95% para su estimativo.

16. El editor de una revista de las noticias está realizando una encuesta para determinar los puntos de vista

de los subscriptores con respecto al cubrimiento de la revista de asuntos internacionales. Debido a que se llevan registros del suscriptor que cubren partes diferentes del país en tres oficinas principales de la región, es conveniente tomar una muestra aleatoria estratificada tratando las tres regiones como los estratos. A los subscriptores muestreados de cada estrato se les pregunta: "Está usted satisfecho con el cubrimiento que hace la revista de los asuntos internacionales"?. Los datos sumarios obtenidos son:

ESTRATO I II III

Tamaño del estrato 2 millones 5 millones 3 millones Tamaño de la muestra 500 600 600 Respondieron "Si" (total) 225 336 286

Estime la proporción de la población de subscriptores que están satisfechos con el cubrimiento de la revista de asuntos internacionales y construye un límite del error del 90% para su estimativo. 17. Refiriéndose al ejercicio 15, suponga que deseamos seleccionar una muestra aleatoria estratificada de un

tamaño total de la muestra de 1000 casas. Determine el tamaño de la muestra para los estratos individuales según una asignación proporcional.

Page 22: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 22

18. Refiriéndose al Ejercicio 15, suponga que el muestreo actual es realmente un estudio piloto designado para estimar las varianzas de los estratos con el propósito de determinar la asignación óptima de un estudio a gran escala para ser realizado con un tamaño de muestra total de 1000. Usando la información sobre los tamaños de los estratos y los estimativos de la varianza de los estratos del Ejercicio 15, determine la asignación óptima para el tamaño de la muestra total de 1000.

19. Asignación óptima con costo (Asignación de Neyman): En el muestreo estratificado, el costo de muestrear

una unidad a menudo varía de un estrato a otro. Por ejemplo, los gastos de viaje para los entrevistadores pueden ser substancialmente menores para unidades localizadas en ciudades mayores que para unidades localizadas en áreas rurales remotas. Si el costo del muestreo varía de estrato a estrato, esto debería tenerse en cuenta al determinar la asignación óptima de los tamaños de la muestra.

Sea Ci el costo de probar una unidad del estrato i, i=1,... ,h, donde C representa el presupuesto total para el estudio, y sea Co un costo fijo independiente del tamaño de la muestra. La asignación óptima, aquella que minimiza Var ( Xst ) para el presupuesto total C, es entonces

∑=

σ

σ=

k

1jCj/jNj

Ci/iNinni

donde el tamaño total de la muestra n es

∑=

= − k

jCjj

Cii

j

i

N

NCCn

1

0

/

/)(σ

σ

Ahora suponga que se conoce que la población se divide en tres estratos: Tamaño: 10001N = 50002N = 20003 =NDesviación Estándar: 201 =σ 322 =σ 403 =σCosto: 11 =C 25.02 =C 43 =C

y que el costo fijo es 10C0 =a) Determine la asignación óptima aproximada cuando el desembolso máximo según el presupuesto total

es 200. b) Cuál es la Var ( Xst ) dada su asignación? 20. Refiriéndose al ejercicio 19, la misma asignación también minimizará el costo total para un valor V02

especificado por la Var( Xst ). En este caso el tamaño de la muestra total dado por n es:

∑∑

=

+

==

= k

j

j

j

k

jj

jk

jjj

j

jNN

NV

CNNC

NN

n

10

11

22 1

/

σ

σσ

a) Usando los valores entregados por el ejercicio 19, determine la asignación óptima si V02 = 4. c) Cuál es el costo total de este estudio? (NOTA: El costo total es ) kknCnCCC +++= ...110 Proyectos de clase 1. Organice una encuesta usando muestreo aleatorio simple. (Sugerencias: Una encuesta sobre pago de

alquiler de renta por parte de los estudiantes, o una encuesta de opinión; si es tiempo de elección, puede pensar en predecir el resultado). Escoja un problema que requiera tanto la estimación de una proporción y la estimación de la media de una población.

2. En el contexto de la encuesta escogido, discuta la factibilidad y las ventajs esperadas de ña estratficación vs otros tipos de muestro.

Page 23: Capítulo 16 16. Estudios de muestreo - Estadística … · 2008-03-24 · ... por el silvicultor que desea conocer el rendimiento de madera de un bosque, y ... En la literatura de

Métodos y Conceptos Estadísticos. Muestreo de encuestas. 23

Tabla de números aleatorios

6017 2438 3828 2161 6601 8762 8166 3756 6483 7405 6595 8695 3268 5788 5965 4427 9227 8468 1298 4343 1346 0861 5400 5286 0632 5878 0726 5624 7813 7905 9611 3839 6226 3452 7352 9818 0372 1222 1781 0216 5798 5805 3719 3155 6336 4710 7311 5553 3132 3375 7801 2782 1500 4249 4702 1799 9587 2788 7421 3631 3213 0670 1158 0562 6208 6641 5057 1747 7559 548 9614 6265 6075 7161 6505 0599 1398 2947 7797 0038 4414 3904 8021 5093 2009 3799 8336 8189 8441 5748 3587 9128 2088 8840 6838 5810 8964 8261 1914 4651 9081 3202 9692 5605 7902 9525 4932 9719 7080 9448 0848 8331 9069 4214 3824 2350 4986 8556 5394 1971 4098 6758 9526 6559 5435 6428 6362 7876 7746 3562 1567 7828 3328 3604 7368 9744 8842 0456 6317 0218 3826 6603 4549 2501 9976 8845 6219 2593 8337 2222 7455 1587 2778 6178 6670 4229 6420 0204 3168 5283 6869 1675 408 7816 9054 1931 1771 3513 6523 7018 0413 5606 2869 5234 5344 5181 2457 9569 6402 9317 7475 2647 8714 6275 9693 5937 0516 1304 1156 4133 3926 1961 4928 3235 0889 1701 3778 4803 3637 6609 1152 6832 9422 8956 8355 2702 0780 5091 6964 6693 7576 9651 3543 2515 6981 4808 0084 7215 6568 4753 0215 4797 2589 2416 4746 2469 2613 7049 6319 5007 4973 3050 7658 6044 3277 2416 5823 0871 2378 0150 7335 6191 6314 2974 2783 6280 8045 6139 1575 7728 4264 4703 0164 0416 8561 4309 6759 1658 1085 6807 4425 7435 5645 4685 8751 7452 7483 5945 2360 3542 7421 9632 5936 9718 3034 7107 6070 4807 2681 1311 2724 4979 6886 2426 4486 2350 1654 4411 8094 4307 6627 6067 2654 2265 9557 4753 3174 2253 1168 2303 2778 6633 6219 4301 5528 2485 3996 5792 1741 4351 5324 4159 7672 7480 2976 3952 3061 8719 4613 2271 8921 0848 8062 1366 1449 3173 4095 2528 6684 9596 4762 1133 1784 9004 9366 1677 2984 3961 0226 3491 5758 6907 6856 1359 2532 8928 2850 3798 7555 6049 9829 9473 2554 3600 7892 5033 3341 9106 1410 8797 3396 2295 4353 3021 2301 2286 3185 3869 8153 4610 1727 7306 3918 7558 0051 2230 4406 3649 3782 0904 9778 0665 1244 7495 6409 0063 7009 8758 0165 6838 8588 5394 3374 5671 1602 7046 8988 1154 5907 4063 5507 4041 9653 4945 7381 3262 0685 9314 2707 4234 8884 2974 2233 1364 7361 3152 7014 2511 1262 8569 9142 2225 5394 5404 8837 5374 1564 7192 8456 8702 1522 0684 4761 7781 7083 3070 5232 1600 3057 8561 7477 6097 0544 3517 4826 4927 7133 9985 3409 8105 0989 2252 2316 8041 0427 0619 8877 9409 3631 3490 5633 5940 5279 1804 1161 5940 4524 0521 1704 4912 6705 0872 8505 7423 2394 5924 9999 2517 5588 9043 2082 1149 1280 6903 8462 0362 0947 9180 8758 4187 8528 9004 4009 2840 7902 2616 8351 9548 1005 5891 2025 7829 6113 9015