37
Statistics Inferencial Statistics: Muestreo OpenMaths.com 1.1.5.5.1 Ver 01:03/02/2010

Inferencia estadistica.Muestreo

Embed Size (px)

DESCRIPTION

Matematicas Bachillerato Estadistica Inferencia Estadistica Muestreo

Citation preview

Page 1: Inferencia estadistica.Muestreo

Statistics

Inferencial Statistics: Muestreo

OpenMaths.com 1.1.5.5.1 Ver 01:03/02/2010

Page 2: Inferencia estadistica.Muestreo
Page 3: Inferencia estadistica.Muestreo

NOTA

La clasificación decimal de todos los temas de este manual tienen implícito el comienzo 1.1.5.5.1 correspondiente a

1 SCIENCE

1.1 MATHEMATICS

1.1.5 STATISTICS

1.1.5.5 INFERENCIAL STATISTICS

1.1.5.5.1 MUESTREO

COPYLEFT

Este material así como los applets, powerpoints, videos y archivos de sonido asociados, puede ser distribuido bajo los términos y condiciones definidos en Open Publication License versión 1.0 o posterior (La versión más reciente está disponible en http://www.opencontent.org/openpub/).

El contenido está sujeto a constantes cambios sin previo aviso. Su fin es didáctico y solo pretende la universalización de la cultura. Está escrito en base a la colaboración de las miles de personas que componen nuestra comunidad OpenUepc. Se ha exigido a los autores que referencien todas las fuentes utilizadas y figuran al final del texto. Cualquier distribución del mismo debe mencionar a OpenUepc como fuente.

Miguel Pérez Fontenla [email protected]

INDICE AUTORES

Iniciado por: Miguel Pérez Fontenla

12/12/2009

Page 4: Inferencia estadistica.Muestreo
Page 5: Inferencia estadistica.Muestreo

INTRODUCCION 1

TABLA DE CONTENIDO

INTRODUCCION .................................................................................................................... 3

History ................................................................................................................................... 3

CONCEPTOS BÁSICOS .......................................................................................................... 4

Poblacion y Muestra .............................................................................................................. 4

Parámetros ............................................................................................................................. 5

MÉTODOS DE MUESTREO ................................................................................................... 7

Muestreo aleatorio simple ..................................................................................................... 7

Números aleatorios ................................................................................................................ 7

Muestreo sistemático ............................................................................................................. 8

Muestreo estratificado ........................................................................................................... 9

Definición: Distribución óptima ........................................................................................ 9

Estratificación cruzada: .................................................................................................... 10

Muestreo por cuotas ......................................................................................................... 10

Muestreo por conglomerados .............................................................................................. 11

Muestreo polietápico ........................................................................................................ 11

Muestreo polietápico por cuotas ...................................................................................... 12

Otros tipos de muestreos ..................................................................................................... 12

Incidental.......................................................................................................................... 12

Accidental ........................................................................................................................ 12

Por voluntarios ................................................................................................................. 13

Muestreo juicio ................................................................................................................ 13

Muestreo de bola de nieve ............................................................................................... 13

Muestreo subjetivo por decisión razonada ....................................................................... 13

DISTRIBUCION MUESTRAL .............................................................................................. 17

Conceptos básicos ............................................................................................................... 17

Muestras aleatorias........................................................................................................... 18

Parámetros y Estadísticos ................................................................................................ 19

Propiedades de los Estadísticos ....................................................................................... 20

Distribución de la Media ..................................................................................................... 22

Error medio ...................................................................................................................... 22

Teorema Central del Límite aplicado a muestras. ........................................................... 23

Distribución de la proporción .............................................................................................. 26

Distribucion de diferencias de medias muestrales ............................................................... 29

Distribución de diferencias de proporciones muestrales ..................................................... 31

Page 6: Inferencia estadistica.Muestreo

INTRODUCCION 2

Page 7: Inferencia estadistica.Muestreo

INTRODUCCION 3

INTRODUCCION

La inferencia estadística es el proceso usado para estudiar alguna característica de una población, habitualmente numerosa, a través de una muestra o parte más pequeña de la misma que nos haga manejable y económico llevar a cabo tal estudio.

Se divide en tres grandes campos:

• Muestreo

• Estimación • Test de hipótesis

Vamos a continuación a explorar el primero de estos tres procesos con el suficiente detenimiento para que puede cubrir las expectativas de hasta los primeros ciclos de cualquier carrera universitaria.

History

Random sampling by using lots is an old idea, mentioned several times in the Bible. In 1786 Pierre Simon Laplace estimated the population of France by using a sample, along with ratio estimator. He also computed probabilistic estimates of the error. These were not expressed as modern confidence intervals but as the sample size that would be needed to achieve a particular upper bound on the sampling error with probability 1000/1001. His estimates used Bayes' theorem with a uniform prior probability and it assumed his sample was random. The theory of small-sample statistics developed by William Sealy Gossett put the subject on a more rigorous basis in the 20th century. However, the importance of random sampling was not universally appreciated and in the USA the 1936 Literary Digest prediction of a Republican win in the presidential election went badly awry, due to severe bias [1]. More than two million people responded to the study with their names obtained through magazine subscription lists and telephone directories. It was not appreciated that these lists were heavily biased towards Republicans and the resulting sample, though very large, was deeply flawed.

http://en.wikipedia.org/wiki/Sampling_(statistics)

Page 8: Inferencia estadistica.Muestreo

CONCEPTOS BÁSICOS 4

CONCEPTOS BÁSICOS

Cuando se quiere realizar un estudio estadístico, es habitual que la población de estudio sea muy grande, lo que nos convierte el estudio de la misma en, o bien caro o muy costoso económicamente, o bien muy largo en su duración. Para atajar, existe la posibilidad de tomar una pequeña muestra de la población y realizar nuestro estudio sobre ella y extrapolar los resultados a la población total de manera que vamos a tratar que nuestros estudios sean lo más acertados posibles. Esta idea es en lo que, básicamente, consiste el muestreo o teoría de muestras.

La idea es simple, pero llevarla a cabo no tanto. Elegir la muestra, parece sencillo, pero tiene sus complejidades. Por ejemplo, si queremos estudiar la intención de voto para unas elecciones, no deberíamos tomar la muestra exclusivamente en una macrodiscoteca, ni en una convención de un sindicato, ni en hogar del jubilado ni en una calle cara y céntrica de Madrid. La muestra debe ser representativa de la población que vamos a estudiar, y en una macrodiscoteca suele haber gente mayoritariamente muy joven y en una calle céntrica y comercial de Madrid, pongamos calle Serrano, pues el nivel económico de sus habitantes no es parecido a la media del país.

Por ello, la primera condición para elegir una muestra, es que sea aleatoria, es decir, los elementos que la compongan deben ser elegidos al azar. La segunda, que debe ser representativa de la población a estudiar, de manera que el estudio de la muestra sea lo más similar posible al estudio de toda la población.

Para hacer un estudio estadístico sobre una muestra, se deben definir inicialmente lo siguiente

1. Definir la población a estudiar 2. Determinar el tamaño de la muestra necesaria 3. Establecer una técnica de muestreo

Poblacion y Muestra

Definición: Población

Denominamos población al conjunto de elementos al que va dirigida una investigación estadística (en el caso de estadística descriptiva) o un experimento aleatorio (estadística matemática)

Denominamos tamaño de un población al número de elementos que la componen, puede ser finita o infinita

Denominamos población diana a la totalidad de la población a la que se refiere el estudio

Denominamos población accesible o de estudio al subconjunto de la población diana en el cual los datos están disponibles o son fáciles de conocer.

Definición: Muestra

Page 9: Inferencia estadistica.Muestreo

CONCEPTOS BÁSICOS 5

Denominamos muestra al grupo o subconjunto limitado de individuos de entre la población accesible, debidamente elegidos, al que realmente vamos a estudiar de forma que nos represente a toda la población para sometarla al estudio estadístico con el proposito de que los resultados que obtengamos poder extrapolarlos a la población completa.

Denominamos tamaño de la muestra al número exacto de elementos que la componen. Este debe ser óptimo en cuanto a que sea lo menor posible (ahorro de costes y tiempos) sin pérdida de información.

Un número insuficiente de elementos puede impedir encontrar diferencias o asociaciones buscadas en el estudio mientras que un número excesivo, aparte de caro, puede detectar como significativas diferencias o asociaciones de la población que en realidad son irrelevantes

Para determinar el apropiado tamaño muestral se utilizan técnicas estadísticas que pronto veremos, incluidas en lo que se denomina Inferencia estadística . Estas técnicas tienen como premisas siempre dos condicionantes:

• Variabilidad del fenómeno estudiado. Por ejemplo, no es lo mismo estudiar la razas de la población de London o New York, que son un crisol de ellas, que estudiarla en Beiging ó Tokio donde mayoritariamente la población es China o Japonesa. En cualquier caso, a mayor variabilidad, necesitaremos una muestra también mayor.

• Exigencia deseada de las estimaciones que la componen el denominado Nivel de

confianza, el error deseado, la precisión en la estimación • El nivel de confianza es la probabilidad de que el intervalo de confianza hallado en nuestro estudio para el parámetro que se estima, contenga efectivamente el verdadero valor de dicho parámetro

Definicion: Muestreo y encuesta

Denominamos muestreo al proceso estadístico seguido para la extracción de una muestra.

Denominamos encuesta al proceso de obtener información de la muestra.

Parámetros

Definición: Parámetro

Denominamos parámetros de la población a las características numéricas que deseamos conocer de la población mediante el muestreo. Los más típicos en matemáticas son la media, la desviación y la proporción, pero en medicina podríamos hablar de otros tales como la prevalencia, la sensibilidad o la especificidad.

El muestreo presenta limitaciones, pues es frecuente concluir datos erróneos, nunca se sabe si la elección de la muestra es del todo correcta, y no siempre las personas que la llevan a cabo dominan la técnica del muestreo. Tampoco obtenemos una información certera de toda la población, lo que hacemos es suponer que la totalidad de los elementos se comportarán como la muestra. Sin embargo, la imposibilidad de abarcar la población completa, el coste económico que ello supone y la premura de tiempo con la que se suelen necesitar los estudios estadísticos hacen del muestreo una técnica imprescindible en estadística.

Page 10: Inferencia estadistica.Muestreo

CONCEPTOS BÁSICOS 6

Ejemplos

Para una campaña contra el consumo de alcohol y drogas entre los adolescentes gallegos se desean conocer los hábitos de consumo en determinada ciudad. La población diana son todos los adolescentes de Galicia. Por celebrarse un botellón cada jueves en Santiago de Compostela, elegimos esos adolescentes como población accesible pero como no los vamos a estudiar a todos hacemos una encuesta sobre una muestra de 100 estudiantes entre dos institutos de secundaria, uno céntrico y otro rural.

Ejemplo 2

Se desea calcular la cantidad de dinero que se gastan los españoles en vacaciones. Resulta obvio que no sería razonable elegir la muestra de entre personas alojadas exclusivamente en hoteles de 4 y 5 estrellas, pero el hecho de decidir donde buscar la muestra para que resulte homogénea y representativa con la población que queremos estudiar en este caso, que son veraneantes pues no resulta ni obvio ni intuitivo.

Page 11: Inferencia estadistica.Muestreo

MÉTODOS DE MUESTREO 7

MÉTODOS DE MUESTREO

Muestreo no probabilístico donde no se usa el azar, sino el criterio y experiencia del propio investigador. Presenta mucho sesgo y no es fiable pero aunque este método no tiene mucho de científico puede resultar útil en determinadas inspecciones policiales y fiscales, donde se puedan intuir las bolsas o colectivos de fraude o delincuencia.

Muestreo aleatorio o probabilístico donde el diseño de la muestra sigue los estándares probabilísticos, conocemos las probabilidades previas de cada suceso posible y la muestra es lo más representativa de la población a estudiar

Cuando un elemento de la población, tras ser seleccionado para la muestra es devuelto a la población de manera que pueda ser seleccionado de nuevo, firemos que se tarta de muestreo

con repetición. Por ejemplo, si entre los 20 alumnos de una clase se quiere nombrar un delegado y un representante del consejo escolar, un mismo alumno puede representar ambos cargos.

Cuando una vez seleccionado un elemento para la muestra, éste ya no puede volver a ser seleccionado, diremos que estamos en un muestro sin repetición. Por ejemplo, seleccionar tres cartas del mazo para jugar a la escoba, es una muestra del mazo sin repeticion

Muestreo aleatorio simple

Diremos que una muestreo es aleatorio simple cuando todas las posibles muestras de un determinado tamaño extraídas de una población tienen la misma probabilidad de ser seleccionadas.

Las observaciones se realizan con reemplazamiento de manera que la población es idéntica en todas las extracciones aunque ello comporte que algún individuoo pueda ser elegido más de una vez.

Este tipo de muestreo es adecuado en el caso de poblaciones pequeñas y homogéneas y que los elementos que la forman sean perfectamente identificables.

Es una exigencia imprescindible la aleatoriedad de la muestra. Para ello hay técnicas que iremos viendo a continuación.

Números aleatorios

Existen tablas de números aleatorios, como la que adjuntamos al final deste tema. También los ordenadores incluyen la función RANDOM() en la práctica totalidad de los sistemas operativos y lenguajes de programación. En Excel castellano concretamente tenemos la función ALEATORIO() que genera un número aleatorio entre 0 y 1 aunque estos números son en realidad pseudo-aleatorios pues surgen de una fórmula determinística aunque tienen suficientes garantías de que la muestra elegida con ellos podamos considerarla como aleatoria.

El sistema para elegir una muestra aleatoria consiste en establecer una correspondencia biyectiva, elemento a elemento, entre la colección de números aleatorios obtenidos de nuestra tabla y la población.

Ejemplo

Page 12: Inferencia estadistica.Muestreo

MÉTODOS DE MUESTREO 8

Supongamos que en una inspección, de los 1200 pacientes de un hospital queremos elegir a 2 para entrevistarlos y proporcionarles una encuesta de calidad. Un primer método elemental y básico para elegir a dos pacientes sería, primero tener identificados los pacientes del 0001 al 1200 y, a continuación, con la ayuda de una urna y diez papeletas con los números del 0 al 9 e ir extrayendo 4 papeletas con repetición hasta ir completando los dos números necesarios. El problema de elección con las unidades de millar, en las que solo necesitamos 0 ó 1, pues el número más grande es el 1200, se soluciona repitiendo la extracción hasta que aparezca 0 ó 1, pero no usar solo esos dos papeles, pues entonces tendrían mucha más probabilidad del 1000 al 1200 que solo hay 200 pacientes, que del 0001 al 0999 que hay 999. Con la ayuda del ordenador se nos hace menos laborioso. En el número de casillas Excel que necesitemos escribimos ENTERO(1+ALETARIO()*1199) y tendremos nuestros números aleatorios

Cuando nos encontramos ante poblaciones numerosas y heterogéneas el método aleatorio simple no nos vale, dado que es inalcanzable el llegar a numerar e identificar a todos los miembros de la población. Imagínate una encuesta sobre el consumo de alcohol entre adolescentes gallegos. El solo hehco de numerarlos e identificarlos ya es un problema de gran envergadura. En estos casos se utrilizan otros métodos, de entre los cuales destacamos

• Muestreo sistemático • Muestreo estratificado • Muestreo por conglomerados

Muestreo sistemático

Supongamos que la población tiene un tamaño N y disponemos de una lista de los mismos.

Supongamos que queremos obtener una muestra de tamaño n

Dividimos lista de la población en n grupos o intervalos de tamaño m, de forma que n‧m = N. A m se le denomina coeficiente de elevación.

Se toma un elemento al azar del primero de los grupos (entre 1 y m) que llamamos origen.

Si el elemento seleccionado fue el i-ésimo, se toma el elemento (i + m) al azar del grupo 2, el (i + 2m) del grupo 3,...., así hasta el i + (n-1)m del grupo n.

De esta manera, obtenemos n elementos, uno de cada uno de los n grupos.

Si la lista la elaboramos de manera que los elementos próximos tengan características semejantes, este muestreo tiende a ser más preciso que el muestreo aleatorio simple. Sin embargo corremos un riesgo que consiste en que puedan existir periodicidades no evidentes, por ejemplo una máquina produce una pieza defectuosa cada m fabricadas y este m coincide con el tamaño de los grupos entonces la muestra elegida nos saldría siempre, o bien con todos sus elementos defectuosos, o bien con todos ellos correctos, y en ambos casos provocará una distorsión decisiva en nuestro estudio.

Page 13: Inferencia estadistica.Muestreo

MÉTODOS DE MUESTREO 9

Muestreo estratificado

En este método suponemos que tenemos información sobre la población que nos permita dividirla en subconjuntos (o estratos) lo más homogéneos posibles y en cada estrato se aplica un muestreo aleatorio simple. De ahí que también se denomine muestreo aleatorio simple

estratificado. Los estratos se determinan basándose en experiencias previas o tomando experiencias piloto.

El número de elementos que se toma de cada estrato puede hacerse de múltiples maneras:

Si se toma la misma cantidad de cada estrato el muestreo se denomina de elección uniforme.

Si el reparto es proporcional al número de elementos de cada estrato diremos que es de elección proporcional

Ejemplo

Si una población posee un 20% de mujeres y un 80% de hombres, nos interesa que la muestra mantenga la misma proporción. Si estuviésemos experimentando un medicamento y queremos comparar sus efectos entre una población con un 40% de fumadores y un 60% de no fumadores, la muestra debe respetar la esta proporción poblacional existente entre ambos. De la misma forma, si la población la dividimos en niveles culturales, es importante que la muestra también los represente en proporciones similares. Por ejemplo, en sondeos de opinión política, es importante que las muestras sean proporcionales a los niveles económicos, culturales, geográficos, sexo y edad de la población a estudiar.

Supongamos una población de tamaño N que se divide en k estratos cuyos tamaños son:

N1, N2, .....,Nk (con N1 +N2 +.....+Nk =N). Para obtener una distribución proporcional hemos

de tener en cuenta que : 1 2

1 2

....... k

k

nn n nN N N N

= = = = , de donde se obtiene que •ii

Nn n

N= para

i=1,2,3,4,.... k donde n es tamaño de la muestra.

Esta sería una distribución proporcional, pero hay otras formas de distribuir porciones de una muestra entre los distintos estratos, que serían:

• Distribución óptima. • Estratificación cruzada. • Muestreo por cuotas.

Definición: Distribución óptima

En la Distribución optima, no sólo se maneja el tamaño del estrato, como en la distribución proporcional, sino que también se maneja la variabilidad (o cualquier otra característica pertinente) del estrato.

La idea de la Distribución óptima, trata de jugar no sólo con el tamaño del estrato, sino que también pretende jugar con la variabilidad del mismo, de forma que parece lógico que los

Page 14: Inferencia estadistica.Muestreo

MÉTODOS DE MUESTREO 10

estratos de mayor variabilidad le correspondan muestras mayores. Si σ1, σ2, σ3, ...., σk son las desviaciones típicas de los k estratos podemos explicar tanto los tamaños de los estratos, así como su variabilidad.

31 2

1 1 2 2 3 3 1

........• • • •

k

k k

n nn nN N N Nσ σ σ σ

= = = =

de donde se obtienen los tamaños muestrales de la distribución óptima o Distribución de Neyman (su inventor) que se obtienen por la fórmula:

1 1 2 2.......

i i

i

k k

n Nn

N N Nσ

σ σ σ

⋅=

⋅ + ⋅ + + ⋅⋅ para i=1,2,...., k y n= n1+n2+.......+nk

Estratificación cruzada:

La estratificación no se limita a una variable única de clasificación o una característica y las poblaciones a menudo se estratifican atendiendo a diversos criterios de ordenación o clasificación. Así por ejemplo si queremos realizar un estudio entre los alumnos de distintos IES podríamos estratificar la muestra atendiendo al nivel de estudios, al sexo, a la especialidad,.... Así parte de la muestra se dedicaría a los alumnos de sexo femenino del 1º de Bachillerato técnico, otra parte a los alumnos de sexo masculino de 1º Bachillerato artístico, y así sucesivamente. Así y hasta cierto punto una estratificación de este tipo, llamada estratificación cruzada, incrementará la precisión de las estimaciones y otras generalizaciones que se usan comúnmente en el muestreo de opinión y las investigaciones de mercado.

Muestreo por cuotas

En el muestreo por cuotas, el investigador establece estratos de la población, determina el número de individuos a seleccionar en cada uno de ellos y elige intencionadamente individuos para completar las cuotas establecidas. Se asemeja al muestreo aleatorio por estratos en cuanto que supone un conocimiento previo de la población que permite diferenciar segmentos o estratos dentro de la misma, pero se distancia de aquél por el hecho de que aquí los individuos que constituyen la cuota aportada a la muestra por cada estrato no son determinados aleatoriamente, sino en función de otros criterios (accesibilidad, comodidad, economía, etc.). La única condición impuesta es que los individuos cumplan los requisitos fijados en las cuotas.

El muestreo por cuotas no es un muestreo de tipo probabilístico, y por tanto no permite llevar a cabo estimaciones rigurosas en las que podamos calibrar el error cometido.

Ejemplo

Si se quiere hacer un sondeo sobre la mejora de los servicios de salud, por ejemplo se le pide que encueste a 10 mujeres de entre 35 y 45 años que sean asalariadas, 20 hombres de entre 30 y 45 años que vivan en pisos de 3 o 4 habitaciones, a 3 hombres de mas de 60 años que estén jubilados.... esto es lo que se determina un muestreo por cuotas y es relativamente económico, lo único es que las muestras resultantes no cumplen las características esenciales de las muestras aleatorias. Por tanto estos

Page 15: Inferencia estadistica.Muestreo

MÉTODOS DE MUESTREO 11

muestreos, por cuotas en esencia son muestras de opinión, pero no son válidos para realizar un estudio estadístico formal.

Muestreo por conglomerados

En ocasiones los elementos de la población se agrupan en distintos subconjuntos disjuntos, relativamente pequeños, que denominamos conglomerados y se seleccionan al azar algunos de ellos para incluirlos en la muestra total.

Si estos conglomerados coinciden con áreas geográficas, este muestreo se llama también muestreo por áreas.

Aunque las estimaciones basadas en el muestreo por conglomerados, por lo general no son tan fiables como las obtenidas por muestreos aleatorios simples del mismo tamaño, son más baratas. Es mucho más económico visitar a familias que viven en el mismo vecindario, que ir visitando a familias que viven en un área muy extensa.

Ejemplo

Supongamos que en un área geográfica, una ciudad, se desea conocer los patrones variables de los gastos familiares y, para ello, se decide tomar una muestra de 500 familias. La primera dificultad es encontrar un patrón estadístico actualizado, por lo que se desecha esa idea y se decide dividir el área en distritos que no se solapen (subconjuntos disjuntos), podrían ser manzanas de casas, o distritos postales, o incluso barrios. Entonces seleccionamos algún distrito al azar y todas las familias de ese distrito compondrían nuestra muestra.

Muestreo polietápico

Si tras dividir a la población en conglomerados se toma completo uno de los conglomerados definidos, el muestreo se denomina de una etapa.

Si dentro de cada conglomerado se numera la lista de unidades elementales que lo contiene y se vuelve a obtener una nueva muestra de éstos, el muestreo se denomina bietápico o con submuestreo.

Ejemplo

Se desea estudiar la prevalencia (nº casos existentes dividido por el número casos total) de una enfermedad en la población de niños de edad escolar, se puede seleccionar en una primera etapa 10 institutos o centros escolares, entre todos los existentes, pero como todavía pueden ser muy numerosos el número de alumnos en cada uno de ellos, en una segunda etapa se puede seleccionar los alumnos a estudiar eligiendo solo 3 grupos escolares de alumnos dentro de cada isntituto. Si creemos que la muestra sigue siendo muy numerosa, en una tercera etapa podríamos tomar de cada grupo aquellos alumnos cuyo primer apellido está entre la A y la M.

Ejemplo

Page 16: Inferencia estadistica.Muestreo

MÉTODOS DE MUESTREO 12

Supongamos que los 150 alumnos de 1º bach de un instituto de secundaria se dividen en 5 grupos de 30 alumnos cada uno, que denominamos grupos A, B, C, D y E. Cada uno de estos grupos es un conglomerado y podría ser una muestra de una etapa. Sin embargo si la muestra la queremos hacer de 12 alumnos, tendremos que hacer un nuevo muestreo sobre el grupo elegido, de ahí que el muestreo global se denominaría bietápico

Muestreo polietápico por cuotas

Cuando se tienen instrucciones finales acerca del tipo de elementos que debe seleccionar en la última etapa de un muestreo polietápico, el muestreo se denomina muestreo polietápico

por cuotas

Ejemplo

Supongamos que en una elecciones se desea obtener el voto de los 100 primeros votantes que acuden a votar a un colegio electoral, pero la empresa ya tiene datos que ellos consideran altamente fiables acerca del voto de los jubilados y de las mujeres trabajadoras. Entonces el entrevistador tiene instrucciones de obtener solo datos de hombre trabajadores en activo y jóvenes desempleados de ambos sexos. Esto sería un muestreo por cuotas

Otros tipos de muestreos

Incidental

En el muestreo incidental el investigador determina deliberadamente qué individuos formaran parte de la muestra, tratando de escoger a los casos considerados típicamente representativos de la población. Los criterios de elección suelen basarse generalmente en el conocimiento teórico sobre el tema objeto de estudio.

Ejemplo

Para estudiar el problema del absentismo escolar, un investigador puede seleccionar los alumnos de un centro situado en una zona de trabajadores agrícolas temporeros que han de desplazarse en determinadas épocas del año, los alumnos de un centro situado en una barriada marginal de una gran ciudad y los de un centro de zona residencial, dado que por su conocimiento teórico del problema sabe que éstos representan los diferentes tipos de comportamientos en relación a la asistencia a clase.

Accidental

En el muestreo accidental se seleccionan determinados individuos o grupos de individuos sin que exista ningún criterio aparente.

Ejemplo

Page 17: Inferencia estadistica.Muestreo

MÉTODOS DE MUESTREO 13

Para realizar un estudio determinado, el investigador elige los alumnos de un centro que se encuentra próximo a su lugar de trabajo. Este tipo de muestreo se considera el más alejado de la posibilidad de generalizar a la población los resultados obtenidos.

Por voluntarios

Es una técnica que conviene evitar porque las personas que se presentan al estudio suelen estar influidas por algún tipo de característica que puede afectar de forma importante en el resultado del estudio.

Muestreo juicio

Hay casos en los que no se pueden calcular las probabilidades de las muestras y lo que se hace es buscar individuos de los que se juzga de antemano que poseen un conocimiento profundo del tema bajo que se estudia y que, por consiguiente, la información que aportan es de suma importancia.

Muestreo de bola de nieve

Indicado para estudios de poblaciones clandestinas, minoritarias o muy dispersas pero en contacto entre sí. Consiste en identificar sujetos que se incluirán en la muestra a partir de los propios entrevistados. Partiendo de una pequeña cantidad de individuos que cumplen los requisitos necesarios estos sirven como localizadores de otros con características análogas.

Muestreo subjetivo por decisión razonada

En este caso las unidades de la muestra se eligen en función de algunas de sus características de manera racional y no casual. Una variante de esta técnica es el muestreo compensado o equilibrado, en el que se seleccionan las unidades de tal forma que la media de la muestra para determinadas variables se acerque a la media de la población.

Fuente: http://es.wikipedia.org/wiki/Muestreo_en_estad%C3%ADstica#T.C3.A9cnicas_de_muestreo

Page 18: Inferencia estadistica.Muestreo

MÉTODOS DE MUESTREO 14

Resumen de ventajas e inconvenientes de los tipos de muestreo

CARACTERISTICAS VENTAJAS INCONVENIENTES

Aleatorio simple

Muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N.

Sencillo y de fácil comprensión.

Cálculo rápido de medias y varianzas.

Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar los datos

Requiere poseer un listado completo de toda la población.

Cuando se trabaja con muestras pequeñas es posible que no represente a la población adecuadamente.

Sistemático Conseguir un listado de los N elementos de la población

Determinar tamaño muestral n.

Definir un intervalo k=N/n.

Elegir un número aleatorio, r, entre 1 y k (r=arranque aleatorio).

Seleccionar los elementos de la lista.

Fácil de aplicar.

No siempre es necesario tener un listado de toda la población.

Cuando la población está ordenada siguiendo una tendencia conocida, asegura una cobertura de unidades de todos los tipos.

Si la constante de muestreo está asociada con el fenómeno de interés, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de selección

Estratificado En ocasiones resulta conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población objetivo a muestrear. Una vez calculado el tamaño muestral apropiado, éste se reparte de manera proporcional entre los distintos estratos definidos en la población usando una simple regla de tres.

Asegura que la muestra representa adecuadamente a la población en función de los estratos definidos.

Se obtienen estimaciones más precisa

Se ha de conocer la distribución en la población de las variables utilizadas para la estratificación.

Conglomerados Se realizan varias fases de muestreo sucesivas (polietápico)

La necesidad de listados de las unidades de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior.

Es muy eficiente cuando la población es muy grande y dispersa.

No es preciso tener un listado de toda la población, sólo de las unidades primarias de muestreo.

El error estándar es mayor que en el muestreo aleatorio simple o estratificado.

El cálculo del error estándar es complejo.

En la práctica se pueden combinar el uso de varios de los métodos de muestreo que hemos analizados para un mismo estudio.

Page 19: Inferencia estadistica.Muestreo

MÉTODOS DE MUESTREO 15

TABLA DE NUMEROS ALEATORIOS

22 17 68 65 84 68 95 23 92 35 87 02 22 57 51 61 09 43 95 06 58 24 82 03 47

19 36 27 59 46 13 79 93 37 55 39 77 32 77 09 85 52 05 30 62 47 83 51 62 74

16 77 23 02 77 09 61 87 25 21 28 06 24 25 93 16 71 13 59 78 23 05 47 47 25

78 43 76 71 61 20 44 90 32 64 97 67 63 99 61 46 38 03 93 22 69 81 21 99 21

03 28 28 26 08 73 37 32 04 05 69 30 16 09 05 88 69 58 28 99 35 07 44 75 47

50 45 36 33 12 36 23 00 20 63 15 30 50 85 79 89 37 71 02 34 86 52 10 31 75

47 64 55 87 74 41 10 11 65 83 67 01 60 01 37 01 80 33 58 90 75 11 79 90 05

44 05 51 30 01 37 89 01 53 49 56 34 52 53 07 44 99 41 87 01 51 33 75 75 53

66 71 01 99 89 48 72 05 60 92 54 95 91 35 89 74 66 31 77 50 97 03 49 70 49

31 56 36 54 63 71 65 60 32 33 37 58 44 37 33 03 97 86 56 11 63 35 72 07 75

78 05 09 44 01 41 51 01 48 91 00 58 78 11 07 30 65 99 30 01 01 80 38 59 88

16 77 23 02 77 09 61 87 25 21 28 06 24 25 93 16 71 13 59 78 23 05 47 47 25

72 33 79 58 29 65 10 11 81 77 84 01 80 01 35 01 03 69 95 29 79 11 14 16 05

66 99 01 19 18 76 12 05 88 92 54 45 33 35 06 52 94 59 77 78 71 03 77 70 77

59 84 64 82 12 00 23 88 20 61 15 86 72 65 61 31 11 12 02 39 91 63 10 35 51

85 33 37 72 29 69 10 11 76 05 28 01 01 01 35 01 93 41 58 29 29 11 66 87 05

44 28 51 30 28 71 89 20 53 49 56 34 52 53 85 03 99 41 87 11 51 33 75 07 53

85 61 95 86 57 93 10 11 56 05 40 01 01 01 63 01 31 41 96 57 90 11 42 44 05

16 77 23 02 77 09 61 87 25 21 28 06 24 25 93 16 71 13 59 78 23 05 47 47 25

87 05 92 87 01 78 51 01 48 89 43 19 13 93 07 59 39 40 30 01 33 91 38 63 79

03 28 28 26 08 73 37 32 04 05 69 30 16 09 05 88 69 58 28 99 35 07 44 75 47

72 56 79 58 12 99 23 48 20 77 15 62 80 81 01 31 11 12 02 39 79 61 10 35 51

82 89 01 10 12 12 23 39 20 33 15 29 29 29 91 29 11 12 02 85 73 39 10 72 51

44 05 51 87 01 78 89 01 53 49 56 19 13 53 07 44 99 41 87 01 33 33 75 75 53

13 05 85 87 01 78 79 01 76 62 71 19 13 45 07 87 67 68 58 01 33 00 66 91 28

40 65 36 54 63 71 65 60 32 33 37 58 44 37 33 03 97 86 56 11 63 35 72 07 75

47 05 51 30 01 37 89 01 53 49 56 34 52 53 07 44 99 41 87 01 51 33 75 75 53

60 45 36 33 12 36 23 00 20 63 15 30 50 85 79 89 37 71 02 34 86 52 10 31 75

72 12 05 88 92 90 11 42 44 05 50 45 36 33 12 15 30 50 85 79 51 33 75 75 53

69 30 16 09 05 67 01 29 01 30 03 28 28 26 08 28 06 24 25 93 16 71 13 59 78

28 06 24 25 93 16 71 13 59 78 23 05 47 47 25 44 05 51 30 01 37 89 01 53 49

40 01 01 01 63 01 31 41 96 77 12 23 80 20 35 15 12 69 00 29 79 11 12 02 81

37 89 01 53 49 56 34 52 53 07 44 99 41 87 01 51 33 75 75 53 40 01 01 01 63

01 80 33 58 90 75 11 79 90 05 37 89 01 53 49 56 34 52 53 07 44 99 41 87 01

47 83 51 62 74 95 10 11 56 05 67 01 56 01 36 01 80 33 58 90 09 61 87 25 21

97 67 63 99 61 46 38 03 93 22 00 33 75 11 07 30 33 79 58 01 09 61 87 25 21

21 58 44 37 33 03 59 86 12 11 40 51 80 07 63 28 06 24 25 93 16 71 13 59 78

73 37 32 04 05 69 30 16 09 05 88 69 58 28 99 56 34 52 53 07 44 99 41 87 01

56 34 52 53 07 44 99 41 87 01 51 33 75 75 53 03 28 28 26 08 73 37 32 04 05

09 61 87 25 21 28 06 24 25 93 16 71 13 59 78 23 05 47 47 25 28 06 24 25 93

91 01 91 01 89 01 03 31 95 50 28 11 14 16 05 50 45 36 33 12 15 30 50 85 79

88 69 58 28 99 35 07 44 75 47 41 10 11 65 83 67 01 52 01 01 01 80 33 58 90

37 89 01 53 49 56 34 52 53 07 56 34 52 53 07 44 99 41 87 01 09 61 87 25 21

16 71 13 59 78 23 05 47 47 25 47 05 51 30 01 37 89 01 53 49 56 34 52 53 07

41 10 11 65 83 67 01 52 01 17 01 80 33 58 90 75 11 79 90 05 82 34 01 10 12

00 29 19 11 07 30 31 59 93 01 37 58 44 37 33 03 73 86 61 11 43 58 78 07 23

67 01 86 01 22 01 80 33 58 90 75 11 79 90 05 37 89 01 53 49 56 34 52 53 07

41 10 11 65 83 67 01 80 01 35 16 71 13 59 78 23 05 47 47 25 15 30 50 85 79

20 44 90 32 64 97 67 63 99 61 46 38 03 93 22 69 81 21 99 21 28 06 24 25 93

69 30 16 09 05 88 69 58 28 99 35 07 44 75 47 51 33 75 75 53 40 01 01 01 63

Page 20: Inferencia estadistica.Muestreo

MÉTODOS DE MUESTREO 16

Ejemplo - Ejercicio

En un I.E.S. hay 120 alumnos en 2º de Bachillerato que se han divido en cinco grupos A, B, C, D y E de 24 alumnos y que, además, provenientes de 4 zonas o pueblos.

• Zona 1: 20 alumnos • Zona 2: 32 alumnos • Zona 3: 60 alumnos • Zona 4: 8 alumnos

Hay que elegir una muestra de 10 alumnos para hacerles una serie de preguntas. Utiliza los métodos de muestreo aleatorio estudiados para escoger la muestra.

Solución

a) Muestreo aleatorio simple Tomamos a los 10 alumnos de la tabla aleatoria tomando grupos de números de 3 cifras a partir de donde deseemos (vamos a hacerlo desde el principio), desechando los que sean mayores de 12 hasta que completemos los 10. Saldrían 098, 053, 062, 120, 032, 100, 048, 056, 052, 104, 020, 025 b) Muestreo sistemático Dividimos los 120 alumnos en 10 grupos de 12, por orden alfabético, por ejemplo, y si tomo, por ejemplo, el 6º alumno del grupo 1 , los restantes serían 13, 25, 37, 49, 61, 73, 85, 97, 109.

c) Muestreo por estratos Si consideramos cada área geográfica como un estrato, tendremos que escoger los 10 alumnos proporcionales al número de alumnos que provienen de cada área es decir, si elijo n1 alumnos de la zona 1, n2 de la zona 2, n3 de la zona 3 y n4 de la zona 4 se tiene

que cumplir que 31 2 4 10

20 32 60 8 120nn n n= = = = de donde resulta n1 = 2; n2 = 3; n3 = 6; n4 = 1

Ahora tendríamos que hacer muestreo aleatorio simple para elegir

o 2 alumnos entre los 20 de la zona 1, o 3 alumnos entre los 32 de la zona 2, o 6 alumnos entre los 60 de la zona 3 y o 1 alumno entre los 8 de la zona 4.

d) Muestreo por conglomerados Un conglomerado puede ser un grupo, que lo elegimos al azar entre los 5 grupos existentes. Nos colocamos en un lugar cualquiera de la tabla aleatoria y el primer número del 1 al 5 que surja será el grupo elegido, imaginémonos que es el grupo D que tiene 24 alumnos, pues volvemos a realizar muestreo aleatorio simple para elegir a 10 alumnos de entre los 24 del grupo D

Page 21: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 17

DISTRIBUCION MUESTRAL

Conceptos básicos

Veamos ahora el concepto de distribución muestral, que es de gran importancia en toda la teoría que vamos a desarrollar a continuación.

Ejemplo introductorio

Supongamos una población finita de tamaño N = 5, de cinco trabajadores de una empresa cuyos salarios en euros son 500, 1000, 1500, 2000, 2500 En inferencia estadística, en lugar de llamarle ξ a la, en este caso, variable aleatoria “salario”, le vamos a llamar X mayúscula, por lo que X:Ω ⇾ ℝ que a cada elemento de la población, que en este caso son los 5 trabajadores, lo lleva en su salario. Normalmente la media y la varianza nos e conocen, de hecho es lo que se pretende habitualmente estimar, pero como en este ejemplo son solo 5 trabajadores es obvio conocer su media y su varianza (o mejor su desviación para usar números más pequeños):

La media de esta población es:500 1000 1500 2000 2500

15005

µ+ + + +

= = , y su

varianza:

( ) ( ) ( ) ( ) ( )2 2 2 2 2

2 500 1500 1000 1500 1500 1500 2000 1500 2500 1500500000

− + − + − + − + −= =

Pero si en lugar de esta empresa, hablásemos de toda la población española de asalariados, estos dos datos no los sabríamos. Aquí en este ejemplo nos viene muy bien saberlos para razonar lo buenas o malas que son las aproximaciones mediante muestreo. Supongamos que deseamos obtener una muestra sin reemplazamiento de tamaño n = 2.

Si la muestra es de tamaño n = 2, hay 5,2

510

2C

= =

posibilidades de muestras

distintas que, de hecho, son las siguientes, donde a cada una le calculamos su media, varianza y su desviación:

nº muestra Muestra (xi, xj)

ix V(xi) D.T.(xi)

1 500 1000 750 62500 250 2 500 1500 1000 250000 500 3 500 2000 1250 562500 750 4 500 2500 1500 1000000 1000 5 1000 1500 1250 62500 250 6 1000 2000 1500 250000 500 7 1000 2500 1750 562500 750 8 1500 2000 1750 62500 250

Page 22: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 18

9 1500 2500 2000 250000 500 10 2000 2500 2250 62500 250

Si analizamos estos datos, resulta que tenemos una población de la que ya sabemos a priori que tiene media µ = 1500 y σ2 = 500,000, y tomando todas las posibles muestras de tamaño 2 vemos que la media de estas muestras varía desde 750 hasta 2250, lo cual indica el tremendo error que podemos llegar a cometer si no conociésemos la media de nuestra población de referencia y quisiésemos estimarla

con las medias ix de muestras de tamaño 2. Tampoco las varianzas van muy allá,

variando desde 62,500 hasta 1,000,000, cuando la realidad es 500,000.

Si calculamos la distribución de probabilidad todas estas medias ix y las representamos, resulta:

Media ix Probabilidad

750 1/10 1000 1/10 1250 2/10 1500 2/10 1750 2/10 2000 1/10 2250 1/10

Si calculamos la media de estas medias muestrales:

7

1

1 1 2 2 2 1 1750 1000 1250 1500 1750 2000 2250 ...

10 10 10 10 10 10 10

15000... 1500

10

x i i

i

x pµ=

= = ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ + ⋅ =

= =

Mientras que la media de las varianzas de las medias resulta: [ ( )] 312500iE V x =

luego la media µx coincide con la media de la población µ mientras que la varianza ha disminuido ostensiblemente de 500,000 a 312,500 lo que también nos da una idea de los tremendos errores que podemos llegar a cometer haciendo muestreos inadecuados y no tomando los estimadores apropiados.

Este ejemplo, nos debe servir para intuir el método que vamos a seguir matemáticamente de ahora en adelante. Volvemos al principio y vamos a definir y acordar formas de notación para toda la teoría de muestreo, estimación y contraste de hipótesis.

Muestras aleatorias

Consideremos una población de tamaño N, de objetos x1, x2, x3,...,xN tan grande que decidimos tomar muestras de tamaño n, donde Nn ≤ .

Medias Muestrales

0,00

0,05

0,10

0,15

0,20

0,25

750 1000 1250 1500 1750 2000 2250

Salarios

Probabilidades

Page 23: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 19

Llamemos Xi al “Valor de la característica poblacional del i-ésimo objeto” i = 1, 2, 3,...,n que queremos estudiar. En el ejemplo previo eran los salarios. La distribución de probabilidades de las variables X1, X2, X3,...,XN va a depender de la definición de cómo escogimos los n objetos.

Si el muestreo es con reemplazamiento (ó sustitución), eligiendo cada vez un objeto al azar, las variables son independientes e idénticamente distribuidas. Así, para cada Xi tenemos:

[ ] 1iP x j

N= = donde j = 1, 2, 3,..., N y el número de posibles muestras de tamaño n es

,N n

NC

n

=

Si el muestreo es sin reemplazamiento (ó sustitución), las variables Xi ya no son

independientes, entones [ ]( ) ( )1 1 2 2 3 3

1, , , ,

1 1n nP x j x j x j x jN N N n

= = = = =− − +

KK

donde j1, j2,...,jn son n valores cualesquiera de N,,1K . Y aquí, el número de posibles

muestras de tamaño n son ,

1R

N n

N nC

n

+ − =

Definición: Muestra aleatoria

Sean X1, X2, X3,...,Xn variables aleatorias independientes con las misma distribución de X ; llamaremos entonces a ( X1, X2, X3,...,Xn ) muestra aleatoria de X.

Parámetros y Estadísticos

Definición: Parámetros y estadísticos

Denominamos parámetros de una población a cualquier característica numérica que queramos obtener de la misma. Por ejemplo la media, varianza, desviación son parámetros de la población

Definición Estadístico

Sea ( X1, X2, X3,...,Xn ) una muestra aleatoria de X y x1, x2, x3,...,xn los valores tomados por la muestra.

Definimos estadístico como cualquier función real T que definamos sobre x1, x2, x3,...,xn .

Por tanto, un estadístico es también, por sí mismo, una variable aleatoria y tendrá su distribución de probabilidad, función de distribución, su media, su varianza, etc.

Los estadísticos más importantes son

Page 24: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 20

Media Muestral. 1

1 n

i

i

X xn =

= ∑

Momento orden 2: 22

1

1 n

i

i

m xn =

= ∑

Varianza Muestral ( )22

1

1 n

n i

i

S x Xn =

= −∑

Cuasivarianza Muestral ( )221

1

1

1

n

n i

i

S x Xn

−=

= −− ∑

Proporción muestral nº veces que sale un suceso Ar

pn n

= =

Mínimo Muestral (Es el mínimo observado) K = min(x1, x2, x3,...,xn )

Máximo Muestral (Es el máximo observado) M = max(x1, x2, x3,...,xn )

Recorrido Muestral R = M – K

Y si ordenamos los resultados de la muestra de mayor a menor, entonces denominamos

j

nx = j-ésima observación mayor en la muestra, j = 1,...,n (tenemos 1nx M= y

n

nx K= ).

Lo que trata la inferencia estadística es estimar los parámetros de la población mediante los estadísticos.

Propiedades de los Estadísticos

Teorema

Sea X una variable aleatoria con E(X) = µ y varianza V(X) = σ2 y sea X la media muestral de una muestra aleatoria con repetición de tamaño n. Entonces:

i. ( )E X µ=

ii. ( )2

V Xn

σ=

iii. Para n grande2

,X Nn

σµ

; o equivalentemente ( )0,1Xz n N

µ

σ

−=

Demostración

Page 25: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 21

i ). ( ) ( )1 1

1 1 1n n

i i

i i

E X E x E x nn n n

µ µ= =

= = = =

∑ ∑

ii ) ( ) ( )2

2

2 21 1

1 1 1n n

i i

i i

V X V x V x nn n n n

σσ

= =

= = = =

∑ ∑

iii) NO lo tengo, pero está basado en el Teorema Central del Límite.

Teorema

Sea X una variable aleatoria con E(X) = µ y varianza V(X) = σ2. Sea X la media muestral de una muestra aleatoria sin repetición de tamaño n. Entonces:

i. ( )E X µ=

ii. ( )2

1

N nV X

N n

σ−= ⋅

Page 26: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 22

Distribución de la Media

Error medio

En el caso con repetición a la desviación típica de la muestra, dada por ( )V Xn

σ=

también se le llama error medio ( o estándar) de la media

En el caso sin repetición, el error medio de la muestra viene dado también por la desviación

típica, es decir1

N n

N n

σ−⋅

− y al cociente

1

N n

N

−− le llama factor de corrección del muestreo

sin repetición. En la práctica este factor, si N es muy grande tiende a 1 y se desprecia si

0.05n

N< , es decir si la muestra no llega al 5% del tamaño de la población.

El error medio, en todo caso, es más pequeño cuanto más grande es la muestra. Su función es fundamental en la estadística pues mide el grado en el que se puede esperar que fluctúen o varíen las medias de una muestra como consecuencia del azar. Si σx es baja, hay buenas posibilidades de que la media de una muestra se aproxime a la media de la población si σx es alta, es más probable que obtengamos una muestra que difiera considerablemente de la media de la población.

Otra conclusión, es que X se incrementa conforme aumenta la variabilidad de la población y que se reduce conforme el tamaño de la muestra es mayor. De hecho es directamente

proporcional a σ e inversamente proporcional a n (en las poblaciones finitas se reduce aún

más rápido ya que aparece el factor 1

N n

N

−− )

En resumen, se verifica la siguiente tabla

Sin reemplazamiento Con reemplazamiento

Población finita 2

2

X

X n

µ µ

σσ

=

= 2

2

X

X n

µ µ

σσ

=

=

Población infinita 2

2

1

X

X

N n

N n

µ µ

σσ

=

−= ⋅

22

X

X n

µ µ

σσ

=

=

Ejemplo

Supongamos que una máquina envasadora de café llena paquetes de forma automática con una media de µ= 250 gr y una desviación típica de σ = 10 gr (σ2 = 100), es decir sigue una distribución N(250,10). Para hacer un control de calidad se toma una muestra de n = 100 paquetes y se pesan, obteniendo así un valor de la media muestral

Page 27: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 23

X . Por los teoremas previos, sabemos que esta media muestral X tiene una distribución N(µ, σ2/n) = N(250,1) ¿Cuál es la probabilidad de que la media muestral tome valores mayores de 260 gramos?

Solución

[ ]250 260 250260 1 260 1 1 10 1 1 0

1 1

XP X P X P P Z

− − ≥ = − ≤ = − ≤ = − ≤ ≈ − =

Es decir es imposible que una muestra tenga una media de 260 gr. De salir así indicaría que la el proceso de empaquetado presenta una importante anormalidad que habría que investigar.

Teorema Central del Límite aplicado a muestras.

Lo que dijimos en general para cualquier población en el tema previo, se puede aplicar aquí a muestras grandes, de forma que siempre podemos obtener una aproximación cercana de la distribución muestral de la media con una distribución normal.

Teniendo en cuenta que ya sabemos la media y desviación típica de la distribución muestral, podemos decir que:

Sea X la media muestral (de media µx =µ y Xn

σσ = ) de una muestra aleatoria infinita de

media µ y desviación típica σ y n grande entonces (0,1)/X

NZn

µ

σ

−= →

Aunque es lo mismo dicho de otra manera, el teorema central del límite se enuncia de forma general de la siguiente manera:

Si X1, X2, X3,...,Xn son variables aleatorias independientes que tienen la misma función de distribución y la misma media µ y la misma desviación σ entonces, cuando n⇾∞ se tiene que

Yn = X1+ X2+ X3+...+Xn tiende a una ( ),N n nµ σ

Un caso particular del Teorema Central del Límite es el Teorema de Moivre-Laplace que afirma que para n lo suficientemente grande la distribución binomial B(n,p) se aproxima a

una ( ),N np npq . Enunciándolo apropiadamente para nuestro caso sería:

Si X1, X2, X3,...,Xn son variables aleatorias dicotónicas independientes cada una de ellas con E(Xi) = p y V(Xi) = pq entonces, cuando n⇾∞ se tiene que

n X = X1+ X2+ X3+...+Xn tiende a una ( ),N np npq

o equivalentemente ,pq

X N pn

Page 28: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 24

Este teorema es muy importante, puesto que justifica el uso de los métodos de la curva normal en una gran cantidad de problemas. se utiliza para poblaciones infinitas y para poblaciones finitas cuando n a pesar de ser grande representa una porción muy pequeña de la población.

Es difícil señalar con precisión qué tan grande debe ser n de modo que podamos aplicar el Teorema Central del límite, pero a no ser que la distribución sea muy inusual, por lo general se considera que n > 30 es lo suficientemente alto.

Ejemplo

¿Qué podemos decir del tamaño de nuestro error, si vamos a usar la media de una muestra aleatoria de tamaño n = 64 para estimar la media de una población infinita con σ = 20? (Usa k = 2 en la desigualdad de Chebyshev)

Solución

Sustituyendo n = 64 y σ = 20 en la fórmula del error estándar de la media,

obtenemos que 20

2.564

xσ = = y por el teorema de Chebyshev para k = 2 podemos

afirmar que como mínimo 1 - 1/22 = 0.75 que el error será menor que k·σx = 2·2.5= 5 Es decir que tenemos una garantía de que en el 75% de los casos la media de la población estará entre la media calculada ±5 . (Nota: la probabilidad real de este caso puede estar entre 0,98 y el 0,999) Si en lugar de la desigualdad de Chebyshev usamos el Teorema Central del limite La probabilidad se obtiene por medio del área marcada de la zona rosácea,

específicamente por medio del área de la N(0,1) entre 5

220 / 64

z−

= = − y

52

20 / 64z = =

lo que consultando en las tablas da una probabilidad de 0.9544. Así sustituimos la afirmación de que la probabilidad es “como mínimo 0,75” por una aseveración más firme de que la probabilidad es aproximadamente de 0,95 ( de que la muestra aleatoria

Page 29: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 25

de tamaño n=64 de la población de referencia difiera de la de la población menos de 5 unidades)

También se puede usar el teorema Central del límite para poblaciones finitas, pero una descripción precisa de las situaciones en que se puede hacer esto, sería más bien complicada. El uso apropiado más común es en el caso en que n es grande y n/N es pequeña. Este es el caso de la mayoría de las encuestas políticas.

Veamos a continuación un ejemplo de la importancia de la selección adecuada de la muestra.

Ejemplo

Vamos a suponer una población de tamaño 60 elementos en el que se ha medido una determinada característica. De esta población vamos a realizar 25 muestras aleatorias y vamos a comprobar las diferencias existentes entre los valores estimados y los valores poblacionales.

111 539 216 128 462 283 413 237 193 177

406 257 290 213 325 306 184 168 310 266

279 393 450 92 241 302 319 193 281 313

295 402 183 310 257 257 302 315 353 128

244 116 127 348 418 232 400 166 451 315

335 707 266 91 703 380 618 79 588 199

Media Poblacional µ = 298.87

Desviación típica poblacional σ = 139.427 Buscar la continuación!!!!!

Page 30: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 26

Distribución de la proporción

La estimación de la proporción es una práctica muy frecuente en multitud de investigaciones de cuestiones científicas, sociales, económicas y políticas. Podríamos poner como ejemplos, el conocer la tasa de paro, número de oyentes de una cadena de radio, el porcentaje de sero positivos del virus del SIDA, proporción de votantes de determinado partido. En todos estos casos lo que se hace es obtener muestras y extrapolar las proporciones resultantes con la muestra a toda la población.

En general, para discutir las proporciones pensemos que solo nos interesa saber si un elemento pertenece a un grupo dado o no, esto indica que hemos dividido la población en dos subconjuntos disjuntos

A = pertenecer al grupo Ac = no pertenecer al grupo.

Llamemos p = P(A) luego q = 1 – p = P(AC) y si definimos la v.a.

r = “nº de elementos que pertenecen a A entre n” , esta v.a. es una binomial B(n,p) pero que si n es suficientemente grande se tiende, por el Teorema Central del límite, a una N((np, npq)

Nuestro propósito es estimar la proporción rp

n= que tiende a una

2, ,

np npq pqN N p

n n n

=

y por el teorema de Moivre podemos concluir que

( )(0,1)

1

p pN

p p

n

−→

Ejemplo - Ejercicio

Sabemos que la proporción de zurdos en poblaciones donde no se reprime este impulso en edades tempranas es del 20%. Si tomamos una muestra aleatoria de 100 personas ¿cuál es la probabilidad de obtener menos del 5% de zurdos?

Solución

Ser o no zurdo, en este ámbito, sigue una distribución B(100,0.2) donde el parámetro p = 0.2 Si tomo una muestra de 100 personas la variable

( )1 100..., 20,0.04

100

X X pqX N np N

n

+ += → =

De donde [ ]0.05 200.05 476 0

0.04P X P Z P Z

− ≤ = ≤ = ≤ − ≈

Ejemplo - Ejercicio

De anteriores elecciones se sabe que la proporción de un partido político A es del 15%. Preguntados hoy 50 ciudadanos, 9 de ellos declaran tener intención de votar al partido A. ¿Hay motivos serios para pensar que el partido A va a mejorar sus resultados?

Page 31: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 27

(PG 99 [67] )

Solución

Los datos históricos nos dicen que tomado un individuo al azar hay una probabilidad p = 0.15 de votar al partido A y q = 0.85 de no hacerlo. Si tomo una muestra de 50, la cantidad de votantes resultantes al partido A sigue una B(50·0.15, 50·0.15·0.85) = B(7.5, 6.375) por lo que la muestra de 50 verifica que

( )1 50...7.5,0.3873

50

X XX N

+ += →

entonces la probabilidad de que más de 8 personas muestren su apoyo al partido A es

[ ]8 7.58 1 8 1 1 1.29 1 0.9015 0.0985

0.3873P X P X P Z P Z

− ≥ = − ≤ = − ≤ = − ≤ = − =

Lo cual es muy pequeño, por lo que cabe concluir que la esperanza de aumento de votos está justificada.

Ejemplo - Ejercicio

Calcular la probabilidad de que en los próximos 200 nacimientos a. Menos del 40 % sean varones b. Entre el 43% y el 57% sean varones c. Más del 54% sean varones

Solución

a. Partimos de la hipótesis de que P(Varón) = 0.5 y sabemos que n = 200, luego

200 ( 0.5, 0.035)

200

rp N µ σ= → = =

0.4 0.50.4 [ 2.82] 0.0073

0.035P p P Z P Z

− ≤ = ≤ = ≤ − ≈

b.

[ ]0.43 0.5 0.57 0.50.43 0.57 1.98 1.98

0.035 0.035

0.9761 0.0238 0.9522

P p P Z P Z− − ≤ ≤ = ≤ ≤ = − ≤ ≤ =

= − =

c.

[ ]0.54 0.50.54 1 1 1.98 1 0.8711 0.1289

0.035P p P Z P Z

− ≥ = − ≤ = − ≤ = − =

Ejemplo - Ejercicio

El 2% de las tabletas que produce una cierta máquina llevan algún tipo de defecto. Se empaquetan 400 tabletas para enviar a un hospital a. ¿Cuál es la probabilidad de que entre ellas haya al menos un 3% de defectuosas?

b. ¿Y de que haya menos del 4% de defectuosas?

Solución

La v.a. r = “nº tabletas defectuosas entre 400” B(400,0.02) que tiende a una N(8, σ = 2.8) luego r/n N(0.02, σ = 0.007)

Page 32: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 28

[ ]0.03 0.020.03 1 1 1.428 1 0.9234 0.0766

0.007

rP p P Z P Z

n

− = ≥ = − ≤ = − ≤ = − =

[ ]0.04 0.020.04 2.857 0.9978

0.007

rP p P Z P Z

n

− = ≤ = ≤ = ≤

Page 33: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 29

Distribucion de diferencias de medias muestrales

Ilustremos el estudio de esta distribución con un ejemplo.

Ejemplo

Vamos a estudiar la v.a. X que indica el nivel de colesterol entre dos poblaciones, una de hombres con media µ1 y otra de mujeres con media µ2. Queremos estudiar el parámetro diferencia µ2 - µ1 > 0 Obtenemos una muestra de cada una de las dos poblaciones y calculamos la media de

ellas que resulta 1X para los hombres y 2X para las mujeres

El estadístico que vamos a usar es justamente 1 2X X−

Nos preguntamos ¿será 1 2X X− un buen estimador de µ2 - µ1? Pues bien, desglosemos un poco todo esto en tres casos.

Caso 1

Supongamos que conocemos los parámetros las dos poblaciones independientes de hombres

y mujeres, es decir sabemos que las v.a. 11 1

1

,X Nn

σµ

y 22 2

2

,X Nn

σµ

luego

2 21 2

1 2 1 21 2

,X X Nn n

σ σµ µ − − +

de donde ( ) ( )

( )1 2 1 2

2 21 2

1 2

0,1X X

N

n n

µ µ

σ σ

− − −

+

Caso 2

Supongamos que no conocemos n pero en ambos casos sabemos que es muy grande,

entonces ocurre lo mismo que en el caso anterior

Caso 3

Supongamos que desconocemos en ambas poblaciones las desviaciones.

En este caso estimamos 1

1 11

1

1

n

Xt

n

µ

σ −

− y

2

2 21

2

2

n

Xt

n

µ

σ −

− por t-Student

Y la fórmula resultante la obtenemos en la tabla de la t-Student

Ejemplo

Se desea saber si un complejo vitamínico puede ayudar al engorde de pollos y para comprobarlo, un granjero que tiene una granja establece dos muestras, una muestra A de 100 pollos a la que no varía la alimentación habitual y otra muestra B de 120 pollos a la que suministra el nuevo complejo vitamínico. Al finalizar el experimento sacrifica

Page 34: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 30

todos los pollos de ambas muestras obteniendo en la muestra A un peso µ1 = 3,4 Kg con σ1 = 0,5 y para la muestra B obtiene µ2 = 4 Kg con σ2 = 0,7

Se desea saber si el engorde ha sido realmente un hecho cierto o los datos obtenidos son fruto de la casualidad, para lo cual queremos conocer cual es la probabilidad de que la media de engorde sea de 0,6 kg. En términos formales lo que queremos es

calcular 1 2 0.6P X X − ≥

Podemos asumir la hipótesis de normalidad al ser los tamaños muestrales mayores de 30.

Y ahora razonamos de la siguiente manera, si no hubiese sido efectivo el suministro del complejo vitamínico entonces la esperanza de ambas medias sería la misma, luego µ1 - µ2 = 0 y por tanto la distribución de la diferencia de medias muestrales sería:

( )2 2 2 21 2

1 2 1 21 2

0.5 0.7, 0, 0,0.081

100 120X X N N N

n n

σ σµ µ − − + = + =

Para una distribución de este tipo se tiene que

1 2 7.39

0.6 00.6 1 1 1 0

0.081P X X P Z Z

− − ≥ = ≥ = − − =

por lo que solo cabe concluir que el engorde ha sido realmente efectivo.

Incluso si el aumento del peso medio de la muestra B hubiese sido de solo 200 gramos

1 2 2.46

0.2 00.2 1 1 0.9931 0.0069

0.081P X X P Z Z

− − ≥ = ≥ = − − =

lo que significaría que solo hay un 0.31% de probabilidades de que este engorde hunicese sido fruto del azar.

Page 35: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 31

Distribución de diferencias de proporciones muestrales

Introducimos otro ejemplo que ilustre lo que vamos a ir definiendo

Ejemplo

Supongamos que tenemos dos comunidades españolas, Galicia y Andalucía y queremos conocer la distribución de la diferencia de casos de una determinada enfermedad entre ambas comunidades

Sea A el suceso “estar enfermo” y sea Ac su complementario “no estar enfermo”

De la primera población, que es Galicia, obtenemos una muestra que sabemos que su

tamaño n1 es grande ( > 50) y llamamos 11

1

rp

n= a la estimación de la proporción y

( )1 11 1

1

1,p p

p N pn

De la segunda población, que es Andalucía, obtenemos una muestra que sabemos que

su tamaño n2 es grande ( > 50)y llamamos 22

2

rp

n= a la estimación de la proporción y

( )2 22 2

2

1,p p

p N pn

Nuestra intención es conocer la distribución de 1 2p p− donde

( ) ( )1 1 2 21 2 1 2

1 2

1 1,p p p p

p p N p pn n

− − − − +

La cual tipificada resulta

( ) ( )

( ) ( )( )

1 2 1 2

1 1 2 2

1 2

0,11 1

p p p pN

p p p p

n n

− − −

− −+

p1 = P(A/Poblacion1) y

p2 = P(A/Poblacion2)

que n1 es grande

Page 36: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 32

Ejercicio

Las lámparas utilizadas por un cierto aparato están suministradas por dos casas comerciales A y B. Las de A tienen la duración media de µ = 2000 horas y una desviación σ = 400 horas mientras que las de B tienen µ = 1800 horas y σ = 500 horas. Se compraron 200 lámparas de A y 150 lámparas de B. ¿Cuál es la probabilidad de que la duración media de la muestra de A no supere en más de 100 horas la duración media de la muestra B?

Solución

Suponemos que las duraciones de las lámparas siguen una distribución normal.

Lo que nos pide el ejercicio es 100 100A B A BP X X P X X < + = − < +

Fabricante A µA = 2000; σA = 400; nA = 200 y obtenemos una muestra con media AX

( )400, 2000, 2000, 28.2

200A

A A

A

X N N Nn

σµ

= =

Fabricante B µB = 1800; σB = 500; nB = 150 y obtenemos una muestra con media BX

( )500, 1800, 1800,40.8

150B

B B

B

X N N Nn

σµ

= =

Entonces

( ) ( )2 22000 1800, 28.2 40.8 200,49.66A BX X N N− − + = de donde

[ ]100 200100 2.01 0.0222

49.66A BP X X P Z P Z− − < + = < = < − =

Teorema

Sea X una variable aleatoria continua con función de probabilidad f y función e distribución F. Sea ( X1, X2, X3,...,Xn ) una muestra aleatoria de X y sean K y M en mínimo y el máximo respectivamente. Luego:

1. la función de probabilidad de M es: ( ) ( ) ( )1n

g m n F m f m−

= .

2. la función de probabilidad de K es: ( ) ( ) ( )1n

h k n F k f k−

= .

Demostración

Sea ( ) ( )G m P M m= ≤ la función de distribución de M;

M ≤ m es equivalente al evento Xi ≤ m, para todo i.

Como Xi son independientes entonces:

( ) [ ] ( )1

n

nG m P X m X m F m= ≤ ≤ = K

Page 37: Inferencia estadistica.Muestreo

DISTRIBUCION MUESTRAL 33

( ) ( ) ( ) ( )1n

g m G m n F m f m−

′= =

Para K la demostración es totalmente análoga