Teoria de Muestras

Embed Size (px)

DESCRIPTION

Matematicas

Citation preview

  • Captulo 12

    Teora de muestras

    Consideremos las tres siguientes cuestiones.

    z Las estaturas de todos los alumnos del instituto Acci siguen una distribucin (normal) demedia = 150 cm y desviacin tpica = 4 cm. Se han seleccionado al azar 35 alumnos

    y alumnas para participar en un programa de televisin. Cul es la probabilidad de que

    la estatura media de los seleccionados est entre 149 y 151 cm?

    z La estatura media de los 35 alumnos y alumnas del instituto Acci seleccionados al azar paraparticipar en un programa de televisin es de x = 150 cm. Cul es la probabilidad de que

    la estatura media de todos los alumnos y alumnas del instituto est entre 149 y 151 cm?

    z Se quiere comprobar si la estatura media de los alumnos y alumnas del instituto Acci es de150 cm. Para ello, se toma una muestra al azar de 35 alumnos y alumnas y determinamos

    que su media es x = 15009 cm. Es razonable admitir que la media poblacional es =150 cm?

    En el primer problema conocemos los datos de la poblacin y nos preguntamos sobre los

    correspondientes a una muestra aleatoria. Este problema se enmarca dentro de la teora demuestras y es tema de estudio durante el presente captulo. En el segundo problema ocurreal contrario: conocemos el comportamiento de una muestra y tratamos de inferir datos acerca

    de toda la poblacin. Este proceso se llama inferencia estadstica y nos ocuparemos de ellaen el siguiente captulo. Finalmente, en el tercer problema realizamos una hiptesis sobre un

    parmetro poblacional y tratamos de estudiar su validez a travs del estudio de una muestra.

    Este problema est dentro del mbito del denominado contrate de hiptesis y se sale de lasexpectativas del curso (aunque, si te interesa, puedes leer sobre el tema en el libro de texto).

    57

  • 58 CAPTULO 12. TEORA DE MUESTRAS

    12.1. Muestreo

    Llamaremos poblacin (o universo) al conjunto de todos los elementos que poseen una de-terminada caracterstica. Una poblacin puede no estar formada slo por personas, sino tambin

    por animales y objetos. Por ejemplo, podemos hablar de la poblacin de ranas de una determina-

    da laguna o de la poblacin de coches de Guadix. En este ltimo caso, podemos estudiar el peso

    de los coches o su antigedad en aos. Cada uno de los elementos de la poblacin se denomina

    individuo. Por motivos que ya expondremos, en general, supondremos que la poblacin es muygrande.

    Para inferir informacin sobre la poblacin, es usual tomar una muestra. Llamaremosmues-tra a cualquier subconjunto de la poblacin. El tamao de una muestra es el nmero deindividuos que la componen (tambin se puede hablar del tamao de la poblacin entera). Se

    suele recurrir a una muestra por distintas razones: porque la poblacin es excesivamente am-

    plia (queremos medir el peso de todas las hormigas del planeta), porque la poblacin es muy

    difcil de controlar (las ballenas que surcan el Ocano Pacco), porque el proceso de medicin

    es destructivo (queremos saber la resistencia de una copa de cristal de bohemia, pero cada vez

    que medimos rompemos una de ellas), porque se desea conocer informacin rpidamente (por

    ejemplo, los sondeos electorales), etc.

    Seleccionar una muestra es un procedimiento muy sencillo: slo hay que tomar una parte

    cualquiera, por ejemplo, un individuo. Pero en la mayora de las ocasiones, nos interesa que

    la muestra sea representativa de la poblacin, es decir, manieste en algn sentido el mismo

    comportamiento que la poblacin total. Si la muestra est mal elegida, se producen errores

    adicionales imprevistos e incontrolables llamados sesgos. Por ello, no es tan fcil encontraruna muestra que manieste el comportamiento global de la poblacin. Llamaremos muestreoal proceso mediante el cual se escoge una muestra de la poblacin. En lo sucesivo, nos har

    falta que la muestra sea lo sucientemente grande como para poder ser representativa, pero,

    qu signica una muestra grande? Fijamos un criterio general: llamaremos muestra grandea aquella que tiene 30 ms individuos, y llamaremos muestra pequea a la de menos de 30individuos. En muchas ocasiones utilizaremos la terminologa muestra sucientemente grande.

    Existen distintos tipos de muestreo. El ms adecuado es elmuestreo aleatorio, que es aqulen el que todos los individuos de la muestra se eligen al azar y, de este modo, tienen la misma

    probabilidad, a priori, de ser elegidos. Dentro de este tipo de muestreo, podemos considerar los

    siguientes tipos:

    I Muestreo aleatorio simple: es el ms sencillo y en l se basan todos los dems. Consisteen numerar uno a uno los N elementos de la poblacin y despus hacer un sorteo para

    seleccionar los n individuos de la muestra. El muestreo aleatorio simple suele llevarse a

    A. Roldn

  • 12.1. Muestreo 59

    cabo por insaculacin (que proviene del latn meter en un saco), es decir, asignando a cada

    individuo una papeleta o nmero que se introduce en un recipiente de tal forma que se van

    sacando una a una las papeletas de los seleccionados. A este particular, es fundamental

    observar si el sorteo se hace con o sin reemplazamiento.

    I Muestreo aleatorio estraticado: este muestreo se realiza cuando la poblacin, de maneranatural, est dividida en ciertas capas, llamadas estratos (por ejemplo, los alumnos de la

    ESO estn clasicados de 1o a 4o en cuatro estratos), y es dentro de stos subconjuntos

    donde realizamos un muestreo aleatorio simple para seleccionar la muestra.

    I Muestreo aleatorio sistemtico: este tipo de muestreo consiste en numerar a todos losindividuos de la poblacin y se elige a uno concreto (llamado origen) de ellos por sorteo.

    A partir de l, y siguiendo un coeciente de elevacin (de tres en tres, de cinco en cinco,

    etc.) se seleccionan los dems elementos que compondrn la muestra. Este coeciente debe

    ser h = N=n. Por ejemplo, si en una poblacin de 100 individuos queremos seleccionar a

    10 de ellos, sorteamos el primero entre el 1 y el 10, y si ha salido el 3, la muestra estar

    formada por los individuos que ocupen las posiciones 3, 13, 23, 33,. . . , 93.

    I Muestreo aleatorio por conglomerados y reas: este tipo de muestreo se realiza cuandola poblacin est de manera natural dividida en ciertos subconjuntos, ahora llamados

    conglomerados, que se numeran y se sortean. Una vez que se ha elegido un conglomerado,

    se selecciona a todos los individuos que lo forman para participar en la muestra.

    Hay alguna diferencia entre los conceptos de estrato y conglomerado. La principal est

    en que los estratos deben estar formados por individuos que representan homogneamente

    a la poblacin, es decir, comparten la caracterstica con la que se divide a la poblacin.

    Sin embargo, los conglomerados deben ser heterogneos y admitir en ellos a toda una

    representacin variada de la poblacin. Por eso se seleccionan individuos de diferentes

    estratos (para que haya representatividad de las diferentes opciones) pero a todos los

    individuos de un cierto conglomerado.

    Dentro del muestreo aleatorio estraticado, es usual que jemos a priori o bien el porcentaje

    que se va a seleccionar en cada estrato (en este caso se habla de muestreo aleatorio estraticado

    con ajacin proporcional) o bien el tamao total de la muestra que se desea (y lo interesantees ver cuntos individuos se seleccionan dentro de cada estrato). Realmente, si lo pensamos,

    llegamos al mismo resultado, pero por diferentes caminos. Veamos dos ejercicios parecidos.

    Ejercicio 27 En un pueblo pequeo hay 2000 hombres y 3000 mujeres. Indica cmo se debetomar una muestra formada por 80 personas.

    Solucin : En este caso hay dos estratos, compuestos uno por hombres y otro por mujeres. Como

    queremos 80 personas en la muestra, establecemos las siguientes proporciones (que se resuelven

    A. Roldn

  • 60 CAPTULO 12. TEORA DE MUESTRAS

    con simples reglas de tres)

    Poblacin Muestra

    Hombres 2000 ! n1Mujeres 3000 ! n2TOTAL N = 5000 n = 80

    n

    N=

    80

    5000=

    n12000

    =n23000

    )

    )(n1 = 32

    n2 = 48

    Esto signica que hay que seleccionar 32 hombres y 48 mujeres, y, dentro de cada estrato,

    proceder a un muestreo aleatorio simple.

    Ejercicio 28 En un pueblo pequeo hay 2000 hombres y 3000 mujeres. Indica cmo se debetomar una muestra formada por el 3% de la poblacin.

    Solucin : En este caso debemos elegir el 3% de los hombres, es decir, 60 de ellos, y tambin

    el 3% de las mujeres, o sea, 90 de ellas. As, la muestra estar formada por 150 personas y, en

    cada estrato, hay que hacer un muestreo aleatorio simple.

    Realmente, los dos ejercicios anteriores son equivalentes. En el primero, nos piden tomar una

    muestra de 80 personas, lo que supone un 80=5000 = 106 % de la poblacin. En el segundo, nospiden que la muestra contenga al 3% de la poblacin, lo que supone un tamao de 3 % 5000 =150 personas. En ambos casos hay ajacin proporcional.

    En los dos ejercicios anteriores, el nmero de individuos que se deben tomar en cada estrato

    ha resultado ser exacto. Cuando aparecen decimales, tenemos que redondear las partes decimales

    ms altas segn nos interese. Veamos un ejemplo.

    Ejercicio 29 Los 640 alumnos y alumnas de la ESO del instituto Acci se reparten de la siguientemanera: 102 en 1o, 197 en 2o, 218 en 3o y 123 en 4o. Se quiere seleccionar a 40 de ellos para

    participar en un concurso de televisin. Indica cmo los seleccionaras.

    Solucin : Establecemos la proporcin y calculamos, con algunos decimales, cuntos individuos

    tomaramos en cada estrato.

    n

    N=40

    640=n1102

    =n2197

    =n3218

    =n4123

    ) n1 6038; n2 12031; n3 13063; n4 7069:

    Seleccionamos las partes enteras de estos nmeros: 6 alumnos/as de 1o, 12 de 2o, 13 de 3o y 7 de

    4o. Entre todos, suman 38 alumnos/as, y nosotros queremos seleccionar 40. Cmo elegir los dos

    que faltan? Miraremos las partes decimales y subiremos aquellas dos que sean mayores. En este

    caso, la parte decimal ms alta es 0079 (que corresponde a 4o), por lo que tomaremos 8 alumnos/asde 4o; la segunda ms alta es 0063 (que corresponde a 3o), por lo que tomaremos 14 alumnos/as

    A. Roldn

  • 12.2. El teorema central del lmite 61

    de 3o. As, denitivamente, la seleccin debe estar formada por 6 alumnos/as de 1o de ESO, 12

    de 2o, 14 de 3o y 8 de 4o. Por supuesto, ahora dentro de cada nivel realizaremos un muestreo

    aleatorio simple (numeraremos al alumnado y sortearemos los nmeros que correspondern a los

    individuos seleccionados).

    Ejercicio 30 Indica el tamao que se debe tomar de cada curso en un colegio con la siguientedistribucin:

    (a) 426 alumnos en 1o, 359 en 2o, 267 en 3o, 133 en 4o y 115 en 5o, seleccionando en total 100alumnos;

    (b) 853 alumnos en 1o, 512 en 2o, 321 en 3o, 204 en 4o y 110 en 5o, seleccionando en total 120alumnos.

    Solucin : En el primer caso se tomarn 33 alumnos de 1o, 28 de 2o, 20 de 3o, 10 de 4o y 9 de

    5o; en el segundo colegio, 51 de 1o, 31 de 2o, 19 de 3o, 12 de 4o y 7 de 5o.

    Ejercicio 31 Una ciudad de 2000 habitantes est poblada por personas de pelo negro, rubioy castao. Se han seleccionado, mediante muestreo aleatorio estraticado con ajacin propor-

    cional, una muestra constituida por 28 personas de pelo negro, 32 de pelo rubio y 20 de pelo

    castao. Determina cul es la composicin, segn el color de pelo, de los habitantes de esta

    ciudad.

    Solucin : Ahora la tabla se hace al revs, pero todo es similar.

    Poblacin Muestra

    Negro n1 ! 28Rubio n2 ! 32Castao n3 ! 20TOTAL N = 2000 n = 80

    n

    N=

    80

    2000=28

    n1=32

    n2=20

    n3)

    ) n1 = 700; n2 = 800; n3 = 500:

    12.2. El teorema central del lmite

    Supongamos que deseamos estudiar la media que se obtiene al lanzar un dado, dos dados,

    tres dados, etc. Si lanzamos un nico dado, podemos obtener seis resultados posibles, todos ellos

    equiprobables. As tenemos la siguiente distribucin de probabilidad de los datos que se pueden

    A. Roldn

  • 62 CAPTULO 12. TEORA DE MUESTRAS

    obtener:

    1 dado

    xi pi

    1 16

    2 16

    3 16

    4 16

    5 16

    6 16

    1

    2 4 60.0

    0.1

    0.2

    x

    p

    Un dado.

    La variable X1 (que mide el resultado al lanzar un dado) sigue una distribucin discreta uniforme

    de media X1 = 305.

    Si lanzamos dos dados y la variable X2 mide la media aritmtica de los resultados obtenidos,

    el espacio muestral se modica con los puntos medios entre los nmeros naturales del 1 al 6, y

    cambian las probabilidades de los mismos:

    2 dados

    x = x1+x22 1 2 3 4 5 6

    1 1 32 252 3

    72

    2 32 252 3

    72 4

    3 2 52 372 4

    92

    4 52 372 4

    92 5

    5 3 72 492 5

    112

    6 72 492 5

    112 6

    2 dados

    xi pi

    1 13632

    236

    2 33653

    436

    3 536

    2 dados

    xi pi72

    636

    4 53692

    436

    5 336112

    236

    6 136

    Al representar el correspondiente diagrama de barras con las probabilidades asociadas, tenemos:

    2 4 60.0

    0.1

    0.2

    x

    p

    Media de dos dados.

    A. Roldn

  • 12.2. El teorema central del lmite 63

    Si repetimos el experimento con tres, cuatro y cinco dados, observamos que la distribucin de

    probabilidad va adquiriendo una forma caracterstica, manteniendo en todo momento su mediaX = 305.

    2 4 60.0

    0.1

    0.2

    x

    p

    Media de tres dados.

    2 4 60.0

    0.1

    0.2

    x

    p

    Media de cuatro dados.

    De esta forma, las variables que intervienen son discretas, pero su espacio muestral poco a

    poco se llena de fracciones entre los nmeros 1 y 6. Qu pasar cuando hacemos crecer el nmero

    de dados? La respuesta es bien sencilla y viene dada por el teorema central del lmite (12.2.1):

    la distribucin de probabilidad tiende a la de una variable normal de la misma media. Adems,

    su desviacin tpica estar bien controlada y cuanto mayor sea n, mejor ser la aproximacin.

    Teorema 12.2.1 (Central del Lmite) Dada una poblacin de media y desviacin tpica (no necesariamente normal), la distribucin de las medias muestrales Xn de tamao nverica:

    1. Tiene la misma media que la poblacin completa:

    Xn = :

    2. Su desviacin tpica es

    Xn =pn;

    y, por tanto, disminuye al aumentar n.

    3. A medida que n crece, la distribucin de las medias muestrales se aproxima a una normal

    (es casi normal cuando n 30)

    n 30; Xn N;

    pn

    :

    Es muy importante aprender a interpretar lo que dice exactamente el teorema anterior. Este

    teorema viene a medir los parmetros de la variable aleatoria que mide la media aritmtica

    A. Roldn

  • 64 CAPTULO 12. TEORA DE MUESTRAS

    cuando se toma de la poblacin una muestra de tamao n. En tal caso, la media de esta nueva

    variable se conserva: es siempre la de la poblacin de partida. En segundo lugar, su desviacin

    tpica es la de partida dividida entrepn. Este denominador juega un papel fundamental pues

    a medida que crece, hace que la desviacin tpica Xn sea cada vez menor y, as, los datos de

    la distribucin de la medias tienden a estar ms concentrados alrededor de su media aritmti-

    ca. Finalmente, esta distribucin, que en principio nada tiene que ver con la normal, termina

    parecindose a la de una distribucin normal cuando el tamao de la muestra as lo permite.

    Hacemos algunos comentarios interesantes sobre el teorema central del lmite 12.2.1 y su

    interpretacin.

    Este teorema es vlido cualquiera que sea la distribucin de la poblacin de partida, tanto

    si es discreta como si es continua. Por eso es curioso que sea como sea la poblacin

    de partida, la distribucin de las medias muestrales siempre tiende a parecerse a una

    distribucin normal.

    Cmo se puede extraer una muestra de tamao 1000 en una clase que tiene solamente 15

    alumnos? Slo hay una respuesta posible: la extraccin de la muestra se entender siempre

    con reemplazamiento. Es lo mismo que ocurre con un dado. Si lanzamos dos dados, losposibles valores se pueden repetir en un dado y en el otro. Es como si sacamos una carta de

    una baraja de 6 cartas, la miramos, la devolvemos y volvemos a sacar otra. La operacin

    se realiza siempre con reemplazamiento. As podemos lanzar mil dados o mil veces un

    dado. Si hay reemplazamiento, perfectamente podemos sacar una muestra de tamao 1000

    en una poblacin que slo tiene 15 individuos distintos. Podemos eludir la hiptesis del

    reemplazamiento si suponemos que la poblacin es muy grande, como ya comentamos al

    inicio del captulo.

    La necesidad de hacer reemplazamiento surge del hecho de que la distribucin de las

    medias muestrales se aproxima a la normal cuando la muestra es sucientemente grande,

    y ya jamos como criterio que llamaramos muestra grande a aquella que tiene 30 ms

    individuos. Precisamente escogimos el nmero 30 porque es el que aparece usualmente en

    el teorema central del lmite.

    Utilizando la media y la desviacin tpica de la poblacin, el teorema anterior trata de

    inferir informacin sobre la media x de una muestra de tamao grande. Desde luego, y

    x pueden no coincidir, pero el teorema anterior arma que cuanto mayor es n, ms cerca

    est x de , ya que la desviacin tpica Xn = =pn tiende a ser cero, y los datos de la

    muestra estaran muy agrupados.

    Si la poblacin de partida es normal, tambin es normal la distribucin de las medias

    muestrales de cualquier tamao n. Por eso, si sabemos que partimos de una poblacin

    A. Roldn

  • 12.2. El teorema central del lmite 65

    normal, podemos aplicar los dos primeros apartados a la distribucin de las medias de

    tres, ocho o veinte elementos.

    Hay ocasiones en que se sigue cumpliendo el teorema central del lmite an cuando la

    poblacin de partida no es normal y se toma una muestra de tamao pequeo. A este

    respecto, vanse los ejercicios 32 y 33.

    Ejercicio 32 En una urna hay tres bolas numeradas con los nmeros 2, 4 y 6.

    (a) Calcula la media y la desviacin tpica de la variable que mide el nmero que sale al sacaruna bola.

    (b) Calcula la media y la desviacin tpica de la variable que mide la media que se obtiene alsacar dos bolas con reemplazamiento.

    (c) Cmo se relacionan los parmetros anteriores?

    Solucin : Evidentemente, la media y la desviacin tpica de la variable X que mide el nmero

    que puede salir en la bola se calculan con la siguiente tabla:

    xi ni xi ni x2i ni2 1 2 4

    4 1 4 16

    6 1 6 36

    3 12 56

    8>>>>>:X =

    12

    3= 4;

    X =

    r56

    3 42 =

    r8

    3:

    Calculemos ahora todas las posibilidades que tenemos al extraer dos nmeros (con reemplaza-

    miento):

    E2 = f (2; 2) ; (2; 4) ; (2; 6) ; (4; 2) ; (4; 4) ; (4; 6) ; (6; 2) ; (6; 4) ; (6; 6) g :

    Haciendo la media de los dos nmeros obtenidos, tenemos la siguiente tabla y parmetros:

    xi ni xi ni x2i ni2 1 2 4

    3 2 6 18

    4 3 12 48

    5 2 10 50

    6 1 6 36

    9 36 156

    8>>>>>: X2 =

    36

    9= 4;

    X2 =

    r156

    9 42 =

    r4

    3:

    Qu relacin existe entre los parmetros de X = X1 y X2? Por un lado, es claro que ambas

    disponen de la misma media, pues X2 = 4 = X . Pero adems, se verica que

    Xpn=

    p8=3p2=

    r8

    6=

    r4

    3= X2 :

    A. Roldn

  • 66 CAPTULO 12. TEORA DE MUESTRAS

    Por consiguiente, las relaciones que se indican en el teorema central del lmite 12.2.1 se siguen

    conservando en este caso aun cuando las poblaciones de partida no son normales y el tamao

    de las muestras que se toman es n = 2, claramente inferior a 30.

    Ejercicio 33 Responder a las mismas cuestiones si hay cuatro bolas con los nmeros 22, 24,28 y 30.

    12.3. Distribuciones en el muestreo

    Recapacitando sobre el teorema central del lmite, aprovechamos para hacernos otras pre-

    guntas. La primera de ellas puede ser la siguiente: cundo se puede aplicar dicho teorema y

    para qu sirve? Un primer ejemplo: para fabricar sillas. No todas las personas que se sientan

    en una silla tienen la misma estatura. Cmo fabricarla de un tamao medio para que pueda

    utilizarla la mayor cantidad de gente, por ejemplo en un colegio o en un cine? Si la muestra

    es lo sucientemente grande, la media de las estaturas de las personas que en ellas se sienten

    tender a la media poblacional que puede conocerse, quiz, a travs del Instituto Nacional de

    Estadstica.

    Y si no me interesa slo la media, sino la suma de todas las observaciones? Es el caso que

    puede presentarse en el equipaje de un avin. Cada pasajero lleva una maleta que puede pesar

    hasta 50 kg. Puede ser interesante calcular la media pero an es ms interesante calcular su

    suma, pues es el peso total el que podra derribar el avin. Si este peso siguiese una distribucin

    normal, podramos evaluar la posibilidad de que en un vuelo concreto se superase el peso mximo

    permitido.

    Y si nos interesase comparar las notas de Selectividad de dos universidades? Podramos

    restar sus medias para evaluar la posibilidad de que una sea mayor que la otra en un curso

    determinado. Y si queremos establecer los resultados que obtendr un partido poltico en las

    prximas elecciones? Puede todo ello deducirse del teorema central del lmite? En los siguientes

    apartados resolvemos algunas de estas cuestiones.

    12.3.1. Distribucin en el muestreo de la media

    Estudiar el muestreo de la media es estudiar la distribucin de probabilidad de las medias

    muestrales de tamao n. Precisamente, es lo que hemos estudiado a travs del teorema central

    del lmite. Por eso a nadie le extraa ya el siguiente enunciado.

    Teorema 12.3.1 (Muestreo de la media) La distribucin de las medias muestrales Xn

    A. Roldn

  • 12.3. Distribuciones en el muestreo 67

    de tamao n a partir de una poblacin de media y desviacin tpica (no necesariamentenormal), verica:

    1. Tiene la misma media que la poblacin completa:

    Xn = :

    2. Su desviacin tpica es

    Xn =pn;

    y, por tanto, disminuye al aumentar n.

    3. A medida que n crece, la distribucin de las medias muestrales se aproxima a una normal

    (es casi normal cuando n 30)

    n 30; Xn N;

    pn

    :

    Como se puede observar, este teorema no es ms que el teorema central del lmite (12.2.1).

    Veamos cmo utilizarlo.

    Ejercicio 34 En una ciudad, la estatura media de sus habitantes tiene una desviacin tpicade 8 cm. Si la estatura media de dichos habitantes fuera de 175 cm, cul sera la probabilidad

    de que la estatura media de una muestra de 100 individuos tomada al azar fuese superior a 176

    cm?

    Solucin : Sea X la variable que mide la estatura de un individuo elegido al azar en la poblacin.

    Segn los datos del problema, X sigue una distribucin de media = 175 cm y desviacin tpica

    = 8 cm (obsrvese que quiz no sea una variable con distribucin normal). Al tomar una

    muestra de tamao n = 100, la distribucin de la media muestral es, aproximadamente,

    X100 N;

    pn

    = N

    175;

    8p100

    = N 175; 008 :

    Tipicando, encontramos una variable con distribucin normal estndar:

    Z =X100 175008

    ,! N (0; 1) :

    Entonces, la probabilidad de que la estatura media de la muestra sea superior a 176 cm es:

    pX100 > 176

    = p

    X100 175008

    >176 175008

    = p

    Z > 1025

    = 1 p Z 1025 =

    = 1 008944 = 001056:

    A. Roldn

  • 68 CAPTULO 12. TEORA DE MUESTRAS

    Ejercicio 35 En una distribucin N (20; 6), cul es la probabilidad de que la media de unamuestra de tamao 64 est comprendida entre 19 y 21?

    Solucin : Como la poblacin de partida es normal, todas las distribuciones de las medias de

    cualquier tamao tambin son normales. En este caso:

    X64 ,! N;

    pn

    = N

    20;

    6p64

    = N 20; 0075 :

    Tipicando, encontramos una variable con distribucin normal estndar:

    Z =X64 200075

    ,! N (0; 1) :

    Entonces, la probabilidad de que la media de la muestra est entre 19 y 21 es:

    p19 X64 21

    = p

    19 200075

    X64 200075

    21 200075

    = p

    1033 Z 1033 == p

    Z 1033 p Z 1033 = p Z 1033 p Z 1033 =

    = pZ 1033 1 p Z 1033 = 2 p Z 1033 1 =

    = 2 009082 1 = 008164:

    Ejercicio 36 Una mquina envasa bolsas de sal con una media de 500 gr y una desviacintpica de 35 gr. Las bolsas se empaquetan en cajas de 150 unidades.

    (a) Calcula la probabilidad de que la media de los pesos de las bolsas de una caja sea menor de495 gr.

    (b) Si un hipermercado compra 400 cajas de 150 unidades cada una, cuntas cajas espera queestn formadas por bolsas cuya media de pesos sea menor de 495 gr?

    Solucin : Sea X la variable aleatoria que mide el peso de cada bolsa de sal. Segn los datos

    del problema, la distribucin de X posee una media de = 500 gr y una desviacin tpica de

    = 35 gr (aunque no sea necesariamente normal). Se toman cajas con n = 150 bolsas. Entonces

    la variable X150 que mide la media de los pesos de las bolsas de una caja posee distribucin:

    X150 ,! N;

    pn

    = N

    500;

    35p150

    N 500; 208577 :

    Tipicando, encontramos una variable con distribucin normal estndar:

    Z =X150 500208577

    ,! N (0; 1) :

    A. Roldn

  • 12.3. Distribuciones en el muestreo 69

    Entonces, la probabilidad de que la media de los pesos de las bolsas de una caja sea menor de

    495 gr es:

    pX150 < 495

    = p

    X150 500208577

    1075

    = 1 p Z 1075 = 1 009599 = 000401:

    Si un hipermercado compra 400 cajas y la probabilidad de que la media en una de ellas sea

    menor de 495 gr es del 4001 %, entonces es de esperar que

    4001 % de 400 cajas = 16004 cajas 16 cajasestn en esta situacin.

    Ejercicio 37 (Selectividad 2006) Un fabricante produce tabletas de chocolate cuyo peso engramos sigue una ley Normal de media 125 gr y desviacin tpica 4 gr.

    a) Si las tabletas se empaquetan en lotes de 25, cul es la probabilidad de que el peso medio delas tabletas de un lote se encuentre entre 124 y 126 gr?

    b) Si los lotes fuesen de 64 tabletas, cul sera la probabilidad de que el peso medio de lastabletas del lote superase los 124 gramos?

    Solucin : Sea X la variable aleatoria que mide el peso de las tabletas de chocolate. Segn los

    datos, X ,! N ( = 125; = 4). Entonces la variable X25 que mide el peso medio de n = 25tabletas (elegidas al azar) sigue una distribucin

    X25 ,! N;

    pn

    = N

    125;

    4

    5

    = N 125; 008 :

    As, la probabilidad de que el peso medio de 25 tabletas de chocolate est entre 124 gr y 126 gr

    es, tipicando para poder utilizar la tabla de la normal estndar Z ,! N (0; 1) de colas a laizquierda,

    p124 < X25 < 126

    = p

    124 125008

    124

    = p

    X64 125005

    >124 125005

    = p (Z > 2) = p (Z < 2) = 009772:

    12.3.2. Distribucin en el muestreo de las sumas muestrales

    En ocasiones, puede ser ms interesante calcular las sumas muestrales que las medias, como

    en el caso del avin que ya hemos comentado. En este caso queremos estudiar una variable que

    es suma de n variables idnticas a la de partida: Tn = X1 + X2 + : : : + Xn. Si conocemos la

    distribucin de las medias muestrales a travs del teorema (12.3.1), slo tenemos que multiplicar

    por n para obtener los nuevos parmetros:

    Xn = ) Tn = n Xn = n ;

    Xn =pn

    ) Tn = n Xn = n pn= pn:

    As tenemos el siguiente teorema.

    Teorema 12.3.2 (Muestreo de las sumas) La distribucin de las sumas muestrales Tnde tamao n a partir de una poblacin de media y desviacin tpica (no necesariamentenormal), verica:

    1. Su media es:

    Tn = n :

    2. Su desviacin tpica es:

    Tn = pn:

    3. A medida que n crece, la distribucin de las sumas muestrales se aproxima a una normal

    (es casi normal cuando n 30)

    n 30; Tn Nn ; pn :

    Ejercicio 38 Un avin con capacidad para 120 pasajeros acepta una carga mxima de 2400 kgen equipaje. Se sabe que la distribucin del peso del equipaje de cada pasajero tiene 19 kg de

    media y 4 kg de desviacin tpica. Calcula la probabilidad de que el avin no pueda despegar

    debido al peso del equipaje cuando va completo.

    A. Roldn

  • 12.3. Distribuciones en el muestreo 71

    Solucin : La variable que mide el peso de cada equipaje tiene una media de = 19 kg y una

    desviacin tpica de = 4 kg. Si el avin va completo, se ha tomado una muestra de n = 120

    pasajeros, y la suma de todos los pesos de los 120 equipajes sigue una distribucin:

    T120 Nn ; pn = N 120 19 ; 4 p120 N 2280; 43082 :

    Tipicando encontramos una variable con distribucin normal estndar:

    Z =T120 228043082

    ,! N (0; 1) :

    Entonces la probabilidad de que el avin no pueda despegar a causa del peso del equipaje es de:

    p (T120 > 2400) = p

    T120 228043082

    >2400 228043082

    = p

    Z > 2074

    =

    = 1 p Z 2074 = 1 009969 = 000031:Por consiguiente, hay una probabilidad del 0031 % de que el avin no pueda despegar debido alexcesivo peso del equipaje.

    12.3.3. Distribucin en el muestreo de la diferencia de medias

    Supongamos que tenemos dos poblaciones de inicio, representadas por las variables aleatorias,

    X1 y X2, de medias respectivas 1 y 2, y de desviaciones tpicas 1 y 2 (ya sean normales o

    no). Supongamos que queremos obtener informacin sobre la diferencia de las respectivas medias

    de sendas muestras de tamaos n1 y n2, respectivamente. Para ello, se toma una muestra de

    tamao n1 de X1, y se calcula su media x1, y se hace lo mismo con la otra, x2, con una muestra

    de tamao n2. Si restamos estas dos medias, x1 x2, tenemos un primer valor que toma lavariable diferencia entre las medias de las dos poblaciones. Cuando este proceso se repite una y

    otra vez, podemos estimar la diferencia entre las medias muestrales

    x1 x2; x01 x02; x001 x002; : : :

    Estos valores dan lugar a una nueva variable aleatoria, cuya distribucin se denomina distribucin

    en el muestreo de la diferencia de medias. Sus caractersticas principales son las siguientes.

    Teorema 12.3.3 (Muestreo de la diferencia de medias) La distribucin en el muestreode la diferencia de medias Y entre dos poblaciones X1 y X2 (no necesariamente normales)de medias 1 y 2, respectivamente, y desviaciones tpicas 1 y 2, cuando se toman muestras

    de tamaos n1 y n2, tiene las siguientes caractersticas.

    1. Su media es la diferencia entre las respectivas medias:

    Y = 1 2:

    A. Roldn

  • 72 CAPTULO 12. TEORA DE MUESTRAS

    2. Su varianza es la suma de las varianzas de sus respectivas medias de tamaos n1 y n2, por

    lo que su desviacin tpica es:

    Y =

    s21n1+22n2:

    3. A medida que n1 y n2 crecen, la distribucin de las diferencias muestrales se aproxima a

    una normal (es casi normal cuando n1; n2 30)

    n1; n2 30; Y N0@ 1 2 ;

    s21n1+22n2

    1A :Ejercicio 39 Se sabe que la talla de los nios recin nacidos en la Comunidad Autnoma Ase distribuye segn una N (52; 6), mientras que en la Comunidad Autnoma B se distribuyensegn una N (48; 4). Si se toman muestras al azar de 50 nios recin nacidos de cada ComunidadAutnoma, calcula la probabilidad de que la diferencia de medias de las tallas de los nios de

    las muestras sea inferior a 3 cm.

    Solucin : Sabemos que las distribuciones de las tallas en las distintas comunidades son XA ,!N (52; 6) y XB ,! N (48; 4). Entonces la diferencia entre las medias de las muestras de tamaosn1 = n2 = 50 sigue una distribucin:

    Y ,! N0@ 1 2 ;

    s21n1+22n2

    1A = N 52 48 ; r3650+16

    50

    ! N 4; 100198 :

    Tipicando, encontramos una variable con distribucin normal estndar:

    Z =Y 4100198

    ,! N (0; 1) :

    Entonces la probabilidad de que la diferencia entre las tallas medias de las dos muestras sea

    inferior a 3 cm es:

    p (Y < 3) = p

    Y 4100198

    0098 =

    = 1 p Z 0098 = 1 008365 = 001635:

    12.3.4. Distribucin en el muestreo de una proporcin

    Supongamos ahora que queremos estimar la proporcin de votantes de un determinado par-

    tido poltico, para conocer as los resultados que obtendr en las prximas elecciones. No nos

    A. Roldn

  • 12.3. Distribuciones en el muestreo 73

    interesa en este momento ni la media de los votos ni su suma, sino la proporcin de votantes

    que ese partido tiene, es decir, si el 20% de la poblacin votar a ese partido. En tal caso,

    tomar una muestra de n posibles votantes es como considerar una variable aleatoria binomial

    P ,! B (n; p), donde n es el nmero de electores que se toma en la muestra y p es la proporcinde votantes de dicho partido poltico. En realidad, estamos considerando como xito el que el

    elector vote al partido en cuestin, y su probabilidad de xito p es precisamente el porcentaje de

    votantes que tiene en la poblacin. Como lo que vote una persona es independiente de lo que

    vote otra (si la muestra est bien seleccionada), la variable P sigue una distribucin binomial.

    Podemos entonces tomar varias muestras de tamao n y determinar en cada una de ellas no

    el nmero total de votos, sino la proporcin de votantes de dicho partido poltico en cada una

    de las muestras. Surge as un estimador P^n que mide la proporcin de votantes del partido en

    cada muestra de tamao n elegida aleatoriamente. Podemos entonces conocer la distribucin del

    estimador P^n utilizando la aproximacin dada por el teorema de De Moivre.

    P ,! B (n; p)n p 5n q 5

    9>>>=>>>; ) P N ( P = n p ; P =pn p q ) :

    Como P^n = P=n, los nuevos parmetros de P^n sern

    P^n =Pn=n pn

    = p; P^n =Pn=

    pn p qn

    =

    rp qn:

    Esto es bsicamente lo que arma el siguiente teorema.

    Teorema 12.3.4 (Muestreo de la proporcin muestral) Si en una poblacin la propor-cin de individuos que posee una cierta caracterstica es p, la proporcin P^n de individuos con

    dicha caracterstica en las muestras de tamao n es una variable aleatoria con los siguientes

    parmetros:

    1. Su media es la proporcin de individuos de la poblacin con dicha caracterstica:

    P^n = p:

    2. Su desviacin tpica es:

    P^n =

    rp qn;

    donde q = 1 p es la proporcin de individuos de la poblacin que carecen de la carac-terstica estudiada.

    3. A medida que n crece, la distribucin de las proporciones muestrales se aproxima a una

    normal (es casi normal cuando n 30) siempre que p no se acerque ni a cero ni a uno

    A. Roldn

  • 74 CAPTULO 12. TEORA DE MUESTRAS

    (por ejemplo, si n p 5 y n q 5):

    n 30; P^n Np ;

    rp qn

    :

    Nota 4 Cuando no se nos indique la proporcin p, supondremos que estamos en el peor casoposible, es decir, cuando la desviacin tpica es mayor. Si hacemos un estudio de la funcin

    p 2 [0; 1] 7! p (1 p), observaremos que sta tiene un mximo en el vrtice de la parbola, quese alcanza precisamente cuando p = 005. Por consiguiente, si no se nos facilita la proporcin p,supondremos que

    p = 005:

    Ejercicio 40 El 20% de los jvenes de Guadix entre 18 y 30 aos son miopes. Calcula laprobabilidad de que en una muestra de 80 jvenes de la localidad haya:

    (a) como mucho, 20 jvenes miopes;

    (b) como poco, 17 jvenes miopes;

    (c) entre 10 y 25 jvenes miopes.

    Solucin : Sabemos que la proporcin de jvenes miopes es p = 002. Entonces la distribucinde la proporcin de jvenes miopes en una muestra de tamao 80 sigue, aproximadamente, una

    distribucin

    P^80 Np ;

    rp qn

    = N

    002;

    r002 00880

    ! N 002; 00045 :

    Tipicando la variable, encontramos una que sigue una distribucin normal estndar:

    Z =P^80 00200045

    ,! N (0; 1) :

    Para que en la muestra hubiese 20 jvenes miopes, la proporcin debera de ser de 20=80 =

    0025 = 25 %. Entonces la probabilidad de que haya menos de 20 jvenes miopes es:

    p

    P^80 20

    80

    = p

    P^80 0025

    = p

    P^80 00200045

    0025 00200045

    != p

    Z 1011 = 008665:

    Entonces la probabilidad de que haya ms de 17 jvenes miopes es:

    p

    P^80 17

    80

    = p

    P^80 002125

    = p

    P^80 00200045

    002125 00200045

    != p

    Z 0028 =

    = 1 p Z 0028 = 1 006103 = 003897:A. Roldn

  • 12.3. Distribuciones en el muestreo 75

    Finalmente, la probabilidad de que en la muestra haya entre 10 y 25 jvenes miopes es:

    p

    10

    80 P^80 25

    80

    = p

    00125 P^80 003125

    =

    = p

    00125 00200045

    P^80 002

    00045 0

    03125 00200045

    != p

    1067 Z 205 == p

    Z 205 p Z 1067 = p Z 205 p Z 1067 =

    = pZ 205 1 p Z 1067 = p Z 205+ p Z 1067 1 =

    = 009938 + 009525 1 = 009463:

    Ejercicio 41 El 7% de los tornillos que fabrica una mquina son defectuosos. Si en una cajase empaquetan 400 tornillos, calcula la probabilidad de que en ella haya:

    (a) ms de 35 tornillos defectuosos;

    (b) menos de 22 tornillos defectuosos;

    (c) entre 10 y 30 tornillos defectuosos;

    (d) entre el 5% y el 10% de tornillos defectuosos.

    Solucin : La proporcin de tornillos defectuosos es p = 0007. Entonces, en una muestra detamao 400, la distribucin de la proporcin muestral es:

    P^400 Np ;

    rp qn

    = N

    0007 ;

    r0007 0093400

    ! N 0007; 0001276 :

    Tipicando la variable, encontramos una que sigue una distribucin normal estndar:

    Z =P^400 00070001276

    ,! N (0; 1) :

    Para que en la caja hubiese 35 tornillos defectuosos, la proporcin debera de ser de 35=400 =

    000875. Entonces la probabilidad de que haya ms de 35 tornillos defectuosos es:

    p

    P^400 35

    400

    = p

    P^400 000875

    = p

    P^400 00070001276

    000875 00070001276

    != p

    Z 1037 =

    = 1 p Z 1037 = 1 009147 = 000853:A. Roldn

  • 76 CAPTULO 12. TEORA DE MUESTRAS

    Por otro lado, la probabilidad de que haya menos de 22 tornillos defectuosos es:

    p

    P^400 22

    400

    = p

    P^400 00055

    = p

    P^400 00070001276

    00055 00070001276

    != p

    Z 1018 =

    = pZ 1018 = 1 p Z 1018 = 1 00881 = 00119:

    De la misma forma, la probabilidad de que en la muestra haya entre 10 y 30 tornillos defectuosos

    es:

    p

    10

    400 P^400 30

    400

    = p

    00025 P^400 00075

    =

    = p

    00025 00070001276

    P^400 0007

    0001276 0

    0075 00070001276

    !=

    = p3053 Z 0039 = p Z 0039 p Z 3053 =

    = pZ 0039 p Z 3053 = p Z 0039 1 p Z 3053 =

    = pZ 0039+ p Z 3053 1 = 006517 + 009999 1 = 006516:

    Finalmente, en el ltimo caso se nos da directamente la proporcin de tornillos defectuosos (y

    no el nmero total de los mismos), por lo que calculamos:

    p0005 P^400 001

    = p

    0005 00070001276

    P^400 0007

    0001276 0

    01 00070001276

    !=

    = p1057 Z 2035 = : : : = p Z 2035+ p Z 1057 1 =

    = 009906 + 009418 1 = 009324:

    Ejercicio 42 Calcula la probabilidad de obtener ms de un 52% de caras al lanzar 256 vecesuna moneda.

    Solucin : Sea X la variable aleatoria que mide el nmero de caras obtenidas al lanzar 256 veces

    una moneda. Evidentemente, X ,! B (256; 005). Sea ahora P^200 = X=256 la proporcin de carasque salen en 200 lanzamientos. Sabemos que

    P^256 Np ;

    rp qn

    = N

    005;

    r005 005256

    ! N 005; 0003125

    Tipicando la variable, encontramos una que sigue una distribucin normal estndar:

    Z =P^256 0050003125

    ,! N (0; 1) :

    A. Roldn

  • 12.3. Distribuciones en el muestreo 77

    Para que haya una proporcin de ms del 52%:

    pP^256 0052

    = p

    P^256 0050003125

    0052 0050003125

    != p

    Z 0064 =

    = 1 p Z 0064 = 1 007389 = 002611:

    12.3.5. Tabla resumen

    La tabla (12.3.5) resume las principales distribuciones estudiadas.

    Muestreo Condicin Distribucin aproximada

    Medias muestrales n 30 Xn N;

    pn

    Sumas muestrales n 30 Tn N (n ;

    pn)

    Diferencia de medias n1; n2 30 Y N0@1 2 ;

    s21n1+22n2

    1A

    Proporcin

    n 30n p 5n q 5

    P^n Np ;

    rp qn

    A. Roldn