28
Contraste de hipótesis Carles Rovira Escofet P08/75057/02308

5 contraste de hipotesis.pdf

Embed Size (px)

Citation preview

  • Contraste de hiptesisCarles Rovira Escofet

    P08/75057/02308

  • FUOC P08/75057/02308 Contraste de hiptesis

    ndice

    Sesin 1

    Introduccin al contraste de hiptesis ........................................... 5

    1. Hiptesis nula y alternativa ................................................................. 5

    2. El nivel de significacin ....................................................................... 8

    3. El concepto de estadstico de contraste ............................................... 9

    4. El p-valor .............................................................................................. 11

    5. Resolver un contraste de hiptesis ...................................................... 12

    6. Relacin con los intervalos de confianza ............................................ 12

    7. Resumen ............................................................................................... 13

    Ejercicios ................................................................................................... 14

    Sesin 2

    Contrastes sobre la media y sobre la proporcin ......................... 17

    1. Contrastes sobre la media .................................................................... 17

    1.1. Caso de la varianza conocida ....................................................... 17

    1.2. Caso de la varianza desconocida .................................................. 18

    1.3. Caso con muestras no normales ................................................... 20

    1.4. Datos aparejados ........................................................................... 21

    2. Contrastes sobre la proporcin (muestras grandes) ............................ 22

    3. Resumen ............................................................................................... 24

    Ejercicios ................................................................................................... 25

  • FUOC P08/75057/02308 5 Contraste de hiptesis

    Introduccin al contraste de hiptesis

    En esta sesin presentamos una nueva tcnica estadstica: el contraste de hi-

    ptesis. Primero veremos algunas situaciones en las que podemos utilizarla.

    Tiramos al aire una misma moneda cien veces. En principio se trata de una

    moneda normal, de manera que esperamos que nos salga aproximadamente

    el mismo nmero de caras que de cruces. Esperamos, por tanto, una relacin del

    orden 50-50 (50 caras, 50 cruces), o 48-52. Pero, qu sucede si la relacin que

    obtenemos es del orden 45-55 o, todava ms, de 40-60? Podemos considerar

    que el resultado obenido nos indica que la moneda no es perfecta? O tene-

    mos que decir que el resultado es slo fruto de la casualidad?

    Otro caso: imaginad que compramos una mquina que fabrica chips y que, se-

    gn el fabricante, hace como mximo un 1% de defectuosos. Despus de fabri-

    car trescientos chips, los revisamos y descubrimos que hay cinco defectuosos

    (segn el fabricante deberan haber sido tres). Este aumento del nmero de chips

    defectuosos indica que la mquina no funciona bien, o podemos pensar que

    slo es casualidad?

    Una ltima situacin. Un estudio afirma que la media de las alturas de los chi-

    cos catalanes de 17 aos es de 178 cm. Visitamos un instituto y escogemos a

    diez chicos al azar; su altura media es de 171 cm. Podemos pensar que los mu-

    chachos de este instituto tienen una altura diferente de la del conjunto de chi-

    cos de Catalua?

    Fijaos en que las tres situaciones anteriores son similares. En los tres casos supo-

    nemos cierta hiptesis y debemos decidir, a partir de nuestras observaciones, si

    tenemos suficientes evidencias para poder rechazarla. Cmo lo haremos? Uti-

    lizaremos probabilidades.

    1. Hiptesis nula y alternativa

    El primer paso cuando queremos estudiar este tipo de problema es determinar

    bien las hiptesis. Es preciso que determinemos dos, ya que la resolucin del

    problema consistir, en cierta medida, en escoger una entre estas dos.

    La hiptesis nula, que indicaremos por H0, es la hiptesis de partida.

    Debe recoger el hecho que queramos someter a prueba.

    La hiptesis alternativa es la que, como su nombre indica, ofrecemos

    como alternativa a la nula. Esta hiptesis, que denotamos por H1, repre-

    senta que se ha producido un cambio con respecto a la situacin descri-

    ta por la hiptesis nula.

    Test o contraste son dos maneras de llamar a la misma tcnica.

    Importancia del test

    El test ser la herramienta que nos permitir extraer conclu-siones a partir de la diferencia entre las observaciones y losresultados que se deberan obtener si la hiptesis de par-tida fuese cierta.

  • FUOC P08/75057/02308 6 Contraste de hiptesis

    Para poder plantear correctamente las hiptesis, deberemos entender bien la

    estructura estadstica que se encuentra tras los datos y, por tanto, deberemos

    conocer qu distribucin siguen. Las hiptesis se expresarn normalmente en

    trminos de algn parmetro de la distribucin de los datos que estudiamos.

    Volvamos al ejemplo de las alturas, pero ahora aadamos un poco ms de in-

    formacin. Sabemos, por ejemplo, que la variable altura sigue una distribu-

    cin normal. Por tanto, una altura es una observacin de una variable N(,2).Supondremos tambin que es conocida y es igual a 3. Entonces, cuando de-cimos que los chicos de 17 aos tienen una altura media de 178 cm, en reali-

    dad proponemos que la hiptesis nula expresada en trminos del parmetro es sta:

    H0: 178

    Para detectar si las alturas no siguen esta media, debemos coger como hipte-

    sis alternativa:

    H1: 178 (hiptesis bilateral)

    Pero si quisiramos detectar si los chicos son ms altos de 178 cm, la hiptesis

    alternativa debera ser sta:

    H1: 178 (hiptesis unilateral)

    Mientras que si quisiramos detectar si son ms bajos de 178 cm, debera ser:

    H1: 178 (hiptesis unilateral)

    Ejemplo de la moneda

    Consideremos el ejemplo de lanzar una moneda y ver si es perfecta. Podemos representar ellanzamiento de una moneda por una variable de Bernoulli de parmetro p, B(p), donde p in-dica la probabilidad de sacar una cara.

    Si queremos contrastar el hecho de que la moneda sea perfecta con respecto a que no losea, la hiptesis nula H0 corresponde a la moneda es perfecta, y la hiptesis alternativa H1,a la moneda no es perfecta, que se puede representar en trminos del parmetro p de la ma-nera siguiente:

    Fijaos en que cogemos como hiptesis nula el supuesto la moneda es perfecta, que esla situacin habitual; la hiptesis alternativa es la que indica que ha habido cambios.

    La hiptesis alternativa puede ser bilateral, si el parmetro es diferente

    del valor correspondiente a la hiptesis nula, o unilateral, si slo lo

    compara en una direccin.

    Observacin

    Con la misma hiptesis nula podemos estudiar varias hi-ptesis alternativas.

    Observad que...

    ... las hiptesis se expresan en trminos del parmetro de los datos que utilizan.

    H0: p 12--- , contra H1: p

    12---=

  • FUOC P08/75057/02308 7 Contraste de hiptesis

    Observad que podramos plantear el caso de manera que la hiptesis nula correspon-diera a la moneda es perfecta y la alternativa, a la probabilidad de cara es ms altaque la de cruz. Si lo escribimos en funcin del parmetro, resulta:

    Tenemos la misma hiptesis nula, pero la hiptesis alternativa es diferente. Fijaos en que elprimer caso era una alternativa bilateral, mientras que en el segundo es unilateral.

    Una vez planteadas las hiptesis nula y alternativa, debemos tomar una deci-

    sin a partir de las observaciones. Por otro lado, existen dos decisiones posibles:

    1) Aceptar la hiptesis nula

    2) Rechazar la hiptesis nula

    Por otro lado, hay dos situaciones posibles:

    a) La hiptesis nula es cierta

    b) La hiptesis nula es falsa

    Esto hace que podamos cometer dos clases de errores diferentes: podemos

    aceptar la hiptesis nula cuando sta es falsa o podemos rechazar la hiptesis

    nula cuando es cierta, tal como se ve en la tabla siguiente:

    Podemos medir estos errores con la probabilidad de que se den las situaciones

    respectivas.

    Ahora necesitamos una regla de decisin que nos permita determinar si debe-

    mos aceptar o rechazar la hiptesis nula a partir de las observaciones. Puesto que

    podemos cometer dos tipos de errores diferentes, nos interesara tomar la deci-

    sin de que minimizara los dos. Como siempre, la solucin de este problema no

    es fcil. Normalmente, la experiencia nos ensea que cuando establecemos una

    regla de decisin que reduce mucho uno de los errores, el otro aumenta.

    Decisiones

    Aceptar H0 Rechazar H0

    SituacionesH0 cierta Decisin correcta Error de tipo I

    H0 falsa Error de tipo II Decisin correcta

    As, podemos considerar los errores siguientes:

    El error de tipo I es la probabilidad de que rechacemos la hiptesis

    nula cuando sta es cierta.

    El error de tipo II es la probabilidad de que aceptemos la hiptesis

    nula cuando sta es falsa.

    H0: p 12--- , contra H1: p

    12---=

    Importancia de las observaciones

    Segn el conjunto de obser-vaciones concreto, decidire-mos rechazar o aceptarla hiptesis nula.

  • FUOC P08/75057/02308 8 Contraste de hiptesis

    Dado que no podemos hacer pequeos los dos errores al mismo tiempo, utiliza-

    remos la siguiente estrategia: buscaremos reglas de decisin que nos permitan te-

    ner limitado el error de primer tipo, es decir, el error que cometemos cuando

    decidimos rechazar la hiptesis nula y sta es cierta. Esta estrategia es conservado-

    ra, tendemos a no rechazar la hiptesis nula excepto si los resultados son muy

    poco probables con sta.

    Una buena forma de hacer pequeos los dos errores y, por tanto, de mejorar

    nuestros resultados, es aumentar el tamao de las muestras que utilizamos.

    2. El nivel de significacin

    Determinar el nivel de significacin que hay que fijar cuando se comienza el

    estudio no es un problema estrictamente matemtico, ya que depende de cada

    caso particular. Se suele utilizar el valor estndar de 0,05. Otros niveles uti-lizados son del orden de 0,1, de 0,01 o incluso de 0,001 (si queremos aumentar

    la precisin).

    A la hora de escoger el nivel de significacin, recordemos que el error de tipo

    I (rechazar H0 cuando sta es cierta) indica que detectamos un cambio con res-

    pecto a la hiptesis nula, cuando en realidad dicho cambio no existe. Por tan-

    to, podemos tener en cuenta las consideraciones siguientes:

    Si detectar este cambio que en realidad no existe y slo es consecuencia

    del carcter aleatorio de los datos no es demasiado grave, entonces pode-

    mos escoger un nivel de significacin alto (por ejemplo, del orden de 0,1).

    Si detectar este cambio que en realidad no existe es un error grave, en-

    tonces debemos fijar un nivel de significacin pequeo.

    Sin embargo, hay que ir con cuidado. Cuanto menor sea el valor de que fijemos,ms tendencia tendremos a aceptar la hiptesis nula. El caso extremo sera fijar

    un nivel de significacin 0. En este caso aceptaremos siempre la hiptesis nula, de

    manera que nunca se dar el error de tipo I, pero est claro que si tenemos que

    aceptar siempre, el estudio que hemos llevado a cabo no nos aporta nada nuevo.

    El hecho de tener acotado el error de tipo I hace que nuestros contrastes sean

    conservadores y tiendan a aceptar la hiptesis nula, a menos que haya eviden-

    cias muy claras de que tenemos que rechazarla.

    El nivel de significacin de un contraste es el error mximo de tipo Ique estamos dispuestos a asumir.

    Cuando aceptamos la hiptesis nula, no estamos seguros de que sea real-

    mente cierta, ya que no controlamos el error de tipo II (el error que co-

    metemos cuando aceptamos la hiptesis nula y sta es falsa).

    Orgenes de la estrategia

    La estrategia de decisin que utilizamos aqu se basa enlos resultados de Neyman y Pearson, dos importantes matemticos del siglo XX.

    Sentido del nivel de significacin...

    ... de un contraste. Un nivel = 0,05 significa que, aunque la hiptesis nula sea cierta, los datos de cinco de cada cien muestras nos harn rechazarla. Es decir, aceptamos que podemos rechazar la hip-tesis nula de forma equivocada cinco de cada cien veces.

    Aceptamos o no rechazamos?

    Puesto que cuando acepta-mos la hiptesis nula no estamos demasiado seguros, normalmente, en lugar de decir Aceptamos la hiptesis nula, decimos No rechaza-mos la hiptesis nula.

  • FUOC P08/75057/02308 9 Contraste de hiptesis

    3. El concepto de estadstico de contraste

    Ya tenemos fijadas las hiptesis, as como el error de tipo I que estamos dispues-

    tos a asumir. Para decidir si rechazamos la hiptesis nula o no, utilizaremos el

    llamado estadstico de contraste.

    Veamos cmo utilizar el estadstico de contraste para decidir si rechazamos la

    hiptesis nula o no. Por ejemplo, en el caso de las alturas de los chicos, sabe-

    mos que si tenemos una muestra de alturas de n chicos escogidos al azar, bajo

    la hiptesis nula (es decir, 178) podemos definir la variable:

    Este valor es una observacin de una ley N(0,1).

    Si la hiptesis nula es cierta, el valor observado z debera estar en la zona en la

    que la distribucin normal estndar concentra una mayor probabilidad, es de-

    cir, alrededor del cero. Si nos sale un valor muy alejado del cero, este valor ser

    poco probable bajo la hiptesis nula, y nos llevar a decidir rechazarla, ya que

    pensaremos que su aparicin no puede ser debida al azar, sino al hecho de que

    la hiptesis nula debe de ser falsa. Ahora bien, hasta qu punto debe ser poco

    probable para decidir rechazarla? Esto vendr dado por el nivel de significa-

    cin fijado.

    As, imaginad que hacemos el contraste H0: 178 contra H1: 178. Un va-lor del estadstico de contraste cercano a 0 es ms probable bajo H0 que bajo H1.

    De este modo, utilizaremos la regla de decisin siguiente:

    Aceptaremos H0 si

    Rechazaremos H0 si

    Cuando rechazamos la hiptesis nula, estamos seguros de que tenemos

    que rechazarla porque tenemos acotado el error de tipo I (el error que

    cometemos cuando rechazamos la hiptesis nula y sta es cierta).

    Un estadstico de contraste es una funcin de la muestra cuya distri-

    bucin conocemos bajo la hiptesis nula.

    Todo problema diferente tiene su estadstico de contraste

    correspondiente.

    Recordad que...

    ... si tenemos una muestra de tamao n de una distribucin N(,2), entonces la variable:

    sigue una distribucin normal estndar.

    X n

    --------------------

    z x 1783n

    --------------------------=

    Ejemplo de contraste bilateral.

    z z2---

    z z2---

  • FUOC P08/75057/02308 10 Contraste de hiptesis

    donde es el llamado valor crtico.

    Para determinar el valor crtico z2, slo hay que imponer que el error de tipo I(probabilidad de rechazar H0 cuando es cierta) sea menor o igual que el nivel de

    significacin , es decir:

    donde Z es la distribucin del estadstico de contraste. En este caso, bajo la hi-

    ptesis nula, sigue una distribucin normal estndar. Por ejemplo, para 0,05encontramos (por ejemplo, en las tablas de la normal) que z2 1,96.

    Hagamos ahora un contraste unilateral, en particular H0: = 178 contra H1: > 178. En este caso un valor positivo del estadstico de contraste ser ms pro-

    bable bajo H1 (ya que bajo la hiptesis alternativa lo ms normal es que sea

    mayor que 178), mientras que los valores negativos lo sern bajo H0. En este

    caso la regla de decisin ser sta:

    Aceptaremos H0 si z z Rechazaremos H0 si z z

    Para determinar el valor crtico z imponemos, como antes, que el error detipo I sea menor que el nivel de significacin , en este caso:

    P(Z z)

    donde Z es la distribucin del estadstico de contraste. Como antes, bajo la hi-

    ptesis nula, est distribuido como una normal estndar. Por ejemplo, para 0,05, encontramos que z 1,65.

    Zona de aceptacin de la hiptesis nula

    La parte del grfico con una lnea ms gruesa corresponde a la zona en la que queremos aceptar la hiptesis nula. Fijaos en cmo influye la hi-ptesis alternativa a la hora de decidir.

    z2---

    Terminologa

    En los contrastes bilaterales, a veces se dice que la probabili-dad de las dos colas (la parte que corresponde a la zona donde tenemos que rechazarla hiptesis nula) debe ser .P Z z

    2---

    P Z Z2---

    P Z z2---

    +=

    Ejemplo de contraste unilateral

    x

    Validez del mtodo

    El mtodo es el mismo para cualquier distribucin sim-trica, as que tambin sirve si el estadstico de contraste si-gue una distribucin t de Student.

    Terminologa

    En este contraste unilateral se dice que la probabilidad de la cola de la derecha debe ser .

  • FUOC P08/75057/02308 11 Contraste de hiptesis

    De la misma manera, vemos que para el contraste H0: 178 contra H1: 178,la regla de decisin ser la siguiente:

    Aceptaremos H0 si z z.

    Rechazaremos H0 si z z.

    Con la condicin:

    P(Z z)

    donde Z es, como antes, la distribucin del estadstico de contraste, que bajo la

    hiptesis nula tiene una distribucin normal estndar. Para 0,05 encontramosque z 1,65

    4. El p-valor

    En muchos casos, para resolver un contraste de hiptesis no calcularemos el

    valor crtico, sino que utilizaremos el llamado p-valor.

    Cuando el p-valor sea pequeo, indicar que el valor del estadstico de con-

    traste que hemos observado tena una probabilidad pequea de salir bajo la

    hiptesis nula y, por tanto, deberemos rechazar la hiptesis nula. En cambio,

    cuando sea grande, indicar que era un valor bastante probable bajo la hip-

    tesis nula y, por tanto, es lgico que aceptemos H0.

    El p-valor es la probabilidad del resultado del estadstico de contraste

    observado o de uno ms alejado cuando la hiptesis nula es cierta.

    Si el p-valor es inferior al nivel de significacin , rechazaremos la hip-tesis nula.

    Si el p-valor es superior o igual al nivel de significacin , aceptaremosla hiptesis nula.

    La ley de esta variable Z se llama ley del estadstico de contraste.

    Terminologa

    En este contraste unilateral se dice que la probabilidad de la cola de la izquierda debe ser .

    El software estadstico ms habitual utiliza el p-valor para hacerel contraste de hiptesis.

    Sentido del p-valor

    El p-valor asociado a una ob-servacin del estadstico de contraste es el menor nivel de significacin que nos permite rechazar la hiptesis nula.

    Validez del mtodo

    El mtodo es el mismo para cualquier distribucin simtri-ca, as que tambin sirve si el estadstico de contraste sigue una distribucin t de Student, como veremos ms adelante.

  • FUOC P08/75057/02308 12 Contraste de hiptesis

    Ejemplo de aplicacin del p-valor

    En el ejemplo de las alturas, imaginad que nuestro estadstico de contraste observado es 1,61y denotamos por Z una variable aleatoria que tiene una distribucin normal estndar, que esla ley del estadstico de contraste bajo la hiptesis nula. Supongamos, adems, que hemosfijado un nivel de significacin 0,1. As:1) Si hacemos el contraste H0: 178 contra H1: 178, entonces el p-valor es (probabilidadde las dos colas):

    P(Z |1,61|) P(Z 1,61) P(Z 1,61) 0,0537 0,1074 No rechazamos H0Fijaos en que para calcular el p-valor, calculamos la probabilidad de que la variable Z tomeun valor ms alejado que el valor 1,61 observado.

    2) Si hacemos el contraste H0: 178 contra H1: 178, entonces el p-valor es (probabilidadde la cola de la derecha):

    P(Z 1,61) 0,0537 Rechazamos H0Fijaos en que, en este caso, el valor obtenido es muy poco probable bajo la hiptesis nula. Detodos modos, si hubiramos considerado un nivel de significacin de 0,05, tendramos quehaber aceptado la hiptesis nula.

    3) Si hacemos el contraste H0: 178 contra H1: 178, entonces el p-valor es (probabilidadde la cola de la izquierda):

    P(Z 1,61) 0,9463 No rechazamos H0En cambio, en este caso el valor obtenido es muy probable bajo la hiptesis nula, por esola aceptamos.

    Estas probabilidades en muchas oacsiones no se pueden calcular con tablas estadsticas, porlo que hay que utilizar un software estadstico.

    5. Resolver un contraste de hiptesis

    Podemos describir el procedimiento para plantear y resolver un contraste de

    hiptesis en cinco etapas:

    1) Fijar las hiptesis nula y alternativa.

    2) Fijar un nivel de significacin.

    3) Determinar el estadstico de contraste y su ley.

    4) Calcular el p-valor asociado a nuestro estadstico de contraste calculado.

    5) Comparar el p-valor con el nivel de significacin y tomar una decisin.

    6. Relacin con los intervalos de confianza

    Para los contrastes bilaterales, podemos hacer un contraste de hiptesis utili-

    zando intervalos de confianza. Vemoslo con un ejemplo.

    El peso en gramos de las manzanas de una explotacin agraria sigue una

    distribucin normal de desviacin tpica 3,5. Un estudio nos dice que el

    peso medio es de 155 gramos y queremos comprobar si eso es cierto. Si de-

    notamos por la esperanza de la distribucin de las manzanas, queremoscontrastar:

    H0: 155 contra H1: 155

    Otro procedimiento

    Podemos sustituir los pasos 4 y 5 del procedimiento pre-sentado para resolver un contraste de hiptesis por el clculo del valor crtico.

  • FUOC P08/75057/02308 13 Contraste de hiptesis

    Para hacerlo, hemos cogido una muestra aleatoria de 42 manzanas y hemos

    obtenido una media aritmtica de 163,8.

    Primero debemos encontrar un intervalo de confianza del 95% para la media de

    la distribucin. Recordad que se puede obtener a partir de la frmula siguiente:

    que en nuestro caso nos da el intervalo (162,74, 164,85). Sabemos que de cada

    cien muestras que consideremos, el valor autntico de la estar, como mni-mo, en noventa y cinco de los intervalos correspondientes. Por eso, si el valor que

    queremos contrastar a la hiptesis nula cae dentro del intervalo, aceptaremos la

    hiptesis nula.

    En este caso, puesto que 155 (162,74, 164,85), debemos rechazar la hip-tesis nula.

    7. Resumen

    En esta sesin hemos presentado los conceptos fundamentales de una nueva

    tcnica estadstica: el contraste de hiptesis. Hemos introducido los conceptos

    de hiptesis nula, hiptesis alternativa, errores de tipo I y II, estadstico de

    contraste, valor crtico y p-valor. Finalmente hemos visto cmo utilizar un in-

    tervalo de confianza para hacer un contraste de hiptesis.

    Si el valor que queremos contrastar est en el intervalo de confianza,

    aceptamos la hiptesis nula, y si no est, la rechazamos.

    x 1,96 n

    -------

  • FUOC P08/75057/02308 14 Contraste de hiptesis

    Ejercicios

    1. Compramos una mquina que fabrica chips que, segn el fabricante, fabri-

    ca como mximo un 1% de chips defectuosos. Explicad las variables aleatorias

    que hay en esta situacin y discutid las posibles hiptesis que podemos estu-

    diar para comprobar si las especificaciones del fabricante son ciertas.

    2. Se escoge una muestra de ochenta personas y se observa que diez tienen los

    ojos azules. Dad un intervalo de confianza del 95% para la proporcin de per-

    sonas con los ojos azules. Contrastad si se puede afirmar que la proporcin de

    personas con los ojos azules es del 7% con un nivel de significacin 0,05.

    3. Tenemos una muestra de tamao 10 de una variable aleatoria con distribu-

    cin normal de media desconocida y varianza 2 4. Nuestras observacionesson stas:

    11,57 10,57 11,32 12,30 10,36

    12,00 10,29 11,48 8,74 10,03

    Contrastad, con nivel de significacin de 0,1, las hiptesis siguientes:

    a) H0: 11 contra H1: 11b) H0: 11 contra H1: 11c) H0: 11 contra H1: 11

    Solucionario

    1. En realidad se trata de hacer un control de calidad para determinar si la

    probabilidad de producir un chip defectuoso es inferior a 0,01. Consideremos

    un modelo en el que para cada chip tenemos una variable Xi con ley de Ber-

    noulli de parmetro p desconocido, que toma el valor 1 cuando el chip es de-

    fectuoso, y el valor 0 cuando no lo es. Podemos considerar varios contrastes:

    a) H0: p 0,01 contra H1: p 0,01

    En este caso la hiptesis alternativa H1 nos dice que la proporcin de chips de-

    fectuosos no es del 1%. Si rechazamos la hiptesis nula, no sabremos si lo ha-

    cemos porque la proporcin es mayor o menor. Es decir, podramos rechazar

    una mquina que no hiciera ninguna pieza defectuosa. Este contraste no nos

    interesa.

    b) H0: p 0,01 contra H1: p 0,01

    En este caso la hiptesis alternativa H1 nos dice que la proporcin de chips de-

    fectuosos es menor del 1%. Slo rechazaremos la hiptesis nula si la propor-

    cin de chips defectuosos es claramente inferior al 1%. Este contraste nos puede

  • FUOC P08/75057/02308 15 Contraste de hiptesis

    interesar si slo queremos una mquina de la que estemos muy seguros de que

    su produccin ser muy buena. Entonces nos quedaremos la mquina cuando

    rechacemos la hiptesis nula. Pero est el problema de que el test tiene tenden-

    cia a aceptar la hiptesis nula, de manera que cabe la posibilidad de que recha-

    cemos mquinas que satisfacen las especificaciones del fabricante.

    c) H0: p 0,01 contra H1: p 0,01

    En este caso la hiptesis alternativa H1 nos dice que la proporcin de chips de-

    fectuosos es mayor del 1%. Slo rechazaremos la hiptesis nula si la proporcin

    de chips defectuosos es claramente superior al 1%. Es muy posible que nos que-

    demos con una mquina con una produccin de chips defectuosos superior a la

    especificada.

    2. El intervalo de confianza al 95% sobre una proporcin p se calcula a partir

    de la expresin siguiente:

    Puesto que 10/80 0,125 y n 80, obtenemos el intervalo (0,053, 0,197).Queremos hacer el contraste:

    H0: p 0,07 contra H1: p 0,07

    Dado que 0,07 (0,053, 0,197), aceptaremos la hiptesis nula.

    3. De la misma manera que en el ejemplo de las alturas, cogeremos el estadstico

    de contraste siguiente:

    Bajo la hiptesis nula, este estadstico corresponde a una observacin de

    una ley N(0,1). En nuestro caso podemos calcular:

    de manera que el estadstico de contraste es ste:

    a) Para el contraste H0: 11 contra H1: 11 (es bilateral), calculamos losvalores crticos z/2, de manera que:

    P(|Z| z/2) P(Z < z/2) + P(Z > z/2) = 0,1

    p z0,025 p 1 p n

    --------------------

    p

    z x 112n

    -----------------------=

    x 10,866=

    z x 112n

    ----------------------- 0,21==

  • FUOC P08/75057/02308 16 Contraste de hiptesis

    Y teniendo presente la simetra de la distribucin normal:

    P(Z > z/2) = 0,05

    donde Z corresponde a una distribucin normal estndar. Encontramos que

    z/2 1,65. Por tanto, debemos aceptar la hiptesis nula.

    Por otro lado, si calculamos el p-valor, debemos buscar la probabilidad de las

    dos colas:

    P(|Z| 0,21) 2P(Z 0,21) 2 0,4168 0,8336 >

    y debemos aceptar la hiptesis nula.

    b) Para H0: 11 contra H1: 11 (unilateral), el valor crtico satisface:

    P(Z z) 0,1

    es decir, que z 1,28. La regla de decisin es:

    Aceptaremos H0 si z z Rechazaremos H0 si z z

    Por tanto, en este caso aceptaremos la hiptesis nula.

    Si calculamos el p-valor, debemos buscar la probabilidad de la cola de la derecha:

    P(Z 0,21) P(Z 0,21) 0,5832

    y debemos aceptar la hiptesis nula.

    c) En el caso H0: 11 contra H1: 11 (unilateral), el valor crtico satisfar:

    P(Z z) 0,1

    encontramos que z 1,28. La regla de decisin es sta:

    Aceptaremos H0 si z z Rechazaremos H0 si z z

    Por tanto, tambin aceptaremos la hiptesis nula.

    Y calculamos el p-valor correspondiente. La probabilidad de la cola de la iz-

    quierda es la siguiente:

    P(Z 0,21) 0,4168

    de manera que debemos aceptar la hiptesis nula.

  • FUOC P08/75057/02308 17 Contraste de hiptesis

    Contrastes sobre la media y sobre la proporcin

    En esta sesin estudiaremos cmo llevar a cabo un contraste de hiptesis, pri-

    mero sobre medias de poblaciones y despus sobre proporciones.

    El paso fundamental para hacer un contraste de hiptesis es determinar el es-

    tadstico de contraste. Sabemos que si tenemos una muestra lo bastante gran-

    de de una variable aleatoria con esperanza k, entonces un estadstico del tipo:

    es una observacin de una distribucin normal estndar. Tambin sabemos

    que en muestras pequeas, si las observaciones provienen de una distribucin

    normal, este estadstico sigue o bien una distribucin normal estndar (si la

    varianza es conocida) o bien una t de Student (si la varianza es desconocida).

    Veamos cmo utilizar estos estadsticos para hacer contrastes.

    1. Contrastes sobre la media

    Dada una muestra x1, ..., xn que proviene de una distribucin normal N(,2),supongamos que queremos hacer un contraste sobre el valor de la media .

    El paso siguiente consiste en determinar el estadstico de contraste. Distingui-

    remos dos casos, segn si conocemos la varianza 2 o no la conocemos.

    1.1. Caso de la varianza conocida

    Si la varianza es conocida, el error estndar de la media se puede calcular como

    .

    La hiptesis nula ser del tipo:

    H0: = 0donde 0 es una constante fijada. Podemos tener dos tipos de hiptesisalternativas:

    H1: 0 (bilateral) H1: 0 o H1: 0 (unilateral)

    Una proporcin se puede ver como la media en una poblacin

    binaria.

    Media muestral kError estndard de la media----------------------------------------------------------------------------

    Atencin

    En esta sesin, para resolver un contraste, buscaremos el p-valor y no calcularemosel valor crtico. Sin embargo, pensad que podemos resolver los contrastes de las dos for-mas.

    En una situacin real difcilmente conoceremos la varianza.

    n

    -------

  • FUOC P08/75057/02308 18 Contraste de hiptesis

    La variable:

    bajo la hiptesis nula sigue una distribucin normal estndar.

    Una vez calculado el valor observado del estadstico de contraste, debemos de-

    terminar el p-valor. Como ya hemos visto, ste depende de la hiptesis alter-

    nativa:

    Si H1: 0, entonces (probabilidad de las dos colas):

    p P(|Z| |z|) P(Z |z|) P(Z |z|)

    Si H1: 0, entonces (probabilidad de la cola de la izquierda):

    p P(Z z)

    Si H1: 0, entonces (probabilidad de la cola de la derecha):

    p P(Z z)

    donde recordemos que Z corresponde a una ley normal estndar.

    1.2. Caso de la varianza desconocida

    Si la varianza es desconocida, para determinar el error estndar de la media,

    aproximamos la desviacin estndar por la desviacin estndar muestral:

    En este caso, bajo la hiptesis nula, la variable:

    Por tanto, para hacer contrastes sobre la media con conocida, el esta-dstico de contraste es ste:

    que se corresponde, bajo la hiptesis nula, con una observacin de una

    distribucin normal estndar.

    Z X 0

    n

    -----------------------

    n X 0 -----------------------------==

    z x 0n

    ---------------------=

    s 1n 1------------ xi x 2

    i 1=

    n

    =

    X 0sn

    -----------------------

    n X 0 s

    -----------------------------=

  • FUOC P08/75057/02308 19 Contraste de hiptesis

    sigue una ley t de Student con n 1 grados de libertad.

    Como antes, el ltimo paso es el clculo del p-valor asociado a nuestro valor

    observado del estadstico de contraste. En este caso:

    Si H1: 0, entonces (probabilidad de las dos colas):

    p P(|tn1| |t|) P(tn1 |t|) P(tn1 |t|)

    Si H1: 0, entonces (probabilidad de la cola de la izquierda):

    p P(tn1 t)

    Si H1: 0, entonces (probabilidad de la cola de la derecha):

    p P(tn1 t)

    donde recordemos que tn1 sigue una ley t de Student con n 1 grados de li-bertad.

    Ejemplo de contraste sobre la media en caso de varianza desconocida

    Se mide el ancho de una muestra aleatoria de 64 maderas y se obtiene una media de 35,02y una desviacin estndar muestral de 0,1224. Supongamos que sabemos que el anchode las maderas sigue una distribucin normal. Queremos contrastar la hiptesis de quela media verdadera es 35 con un nivel de significacin de 0,05.

    En este caso consideramos las hiptesis siguientes:

    H0: 35 contra H1: 35

    Dado que la varianza es desconocida, el error estndar es:

    y el estadstico de contraste es:

    Por tanto, para hacer contrastes sobre la media con desconocida, el es-tadstico de contraste es ste:

    que se corresponde, bajo la hiptesis nula, a una observacin de una

    t de Student con n 1 grados de libertad.

    t x 0

    sn

    ---------------------=

    sn

    ------- 0,1224 164------ 0,0153==

    x 0sn

    --------------------- 35,02 35

    0,0153---------------------------- 1,307==

  • FUOC P08/75057/02308 20 Contraste de hiptesis

    Dado que corresponde a una distribucin t de Student con 63 grados de libertad y la hi-ptesis alternativa es bilateral, el p-valor es (utilizando el software estadstico):

    P(|t63| 1,307) 2(1 P(t63 1,307)) 2(1 0,9020) 0,1960

    Por tanto, debemos aceptar la hiptesis nula, lo que significa que con los datos que tenemosno podemos afirmar que la media no sea 35.

    Si quisiramos resolver el contraste utilizando el valor crtico, deberamos determinar unvalor z2 tal que:

    Si buscamos este valor obtenemos (para calcular esta probabilidad, hay que utilizar el soft-ware estadstico):

    Puesto que 1,307 (1,9983; 1,9983), obtenemos tambin que debemos aceptar la hip-tesis nula.

    1.3. Caso con muestras no normales

    Si no sabemos si las muestras provienen de una distribucin normal, tambin

    podemos hacer un contraste de hiptesis por la media, siempre que tengamos

    una muestra de tamao mayor de 30, n 30 (el caso n 30 con muestras queno provienen de una ley normal no se estudia en esta sesin). Supondremos

    tambin que no conocemos su varianza.

    En esta situacin, por el teorema del lmite central, sabemos que podemos

    aproximar la variable:

    a una distribucin N(0,1). A partir de aqu podemos acabar el test como en el

    caso del contraste sobre la media con varianza conocida.

    Ejemplo de contraste sobre la media con muestras no normales

    En un laboratorio se mide el tiempo de vida (tiempo de funcionamiento hasta que se es-tropea) de un tipo de bombillas. El experimento se repite 300 veces y se obtiene una me-dia muestral de 5,14 y una desviacin tpica muestral de 0,25 (las unidades son semanas).Hacemos el contraste:

    Sabemos que los tiempos de vida normalment e no siguen una distribucin normal por-que sus valores se ajustan mejor a una exponencial. De todos modos, puesto que tenemosuna muestra lo bastante grande, podemos aplicar el tipo de contraste expuesto. El errorestndar de la media es ste:

    y el estadstico de contraste:

    P t63 z2---

    0,05=

    z2--- 1,9983=

    X 0sn

    -----------------------

    n X 0 s

    -----------------------------=

    Observad el contraste sobre la media en el caso de la varianza conocida en el apartado 1.1 de esta sesin.

    H0: 5 contra H1: 5=

    sn

    ------- 0,25 1300---------- 0,0144==

  • FUOC P08/75057/02308 21 Contraste de hiptesis

    que sigue una normal estndar. Tenemos una hiptesis bilateral, as que el p-valor es:

    P(|Z| 9,722) 2P(Z 9,722) 0,000y debemos rechazar la hiptesis nula, lo que significa que estamos seguros de que el tiempo devida esperado no es 5, sea cual sea el nivel de significacin escogido 0,1, 0,05 o, incluso, 0,001.

    1.4. Datos aparejados

    Todos los contrastes que hemos visto hasta ahora se han planteado utilizando

    slo una muestra. Podemos utilizar tambin estas mismas tcnicas cuando te-

    nemos dos muestras con datos aparejados.

    Imaginad que queremos estudiar si un rato de relajacin ayuda a mejorar la pro-

    ductividad de los trabajadores. Podemos hacer este estudio de dos maneras:

    1) Podemos coger una muestra de trabajadores que han hecho relajacin y

    una muestra de trabajadores que no la han hecho y comparar la productividad

    de los dos grupos (datos no aparejados).

    2) Podemos coger un nico grupo de trabajadores, medir su productividad sin

    haber hecho relajacin y volver a medirla al cabo de algunos das, durante los

    cuales s han hecho ejercicios de relajacin diarios. Entonces podemos estu-

    diar la variacin de la productividad (datos aparejados).

    Fijaos en que en el segundo caso utilizamos a los mismos individuos para ob-

    tener las dos muestras, de manera que si observamos la diferencia individuo a

    individuo, podemos pasar a estudiar una nica muestra, que ser el incremento

    de la productividad.

    Ahora podemos aplicar los contrastes vistos en los subapartados anteriores a

    la diferencia de las dos muestras.

    Ejemplo de contraste con datos aparejados

    Despus de un tratamiento de seis meses, la bilirrubina total de cuatro enfermos present lavariacin siguiente (medidas en mg/ml):

    Una muestra de datos aparejados es un conjunto de observaciones de

    dos variables diferentes observadas en los mismos individuos, de mane-

    ra que por cada individuo tenemos dos observaciones.

    Inicial Final

    Individuo 1 2,3 2,2

    Individuo 2 2,0 1,9

    Individuo 3 1,8 1,8

    Individuo 4 2,8 2,4

    x 0sn

    --------------------- 5,14 5

    0,0144--------------------- 9,722==

    Datos aparejadosde muestras normales

    Si los datos aparejados pro-vienen de muestras normales, al hacer la diferencia volve-mos a obtener datos que pro-vienen de una ley normal.

    Ventaja de los datosaparejados

    Los datos aparejados presen-tan la ventaja de que eliminan la variabilidad a causa del he-cho de utilizar individuos di-ferentes en las dos muestras.

  • FUOC P08/75057/02308 22 Contraste de hiptesis

    Suponemos normalidad y queremos estudiar con un nivel de significacin 0,01 si sepuede aceptar que la bilirrubina ha disminuido a causa de este tratamiento. Puesto quese trata de pruebas que se han hecho sobre los mismos enfermos, podemos decir que setrata de muestras aparejadas.

    Primero convertimos los datos de las dos muestras en los de una sola, resultado de la di-ferencia:

    Para estos datos calculamos 0,15 y s 0,1732. Formulamos las hiptesis de contraste:consideraremos que la hiptesis nula es aquella en la que no ha habido una disminucin dela bilirrubina, mientras que la alternativa considera que s que la ha habido (as, si rechaza-mos la hiptesis nula, estaremos bastante seguros de que el tratamiento hace disminuir la bi-lirrubina). Por tanto, tenemos el contraste siguiente:

    H0: 0 contra H1: 0Puesto que la varianza es desconocida, el error estndar de la media es ste:

    y el estadstico de contraste:

    Dado que corresponde a una distribucin t de Student con tres grados de libertad (el ta-mao de la muestra es 4) y la hiptesis alternativa es unilateral, el p-valor es el siguiente:

    P(t3 1,732) 1 P(t3 1,732) 1 0,9092 0,0908Por tanto, debemos aceptar la hiptesis nula, lo que significa que con los datos que tene-mos no podemos afirmar que el tratamiento haga disminuir la bilirrubina.

    2. Contrastes sobre la proporcin (muestras grandes)

    Consideremos ahora que tenemos una muestra x1, ..., xn, que proviene de una

    distribucin de Bernoulli de parmetro p y queremos hacer un contraste sobre

    el parmetro. Necesitaremos tambin que el tamao de la muestra sea lo bastan-

    te grande, como mnimo n 30.

    Diferencia

    0,1

    0,1

    0

    0,4

    La hiptesis nula ser del tipo:

    H0: p p0donde p0 es una constante fijada. Podemos tener dos tipos de hiptesis

    alternativa:

    H1: p p0 (bilateral) H1: p p0 o H1: p p0 (unilateral)

    x

    sn

    ------- 0,1732 14--- 0,0866==

    x 0sn

    --------------------- 0,15

    0,0866------------------- 1,732==

    El parmetro p

    Recordad que muchas veces p indica la probabilidad de xi-to en un experimento.

  • FUOC P08/75057/02308 23 Contraste de hiptesis

    Una vez establecidas las hiptesis, hay que determinar el estadstico de con-

    traste.

    En este caso la media muestral corresponde a la frecuencia, que indicamos por

    . Puesto que la varianza de una distribucin de Bernoulli de parmetro p0 es

    p0(1 p0), el error estndar de la media se puede calcular a partir de la expre-sin siguiente:

    Por el teorema del lmite central, el estadstico:

    se puede aproximar por una distribucin normal estndar.

    El clculo del p-valor se efecta a partir de aqu igual como se ha discutido

    en el caso de la varianza conocida.

    Ejemplo de clculo del p-valor sobre proporciones

    En una encuesta realizada a 1.000 barceloneses, 350 de los encuestados manifestabanpracticar alguna actividad deportiva. Podemos considerar que una tercera parte de losbarceloneses practica alguna actividad deportiva contra que sean menos de una terceraparte los que practican actividades deportivas, con un nivel de significacin de 0,1?Fijaos en que queremos hacer el contraste siguiente:

    H0: p 0,33 contra H1: p 0,33ya que en la hiptesis alternativa nos interesa verificar slo si la proporcin que practicauna actividad deportiva es inferior al 33%.

    Calculemos ahora el error estndar de la proporcin:

    Puesto que la frecuencia observada es sta:

    Por tanto, en el caso de las proporciones, el estadstico de contraste es

    ste:

    que sigue una distribucin normal estndar bajo la hiptesis nula.

    p

    n

    ------- po 1 p0 n

    -------------------------=

    p pop0 1 p0

    n-------------------------

    ------------------------------ n p p0 p0 1 p0

    -----------------------------=

    p p0p0 1 p0

    n-------------------------

    ------------------------------

    Observad el clculo del p-valor efectuado en el apartado 1.1 de esta sesin.

    0,33 1 0,33 1.000

    --------------------------------------- 0,0149=

    p 3501.000--------------- 0,35==

  • FUOC P08/75057/02308 24 Contraste de hiptesis

    el valor del estadstico de contraste observado es ste:

    Y si Z es una normal estndar, el p-valor correspondiente es ste:

    P(Z 1,345) 1 P(Z 1,345) 1 0,0901 0,9099Dado que este valor es mayor que , podemos aceptar la hiptesis nula y decir que unatercera parte de los barceloneses practica alguna actividad deportiva.

    3. Resumen

    En esta sesin hemos aprendido a hacer contrastes de hiptesis para la media

    y para proporciones. Para la media hemos distinguido segn si los datos pro-

    vienen o no de una distribucin normal y segn si conocemos el valor de la va-

    rianza poblacional o no.

    p p0p0 1 p0

    n-------------------------

    ------------------------------ 0,35 0,330,0148

    ------------------------------- 1,345==

  • FUOC P08/75057/02308 25 Contraste de hiptesis

    Ejercicios

    1. Para estudiar los dimetros de unos ejes cogemos una muestra de tamao

    100. La media muestral obtenida es de 38 y la varianza muestral, 4. Podemos

    decir con un nivel de significacin del 0,05 que la media de los dimetros de los

    ejes es de 40?

    2. Las calificaciones de los exmenes de estadstica y de lgebra de un grupo

    de estudiantes matriculados en las dos asignaturas han sido stas:

    Estudios de los resultados de semestres anteriores han demostrado que las no-

    tas siguen una distribucin normal.

    a) Contrastad la hiptesis nula de que la media de las notas de estadstica

    sea 5,5 contra que sea menor que 5,5.

    b) Contrastad la hiptesis nula de que las notas de estadstica y de lgebra ten-

    gan la misma media contra que sean diferentes.

    3. Compramos una mquina que fabrica chips que, segn el fabricante, como

    mximo fabrica un 1% de chips defectuosos. Despus de fabricar 300 chips,

    los revisamos y descubrimos que hay cinco defectuosos. Contrastad si pode-

    mos decir que el porcentaje de chips defectuosos es, como mucho, del 1% con

    un nivel de significacin 0,1.

    Solucionario

    1. Queremos hacer el contraste siguiente:

    H0: 40 contra H1: 40

    En principio, no sabemos si los datos provienen de una distribucin normal,

    pero como que la muestra es bastante grande ( 30), podemos hacer un contras-te. El error estndar de la media es ste:

    Estudiante Estadstica lgebra

    1 7,6 7,1

    2 4,8 3,0

    3 5,1 4,2

    4 7,5 5,2

    5 4,3 4,8

    6 4,1 3,6

    7 5,5 3,9

    8 8,3 1,1

    9 6,9 5,8

  • FUOC P08/75057/02308 26 Contraste de hiptesis

    y, por tanto, el estadstico de contraste vale:

    El p-valor correspondiente para nuestro contraste bilateral es (Z indica una

    normal estndar):

    P(|Z| 10) 2P(Z 10) 0,000

    de manera que debemos rechazar la hiptesis nula, es decir, estamos seguros

    de que la media no es 40.W

    2.

    a) En este caso consideramos el contraste siguiente:

    H0: 5,5 contra H1: 5,5

    A partir de los datos calculamos la media y la varianza muestral:

    ;

    As, el error estndar es ste:

    y el estadstico de contraste:

    Los datos provenan de una distribucin normal y la varianza es desconocida;

    por tanto, bajo la hiptesis nula, el estadstico de contraste corresponde a una

    distribucin t de Student con 8 grados de libertad. As, el p-valor es ste:

    P(t8 0,971) 0,82

    Por tanto, debemos aceptar la hiptesis nula.

    2100

    -------------- 0,2=

    z x 0

    sn

    --------------------- 38 40

    0,2------------------- 10===

    x 1n--- xi 6,01=

    i 1=

    n

    = s 1n 1------------ xi x 2i 1=

    n

    1,57==

    sn

    ------- 1,57 19--- 0,525==

    x 0sn

    --------------------- 6,01 5,5

    0,525--------------------------- 0,971==

  • FUOC P08/75057/02308 27 Contraste de hiptesis

    b) Dado que tenemos datos aparejados, primero de todo calculamos las dife-

    rencias:

    A partir de aqu podemos hacer un contraste como el del apartado a, teniendo

    en cuenta que ahora queremos hacer el contraste siguiente:

    H0: 0 contra H1: 0

    Calculamos la media y la desviacin tpica muestral:

    El error estndar es el siguiente:

    y el estadstico de contraste:

    Como en el apartado a, el estadstico de contraste corresponde a una distri-

    bucin t de Student con 8 grados de libertad. Ahora el p-valor es ste:

    P(|t8| > 2,34) = 2(1 P(t8 2,34)) 2(1 0,9763) 0,0474

    Por tanto, con un nivel de significacin de 0,05, debemos rechazar la hiptesis

    nula y, en consecuencia, podemos asegurar que las medias son diferentes. En

    cambio, si cogiramos un nivel de 0,01, deberamos aceptarla, es decir, con este

    nivel todava no tenemos suficientes evidencias para decir que las dos medias

    son diferentes.

    Estudiante Estadstica lgebra Diferencia

    1 7,6 7,1 0,5

    2 4,8 3,0 1,8

    3 5,1 4,2 0,9

    4 7,5 5,2 2,3

    5 4,3 4,8 0,56 4,1 3,6 0,5

    7 5,5 3,9 1,6

    8 8,3 1,1 7,2

    9 6,9 5,8 1,1

    x 1,71= s 2,21=

    sn

    ------- 2,21 19--- 0,73==

    x 0sn

    --------------------- 1,71

    0,73------------ 2,34==

  • FUOC P08/75057/02308 28 Contraste de hiptesis

    3. Queremos hacer un contraste para una proporcin con una muestra bas-

    tante grande. Si llamamos p a la proporcin de chips defectuosos, planteamos

    el contraste siguiente:

    H0: p 0,01 contra H1: p 0,01

    Ahora calculamos el error estndar:

    Dado que la proporcin poblacional es sta:

    el valor observado del estadstico de contraste es el siguiente:

    Y si Z es una normal estndar, el p-valor correspondiente es ste:

    P(Z 1,1754) 1 P(Z 1,1754) 1 0,8801 = 0,1199

    Por tanto, puesto que es mayor que , podemos aceptar la hiptesis nula y de-cir que la proporcin de chips defectuosos es del 1%.

    0,01 1 0,01 300

    --------------------------------------- 0,0057=

    p 5300---------- 0,0167==

    p p0p0 1 p0

    n-------------------------

    ------------------------------ 0,0167 0,010,0057

    ------------------------------------- 1,1754==