Upload
oescocia
View
10
Download
2
Embed Size (px)
Citation preview
Contraste de hiptesisCarles Rovira Escofet
P08/75057/02308
FUOC P08/75057/02308 Contraste de hiptesis
ndice
Sesin 1
Introduccin al contraste de hiptesis ........................................... 5
1. Hiptesis nula y alternativa ................................................................. 5
2. El nivel de significacin ....................................................................... 8
3. El concepto de estadstico de contraste ............................................... 9
4. El p-valor .............................................................................................. 11
5. Resolver un contraste de hiptesis ...................................................... 12
6. Relacin con los intervalos de confianza ............................................ 12
7. Resumen ............................................................................................... 13
Ejercicios ................................................................................................... 14
Sesin 2
Contrastes sobre la media y sobre la proporcin ......................... 17
1. Contrastes sobre la media .................................................................... 17
1.1. Caso de la varianza conocida ....................................................... 17
1.2. Caso de la varianza desconocida .................................................. 18
1.3. Caso con muestras no normales ................................................... 20
1.4. Datos aparejados ........................................................................... 21
2. Contrastes sobre la proporcin (muestras grandes) ............................ 22
3. Resumen ............................................................................................... 24
Ejercicios ................................................................................................... 25
FUOC P08/75057/02308 5 Contraste de hiptesis
Introduccin al contraste de hiptesis
En esta sesin presentamos una nueva tcnica estadstica: el contraste de hi-
ptesis. Primero veremos algunas situaciones en las que podemos utilizarla.
Tiramos al aire una misma moneda cien veces. En principio se trata de una
moneda normal, de manera que esperamos que nos salga aproximadamente
el mismo nmero de caras que de cruces. Esperamos, por tanto, una relacin del
orden 50-50 (50 caras, 50 cruces), o 48-52. Pero, qu sucede si la relacin que
obtenemos es del orden 45-55 o, todava ms, de 40-60? Podemos considerar
que el resultado obenido nos indica que la moneda no es perfecta? O tene-
mos que decir que el resultado es slo fruto de la casualidad?
Otro caso: imaginad que compramos una mquina que fabrica chips y que, se-
gn el fabricante, hace como mximo un 1% de defectuosos. Despus de fabri-
car trescientos chips, los revisamos y descubrimos que hay cinco defectuosos
(segn el fabricante deberan haber sido tres). Este aumento del nmero de chips
defectuosos indica que la mquina no funciona bien, o podemos pensar que
slo es casualidad?
Una ltima situacin. Un estudio afirma que la media de las alturas de los chi-
cos catalanes de 17 aos es de 178 cm. Visitamos un instituto y escogemos a
diez chicos al azar; su altura media es de 171 cm. Podemos pensar que los mu-
chachos de este instituto tienen una altura diferente de la del conjunto de chi-
cos de Catalua?
Fijaos en que las tres situaciones anteriores son similares. En los tres casos supo-
nemos cierta hiptesis y debemos decidir, a partir de nuestras observaciones, si
tenemos suficientes evidencias para poder rechazarla. Cmo lo haremos? Uti-
lizaremos probabilidades.
1. Hiptesis nula y alternativa
El primer paso cuando queremos estudiar este tipo de problema es determinar
bien las hiptesis. Es preciso que determinemos dos, ya que la resolucin del
problema consistir, en cierta medida, en escoger una entre estas dos.
La hiptesis nula, que indicaremos por H0, es la hiptesis de partida.
Debe recoger el hecho que queramos someter a prueba.
La hiptesis alternativa es la que, como su nombre indica, ofrecemos
como alternativa a la nula. Esta hiptesis, que denotamos por H1, repre-
senta que se ha producido un cambio con respecto a la situacin descri-
ta por la hiptesis nula.
Test o contraste son dos maneras de llamar a la misma tcnica.
Importancia del test
El test ser la herramienta que nos permitir extraer conclu-siones a partir de la diferencia entre las observaciones y losresultados que se deberan obtener si la hiptesis de par-tida fuese cierta.
FUOC P08/75057/02308 6 Contraste de hiptesis
Para poder plantear correctamente las hiptesis, deberemos entender bien la
estructura estadstica que se encuentra tras los datos y, por tanto, deberemos
conocer qu distribucin siguen. Las hiptesis se expresarn normalmente en
trminos de algn parmetro de la distribucin de los datos que estudiamos.
Volvamos al ejemplo de las alturas, pero ahora aadamos un poco ms de in-
formacin. Sabemos, por ejemplo, que la variable altura sigue una distribu-
cin normal. Por tanto, una altura es una observacin de una variable N(,2).Supondremos tambin que es conocida y es igual a 3. Entonces, cuando de-cimos que los chicos de 17 aos tienen una altura media de 178 cm, en reali-
dad proponemos que la hiptesis nula expresada en trminos del parmetro es sta:
H0: 178
Para detectar si las alturas no siguen esta media, debemos coger como hipte-
sis alternativa:
H1: 178 (hiptesis bilateral)
Pero si quisiramos detectar si los chicos son ms altos de 178 cm, la hiptesis
alternativa debera ser sta:
H1: 178 (hiptesis unilateral)
Mientras que si quisiramos detectar si son ms bajos de 178 cm, debera ser:
H1: 178 (hiptesis unilateral)
Ejemplo de la moneda
Consideremos el ejemplo de lanzar una moneda y ver si es perfecta. Podemos representar ellanzamiento de una moneda por una variable de Bernoulli de parmetro p, B(p), donde p in-dica la probabilidad de sacar una cara.
Si queremos contrastar el hecho de que la moneda sea perfecta con respecto a que no losea, la hiptesis nula H0 corresponde a la moneda es perfecta, y la hiptesis alternativa H1,a la moneda no es perfecta, que se puede representar en trminos del parmetro p de la ma-nera siguiente:
Fijaos en que cogemos como hiptesis nula el supuesto la moneda es perfecta, que esla situacin habitual; la hiptesis alternativa es la que indica que ha habido cambios.
La hiptesis alternativa puede ser bilateral, si el parmetro es diferente
del valor correspondiente a la hiptesis nula, o unilateral, si slo lo
compara en una direccin.
Observacin
Con la misma hiptesis nula podemos estudiar varias hi-ptesis alternativas.
Observad que...
... las hiptesis se expresan en trminos del parmetro de los datos que utilizan.
H0: p 12--- , contra H1: p
12---=
FUOC P08/75057/02308 7 Contraste de hiptesis
Observad que podramos plantear el caso de manera que la hiptesis nula correspon-diera a la moneda es perfecta y la alternativa, a la probabilidad de cara es ms altaque la de cruz. Si lo escribimos en funcin del parmetro, resulta:
Tenemos la misma hiptesis nula, pero la hiptesis alternativa es diferente. Fijaos en que elprimer caso era una alternativa bilateral, mientras que en el segundo es unilateral.
Una vez planteadas las hiptesis nula y alternativa, debemos tomar una deci-
sin a partir de las observaciones. Por otro lado, existen dos decisiones posibles:
1) Aceptar la hiptesis nula
2) Rechazar la hiptesis nula
Por otro lado, hay dos situaciones posibles:
a) La hiptesis nula es cierta
b) La hiptesis nula es falsa
Esto hace que podamos cometer dos clases de errores diferentes: podemos
aceptar la hiptesis nula cuando sta es falsa o podemos rechazar la hiptesis
nula cuando es cierta, tal como se ve en la tabla siguiente:
Podemos medir estos errores con la probabilidad de que se den las situaciones
respectivas.
Ahora necesitamos una regla de decisin que nos permita determinar si debe-
mos aceptar o rechazar la hiptesis nula a partir de las observaciones. Puesto que
podemos cometer dos tipos de errores diferentes, nos interesara tomar la deci-
sin de que minimizara los dos. Como siempre, la solucin de este problema no
es fcil. Normalmente, la experiencia nos ensea que cuando establecemos una
regla de decisin que reduce mucho uno de los errores, el otro aumenta.
Decisiones
Aceptar H0 Rechazar H0
SituacionesH0 cierta Decisin correcta Error de tipo I
H0 falsa Error de tipo II Decisin correcta
As, podemos considerar los errores siguientes:
El error de tipo I es la probabilidad de que rechacemos la hiptesis
nula cuando sta es cierta.
El error de tipo II es la probabilidad de que aceptemos la hiptesis
nula cuando sta es falsa.
H0: p 12--- , contra H1: p
12---=
Importancia de las observaciones
Segn el conjunto de obser-vaciones concreto, decidire-mos rechazar o aceptarla hiptesis nula.
FUOC P08/75057/02308 8 Contraste de hiptesis
Dado que no podemos hacer pequeos los dos errores al mismo tiempo, utiliza-
remos la siguiente estrategia: buscaremos reglas de decisin que nos permitan te-
ner limitado el error de primer tipo, es decir, el error que cometemos cuando
decidimos rechazar la hiptesis nula y sta es cierta. Esta estrategia es conservado-
ra, tendemos a no rechazar la hiptesis nula excepto si los resultados son muy
poco probables con sta.
Una buena forma de hacer pequeos los dos errores y, por tanto, de mejorar
nuestros resultados, es aumentar el tamao de las muestras que utilizamos.
2. El nivel de significacin
Determinar el nivel de significacin que hay que fijar cuando se comienza el
estudio no es un problema estrictamente matemtico, ya que depende de cada
caso particular. Se suele utilizar el valor estndar de 0,05. Otros niveles uti-lizados son del orden de 0,1, de 0,01 o incluso de 0,001 (si queremos aumentar
la precisin).
A la hora de escoger el nivel de significacin, recordemos que el error de tipo
I (rechazar H0 cuando sta es cierta) indica que detectamos un cambio con res-
pecto a la hiptesis nula, cuando en realidad dicho cambio no existe. Por tan-
to, podemos tener en cuenta las consideraciones siguientes:
Si detectar este cambio que en realidad no existe y slo es consecuencia
del carcter aleatorio de los datos no es demasiado grave, entonces pode-
mos escoger un nivel de significacin alto (por ejemplo, del orden de 0,1).
Si detectar este cambio que en realidad no existe es un error grave, en-
tonces debemos fijar un nivel de significacin pequeo.
Sin embargo, hay que ir con cuidado. Cuanto menor sea el valor de que fijemos,ms tendencia tendremos a aceptar la hiptesis nula. El caso extremo sera fijar
un nivel de significacin 0. En este caso aceptaremos siempre la hiptesis nula, de
manera que nunca se dar el error de tipo I, pero est claro que si tenemos que
aceptar siempre, el estudio que hemos llevado a cabo no nos aporta nada nuevo.
El hecho de tener acotado el error de tipo I hace que nuestros contrastes sean
conservadores y tiendan a aceptar la hiptesis nula, a menos que haya eviden-
cias muy claras de que tenemos que rechazarla.
El nivel de significacin de un contraste es el error mximo de tipo Ique estamos dispuestos a asumir.
Cuando aceptamos la hiptesis nula, no estamos seguros de que sea real-
mente cierta, ya que no controlamos el error de tipo II (el error que co-
metemos cuando aceptamos la hiptesis nula y sta es falsa).
Orgenes de la estrategia
La estrategia de decisin que utilizamos aqu se basa enlos resultados de Neyman y Pearson, dos importantes matemticos del siglo XX.
Sentido del nivel de significacin...
... de un contraste. Un nivel = 0,05 significa que, aunque la hiptesis nula sea cierta, los datos de cinco de cada cien muestras nos harn rechazarla. Es decir, aceptamos que podemos rechazar la hip-tesis nula de forma equivocada cinco de cada cien veces.
Aceptamos o no rechazamos?
Puesto que cuando acepta-mos la hiptesis nula no estamos demasiado seguros, normalmente, en lugar de decir Aceptamos la hiptesis nula, decimos No rechaza-mos la hiptesis nula.
FUOC P08/75057/02308 9 Contraste de hiptesis
3. El concepto de estadstico de contraste
Ya tenemos fijadas las hiptesis, as como el error de tipo I que estamos dispues-
tos a asumir. Para decidir si rechazamos la hiptesis nula o no, utilizaremos el
llamado estadstico de contraste.
Veamos cmo utilizar el estadstico de contraste para decidir si rechazamos la
hiptesis nula o no. Por ejemplo, en el caso de las alturas de los chicos, sabe-
mos que si tenemos una muestra de alturas de n chicos escogidos al azar, bajo
la hiptesis nula (es decir, 178) podemos definir la variable:
Este valor es una observacin de una ley N(0,1).
Si la hiptesis nula es cierta, el valor observado z debera estar en la zona en la
que la distribucin normal estndar concentra una mayor probabilidad, es de-
cir, alrededor del cero. Si nos sale un valor muy alejado del cero, este valor ser
poco probable bajo la hiptesis nula, y nos llevar a decidir rechazarla, ya que
pensaremos que su aparicin no puede ser debida al azar, sino al hecho de que
la hiptesis nula debe de ser falsa. Ahora bien, hasta qu punto debe ser poco
probable para decidir rechazarla? Esto vendr dado por el nivel de significa-
cin fijado.
As, imaginad que hacemos el contraste H0: 178 contra H1: 178. Un va-lor del estadstico de contraste cercano a 0 es ms probable bajo H0 que bajo H1.
De este modo, utilizaremos la regla de decisin siguiente:
Aceptaremos H0 si
Rechazaremos H0 si
Cuando rechazamos la hiptesis nula, estamos seguros de que tenemos
que rechazarla porque tenemos acotado el error de tipo I (el error que
cometemos cuando rechazamos la hiptesis nula y sta es cierta).
Un estadstico de contraste es una funcin de la muestra cuya distri-
bucin conocemos bajo la hiptesis nula.
Todo problema diferente tiene su estadstico de contraste
correspondiente.
Recordad que...
... si tenemos una muestra de tamao n de una distribucin N(,2), entonces la variable:
sigue una distribucin normal estndar.
X n
--------------------
z x 1783n
--------------------------=
Ejemplo de contraste bilateral.
z z2---
z z2---
FUOC P08/75057/02308 10 Contraste de hiptesis
donde es el llamado valor crtico.
Para determinar el valor crtico z2, slo hay que imponer que el error de tipo I(probabilidad de rechazar H0 cuando es cierta) sea menor o igual que el nivel de
significacin , es decir:
donde Z es la distribucin del estadstico de contraste. En este caso, bajo la hi-
ptesis nula, sigue una distribucin normal estndar. Por ejemplo, para 0,05encontramos (por ejemplo, en las tablas de la normal) que z2 1,96.
Hagamos ahora un contraste unilateral, en particular H0: = 178 contra H1: > 178. En este caso un valor positivo del estadstico de contraste ser ms pro-
bable bajo H1 (ya que bajo la hiptesis alternativa lo ms normal es que sea
mayor que 178), mientras que los valores negativos lo sern bajo H0. En este
caso la regla de decisin ser sta:
Aceptaremos H0 si z z Rechazaremos H0 si z z
Para determinar el valor crtico z imponemos, como antes, que el error detipo I sea menor que el nivel de significacin , en este caso:
P(Z z)
donde Z es la distribucin del estadstico de contraste. Como antes, bajo la hi-
ptesis nula, est distribuido como una normal estndar. Por ejemplo, para 0,05, encontramos que z 1,65.
Zona de aceptacin de la hiptesis nula
La parte del grfico con una lnea ms gruesa corresponde a la zona en la que queremos aceptar la hiptesis nula. Fijaos en cmo influye la hi-ptesis alternativa a la hora de decidir.
z2---
Terminologa
En los contrastes bilaterales, a veces se dice que la probabili-dad de las dos colas (la parte que corresponde a la zona donde tenemos que rechazarla hiptesis nula) debe ser .P Z z
2---
P Z Z2---
P Z z2---
+=
Ejemplo de contraste unilateral
x
Validez del mtodo
El mtodo es el mismo para cualquier distribucin sim-trica, as que tambin sirve si el estadstico de contraste si-gue una distribucin t de Student.
Terminologa
En este contraste unilateral se dice que la probabilidad de la cola de la derecha debe ser .
FUOC P08/75057/02308 11 Contraste de hiptesis
De la misma manera, vemos que para el contraste H0: 178 contra H1: 178,la regla de decisin ser la siguiente:
Aceptaremos H0 si z z.
Rechazaremos H0 si z z.
Con la condicin:
P(Z z)
donde Z es, como antes, la distribucin del estadstico de contraste, que bajo la
hiptesis nula tiene una distribucin normal estndar. Para 0,05 encontramosque z 1,65
4. El p-valor
En muchos casos, para resolver un contraste de hiptesis no calcularemos el
valor crtico, sino que utilizaremos el llamado p-valor.
Cuando el p-valor sea pequeo, indicar que el valor del estadstico de con-
traste que hemos observado tena una probabilidad pequea de salir bajo la
hiptesis nula y, por tanto, deberemos rechazar la hiptesis nula. En cambio,
cuando sea grande, indicar que era un valor bastante probable bajo la hip-
tesis nula y, por tanto, es lgico que aceptemos H0.
El p-valor es la probabilidad del resultado del estadstico de contraste
observado o de uno ms alejado cuando la hiptesis nula es cierta.
Si el p-valor es inferior al nivel de significacin , rechazaremos la hip-tesis nula.
Si el p-valor es superior o igual al nivel de significacin , aceptaremosla hiptesis nula.
La ley de esta variable Z se llama ley del estadstico de contraste.
Terminologa
En este contraste unilateral se dice que la probabilidad de la cola de la izquierda debe ser .
El software estadstico ms habitual utiliza el p-valor para hacerel contraste de hiptesis.
Sentido del p-valor
El p-valor asociado a una ob-servacin del estadstico de contraste es el menor nivel de significacin que nos permite rechazar la hiptesis nula.
Validez del mtodo
El mtodo es el mismo para cualquier distribucin simtri-ca, as que tambin sirve si el estadstico de contraste sigue una distribucin t de Student, como veremos ms adelante.
FUOC P08/75057/02308 12 Contraste de hiptesis
Ejemplo de aplicacin del p-valor
En el ejemplo de las alturas, imaginad que nuestro estadstico de contraste observado es 1,61y denotamos por Z una variable aleatoria que tiene una distribucin normal estndar, que esla ley del estadstico de contraste bajo la hiptesis nula. Supongamos, adems, que hemosfijado un nivel de significacin 0,1. As:1) Si hacemos el contraste H0: 178 contra H1: 178, entonces el p-valor es (probabilidadde las dos colas):
P(Z |1,61|) P(Z 1,61) P(Z 1,61) 0,0537 0,1074 No rechazamos H0Fijaos en que para calcular el p-valor, calculamos la probabilidad de que la variable Z tomeun valor ms alejado que el valor 1,61 observado.
2) Si hacemos el contraste H0: 178 contra H1: 178, entonces el p-valor es (probabilidadde la cola de la derecha):
P(Z 1,61) 0,0537 Rechazamos H0Fijaos en que, en este caso, el valor obtenido es muy poco probable bajo la hiptesis nula. Detodos modos, si hubiramos considerado un nivel de significacin de 0,05, tendramos quehaber aceptado la hiptesis nula.
3) Si hacemos el contraste H0: 178 contra H1: 178, entonces el p-valor es (probabilidadde la cola de la izquierda):
P(Z 1,61) 0,9463 No rechazamos H0En cambio, en este caso el valor obtenido es muy probable bajo la hiptesis nula, por esola aceptamos.
Estas probabilidades en muchas oacsiones no se pueden calcular con tablas estadsticas, porlo que hay que utilizar un software estadstico.
5. Resolver un contraste de hiptesis
Podemos describir el procedimiento para plantear y resolver un contraste de
hiptesis en cinco etapas:
1) Fijar las hiptesis nula y alternativa.
2) Fijar un nivel de significacin.
3) Determinar el estadstico de contraste y su ley.
4) Calcular el p-valor asociado a nuestro estadstico de contraste calculado.
5) Comparar el p-valor con el nivel de significacin y tomar una decisin.
6. Relacin con los intervalos de confianza
Para los contrastes bilaterales, podemos hacer un contraste de hiptesis utili-
zando intervalos de confianza. Vemoslo con un ejemplo.
El peso en gramos de las manzanas de una explotacin agraria sigue una
distribucin normal de desviacin tpica 3,5. Un estudio nos dice que el
peso medio es de 155 gramos y queremos comprobar si eso es cierto. Si de-
notamos por la esperanza de la distribucin de las manzanas, queremoscontrastar:
H0: 155 contra H1: 155
Otro procedimiento
Podemos sustituir los pasos 4 y 5 del procedimiento pre-sentado para resolver un contraste de hiptesis por el clculo del valor crtico.
FUOC P08/75057/02308 13 Contraste de hiptesis
Para hacerlo, hemos cogido una muestra aleatoria de 42 manzanas y hemos
obtenido una media aritmtica de 163,8.
Primero debemos encontrar un intervalo de confianza del 95% para la media de
la distribucin. Recordad que se puede obtener a partir de la frmula siguiente:
que en nuestro caso nos da el intervalo (162,74, 164,85). Sabemos que de cada
cien muestras que consideremos, el valor autntico de la estar, como mni-mo, en noventa y cinco de los intervalos correspondientes. Por eso, si el valor que
queremos contrastar a la hiptesis nula cae dentro del intervalo, aceptaremos la
hiptesis nula.
En este caso, puesto que 155 (162,74, 164,85), debemos rechazar la hip-tesis nula.
7. Resumen
En esta sesin hemos presentado los conceptos fundamentales de una nueva
tcnica estadstica: el contraste de hiptesis. Hemos introducido los conceptos
de hiptesis nula, hiptesis alternativa, errores de tipo I y II, estadstico de
contraste, valor crtico y p-valor. Finalmente hemos visto cmo utilizar un in-
tervalo de confianza para hacer un contraste de hiptesis.
Si el valor que queremos contrastar est en el intervalo de confianza,
aceptamos la hiptesis nula, y si no est, la rechazamos.
x 1,96 n
-------
FUOC P08/75057/02308 14 Contraste de hiptesis
Ejercicios
1. Compramos una mquina que fabrica chips que, segn el fabricante, fabri-
ca como mximo un 1% de chips defectuosos. Explicad las variables aleatorias
que hay en esta situacin y discutid las posibles hiptesis que podemos estu-
diar para comprobar si las especificaciones del fabricante son ciertas.
2. Se escoge una muestra de ochenta personas y se observa que diez tienen los
ojos azules. Dad un intervalo de confianza del 95% para la proporcin de per-
sonas con los ojos azules. Contrastad si se puede afirmar que la proporcin de
personas con los ojos azules es del 7% con un nivel de significacin 0,05.
3. Tenemos una muestra de tamao 10 de una variable aleatoria con distribu-
cin normal de media desconocida y varianza 2 4. Nuestras observacionesson stas:
11,57 10,57 11,32 12,30 10,36
12,00 10,29 11,48 8,74 10,03
Contrastad, con nivel de significacin de 0,1, las hiptesis siguientes:
a) H0: 11 contra H1: 11b) H0: 11 contra H1: 11c) H0: 11 contra H1: 11
Solucionario
1. En realidad se trata de hacer un control de calidad para determinar si la
probabilidad de producir un chip defectuoso es inferior a 0,01. Consideremos
un modelo en el que para cada chip tenemos una variable Xi con ley de Ber-
noulli de parmetro p desconocido, que toma el valor 1 cuando el chip es de-
fectuoso, y el valor 0 cuando no lo es. Podemos considerar varios contrastes:
a) H0: p 0,01 contra H1: p 0,01
En este caso la hiptesis alternativa H1 nos dice que la proporcin de chips de-
fectuosos no es del 1%. Si rechazamos la hiptesis nula, no sabremos si lo ha-
cemos porque la proporcin es mayor o menor. Es decir, podramos rechazar
una mquina que no hiciera ninguna pieza defectuosa. Este contraste no nos
interesa.
b) H0: p 0,01 contra H1: p 0,01
En este caso la hiptesis alternativa H1 nos dice que la proporcin de chips de-
fectuosos es menor del 1%. Slo rechazaremos la hiptesis nula si la propor-
cin de chips defectuosos es claramente inferior al 1%. Este contraste nos puede
FUOC P08/75057/02308 15 Contraste de hiptesis
interesar si slo queremos una mquina de la que estemos muy seguros de que
su produccin ser muy buena. Entonces nos quedaremos la mquina cuando
rechacemos la hiptesis nula. Pero est el problema de que el test tiene tenden-
cia a aceptar la hiptesis nula, de manera que cabe la posibilidad de que recha-
cemos mquinas que satisfacen las especificaciones del fabricante.
c) H0: p 0,01 contra H1: p 0,01
En este caso la hiptesis alternativa H1 nos dice que la proporcin de chips de-
fectuosos es mayor del 1%. Slo rechazaremos la hiptesis nula si la proporcin
de chips defectuosos es claramente superior al 1%. Es muy posible que nos que-
demos con una mquina con una produccin de chips defectuosos superior a la
especificada.
2. El intervalo de confianza al 95% sobre una proporcin p se calcula a partir
de la expresin siguiente:
Puesto que 10/80 0,125 y n 80, obtenemos el intervalo (0,053, 0,197).Queremos hacer el contraste:
H0: p 0,07 contra H1: p 0,07
Dado que 0,07 (0,053, 0,197), aceptaremos la hiptesis nula.
3. De la misma manera que en el ejemplo de las alturas, cogeremos el estadstico
de contraste siguiente:
Bajo la hiptesis nula, este estadstico corresponde a una observacin de
una ley N(0,1). En nuestro caso podemos calcular:
de manera que el estadstico de contraste es ste:
a) Para el contraste H0: 11 contra H1: 11 (es bilateral), calculamos losvalores crticos z/2, de manera que:
P(|Z| z/2) P(Z < z/2) + P(Z > z/2) = 0,1
p z0,025 p 1 p n
--------------------
p
z x 112n
-----------------------=
x 10,866=
z x 112n
----------------------- 0,21==
FUOC P08/75057/02308 16 Contraste de hiptesis
Y teniendo presente la simetra de la distribucin normal:
P(Z > z/2) = 0,05
donde Z corresponde a una distribucin normal estndar. Encontramos que
z/2 1,65. Por tanto, debemos aceptar la hiptesis nula.
Por otro lado, si calculamos el p-valor, debemos buscar la probabilidad de las
dos colas:
P(|Z| 0,21) 2P(Z 0,21) 2 0,4168 0,8336 >
y debemos aceptar la hiptesis nula.
b) Para H0: 11 contra H1: 11 (unilateral), el valor crtico satisface:
P(Z z) 0,1
es decir, que z 1,28. La regla de decisin es:
Aceptaremos H0 si z z Rechazaremos H0 si z z
Por tanto, en este caso aceptaremos la hiptesis nula.
Si calculamos el p-valor, debemos buscar la probabilidad de la cola de la derecha:
P(Z 0,21) P(Z 0,21) 0,5832
y debemos aceptar la hiptesis nula.
c) En el caso H0: 11 contra H1: 11 (unilateral), el valor crtico satisfar:
P(Z z) 0,1
encontramos que z 1,28. La regla de decisin es sta:
Aceptaremos H0 si z z Rechazaremos H0 si z z
Por tanto, tambin aceptaremos la hiptesis nula.
Y calculamos el p-valor correspondiente. La probabilidad de la cola de la iz-
quierda es la siguiente:
P(Z 0,21) 0,4168
de manera que debemos aceptar la hiptesis nula.
FUOC P08/75057/02308 17 Contraste de hiptesis
Contrastes sobre la media y sobre la proporcin
En esta sesin estudiaremos cmo llevar a cabo un contraste de hiptesis, pri-
mero sobre medias de poblaciones y despus sobre proporciones.
El paso fundamental para hacer un contraste de hiptesis es determinar el es-
tadstico de contraste. Sabemos que si tenemos una muestra lo bastante gran-
de de una variable aleatoria con esperanza k, entonces un estadstico del tipo:
es una observacin de una distribucin normal estndar. Tambin sabemos
que en muestras pequeas, si las observaciones provienen de una distribucin
normal, este estadstico sigue o bien una distribucin normal estndar (si la
varianza es conocida) o bien una t de Student (si la varianza es desconocida).
Veamos cmo utilizar estos estadsticos para hacer contrastes.
1. Contrastes sobre la media
Dada una muestra x1, ..., xn que proviene de una distribucin normal N(,2),supongamos que queremos hacer un contraste sobre el valor de la media .
El paso siguiente consiste en determinar el estadstico de contraste. Distingui-
remos dos casos, segn si conocemos la varianza 2 o no la conocemos.
1.1. Caso de la varianza conocida
Si la varianza es conocida, el error estndar de la media se puede calcular como
.
La hiptesis nula ser del tipo:
H0: = 0donde 0 es una constante fijada. Podemos tener dos tipos de hiptesisalternativas:
H1: 0 (bilateral) H1: 0 o H1: 0 (unilateral)
Una proporcin se puede ver como la media en una poblacin
binaria.
Media muestral kError estndard de la media----------------------------------------------------------------------------
Atencin
En esta sesin, para resolver un contraste, buscaremos el p-valor y no calcularemosel valor crtico. Sin embargo, pensad que podemos resolver los contrastes de las dos for-mas.
En una situacin real difcilmente conoceremos la varianza.
n
-------
FUOC P08/75057/02308 18 Contraste de hiptesis
La variable:
bajo la hiptesis nula sigue una distribucin normal estndar.
Una vez calculado el valor observado del estadstico de contraste, debemos de-
terminar el p-valor. Como ya hemos visto, ste depende de la hiptesis alter-
nativa:
Si H1: 0, entonces (probabilidad de las dos colas):
p P(|Z| |z|) P(Z |z|) P(Z |z|)
Si H1: 0, entonces (probabilidad de la cola de la izquierda):
p P(Z z)
Si H1: 0, entonces (probabilidad de la cola de la derecha):
p P(Z z)
donde recordemos que Z corresponde a una ley normal estndar.
1.2. Caso de la varianza desconocida
Si la varianza es desconocida, para determinar el error estndar de la media,
aproximamos la desviacin estndar por la desviacin estndar muestral:
En este caso, bajo la hiptesis nula, la variable:
Por tanto, para hacer contrastes sobre la media con conocida, el esta-dstico de contraste es ste:
que se corresponde, bajo la hiptesis nula, con una observacin de una
distribucin normal estndar.
Z X 0
n
-----------------------
n X 0 -----------------------------==
z x 0n
---------------------=
s 1n 1------------ xi x 2
i 1=
n
=
X 0sn
-----------------------
n X 0 s
-----------------------------=
FUOC P08/75057/02308 19 Contraste de hiptesis
sigue una ley t de Student con n 1 grados de libertad.
Como antes, el ltimo paso es el clculo del p-valor asociado a nuestro valor
observado del estadstico de contraste. En este caso:
Si H1: 0, entonces (probabilidad de las dos colas):
p P(|tn1| |t|) P(tn1 |t|) P(tn1 |t|)
Si H1: 0, entonces (probabilidad de la cola de la izquierda):
p P(tn1 t)
Si H1: 0, entonces (probabilidad de la cola de la derecha):
p P(tn1 t)
donde recordemos que tn1 sigue una ley t de Student con n 1 grados de li-bertad.
Ejemplo de contraste sobre la media en caso de varianza desconocida
Se mide el ancho de una muestra aleatoria de 64 maderas y se obtiene una media de 35,02y una desviacin estndar muestral de 0,1224. Supongamos que sabemos que el anchode las maderas sigue una distribucin normal. Queremos contrastar la hiptesis de quela media verdadera es 35 con un nivel de significacin de 0,05.
En este caso consideramos las hiptesis siguientes:
H0: 35 contra H1: 35
Dado que la varianza es desconocida, el error estndar es:
y el estadstico de contraste es:
Por tanto, para hacer contrastes sobre la media con desconocida, el es-tadstico de contraste es ste:
que se corresponde, bajo la hiptesis nula, a una observacin de una
t de Student con n 1 grados de libertad.
t x 0
sn
---------------------=
sn
------- 0,1224 164------ 0,0153==
x 0sn
--------------------- 35,02 35
0,0153---------------------------- 1,307==
FUOC P08/75057/02308 20 Contraste de hiptesis
Dado que corresponde a una distribucin t de Student con 63 grados de libertad y la hi-ptesis alternativa es bilateral, el p-valor es (utilizando el software estadstico):
P(|t63| 1,307) 2(1 P(t63 1,307)) 2(1 0,9020) 0,1960
Por tanto, debemos aceptar la hiptesis nula, lo que significa que con los datos que tenemosno podemos afirmar que la media no sea 35.
Si quisiramos resolver el contraste utilizando el valor crtico, deberamos determinar unvalor z2 tal que:
Si buscamos este valor obtenemos (para calcular esta probabilidad, hay que utilizar el soft-ware estadstico):
Puesto que 1,307 (1,9983; 1,9983), obtenemos tambin que debemos aceptar la hip-tesis nula.
1.3. Caso con muestras no normales
Si no sabemos si las muestras provienen de una distribucin normal, tambin
podemos hacer un contraste de hiptesis por la media, siempre que tengamos
una muestra de tamao mayor de 30, n 30 (el caso n 30 con muestras queno provienen de una ley normal no se estudia en esta sesin). Supondremos
tambin que no conocemos su varianza.
En esta situacin, por el teorema del lmite central, sabemos que podemos
aproximar la variable:
a una distribucin N(0,1). A partir de aqu podemos acabar el test como en el
caso del contraste sobre la media con varianza conocida.
Ejemplo de contraste sobre la media con muestras no normales
En un laboratorio se mide el tiempo de vida (tiempo de funcionamiento hasta que se es-tropea) de un tipo de bombillas. El experimento se repite 300 veces y se obtiene una me-dia muestral de 5,14 y una desviacin tpica muestral de 0,25 (las unidades son semanas).Hacemos el contraste:
Sabemos que los tiempos de vida normalment e no siguen una distribucin normal por-que sus valores se ajustan mejor a una exponencial. De todos modos, puesto que tenemosuna muestra lo bastante grande, podemos aplicar el tipo de contraste expuesto. El errorestndar de la media es ste:
y el estadstico de contraste:
P t63 z2---
0,05=
z2--- 1,9983=
X 0sn
-----------------------
n X 0 s
-----------------------------=
Observad el contraste sobre la media en el caso de la varianza conocida en el apartado 1.1 de esta sesin.
H0: 5 contra H1: 5=
sn
------- 0,25 1300---------- 0,0144==
FUOC P08/75057/02308 21 Contraste de hiptesis
que sigue una normal estndar. Tenemos una hiptesis bilateral, as que el p-valor es:
P(|Z| 9,722) 2P(Z 9,722) 0,000y debemos rechazar la hiptesis nula, lo que significa que estamos seguros de que el tiempo devida esperado no es 5, sea cual sea el nivel de significacin escogido 0,1, 0,05 o, incluso, 0,001.
1.4. Datos aparejados
Todos los contrastes que hemos visto hasta ahora se han planteado utilizando
slo una muestra. Podemos utilizar tambin estas mismas tcnicas cuando te-
nemos dos muestras con datos aparejados.
Imaginad que queremos estudiar si un rato de relajacin ayuda a mejorar la pro-
ductividad de los trabajadores. Podemos hacer este estudio de dos maneras:
1) Podemos coger una muestra de trabajadores que han hecho relajacin y
una muestra de trabajadores que no la han hecho y comparar la productividad
de los dos grupos (datos no aparejados).
2) Podemos coger un nico grupo de trabajadores, medir su productividad sin
haber hecho relajacin y volver a medirla al cabo de algunos das, durante los
cuales s han hecho ejercicios de relajacin diarios. Entonces podemos estu-
diar la variacin de la productividad (datos aparejados).
Fijaos en que en el segundo caso utilizamos a los mismos individuos para ob-
tener las dos muestras, de manera que si observamos la diferencia individuo a
individuo, podemos pasar a estudiar una nica muestra, que ser el incremento
de la productividad.
Ahora podemos aplicar los contrastes vistos en los subapartados anteriores a
la diferencia de las dos muestras.
Ejemplo de contraste con datos aparejados
Despus de un tratamiento de seis meses, la bilirrubina total de cuatro enfermos present lavariacin siguiente (medidas en mg/ml):
Una muestra de datos aparejados es un conjunto de observaciones de
dos variables diferentes observadas en los mismos individuos, de mane-
ra que por cada individuo tenemos dos observaciones.
Inicial Final
Individuo 1 2,3 2,2
Individuo 2 2,0 1,9
Individuo 3 1,8 1,8
Individuo 4 2,8 2,4
x 0sn
--------------------- 5,14 5
0,0144--------------------- 9,722==
Datos aparejadosde muestras normales
Si los datos aparejados pro-vienen de muestras normales, al hacer la diferencia volve-mos a obtener datos que pro-vienen de una ley normal.
Ventaja de los datosaparejados
Los datos aparejados presen-tan la ventaja de que eliminan la variabilidad a causa del he-cho de utilizar individuos di-ferentes en las dos muestras.
FUOC P08/75057/02308 22 Contraste de hiptesis
Suponemos normalidad y queremos estudiar con un nivel de significacin 0,01 si sepuede aceptar que la bilirrubina ha disminuido a causa de este tratamiento. Puesto quese trata de pruebas que se han hecho sobre los mismos enfermos, podemos decir que setrata de muestras aparejadas.
Primero convertimos los datos de las dos muestras en los de una sola, resultado de la di-ferencia:
Para estos datos calculamos 0,15 y s 0,1732. Formulamos las hiptesis de contraste:consideraremos que la hiptesis nula es aquella en la que no ha habido una disminucin dela bilirrubina, mientras que la alternativa considera que s que la ha habido (as, si rechaza-mos la hiptesis nula, estaremos bastante seguros de que el tratamiento hace disminuir la bi-lirrubina). Por tanto, tenemos el contraste siguiente:
H0: 0 contra H1: 0Puesto que la varianza es desconocida, el error estndar de la media es ste:
y el estadstico de contraste:
Dado que corresponde a una distribucin t de Student con tres grados de libertad (el ta-mao de la muestra es 4) y la hiptesis alternativa es unilateral, el p-valor es el siguiente:
P(t3 1,732) 1 P(t3 1,732) 1 0,9092 0,0908Por tanto, debemos aceptar la hiptesis nula, lo que significa que con los datos que tene-mos no podemos afirmar que el tratamiento haga disminuir la bilirrubina.
2. Contrastes sobre la proporcin (muestras grandes)
Consideremos ahora que tenemos una muestra x1, ..., xn, que proviene de una
distribucin de Bernoulli de parmetro p y queremos hacer un contraste sobre
el parmetro. Necesitaremos tambin que el tamao de la muestra sea lo bastan-
te grande, como mnimo n 30.
Diferencia
0,1
0,1
0
0,4
La hiptesis nula ser del tipo:
H0: p p0donde p0 es una constante fijada. Podemos tener dos tipos de hiptesis
alternativa:
H1: p p0 (bilateral) H1: p p0 o H1: p p0 (unilateral)
x
sn
------- 0,1732 14--- 0,0866==
x 0sn
--------------------- 0,15
0,0866------------------- 1,732==
El parmetro p
Recordad que muchas veces p indica la probabilidad de xi-to en un experimento.
FUOC P08/75057/02308 23 Contraste de hiptesis
Una vez establecidas las hiptesis, hay que determinar el estadstico de con-
traste.
En este caso la media muestral corresponde a la frecuencia, que indicamos por
. Puesto que la varianza de una distribucin de Bernoulli de parmetro p0 es
p0(1 p0), el error estndar de la media se puede calcular a partir de la expre-sin siguiente:
Por el teorema del lmite central, el estadstico:
se puede aproximar por una distribucin normal estndar.
El clculo del p-valor se efecta a partir de aqu igual como se ha discutido
en el caso de la varianza conocida.
Ejemplo de clculo del p-valor sobre proporciones
En una encuesta realizada a 1.000 barceloneses, 350 de los encuestados manifestabanpracticar alguna actividad deportiva. Podemos considerar que una tercera parte de losbarceloneses practica alguna actividad deportiva contra que sean menos de una terceraparte los que practican actividades deportivas, con un nivel de significacin de 0,1?Fijaos en que queremos hacer el contraste siguiente:
H0: p 0,33 contra H1: p 0,33ya que en la hiptesis alternativa nos interesa verificar slo si la proporcin que practicauna actividad deportiva es inferior al 33%.
Calculemos ahora el error estndar de la proporcin:
Puesto que la frecuencia observada es sta:
Por tanto, en el caso de las proporciones, el estadstico de contraste es
ste:
que sigue una distribucin normal estndar bajo la hiptesis nula.
p
n
------- po 1 p0 n
-------------------------=
p pop0 1 p0
n-------------------------
------------------------------ n p p0 p0 1 p0
-----------------------------=
p p0p0 1 p0
n-------------------------
------------------------------
Observad el clculo del p-valor efectuado en el apartado 1.1 de esta sesin.
0,33 1 0,33 1.000
--------------------------------------- 0,0149=
p 3501.000--------------- 0,35==
FUOC P08/75057/02308 24 Contraste de hiptesis
el valor del estadstico de contraste observado es ste:
Y si Z es una normal estndar, el p-valor correspondiente es ste:
P(Z 1,345) 1 P(Z 1,345) 1 0,0901 0,9099Dado que este valor es mayor que , podemos aceptar la hiptesis nula y decir que unatercera parte de los barceloneses practica alguna actividad deportiva.
3. Resumen
En esta sesin hemos aprendido a hacer contrastes de hiptesis para la media
y para proporciones. Para la media hemos distinguido segn si los datos pro-
vienen o no de una distribucin normal y segn si conocemos el valor de la va-
rianza poblacional o no.
p p0p0 1 p0
n-------------------------
------------------------------ 0,35 0,330,0148
------------------------------- 1,345==
FUOC P08/75057/02308 25 Contraste de hiptesis
Ejercicios
1. Para estudiar los dimetros de unos ejes cogemos una muestra de tamao
100. La media muestral obtenida es de 38 y la varianza muestral, 4. Podemos
decir con un nivel de significacin del 0,05 que la media de los dimetros de los
ejes es de 40?
2. Las calificaciones de los exmenes de estadstica y de lgebra de un grupo
de estudiantes matriculados en las dos asignaturas han sido stas:
Estudios de los resultados de semestres anteriores han demostrado que las no-
tas siguen una distribucin normal.
a) Contrastad la hiptesis nula de que la media de las notas de estadstica
sea 5,5 contra que sea menor que 5,5.
b) Contrastad la hiptesis nula de que las notas de estadstica y de lgebra ten-
gan la misma media contra que sean diferentes.
3. Compramos una mquina que fabrica chips que, segn el fabricante, como
mximo fabrica un 1% de chips defectuosos. Despus de fabricar 300 chips,
los revisamos y descubrimos que hay cinco defectuosos. Contrastad si pode-
mos decir que el porcentaje de chips defectuosos es, como mucho, del 1% con
un nivel de significacin 0,1.
Solucionario
1. Queremos hacer el contraste siguiente:
H0: 40 contra H1: 40
En principio, no sabemos si los datos provienen de una distribucin normal,
pero como que la muestra es bastante grande ( 30), podemos hacer un contras-te. El error estndar de la media es ste:
Estudiante Estadstica lgebra
1 7,6 7,1
2 4,8 3,0
3 5,1 4,2
4 7,5 5,2
5 4,3 4,8
6 4,1 3,6
7 5,5 3,9
8 8,3 1,1
9 6,9 5,8
FUOC P08/75057/02308 26 Contraste de hiptesis
y, por tanto, el estadstico de contraste vale:
El p-valor correspondiente para nuestro contraste bilateral es (Z indica una
normal estndar):
P(|Z| 10) 2P(Z 10) 0,000
de manera que debemos rechazar la hiptesis nula, es decir, estamos seguros
de que la media no es 40.W
2.
a) En este caso consideramos el contraste siguiente:
H0: 5,5 contra H1: 5,5
A partir de los datos calculamos la media y la varianza muestral:
;
As, el error estndar es ste:
y el estadstico de contraste:
Los datos provenan de una distribucin normal y la varianza es desconocida;
por tanto, bajo la hiptesis nula, el estadstico de contraste corresponde a una
distribucin t de Student con 8 grados de libertad. As, el p-valor es ste:
P(t8 0,971) 0,82
Por tanto, debemos aceptar la hiptesis nula.
2100
-------------- 0,2=
z x 0
sn
--------------------- 38 40
0,2------------------- 10===
x 1n--- xi 6,01=
i 1=
n
= s 1n 1------------ xi x 2i 1=
n
1,57==
sn
------- 1,57 19--- 0,525==
x 0sn
--------------------- 6,01 5,5
0,525--------------------------- 0,971==
FUOC P08/75057/02308 27 Contraste de hiptesis
b) Dado que tenemos datos aparejados, primero de todo calculamos las dife-
rencias:
A partir de aqu podemos hacer un contraste como el del apartado a, teniendo
en cuenta que ahora queremos hacer el contraste siguiente:
H0: 0 contra H1: 0
Calculamos la media y la desviacin tpica muestral:
El error estndar es el siguiente:
y el estadstico de contraste:
Como en el apartado a, el estadstico de contraste corresponde a una distri-
bucin t de Student con 8 grados de libertad. Ahora el p-valor es ste:
P(|t8| > 2,34) = 2(1 P(t8 2,34)) 2(1 0,9763) 0,0474
Por tanto, con un nivel de significacin de 0,05, debemos rechazar la hiptesis
nula y, en consecuencia, podemos asegurar que las medias son diferentes. En
cambio, si cogiramos un nivel de 0,01, deberamos aceptarla, es decir, con este
nivel todava no tenemos suficientes evidencias para decir que las dos medias
son diferentes.
Estudiante Estadstica lgebra Diferencia
1 7,6 7,1 0,5
2 4,8 3,0 1,8
3 5,1 4,2 0,9
4 7,5 5,2 2,3
5 4,3 4,8 0,56 4,1 3,6 0,5
7 5,5 3,9 1,6
8 8,3 1,1 7,2
9 6,9 5,8 1,1
x 1,71= s 2,21=
sn
------- 2,21 19--- 0,73==
x 0sn
--------------------- 1,71
0,73------------ 2,34==
FUOC P08/75057/02308 28 Contraste de hiptesis
3. Queremos hacer un contraste para una proporcin con una muestra bas-
tante grande. Si llamamos p a la proporcin de chips defectuosos, planteamos
el contraste siguiente:
H0: p 0,01 contra H1: p 0,01
Ahora calculamos el error estndar:
Dado que la proporcin poblacional es sta:
el valor observado del estadstico de contraste es el siguiente:
Y si Z es una normal estndar, el p-valor correspondiente es ste:
P(Z 1,1754) 1 P(Z 1,1754) 1 0,8801 = 0,1199
Por tanto, puesto que es mayor que , podemos aceptar la hiptesis nula y de-cir que la proporcin de chips defectuosos es del 1%.
0,01 1 0,01 300
--------------------------------------- 0,0057=
p 5300---------- 0,0167==
p p0p0 1 p0
n-------------------------
------------------------------ 0,0167 0,010,0057
------------------------------------- 1,1754==