Pruebas de Hipotesis Para La Media Poblacional(8)

Marco Antonio Triana

Docente área Estadística - UAO 1

CONTRASTE DE HIPÓTESIS

Una hipótesis estadística es una afirmación respecto a alguna característica de

interés de una población bajo estudio. Contrastar una hipótesis es comparar las

predicciones con la realidad que observamos. Si dentro del margen de error que

nos permitimos admitir, hay coincidencia, aceptaremos la hipótesis y en caso

contrario la rechazaremos.

La hipótesis emitida se suele designar por Ho y se llama Hipótesis nula porque

parte del supuesto que la diferencia entre el verdadero valor del parámetro y su

valor hipotético es debida al azar, es decir no hay diferencia. La hipótesis contraria

se designa por H1 y se llama Hipótesis alternativa.

Los contrastes pueden ser unilaterales o bilaterales (también llamados de una o

dos colas) según establezcamos las hipótesis de trabajo. Si las definimos en

términos de igualdad estamos ante una hipótesis bilateral, si suponemos una

dirección (en términos de mayor o menor) estamos ante una hipótesis unilateral.

Se trata de extraer conclusiones a partir de una muestra aleatoria y

significativa, que permita aceptar o rechazar una hipótesis previamente emitida,

sobre el valor de un parámetro (alguna característica medible) desconocido de la

población bajo estudio.

Identificación de hipótesis

a) Si definimos una hipótesis de trabajo en términos de igualdad, como por

ejemplo: Supóngase que el gerente de un hotel afirma que el promedio de

las cuentas de los huéspedes, en una semana, es de $800.000. La hipótesis

anterior corresponde a la hipótesis nula, entonces tenemos:

0H : 800.000 y la hipótesis alterna es 1H : 800.000

(Prueba bilateral)

b) Si definimos una hipótesis de trabajo en términos de desigualdad (mayor

que), como por ejemplo: Supóngase que el gerente de otro hotel afirma que

el promedio de las cuentas de los huéspedes, en una semana, es mayor de

$800.000. La hipótesis anterior corresponde a la hipótesis alterna, entonces

tenemos:

0H : 800.000 y la hipótesis alterna es 1H : 800.000

(Prueba unilateral derecha)

c) Si definimos una hipótesis de trabajo en términos de desigualdad (menor

que), como por ejemplo: Supóngase que el gerente de otro hotel afirma que

el promedio de las cuentas de los huéspedes, en una semana, es de por lo

menos $800.000. La hipótesis anterior corresponde a la hipótesis nula,

entonces tenemos:

0H : 800.000 y la hipótesis alterna es 1H : 800.000 .

(Prueba unilateral izquierda)



Para comprobar una hipótesis de trabajo se puede seguir los siguientes pasos:

1. Enunciar la hipótesis de trabajo (hipótesis nula, hipótesis alterna)

2. Elegir un nivel de significancia

3. Construir la Región de aceptación, intervalo dentro del cual se encuentra

el (1- ) 100% de los casos. Construir la Región de rechazo que la

llamaremos región crítica, y su área es igual al nivel de significancia.

4. Verificar la hipótesis seleccionando una muestra aleatoria, recoger los

datos, realizar su procesamiento y obtener el correspondiente estadístico de

prueba (media muestral x , proporción muestral p̂ , desviación estándar

muestral S , de acuerdo al caso de interés).

5. Tomar una decisión. Si el estadístico de prueba cae dentro de la región de

aceptación se acepta la hipótesis nula, en caso contrario se rechaza.

POSIBLES ERRORES QUE SE PUEDEN COMETER

Al realizar una prueba de hipótesis se establece un criterio que nos permite decidir

si la hipótesis de trabajo (H0) se debe aceptar o rechazar. También, es posible

determinar si la muestra observada difiere significativamente de los resultados

esperados en la prueba. En este proceso se puede cometer dos tipos de errores

según sea la situación real y la decisión que tomemos. Si rechazamos la hipótesis

nula cuando debiera ser aceptada, es decir, siendo verdadera, cometemos un

error de tipo I. Si aceptamos la hipótesis nula debiendo ser rechazada, es decir,

siendo falsa, diremos que hemos cometido un error de tipo II. Minimizar los

errores no es una cuestión sencilla, un tipo de error suele ser más grave que otro

y los intentos de disminuir uno suelen producir el aumento del otro. La única forma

de disminuir ambos a la vez es aumentando el tamaño de la muestra.

Ho verdadera Ho falsa

DECISIÓN:

Aceptar Ho Decisión correcta

Decisión incorrecta

Error de tipo II

DECISIÓN:

Rechazar Ho

Decisión

incorrecta

Error de tipo I

Decisión

correcta

• La probabilidad de cometer un error de tipo I es igual al nivel de significancia .

• La probabilidad de cometer un error de tipo II es igual a β. Esta

probabilidad depende del verdadero valor de µ y del tamaño de la muestra.

• La probabilidad de tomar una buena decisión cuando Ho es verdadera es igual a 1 – .

• La probabilidad de tomar una buena decisión cuando Ho es falsa es igual a

1 - β. Donde 1 - β es la potencia de la prueba.



El Valor p (p - value)

El valor P (nivel de significancia de la muestra) es la probabilidad máxima

de equivocarnos (tomar una decisión incorrecta) al rechazar la

hipótesis nula (siendo verdadera) con los resultados obtenidos en una

muestra aleatoria. El valor P es el nivel de significancia más pequeño que

nos puede permitir rechazar la hipótesis nula.

Se rechazará la hipótesis nula si el valor P (nivel de significancia).

PRUEBAS DE HIPOTESIS RESPECTO A LA MEDIA POBLACIONAL

Veamos la siguiente aplicación:

Ejemplo 1: El jefe de control de calidad de una empresa metalmecánica afirma

que la longitud promedio de las piezas metálicas que se producen semanalmente es

de 5 centímetros, es decir, cumple con las especificaciones. Si la longitud de estas

piezas está por encima o por debajo de 5 centímetros se pueden presentar

problemas de calidad.

Supóngase ahora, que el jefe de control de calidad selecciona una muestra

aleatoria de 60 piezas metálicas. Después de haber medido la longitud de cada una

de las piezas escogidas en la muestra se obtuvieron los siguientes resultados: una

media muestral de 5,15 centímetros y una desviación estándar muestral de 0,75

centímetros.

Estadísticamente se quiere Probar que " la media poblacional difiere de 5

centímetros ", supondremos en principio lo contrario, es decir que " la media es

igual a 5 centímetros”. Para este caso, las hipótesis nula y alterna son las

siguientes:

0H : 5 centimetros y 1H : 5 centimetros

(Prueba bilateral)

Si queremos comprobar la hipótesis nula a un nivel de significancia ( ) del 5%

por ejemplo, buscamos el valor de la variable aleatoria Z0 tal que

0( ) 0.025P Z Z , es decir 0( ) 0.975P Z Z . Observe que

0 0( ) ( ) 2,5%P Z Z P Z Z (como la prueba es bilateral, tenemos un área

igual a 2

en las colas de la distribución normal estándar, ver figura 1).

0( )P Z Z es equivalente a 0( ) 2,5%P X X . X0 se obtiene buscando en primer

lugar el valor de la variable aleatoria Z0 que resulta ser Z0 = 1,96 (según valor de

tabla, ver figura 1). Los valores que se encuentran a 1,96 desviaciones

estándar de la media son los que forman la región crítica (región de rechazo).

Ahora, encontraremos la región crítica en términos de la media muestral X , se

tiene que:

0

0 1,96X

Z

n

51,96

0,75

60

X (1)



Ahora, despejamos el valor crítico X de la ecuación (1) tanto para el valor

positivo de Z (+1,96) como para el valor negativo de Z (–1,96).

Observe que la región critica expresada en términos de la media muestral X

queda de la siguiente forma:

Región crítica: 4,81 5,19X X , entonces la región de aceptación es:

4,81 5,19X

Puesto que la media muestral obtenida fue 5,15 centímetros que se encuentra en la

región de aceptación, se concluye que:

"No rechazamos la hipótesis nula”, es decir, a un nivel de significancia del 5%, no

existe evidencia suficiente de que la longitud promedio de las piezas metálicas que

se producen semanalmente difiere de 5 centímetros, es decir, concluimos que la

longitud promedio es de 5 centímetros. De acuerdo a estos resultados, el jefe de

control de calidad de la empresa esta en lo correcto.

Algunas reflexiones:

Si el nivel de significancia de la prueba es menor del 5%, la región crítica

disminuye, y tendremos más confianza en una decisión si concluimos rechazar

la hipótesis nula, ¿Por qué?

Es evidente por ejemplo, que si la decisión es no rechazar la hipótesis nula,

también estaríamos arriesgándonos a cometer un error, ¿Cuál tipo de error?

Conclusión: En cualquier caso, después de realizar el procedimiento, es decir,

contrastar la hipótesis de trabajo se toma una decisión asumiendo un margen de

error.

Realicemos la prueba formal del “ejemplo 1” siguiendo los pasos:

1.

:H

:H

1

05

5



2. Nivel de significancia: 5% , 2,5%2

2

1,96Z según valor de

tabla. Recordemos que

n

XZ

3. Ahora, buscamos el punto crítico de la media muestral X para obtener la

región de rechazo.

0

0 1,96 1,96X

Z

n

5

0,75

60

X 1,96*0,0968 5 5,19X

0

0 1,96 1,96X

Z

n

5

0,75

60

X 1,96*0,0968 5 4,81X

RA: 4,81 5,19X RR: 4,81 5,19X X ,

4. Verificar: Se selecciona aleatoriamente una muestra de 60 piezas metálicas

de la población bajo estudio, se toma información de la longitud de estas

piezas y se realiza el procesamiento de los datos. Se obtuvieron los siguientes

resultados: una media muestral de 5,15 centímetros y una desviación

estándar muestral de 0,75 centímetros. Observe que el valor de la media

muestral 5,15X cae en la región de aceptación.

5. Decisión: No rechazamos la hipótesis nula, es decir, a un nivel de

significancia del 5% concluimos que la longitud promedio de las piezas

metálicas que se producen semanalmente es de 5 centímetros. Es decir, la

afirmación del jefe de control de calidad es verdadera.

Otros Problemas de aplicación

Ejemplo 2. Se desea llevar a cabo un estudio para saber cuanto tiempo en

promedio se ve televisión en los hogares de la ciudad de Cali, en el horario de 6:00

p.m a 12:00 de la noche. De acuerdo a estudios anteriores se asume que estos

datos (tiempo que emplean los hogares en ver televisión en el horario de 6:00 p.m

a 12:00 de la noche) se aproximan a una distribución normal. Un investigador de

una empresa privada afirma que el tiempo promedio que emplean los hogares de la

ciudad de Cali en ver televisión en ese horario es de por lo menos 4,5 horas.

Para realizar el estudio el investigador selecciona una muestra al azar de 400

hogares de la población bajo estudio, después de procesar los datos encontró una media muestral de 4,39 horas y una desviación estándar de 0,35 horas.

¿A un nivel de significancia del 1.7%, usted esta de acuerdo con la afirmación

del investigador?

Usted debe mencionar claramente todos los pasos a seguir para tomar una

decisión, debe enunciar correctamente todos los elementos necesarios para

comprobar la hipótesis.



1.

2. Nivel de significancia: = 1,7% 2,12Z (Valor de tabla)

Recordemos que

n

XZ


región de rechazo.

4,5

2,120,35

400

X 2,12*0,0175 4,5 4,46X

3. : 4,46RA X : 4,46RR X

4. Verificación: De la población bajo estudio seleccionamos en forma aleatoria

cada uno de los 400 hogares que conforman la muestra representativa. A

cada uno de estos hogares se encuestó para determinar el tiempo que pasan

viendo televisión en el horario de 6:00 p.m a 12:00 de la noche. Se organiza

la información en una base de datos. Al realizar el procesamiento de los

datos se encontró un tiempo promedio de 4,39 horas con una desviación

estándar de 0,35 horas. Obsérvese que la media muestral 4,39X se

encuentra en la región de rechazo.

5. Decisión: rechazamos la hipótesis nula, es decir, a un nivel de significancia

del 3,4% concluimos que el tiempo promedio que emplean los hogares de la

ciudad de Cali en ver televisión en ese horario es menor de 4,5 horas. El

resultado anterior significa que el investigador esta equivocado.

Ejemplo 3: El dueño del restaurante DELTA S.A asegura que la cantidad promedio

que gastan los clientes cuando visitan el sitio es mayor de $30.000. El

administrador del restaurante realiza una inspección por muestreo para determinar

si es correcta la afirmación del dueño; utiliza un nivel de significancia del 2,5%.

Después de seleccionar una muestra de 50 clientes del restaurante se encontró una

media de $32.000 y una varianza de 2.560.000.

Enunciar la hipótesis nula y la hipótesis alterna.

Determine la región de aceptación y de rechazo.

Comprobar la hipótesis anterior. Tomar una decisión.

Utilice un nivel de significancia de 0,025.

1.

2. Nivel de significancia: = 2,5% 1,96Z (Valor de tabla)

:H

:H

1

04,5

4,5

:H

:H

1

0 $30.000

$30.000

Observe que la prueba es unilateral (cola izquierda)

Observe que la prueba es unilateral

(cola derecha)



Recordemos que X

Z

n


región de rechazo.

30.000

1,961600

50

X 1,96*226,274 30.000 30.443,5X

: 30.443,5RA X : 30.443,5RR X

4. Verificación: De todos los clientes del restaurante DELTA S.A seleccionamos en

forma aleatoria cada uno de los 50 clientes que conforman la muestra. Después

de seleccionar la muestra se encontró una media de $32.000 y una desviación

estándar de $1.600. Obsérvese que la media muestral $32.000X se

encuentra en la región de rechazo.

5. Decisión: Rechazamos la hipótesis nula, es decir, a un nivel de

significancia del 2,5% concluimos que la cantidad promedio que gastan los

clientes cuando visitan el sitio es mayor de $30.000. El resultado anterior

significa que estamos de acuerdo con la afirmación del dueño del restaurante.

PRUEBAS DE HIPOTESIS RESPECTO A LA MEDIA POBLACIONAL

EN EL CASO DE DESCONOCIDA

En muchos casos prácticos no se tiene información del valor de la desviación

estándar poblacional antes de seleccionar una muestra. En estos casos, la

muestra se utiliza para obtener una estimación de la media y la desviación

estándar . Cuando seleccionamos una muestra aleatoria y obtenemos S

(desviación estándar muestral) para estimar a (desviación estándar poblacional),

y el tamaño de la muestra < 30, aplicamos la distribución T –student con n -1 grados de libertad para realizar una estimación de (media poblacional).

Veamos algunas aplicaciones:

Ejemplo 1: Un ingeniero de la empresa TEXTILES S.A es el encargado de la

producción. Un proveedor le ofrece lotes de tela. De acuerdo a la producción del

mes anterior se requiere que los lotes de tela tengan una resistencia a la ruptura

promedio mayor de 200 libras por pulgada. Si se cumple el requerimiento de

producción el ingeniero decide aceptar el lote, de lo contrario lo rechaza. Se realiza

una inspección por muestreo, seleccionando aleatoriamente 15 lotes de tela, los

cuales se someten a prueba de calidad, obteniendo una resistencia promedio de

205 libras por pulgada y una desviación estándar de 10 libras por pulgada.

¿A un nivel de significancia del 5%, comprobar si los lotes de tela cumplen

con las especificaciones o no.






Utilice un nivel de significancia de 0,05.

1. 0

1

: 200

: 200

H

H

2. 5%, 1,7613T . Como NO conocemos la desviación estándar poblacional

y 30n , entonces utilizamos la distribución T student con 14 grados de

libertad.


región de rechazo.

Recordemos que 2001,7613

1015

X 1,7613*2,582 200 204,55X

: 204,55RA X : 204,55RR X

4. Verificación: De todos los lotes de tela, se toma una muestra de 15 lotes

aleatoriamente, los cuales se someten a prueba de calidad, obteniendo una

resistencia promedio de 205 libras por pulgada. Obsérvese que la media

muestral (205 libras) se encuentra en la región de rechazo.

5. Decisión: Rechazamos la hipótesis nula, es decir, a un nivel de significancia

del 5% podemos concluir que la resistencia a la ruptura promedio de los lotes

de tela es mayor de 200 libras por pulgada. En conclusión, los lotes de tela SI

cumplen con las especificaciones.

Ejemplo 2. Un investigador de una empresa privada asegura que el ingreso

promedio mensual de todos los profesores universitarios de la ciudad de Cali esta

por debajo de $2.800.000. De acuerdo a los últimos registros observados se asume

que estos ingresos se aproximan a una distribución normal. Para realizar el estudio

selecciona una muestra al azar de 28 personas de la población bajo estudio,

después de procesar los datos se halló una media muestral de $2.789.500 y una

desviación estándar de $131.570.

¿A un nivel de significancia del 2.5%, usted esta de acuerdo con la afirmación

del investigador?




1. 0

1

: $2.800.000

: $2.800.000

H

H

2. 0,025 ; 272,5%, 2,0518T . Como NO conocemos la desviación estándar

poblacional, y n < 30, entonces utilizamos la T-student con 27 grados de

libertad.

Es una prueba unilateral (cola derecha)

Es una prueba unilateral (cola izquierda)




región de rechazo. Recordemos que

2.800.000

2,0518131.570

28

X 2,0518*24.864,39 2.800.000 2.748.983,24X

: $2.748.983,24RA X : $2.748.983,24RR X

4. Verificación: Se encuestaron 28 profesores universitarios de la ciudad de Cali

y se encontró un ingreso promedio mensual de $2.789.500 y una desviación

estándar de $131.570. Obsérvese que la media muestral ($2.789.500) se

encuentra en la región de aceptación.

5. Decisión: No Rechazamos la hipótesis nula, es decir, a un nivel de

significancia del 2,5% podemos concluir que el ingreso promedio mensual de

todos los profesores universitarios de la ciudad de Cali es de por lo menos

$2.800.000. Esto significa que no estamos de acuerdo con el investigador.

Para ir evaluando sus comprensiones realice este ejercicio.

Ejercicio 1: Debido a los altos costos y a los tiempos de un cambio de producción,

un director de manufactura debe convencer a la gerencia de que el método

propuesto de fabricación reduce los costos, antes de poder implantarlo. El método

actual funciona con un costo promedio de 250 dólares por hora. Se lleva a cabo una

investigación en la que se medirá el costo del nuevo método durante un periodo de

producción de una muestra aleatoria.

Después de realizar una inspección por muestreo el investigador encontró los

siguientes resultados:

25n 247,08X 2 56,76S

A un nivel de significancia del 5%, el nuevo método es mejor que el

actual?




Documents

Pruebas de Hipotesis Para La Media Poblacional(8)