Upload
zayde-abadia
View
217
Download
4
Embed Size (px)
DESCRIPTION
estadistica
Citation preview
Marco Antonio Triana
Docente área Estadística - UAO 1
CONTRASTE DE HIPÓTESIS
Una hipótesis estadística es una afirmación respecto a alguna característica de
interés de una población bajo estudio. Contrastar una hipótesis es comparar las
predicciones con la realidad que observamos. Si dentro del margen de error que
nos permitimos admitir, hay coincidencia, aceptaremos la hipótesis y en caso
contrario la rechazaremos.
La hipótesis emitida se suele designar por Ho y se llama Hipótesis nula porque
parte del supuesto que la diferencia entre el verdadero valor del parámetro y su
valor hipotético es debida al azar, es decir no hay diferencia. La hipótesis contraria
se designa por H1 y se llama Hipótesis alternativa.
Los contrastes pueden ser unilaterales o bilaterales (también llamados de una o
dos colas) según establezcamos las hipótesis de trabajo. Si las definimos en
términos de igualdad estamos ante una hipótesis bilateral, si suponemos una
dirección (en términos de mayor o menor) estamos ante una hipótesis unilateral.
Se trata de extraer conclusiones a partir de una muestra aleatoria y
significativa, que permita aceptar o rechazar una hipótesis previamente emitida,
sobre el valor de un parámetro (alguna característica medible) desconocido de la
población bajo estudio.
Identificación de hipótesis
a) Si definimos una hipótesis de trabajo en términos de igualdad, como por
ejemplo: Supóngase que el gerente de un hotel afirma que el promedio de
las cuentas de los huéspedes, en una semana, es de $800.000. La hipótesis
anterior corresponde a la hipótesis nula, entonces tenemos:
0H : 800.000 y la hipótesis alterna es 1H : 800.000
(Prueba bilateral)
b) Si definimos una hipótesis de trabajo en términos de desigualdad (mayor
que), como por ejemplo: Supóngase que el gerente de otro hotel afirma que
el promedio de las cuentas de los huéspedes, en una semana, es mayor de
$800.000. La hipótesis anterior corresponde a la hipótesis alterna, entonces
tenemos:
0H : 800.000 y la hipótesis alterna es 1H : 800.000
(Prueba unilateral derecha)
c) Si definimos una hipótesis de trabajo en términos de desigualdad (menor
que), como por ejemplo: Supóngase que el gerente de otro hotel afirma que
el promedio de las cuentas de los huéspedes, en una semana, es de por lo
menos $800.000. La hipótesis anterior corresponde a la hipótesis nula,
entonces tenemos:
0H : 800.000 y la hipótesis alterna es 1H : 800.000 .
(Prueba unilateral izquierda)
Marco Antonio Triana
Docente área Estadística - UAO 2
Para comprobar una hipótesis de trabajo se puede seguir los siguientes pasos:
1. Enunciar la hipótesis de trabajo (hipótesis nula, hipótesis alterna)
2. Elegir un nivel de significancia
3. Construir la Región de aceptación, intervalo dentro del cual se encuentra
el (1- ) 100% de los casos. Construir la Región de rechazo que la
llamaremos región crítica, y su área es igual al nivel de significancia.
4. Verificar la hipótesis seleccionando una muestra aleatoria, recoger los
datos, realizar su procesamiento y obtener el correspondiente estadístico de
prueba (media muestral x , proporción muestral p̂ , desviación estándar
muestral S , de acuerdo al caso de interés).
5. Tomar una decisión. Si el estadístico de prueba cae dentro de la región de
aceptación se acepta la hipótesis nula, en caso contrario se rechaza.
POSIBLES ERRORES QUE SE PUEDEN COMETER
Al realizar una prueba de hipótesis se establece un criterio que nos permite decidir
si la hipótesis de trabajo (H0) se debe aceptar o rechazar. También, es posible
determinar si la muestra observada difiere significativamente de los resultados
esperados en la prueba. En este proceso se puede cometer dos tipos de errores
según sea la situación real y la decisión que tomemos. Si rechazamos la hipótesis
nula cuando debiera ser aceptada, es decir, siendo verdadera, cometemos un
error de tipo I. Si aceptamos la hipótesis nula debiendo ser rechazada, es decir,
siendo falsa, diremos que hemos cometido un error de tipo II. Minimizar los
errores no es una cuestión sencilla, un tipo de error suele ser más grave que otro
y los intentos de disminuir uno suelen producir el aumento del otro. La única forma
de disminuir ambos a la vez es aumentando el tamaño de la muestra.
Ho verdadera Ho falsa
DECISIÓN:
Aceptar Ho Decisión correcta
Decisión incorrecta
Error de tipo II
DECISIÓN:
Rechazar Ho
Decisión
incorrecta
Error de tipo I
Decisión
correcta
• La probabilidad de cometer un error de tipo I es igual al nivel de significancia .
• La probabilidad de cometer un error de tipo II es igual a β. Esta
probabilidad depende del verdadero valor de µ y del tamaño de la muestra.
• La probabilidad de tomar una buena decisión cuando Ho es verdadera es igual a 1 – .
• La probabilidad de tomar una buena decisión cuando Ho es falsa es igual a
1 - β. Donde 1 - β es la potencia de la prueba.
Marco Antonio Triana
Docente área Estadística - UAO 3
El Valor p (p - value)
El valor P (nivel de significancia de la muestra) es la probabilidad máxima
de equivocarnos (tomar una decisión incorrecta) al rechazar la
hipótesis nula (siendo verdadera) con los resultados obtenidos en una
muestra aleatoria. El valor P es el nivel de significancia más pequeño que
nos puede permitir rechazar la hipótesis nula.
Se rechazará la hipótesis nula si el valor P (nivel de significancia).
PRUEBAS DE HIPOTESIS RESPECTO A LA MEDIA POBLACIONAL
Veamos la siguiente aplicación:
Ejemplo 1: El jefe de control de calidad de una empresa metalmecánica afirma
que la longitud promedio de las piezas metálicas que se producen semanalmente es
de 5 centímetros, es decir, cumple con las especificaciones. Si la longitud de estas
piezas está por encima o por debajo de 5 centímetros se pueden presentar
problemas de calidad.
Supóngase ahora, que el jefe de control de calidad selecciona una muestra
aleatoria de 60 piezas metálicas. Después de haber medido la longitud de cada una
de las piezas escogidas en la muestra se obtuvieron los siguientes resultados: una
media muestral de 5,15 centímetros y una desviación estándar muestral de 0,75
centímetros.
Estadísticamente se quiere Probar que " la media poblacional difiere de 5
centímetros ", supondremos en principio lo contrario, es decir que " la media es
igual a 5 centímetros”. Para este caso, las hipótesis nula y alterna son las
siguientes:
0H : 5 centimetros y 1H : 5 centimetros
(Prueba bilateral)
Si queremos comprobar la hipótesis nula a un nivel de significancia ( ) del 5%
por ejemplo, buscamos el valor de la variable aleatoria Z0 tal que
0( ) 0.025P Z Z , es decir 0( ) 0.975P Z Z . Observe que
0 0( ) ( ) 2,5%P Z Z P Z Z (como la prueba es bilateral, tenemos un área
igual a 2
en las colas de la distribución normal estándar, ver figura 1).
0( )P Z Z es equivalente a 0( ) 2,5%P X X . X0 se obtiene buscando en primer
lugar el valor de la variable aleatoria Z0 que resulta ser Z0 = 1,96 (según valor de
tabla, ver figura 1). Los valores que se encuentran a 1,96 desviaciones
estándar de la media son los que forman la región crítica (región de rechazo).
Ahora, encontraremos la región crítica en términos de la media muestral X , se
tiene que:
0
0 1,96X
Z
n
51,96
0,75
60
X (1)
Marco Antonio Triana
Docente área Estadística - UAO 4
Ahora, despejamos el valor crítico X de la ecuación (1) tanto para el valor
positivo de Z (+1,96) como para el valor negativo de Z (–1,96).
Observe que la región critica expresada en términos de la media muestral X
queda de la siguiente forma:
Región crítica: 4,81 5,19X X , entonces la región de aceptación es:
4,81 5,19X
Puesto que la media muestral obtenida fue 5,15 centímetros que se encuentra en la
región de aceptación, se concluye que:
"No rechazamos la hipótesis nula”, es decir, a un nivel de significancia del 5%, no
existe evidencia suficiente de que la longitud promedio de las piezas metálicas que
se producen semanalmente difiere de 5 centímetros, es decir, concluimos que la
longitud promedio es de 5 centímetros. De acuerdo a estos resultados, el jefe de
control de calidad de la empresa esta en lo correcto.
Algunas reflexiones:
Si el nivel de significancia de la prueba es menor del 5%, la región crítica
disminuye, y tendremos más confianza en una decisión si concluimos rechazar
la hipótesis nula, ¿Por qué?
Es evidente por ejemplo, que si la decisión es no rechazar la hipótesis nula,
también estaríamos arriesgándonos a cometer un error, ¿Cuál tipo de error?
Conclusión: En cualquier caso, después de realizar el procedimiento, es decir,
contrastar la hipótesis de trabajo se toma una decisión asumiendo un margen de
error.
Realicemos la prueba formal del “ejemplo 1” siguiendo los pasos:
1.
:H
:H
1
05
5
Marco Antonio Triana
Docente área Estadística - UAO 5
2. Nivel de significancia: 5% , 2,5%2
2
1,96Z según valor de
tabla. Recordemos que
n
XZ
3. Ahora, buscamos el punto crítico de la media muestral X para obtener la
región de rechazo.
0
0 1,96 1,96X
Z
n
5
0,75
60
X 1,96*0,0968 5 5,19X
0
0 1,96 1,96X
Z
n
5
0,75
60
X 1,96*0,0968 5 4,81X
RA: 4,81 5,19X RR: 4,81 5,19X X ,
4. Verificar: Se selecciona aleatoriamente una muestra de 60 piezas metálicas
de la población bajo estudio, se toma información de la longitud de estas
piezas y se realiza el procesamiento de los datos. Se obtuvieron los siguientes
resultados: una media muestral de 5,15 centímetros y una desviación
estándar muestral de 0,75 centímetros. Observe que el valor de la media
muestral 5,15X cae en la región de aceptación.
5. Decisión: No rechazamos la hipótesis nula, es decir, a un nivel de
significancia del 5% concluimos que la longitud promedio de las piezas
metálicas que se producen semanalmente es de 5 centímetros. Es decir, la
afirmación del jefe de control de calidad es verdadera.
Otros Problemas de aplicación
Ejemplo 2. Se desea llevar a cabo un estudio para saber cuanto tiempo en
promedio se ve televisión en los hogares de la ciudad de Cali, en el horario de 6:00
p.m a 12:00 de la noche. De acuerdo a estudios anteriores se asume que estos
datos (tiempo que emplean los hogares en ver televisión en el horario de 6:00 p.m
a 12:00 de la noche) se aproximan a una distribución normal. Un investigador de
una empresa privada afirma que el tiempo promedio que emplean los hogares de la
ciudad de Cali en ver televisión en ese horario es de por lo menos 4,5 horas.
Para realizar el estudio el investigador selecciona una muestra al azar de 400
hogares de la población bajo estudio, después de procesar los datos encontró una media muestral de 4,39 horas y una desviación estándar de 0,35 horas.
¿A un nivel de significancia del 1.7%, usted esta de acuerdo con la afirmación
del investigador?
Usted debe mencionar claramente todos los pasos a seguir para tomar una
decisión, debe enunciar correctamente todos los elementos necesarios para
comprobar la hipótesis.
Marco Antonio Triana
Docente área Estadística - UAO 6
1.
2. Nivel de significancia: = 1,7% 2,12Z (Valor de tabla)
Recordemos que
n
XZ
3. Ahora, buscamos el punto crítico de la media muestral X para obtener la
región de rechazo.
4,5
2,120,35
400
X 2,12*0,0175 4,5 4,46X
3. : 4,46RA X : 4,46RR X
4. Verificación: De la población bajo estudio seleccionamos en forma aleatoria
cada uno de los 400 hogares que conforman la muestra representativa. A
cada uno de estos hogares se encuestó para determinar el tiempo que pasan
viendo televisión en el horario de 6:00 p.m a 12:00 de la noche. Se organiza
la información en una base de datos. Al realizar el procesamiento de los
datos se encontró un tiempo promedio de 4,39 horas con una desviación
estándar de 0,35 horas. Obsérvese que la media muestral 4,39X se
encuentra en la región de rechazo.
5. Decisión: rechazamos la hipótesis nula, es decir, a un nivel de significancia
del 3,4% concluimos que el tiempo promedio que emplean los hogares de la
ciudad de Cali en ver televisión en ese horario es menor de 4,5 horas. El
resultado anterior significa que el investigador esta equivocado.
Ejemplo 3: El dueño del restaurante DELTA S.A asegura que la cantidad promedio
que gastan los clientes cuando visitan el sitio es mayor de $30.000. El
administrador del restaurante realiza una inspección por muestreo para determinar
si es correcta la afirmación del dueño; utiliza un nivel de significancia del 2,5%.
Después de seleccionar una muestra de 50 clientes del restaurante se encontró una
media de $32.000 y una varianza de 2.560.000.
Enunciar la hipótesis nula y la hipótesis alterna.
Determine la región de aceptación y de rechazo.
Comprobar la hipótesis anterior. Tomar una decisión.
Utilice un nivel de significancia de 0,025.
1.
2. Nivel de significancia: = 2,5% 1,96Z (Valor de tabla)
:H
:H
1
04,5
4,5
:H
:H
1
0 $30.000
$30.000
Observe que la prueba es unilateral (cola izquierda)
Observe que la prueba es unilateral
(cola derecha)
Marco Antonio Triana
Docente área Estadística - UAO 7
Recordemos que X
Z
n
3. Ahora, buscamos el punto crítico de la media muestral X para obtener la
región de rechazo.
30.000
1,961600
50
X 1,96*226,274 30.000 30.443,5X
: 30.443,5RA X : 30.443,5RR X
4. Verificación: De todos los clientes del restaurante DELTA S.A seleccionamos en
forma aleatoria cada uno de los 50 clientes que conforman la muestra. Después
de seleccionar la muestra se encontró una media de $32.000 y una desviación
estándar de $1.600. Obsérvese que la media muestral $32.000X se
encuentra en la región de rechazo.
5. Decisión: Rechazamos la hipótesis nula, es decir, a un nivel de
significancia del 2,5% concluimos que la cantidad promedio que gastan los
clientes cuando visitan el sitio es mayor de $30.000. El resultado anterior
significa que estamos de acuerdo con la afirmación del dueño del restaurante.
PRUEBAS DE HIPOTESIS RESPECTO A LA MEDIA POBLACIONAL
EN EL CASO DE DESCONOCIDA
En muchos casos prácticos no se tiene información del valor de la desviación
estándar poblacional antes de seleccionar una muestra. En estos casos, la
muestra se utiliza para obtener una estimación de la media y la desviación
estándar . Cuando seleccionamos una muestra aleatoria y obtenemos S
(desviación estándar muestral) para estimar a (desviación estándar poblacional),
y el tamaño de la muestra < 30, aplicamos la distribución T –student con n -1 grados de libertad para realizar una estimación de (media poblacional).
Veamos algunas aplicaciones:
Ejemplo 1: Un ingeniero de la empresa TEXTILES S.A es el encargado de la
producción. Un proveedor le ofrece lotes de tela. De acuerdo a la producción del
mes anterior se requiere que los lotes de tela tengan una resistencia a la ruptura
promedio mayor de 200 libras por pulgada. Si se cumple el requerimiento de
producción el ingeniero decide aceptar el lote, de lo contrario lo rechaza. Se realiza
una inspección por muestreo, seleccionando aleatoriamente 15 lotes de tela, los
cuales se someten a prueba de calidad, obteniendo una resistencia promedio de
205 libras por pulgada y una desviación estándar de 10 libras por pulgada.
¿A un nivel de significancia del 5%, comprobar si los lotes de tela cumplen
con las especificaciones o no.
Marco Antonio Triana
Docente área Estadística - UAO 8
Enunciar la hipótesis nula y la hipótesis alterna.
Determine la región de aceptación y de rechazo.
Comprobar la hipótesis anterior. Tomar una decisión.
Utilice un nivel de significancia de 0,05.
1. 0
1
: 200
: 200
H
H
2. 5%, 1,7613T . Como NO conocemos la desviación estándar poblacional
y 30n , entonces utilizamos la distribución T student con 14 grados de
libertad.
3. Ahora, buscamos el punto crítico de la media muestral X para obtener la
región de rechazo.
Recordemos que 2001,7613
1015
X 1,7613*2,582 200 204,55X
: 204,55RA X : 204,55RR X
4. Verificación: De todos los lotes de tela, se toma una muestra de 15 lotes
aleatoriamente, los cuales se someten a prueba de calidad, obteniendo una
resistencia promedio de 205 libras por pulgada. Obsérvese que la media
muestral (205 libras) se encuentra en la región de rechazo.
5. Decisión: Rechazamos la hipótesis nula, es decir, a un nivel de significancia
del 5% podemos concluir que la resistencia a la ruptura promedio de los lotes
de tela es mayor de 200 libras por pulgada. En conclusión, los lotes de tela SI
cumplen con las especificaciones.
Ejemplo 2. Un investigador de una empresa privada asegura que el ingreso
promedio mensual de todos los profesores universitarios de la ciudad de Cali esta
por debajo de $2.800.000. De acuerdo a los últimos registros observados se asume
que estos ingresos se aproximan a una distribución normal. Para realizar el estudio
selecciona una muestra al azar de 28 personas de la población bajo estudio,
después de procesar los datos se halló una media muestral de $2.789.500 y una
desviación estándar de $131.570.
¿A un nivel de significancia del 2.5%, usted esta de acuerdo con la afirmación
del investigador?
Enunciar la hipótesis nula y la hipótesis alterna.
Determine la región de aceptación y de rechazo.
Comprobar la hipótesis anterior. Tomar una decisión.
1. 0
1
: $2.800.000
: $2.800.000
H
H
2. 0,025 ; 272,5%, 2,0518T . Como NO conocemos la desviación estándar
poblacional, y n < 30, entonces utilizamos la T-student con 27 grados de
libertad.
Es una prueba unilateral (cola derecha)
Es una prueba unilateral (cola izquierda)
Marco Antonio Triana
Docente área Estadística - UAO 9
3. Ahora, buscamos el punto crítico de la media muestral X para obtener la
región de rechazo. Recordemos que
2.800.000
2,0518131.570
28
X 2,0518*24.864,39 2.800.000 2.748.983,24X
: $2.748.983,24RA X : $2.748.983,24RR X
4. Verificación: Se encuestaron 28 profesores universitarios de la ciudad de Cali
y se encontró un ingreso promedio mensual de $2.789.500 y una desviación
estándar de $131.570. Obsérvese que la media muestral ($2.789.500) se
encuentra en la región de aceptación.
5. Decisión: No Rechazamos la hipótesis nula, es decir, a un nivel de
significancia del 2,5% podemos concluir que el ingreso promedio mensual de
todos los profesores universitarios de la ciudad de Cali es de por lo menos
$2.800.000. Esto significa que no estamos de acuerdo con el investigador.
Para ir evaluando sus comprensiones realice este ejercicio.
Ejercicio 1: Debido a los altos costos y a los tiempos de un cambio de producción,
un director de manufactura debe convencer a la gerencia de que el método
propuesto de fabricación reduce los costos, antes de poder implantarlo. El método
actual funciona con un costo promedio de 250 dólares por hora. Se lleva a cabo una
investigación en la que se medirá el costo del nuevo método durante un periodo de
producción de una muestra aleatoria.
Después de realizar una inspección por muestreo el investigador encontró los
siguientes resultados:
25n 247,08X 2 56,76S
A un nivel de significancia del 5%, el nuevo método es mejor que el
actual?
Enunciar la hipótesis nula y la hipótesis alterna.
Determine la región de aceptación y de rechazo.
Comprobar la hipótesis anterior. Tomar una decisión.