Universidad NorOriental Gran Mariscal de Ayacucho
Decanato de Postgrado Maestría en Ingeniería de Mantenimiento
Mención: Gerencia de Seguridad y Confiabilidad Industrial Cátedra: Estadística Aplicada
Integrantes: Gineth Velásquez C.I:19.786.574 Yaneth Figuera C.I:19.786.673 Angelica Carreño C.I:19.630.007 Erika Páez C.I:84.248.131
El Tigre, Mayo 2016
Inferencias Referentes a Proporciones y
Análisis de Varianza
Facilitador: Lcda. Esp. MSc. Carlena Astudillo
Estadística Inferencial
Estimación de Parámetros
Estimación Bayesiana
Hipótesis Referente a una proporción
Hipótesis Referentes a varias proporciones
Análisis de tablas r x c
Bondad de Ajuste
Diseño completamente aleatorizados
Diseño con bloques aleatorizados
Comparaciones múltiples
Análisis de Covarianza
CONTENIDO
ESTADISTICA INFERENCIAL
Es una parte de la estadística que comprende los métodos y procedimientos mediante el
cual una muestra es analizada y con base en su información, se infiere, se deduce o se
concluye sobre lo que está sucediendo en una población.
Toma de muestras
Estimación de Proporciones
Pruebas de Hipótesis
Diseño Experimental
Estimación Bayesiana
Métodos no Paramétricos
Ing. Gineth Velásquez
ESTIMACIÓN DE PROPORCIONES
La estimación de una proporción permite identificar, a partir de una muestra, aquellos
elementos que posean alguna característica similar a la de una población.
La estimación de las proporciones poblacionales constituye una parte esencial en
muchos estudios donde se busca calcular la probabilidad de éxito o de fracaso con que
puede ocurrir un evento.
Características
Es un conjunto de técnicas que permiten dar un valor aproximado acerca de la medida de
una población a partir de los datos que nos proporciona previamente una muestra.
Ing. Gineth Velásquez
Aplicaciones
La estimación de proporciones se utiliza en muchos campos relacionados con los
negocios y las ciencias sociales. Un ejemplo donde frecuentemente tiene aplicación: El
departamento de producción de una empresa que fabrica calculadoras desea conocer la
proporción de artículos que saldrán defectuosos en cada proceso de producción.
ESTIMACIÓN PUNTUAL DE UNA PROPORCIÓN
En la estimación puntual de una proporción se busca, con base en los datos muestrales, un
único valor estimado para el parámetro. Viene dada por la siguiente formula:
proporción de los éxitos observados en la muestra.
: representa el número de éxitos que se puede obtener en una muestra.
: es el tamaño de la muestra.
Donde:
Si se conoce el valor de 𝑝 ,es decir, la proporción de éxitos en una muestra, automáticamente
se sabe el porcentaje de fracasos de la muestra. La fórmula para obtener una proporción de
los fracasos que se observa en una muestra es la siguiente:
Ing. Gineth Velásquez
𝑞
La proporción de la muestra p =x/n se utilizará como estimador puntual del parámetro P.
Si no se espera que la proporción P desconocida esté demasiado cerca de 0 ó de 1, se puede establecer un
intervalo de confianza para P al considerar la distribución muestral de proporciones.
Al despejar P de esta ecuación nos queda:
Este despeje podemos observar que se necesita el valor del parámetro P y es precisamente lo que
queremos estimar, por lo que lo sustituiremos por la proporción de la muestra p siempre y cuando el
tamaño de muestra no sea pequeño.
Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el procedimiento del
intervalo de confianza que se establece aquí no es confiable, por tanto, no se debe utilizar. Para estar
seguro, se debe requerir que no ó nq sea mayor o igual a 5.
El error de estimación será la diferencia absoluta entre p y P, y podemos tener el nivel de confianza de que
esta diferencia no excederá .
Ing. Gineth Velásquez
ESTIMACIÓN POR INTERVALO DE UNA PROPORCIÓN
Solución:
n=500
p = 15/500 = 0.03
z(0.90) = 1.645
Ejemplo
Se sabe con un nivel de confianza del 90% que la proporción de bombillos defectuosos que
no pasan la prueba en esa población esta entre 0.0237 y 0.0376.
El intervalo buscado es 0.0237<P<0.0376
Ing. Gineth Velásquez
Un fabricante de bombillos utiliza un conjunto de pruebas amplias para evaluar la función
eléctrica de su producto. Todos los bombillos deben pasar todas las pruebas antes de
venderse. Una muestra aleatoria de 500 bombillos tiene como resultado 15 que fallan en
una o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los
bombillos de la población que no pasan todas las pruebas.
ESTIMACIÓN BAYESIANA
Características
Ing. Gineth Velásquez
La estimación bayesiana se basa en la interpretación subjetiva de la probabilidad, el
cual considera a ésta como un grado de creencia con respecto a la incertidumbre.
La estimación bayesiana utiliza aspectos del método científico, que implica
recolectar evidencia que se considera consistente o inconsistente con una hipótesis.
dada.
Es un tipo de inferencia estadística en la que las evidencias u observaciones se emplean
para actualizar o inferir la probabilidad de que una hipótesis pueda ser cierta.
Aplicaciones
La estimación bayesiana es de progresivo interés y aceptación en distintas áreas,
son numerosas las aplicaciones de la estadística bayesiana que se están realizando,
por ejemplo, en el área financiera, el área de la salud, en el campo de ingeniería.
Dada una nueva evidencia, el teorema de Bayes ajusta las probabilidades de la misma de la
siguiente manera:
Definición Formal
Donde:
: representa una hipótesis, llamada hipótesis nula, que ha sido inferida antes de que la nueva
evidencia, E, resultara disponible.
Ing. Gineth Velásquez
ESTIMACIÓN BAYESIANA
: se llama la probabilidad a priori de
: se llama la probabilidad condicional de que se cumpla la evidencia E si la hipótesis es
verdadera. Se llama también la función de verosimilitud cuando se expresa como una
función de E dado
: se llama la probabilidad marginal de E: la probabilidad de observar la nueva evidencia
E bajo todas las hipótesis mutuamente excluyentes. Se la puede calcular como la suma del
producto de todas las hipótesis mutuamente excluyentes por las correspondientes
probabilidades condicionales: .
: se llama la probabilidad a posteriori de dado E.
HIPÓTESIS REFERENTE A UNA PROPORCIÓN
Ing. Gineth Velásquez
Las pruebas de hipótesis son necesarias en muchas áreas del conocimiento y en
especial en la administración e ingeniería.
Aplicaciones
Características
La hipótesis referente a una prueba depende de si el número de observaciones de la
muestra es grande o pequeño.
El objetivo de la hipótesis es evaluar las afirmaciones con respecto a una proporción (o
Porcentaje) de población.
Es un proceso que permite tomar una decisión entre dos hipótesis opuestas.
Ing. Gineth Velásquez
Se probara que la hipótesis nula es:
HIPÓTESIS REFERENTE A UNA PROPORCIÓN
La hipótesis estadística nula, simbolizada como 𝐻0 , es la hipótesis que se somete a prueba.
Donde:
La información que frecuentemente se utilizará para la estimación de una proporción real
o verdadera (porcentaje o probabilidad) es una proporción muestral.
Que se calcula de la siguiente manera:
De la misma forma muchas compañías podrían estimar las proporciones de muchas
transacciones. La hipótesis alterna puede ser una de las alternativas usuales: unilateral o
bilateral. Tales como:
: es el valor poblacional.
p
Ing. Gineth Velásquez
Ejemplo
Un fabricante de semiconductores produce controladores que se emplean en el sistema
eléctrico de vehículos. El cliente requiere que la proporción de controladores defectuosos no
sea mayor de 0.05, y que el fabricante demuestre estas características del proceso de
fabricación con este nivel de calidad, con un nivel de significancia del 5%. El fabricante de
semiconductores toma una muestra aleatoria de 200 dispositivos y encuentra que 4 de ellos
son defectuosos. ¿El fabricante puede demostrar al cliente la calidad exigida? Obtener sus
conclusiones.
Solución:
• Calcular la proporción muestral
• Para resolver el problema hay que plantear una hipótesis alternativa unilateral de una cola por la
izquierda.
• Es decir p< 0.05
• Para calcular el error estándar de la proporción.
p=0.05
q=0.95
Paso 1. Formulación de hipótesis
: p= 0.05 : La proporción de controladores defectuosos es 0.05
: p<0.05 : La proporción de controladores defectuosos es
menor a 0.05
Ing. Gineth Velásquez
Paso2. Calcular del Z critico
Paso 3. Calcular el Z de los datos, aplicando
la formula se tiene:
El objetivo es comparar la proporción de “éxito” en dos poblaciones independientes
Comparando dos proporciones
Para efectuar esta comparación se requiere * Una Muestra aleatoria de tamaño n1 extraída de la población 1 con parámetro p1
* Una muestra aleatoria de tamaño n2 extraída de la población 2 con parámetro p2
Comparamos las dos proporciones haciendo inferencia sobre p1 – p2 , las diferencias entre las dos proporciones poblacionales. * Si las dos proporciones poblacionales son iguales , entonces p1 – p2 = 0 * El mejor estimador de p1 – p2 es la diferencia entre las dos proporciones muestrales Ing. Yaneth Figuera
Nula (Ho): Es aquella en la que se asegura que los dos parámetros analizados son independientes uno del otro. Alternativa (H1): Es aquella en donde se asegura que los dos parámetros analizados si son dependientes
Muestras grandes Aleatorias independientes
Existen 3 tipos de muestras
0 por Ho
Ho : P1 = P2
H1 : P1 = P2
Ejemplo
La administración de una gran tienda cree, sobre la base de una investigación que el porcentaje de hombres que visitan sus tiendas 9 o mas veces al mes (clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo.
Ing. Yaneth Figuera
Para probar esta información se toma una muestra de clientes hombres y se identifica a 45 que visitan 9 o mas veces al mes la tienda y representan 58% del total, luego se toma una muestra de mujeres y se encuentra que 71 son las clientes mas frecuentes y representan el 42% del total . *Utilice un nivel de significación de 0.05 Con los datos proporcionados probar esta hipótesis . La información proporcionada es nH= 45 nM=71 Especifica el nivel de especificación pH = 0.58 pM= 0.42 pH – pM = 0.58 – 0.42 0.16 1.) Se formula la hipótesis Ho: Ph- Pm = 0 la proporción de hombres que reportan 9 o mas visitas por mes es la misma que la proporción de mujeres que hacen lo mismo. H1 : Ph- Pm > 0 la proporción de hombres que reportan 9 o mas visitas por mes es mayor a la proporción de mujeres que hacen lo mismo.
Ing. Yaneth Figuera
2.) Especifica el nivel de significación de a= 0.05
el valor critico para la prueba de una sola cola es de 1.64
Z a= -1,645
3.) Calculo estadístico de la prueba: a.- Calculamos P (proporción ponderada)
pH= proporción muestral de hombres pM= proporción muestral mujeres nH=tamaño de muestra hombres nM=tamaño muestra mujeres
Ing. Yaneth Figuera
b.- se estima el error estándar de la diferencia de las dos proporciones
P= proporción ponderada nH=tamaño de muestral hombres nM=tamaño muestral mujeres
P= 0.48
4.) Calculo el Z de la muestra Z= (diferencia entre proporciones observadas) – (diferencia entre proporciones Ho) Sph-m
Dif. Entre hipótesis observadas = pH – pM H= 0.58 M= 0.42 Sph-m=o.01
Ing. Yaneth Figuera
5.) La hipótesis nula no se rechaza, porque el valor de la Z calculada (1.60) es menor que el valor critico Z (1.64)
Conclusión: La administración no puede concluir con un nivel de significancia del nivel de 0.05, que la proporción de hombres que visita 9 o mas veces a la gran tienda es mayor que la proporción de mujeres que hacen lo mismo.
Ing. Yaneth Figuera
Tablas de Contingencia: En estadística, se emplean para registrar y analizar la asociación entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales)
Pueden ser usadas para estudios psicológicos, y en nuestro caso para una mejor comprensión de la estadística.
Ejemplo
Supóngase que se tienen dos variables, la primera el género (hombre o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables:
Ing. Yaneth Figuera
Hay situaciones en las que tenemos probabilidades de éxito cercanas al cero o del uno en donde las proporciones pueden ser poco representativas sobre el comportamiento dentro de los grupos.
Diestro Zurdo Total
Hombre 43 9 53
Mujer 44 4 48
Total 87 13 100
Frecuencias marginales
Gran Total
La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras
El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más simple es el coeficiente phi que se define por
X : Se deriva del test de Pearson
N : total de observaciones (cero a infinito)
μ== Estudio de diferencia de proporciones
2
Ing. Yaneth Figuera
Describe lo bien que se ajusta un conjunto de observaciones. Las medidas de bondad en general resumen la discrepancia entre los valores observados y los valores esperados en el modelo de estudio. Tales medidas se pueden emplear en el contraste de hipótesis Estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.
Permiten determinar si los datos disponibles se ajustan a una determinada distribución Es posible predecir el comportamiento de la variable en estudio
Ing. Yaneth Figuera
Se basa en la comparación entre la frecuencia observada en un intervalo de clase y la frecuencia esperada en dicho intervalo, calculada de acuerdo con la distribución teórica considerada. Es decir, se trata de determinar si las frecuencias observadas en la muestra están lo suficientemente cerca de las frecuencias esperadas bajo la hipótesis nula formulada. Para aplicar esta prueba se debe agrupar las observaciones de la muestra en intervalos de clase, preferiblemente del mismo tamaño.
Chi Cuadrado
Kolmogorov Smirnov (K-V)
Es un test no paramétrico que permite establecer si dos muestras se ajustan al mismo modelo probabilístico, sirve para muestras grandes y muestras pequeñas; es necesario determinar la frecuencia observada acumulada y la frecuencia teórica acumulada; una vez determinadas ambas frecuencias, se obtiene el máximo de las diferencias entre ambas.
Anderson - Darling
Esta Prueba no paramétrica es una modificación del test de Kolmogorov Smirnov, donde se le da mas peso a las colas de la distribución que la prueba de K-S
Ing. Yaneth Figuera
Chi Cuadrado
Pasos
Tabla de contingencia
Genero SI NO
Femenino 50 25
Masculino 40 45
Ejemplo Uso del cinturón de Seguridad
Realizar una Hipótesis
Escribir la hipótesis nula y la alternativa
Calcular el valor de
Determinar el valor de P y el grado de libertad
Obtener el valor critico
Realizar una comparación entre el Chi Cuadrado calculado y el valor critico
Interpretar la comparación
X 2
Ing. Yaneth Figuera
Ho: El uso del cinturón de seguridad es independiente del genero H1: El uso del cinturón de seguridad no es independiente del genero
Tabla de Frecuencias Esperadas
Para calcular todos y cada uno de los valores de la tabla de frecuencia esperadas se realiza
Realizar una Hipótesis
Escribir la hipótesis nula y la alternativa
Martha supone que el uso del cinturón de seguridad, en los conductores esta relacionado con el genero.
Ing. Yaneth Figuera
Realizar las sumas por filas por columnas y la suma total
Usar la formula para obtener las frecuencias esperadas
Ing. Yaneth Figuera
Calcular el valor de 2 X
Para obtener el valor de Chi Cuadrado calculado se tiene la formula
50 25
40 45
Tabla de valores Observados Tabla de valores Esperados
42.1875 32.8125
47.8125 37.1875
Ing. Yaneth Figuera
Para calcular el grado de libertad (V) se realiza
V= (cantidad de filas – 1) (cantidad de columnas – 1)
Determinar el valor de P y el grado de libertad
50 25
40 45
Tabla de valores Observados
V= (2 – 1) (2 – 1) V= 1 (1) = 1
Nivel de Significancia * Es el error que se puede cometer al rechazar la hipótesis nula siendo verdadera * Por lo general se trabaja con un nivel de significancia de 0.05 que indica que hay una probabilidad del 0.95 de que la hipótesis nula sea verdadera
Martha supone que el uso del cinturón de seguridad, en los conductores, esta relacionado con el genero. Los datos se muestran en la tabla siguiente. Martha realiza la prueba con su conjetura o su suposición usando Chi Cuadrado con un nivel de significancia del 1% Ing. Yaneth Figuera
Genero SI NO
Femenino 50 25
Masculino 40 45
Uso del cinturón de Seguridad
Entonces tiene un nivel de significancia del 0.01
Valor del Parámetro p
* Para calcular el valor de p se realiza: p = 1 – Nivel de significancia p = 1 – 0.01 = 0.99
Tablas para valores de Chi
Cuadrado Critico
Obtener el valor critico
Ing. Yaneth Figuera
Realizar una comparación entre el Chi Cuadrado calculado y el valor critico
• Si el valor de Chi Cuadrado Calculado es menor o igual que Chi Cuadrado critico entonces se acepta la hipótesis nula, caso contrario no se la acepta .
Ejemplo
Entonces se acepta la hipótesis nula, la cual es “el uso del cinturón de seguridad es independiente del genero”
Interpretar la comparación
Ing. Yaneth Figuera
Definición
Es el diseño en cual los tratamientos se asignan al azar entre las unidades experimentales (UE) o viceversa, este diseño tienen amplia aplicación cuando las unidades experimentales son muy homogéneas, es decir, la mayoría de los factores actúan por igual entre las unidades experimentales. Su nombre deriva del hecho que existe completamente una aleatorizacion, la cual valida como la prueba de F de Fisher-Snedecor. También se le conoce como Diseño de una vía o solo un criterio de clasificación en virtud de que las respuestas se hallan clasificadas únicamente por los tratamientos.
Diseño Completamente Aleatorizado
Ing. Angelica Carreño
Aplicación
En experimentos de laboratorio donde casi todos los factores están controlados.
También en ensayos clínicos y en experimentos industriales.
Ensayos de invernaderos.
Experimentos agrícolas.
Características
Este diseño no impone ninguna restricción en cuanto a las unidades experimentales, deben ser en todo caso homogéneas .
El diseño en su estructura no se ve afectado por el numero igual o desigual de observaciones por tratamiento.
Ing. Angelica Carreño
Modelo Aditivo Lineal
Es una expresión algebraica que condensa todos los factores presentes en la investigación. Resulta útil para sintetizar que factores son dependientes o independientes, cuales son fijos o aleatorios, cuales son cruzados o anidados.
Para este diseño el modelo aditivo lineal es:
Ing. Angelica Carreño
Modelo I o Modelo de Efectos Fijos
Cuando los factores son fijos el investigador ha escogido los factores en forma no aleatoria y solo esta interesado en ellos. En este caso el investigador asume que lo cual refleja la decisión del investigador que únicamente esta interesado en los t tratamientos presente en el experimento.
Modelo II o Modelo de Efectos Aleatorios o Modelo de Varianza
En este caso el investigador asume que los Ti tratamientos están
distribuidos normal e independientemente con media cero y varianza sigma cuadrado, lo cual se abrevia así , lo que refleja la decisión del investigador que solo esta interesado en una población de tratamientos, de los cuales únicamente una muestra al azar (los t tratamientos) están presentes en el experimento.
Ing. Angelica Carreño
Modelo Mixto
Hace referencia a aquellos casos en los cuales el investigador considera tanto factores fijos como aleatorios en el experimento.
Representación Simbólica del Modelo Completamente Aleatorizado
Ing. Angelica Carreño
Ejemplo
El proceso de distribución de los tratamientos azar en las unidades experimentales se puede realizar una tabla de números aleatorios o mediante un algoritmo computarizado de SAS.
Supongamos un experimento donde deseamos probar 4 tipos de diferentes mezclas, A,B,C y D cada una en una proporción única para determinar su efecto sobre la capacidad de aumento de peso en las plataformas. Se desean realizar 5 repeticiones.
Se procede de la siguiente manera:
Se forman grupos homogéneos en cuanto a una variable (digamos en este caso peso).
Cada grupo va a contener 4 plataformas .
Realizando el sorteo, mediante la tabla de números aleatorios puede resultar así: Ing. Angelica Carreño
De esta forma quedan distribuidos los tratamientos entre las unidades experimentales que en total son 5x4= 20 Plataformas.
El Balance existe en este caso cuando permitimos que cada repetición (replicación), contenga todos los tratamientos.
Ing. Angelica Carreño
Diseño con Bloques Aleatorizado
Un diseño de bloques aleatorizados es un diseño que suele utilizarse para minimizar el efecto de la variabilidad cuando está asociada con unidades discretas (por ejemplo, ubicación, operador, planta, lote, tiempo). El caso habitual consiste en aleatorizar una réplica de cada combinación de tratamientos dentro de cada bloque. Por lo general, no hay un interés intrínseco en los bloques y se considera que son factores aleatorios. El supuesto habitual es que la interacción de bloque y tratamiento es cero, y esta interacción pasa a ser el término de error para probar los efectos del tratamiento. Si identifica a la variable de bloque como Bloque, los términos presentes en el modelo serían Bloque, A, B y A*B. También especificaría Bloque como un factor aleatorio.
Definición
Ing. Angelica Carreño
Características
Debe existir una variación máxima entre los bloques.
Debe existir una variación mínima entre las unidades experimentales dentro del bloque.
Todos los tratamiento, se le aplican en todos los bloques.
Ejemplo
Se realizo un experimento para estudiar el funcionamiento de cuatro diferentes detergentes quita mancha. Las lectura de blancura (valor mayor= mas limpio) se obtuvieron usando un equipo especial en tres diferentes tipos de manchas comunes. Hay diferencia significativa entre los detergentes?
Ing. Angelica Carreño
Utilizar bloques es una forma de reducir y controlar la varianza del error experimental para tener mayor precisión.
Diseño en cuadro latino
El diseño de cuadro latina se usa para eliminar dos fuentes de variabilidad que no interesa estudiar por si mismas. Se hace un bloque en dos direcciones. Los renglones y las columnas representan dos restricciones en aleatorizacion.
Ing. Angelica Carreño
Un ingeniero industrial esta investigando el efecto de cuatro métodos de ensamblado (A,B,C,D) en el tiempo de ensamblado de una componente de televisión a color. Selecciono a cuatro operadores para el estudio. Además, el ingeniero sabe que cada método de ensamblado produce cierta fatiga, de tal manera que el tiempo requerido para l ultimo ensamblado puede ser mayor que le tiempo requerido para el primero, independientemente del método. Para tomar en cuenta estas dos fuentes de variabilidad (operador, orden de ensamblado) el ingeniero decide usar un Diseño de cuadro latino cuyos resultados se presentan a continuación:
Ing. Angelica Carreño
Definiciones
Ing. Erika Páez
Variable Y
Variable Xp Regresión
La Relación:
Si P = 1
Si P > 1 Regresión Lineal
Si las Variables explicativas (Y) son Categóricas en vez de continuas
Entonces nos encontramos ante un caso típico de :
Análisis de Varianza
Es posible que en el mismo análisis aparezcan tanto variables explicativas continuas como
categóricas
y en este caso el análisis pasara a denominarse:
Análisis de la covarianza
ijiji (x )XYij
Análisis de Covarianza Lograr dos Objetivos Específicos:
a) Eliminar cualquier error sistemático fuera del control del investigador que pueda sesgar los
resultados
b) Tener en cuenta las diferencias en las respuestas debidas a las características propias de
los encuestados.
Un sesgo sistemático puede ser eliminado por medio de la asignación aleatoria de los encuestados a varios tratamientos
El Objetivo de la Covarianza: Eliminar cualquiera de los efectos que:
a) Influyan solamente a una parte de los encuestados
b) Varia entre los encuestados
El investigador utiliza una covarianza para
extraer cualquiera de las diferencias debidas
a estos factores antes de que los efectos del
experimento sean calculados. Este es el
segundo papel del analisis de la covarianza. Ing. Erika Páez
Ejemplo: (Montgomery) Considere un estudio realizado para determinar si
existe diferencia en la resistencia de una fibra de
monofilamento producida por tres maquinas diferentes. Se sospecha que, la resistencia de la fibra
también se afecta por su grosor; por consiguiente, una fibra más gruesa será por lo general más
resistente que una delgada. Los datos de este experimento se muestran en la tabla (9.2). Es evidente
que para resolver el problema debemos realizar un análisis de covarianza con el objeto
Ing. Erika Páez
Ejemplo: (Montgomery)
que para resolver el problema debemos realizar un análisis
de covarianza con el objeto de eliminar el efecto del grosor (x) sobre
la resistencia (y). Suponiendo que la relación lineal entre la resistencia a la ruptura y el diámetro es
apropiada, el modelo es
El modelo de análisis de covarianza es una combinación de los modelos lineales empleados en el
análisis de regresión y análisis de varianza. Es decir, se tienen efectos de los tratamientos {αi},
como en el análisis de varianza de un solo factor, y un coeficiente de regresión β, como en una
ecuación de regresión.
Ing. Erika Páez
Análisis de Covarianza
Para describir el análisis se introduce la siguiente notación
En General S, T y E son las Sumas de cuadrados y los dobles
productos para el total. Los tratamientos y error
Ing. Erika Páez
Análisis de Covarianza A continuación se indica la forma en que el análisis de
covarianza ajusta la variable respuesta para el efecto
de la covariable.
Estimadores de mínimos cuadrados
Ing. Erika Páez
Por la ecuación anterior se encuentra que:
Ejemplo: (Montgomery)
suma de cuadrada
La suma de cuadrados del error
Parámetro de regresión
Si la hipótesis es nula Ósea Ho= O la convariable puede omitirse del estudio. Por lo tanto se rechaza
Ing. Erika Páez
Ejemplo: (Montgomery) Resumiendo que:
Para probar la hipótesis de que las maquinas difieren en la
resistencia a la ruptura de la fibra producida, es decir, H0 : αi = 0, por la ecuación (9.19) el
estadístico de prueba se calcula como
La estimación del coeficiente de regresión se calcula con
La hipótesis H0 : β = 0 puede probarse usando la ecuación. El estadístico de prueba es
Ing. Erika Páez
Análisis:
Un supuesto básico en el análisis de covarianza es que los tratamientos no influyen en la covariable
x, ya que la técnica elimina el efecto de las variaciones en las ¯xi.. Sin embargo, si la variabilidad
en la ¯xi. se debe en parte a los tratamientos, entonces el análisis de covarianza elimina parte del
efecto de los tratamientos. Por lo tanto, deberá tenerse una seguridad razonable de que los
tratamientos no afectan los valores de xij .
Ejemplo (Scheffé)
Ing. Erika Páez
Comparaciones Múltiples ¿Qué son comparaciones múltiples?
Las comparaciones múltiples le permiten evaluar la significancia
estadística:
Como siempre, se rechaza la hipótesis nula de que no existe diferencia alguna entre las
medias si y solo si el intervalo de confianza no contiene cero.
Diferencias entre las medias utilizando:
Prueba de hipótesis:
Las comparaciones múltiples permiten establecer una información más exacta sobre la importancia de cada uno de los niveles de la variable independiente. Ing. Erika Páez
Comparaciones Múltiples Situaciones Básicas
se refiere a la situación más común en la que el investigador, una vez realizado el Análisis de Varianza y rechazada la H0 desea conocer entre qué medias hay diferencias no debidas al azar. Se trata de las comparaciones no planificadas, a posteriori o post hoc
se refiere a cuando el investigador no está interesado en realizar un Análisis de Varianza para probar todas las medias sino sólo en algunas comparaciones entre los niveles del factor, no en todas las posibles y sabe de antemano qué comparaciones le interesan. Se trata de comparaciones planificadas o a priori
Objetivo
Es, como parte del Análisis de Varianza, reducir la cantidad de error Tipo I que cometeríamos si comparásemos dos a dos todas las muestras, por lo tanto, aunque comparemos las muestras dos a dos, no recurrimos a la prueba t estudiada en temas precedentes, sino que aplicaremos pruebas específicas que aprovechan los resultados del Análisis de Varianza y que nos aseguran que no se incrementa el error de tipo I (α).
Ing. Erika Páez
Comparaciones Múltiples ¿Cuál método de comparaciones múltiples debería utilizar?
La selección del método de comparación múltiple apropiado depende de la inferencia que desee
Ing. Erika Páez
Comparaciones Múltiples ¿Cuáles medias debería comparar? Es importante considerar cuáles medias se compararán
cuando se utilizan comparaciones múltiples; una elección incorrecta puede tener como resultado
intervalos de confianza que no son lo que usted espera.
COMPARACIONES NO PLANIFICADAS, A POSTERIORI O POST HOC
son aquellas, como hemos dicho, que se deciden después de que el investigador haya obtenido los
resultados del Análisis de Varianza, rechazando la hipótesis nula. Aunque existen distintas técnicas
para realizar estas comparaciones, aquí vamos a estudiar sólo una de ellas: la prueba de comparaciones
múltiples de Scheffé, que es una de las más utilizadas.
Prueba de comparaciones múltiples de Scheffé.
Esta prueba fija la tasa de error de tipo I en el α al que estemos trabajando, sin aumentarlo en todas
las posibles comparaciones que realicemos, y obtiene un valor al que llama diferencia mínima o rango
crítico (Critical Range de Scheffé) por encima de la cual diremos que hay diferencias entre las
medias o entre los grupos de medias que estemos comparando. Esta diferencia mínima se calcula
según la fórmula: Ing. Erika Páez
F.V. S.C. g.l M.C. F Estadístico de contraste
13.28 1-1 27.99/2= 13.95
2.91
Ejemplo (Scheffé) Retomando el ejemplo anterior tenemos que:
Medidas a comparar
Al comparar las medias ajustadas con las medias no ajustadas de los tratamientos (las ¯yi.), se
observa que las medias ajustadas se encuentran mucho más próximas entre si, una indicación más de
que el análisis de covarianza fue necesario. Ing. Erika Páez
Análisis:
Ejemplo (Scheffé)
F.V. S.C. g.l M.C. F Estadístico de pruebas
13.28 1-1 2.54 70.08
Si acudimos a las tablas de la distribución F, el valor crítico para 2.91 y 70.08 grados de
libertad, trabajando con un nivel de confianza del 95%, es 3.13 Ahora bien, ¿entre qué pares de medias está la diferencia que hace que rechacemos la hipótesis
nula?
Si aplicamos la prueba de comparaciones múltiples de Scheffé
a):
b): Calculamos CRScheffé =
Ing. Erika Páez
Análisis:
Ejemplo (Scheffé)
Comparando nuestro resultado
con el de las tablas vemos que el
estadístico de contraste es
menor al nivel crítico (295 <
3,13) por lo que rechazaremos la
H0 de igualdad de medias
Ing. Erika Páez
Ejemplo (Scheffé) Esta es la diferencia mínima o rango crítico
(Critical Range de Scheffé), por encima de la cual diremos
que hay diferencias entre las medias o entre los grupos de medias que estemos comparando. Por lo
tanto, realizamos las comparaciones:
Como vemos, la única diferencia significativa (responsable de que hayamos rechazado la hipótesis
nula del análisis de varianza) se da entre los grupos 2 y 3 ya que la diferencia de medias entre estos
dos grupos supera el valor del CR de Scheffé.
Ing. Erika Páez
La estimación de proporciones permiten determinar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra .
La estimación bayesiana se basa en la que las evidencias u observaciones se emplean para actualizar o inferir la probabilidad de que una hipótesis pueda ser cierta.
Las prueba de hipótesis se utilizan para determinar si existe suficiente evidencia en una muestra de datos para inferir que cierta condición es válida para toda la población.
El análisis de las tablas de contingencia se emplean para registrar y analizar la asociación entre dos o más variables, habitualmente de naturaleza cualitativa.
Las pruebas de bondad de ajuste permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.
El diseño completamente aleatorizados se utiliza en la asignación de los tratamientos en forma completamente aleatoria a las unidades experimentales .
El diseño de bloques aleatorizados sirve para minimizar el efecto de la variabilidad cuando está asociada con unidades discretas.
Las comparaciones múltiples permiten evaluar la significancia estadística de las
diferencias entre las medias utilizando un conjunto de intervalos de confianza, un conjunto de pruebas de hipótesis o ambos.
El análisis de covarianza se emplea cuando no se puede controlar una mas variables extrañas.
1)http://es.slideshare.net/williamleon20/prueba-de-hipotesis-para-proporciones-est-ind-clase02?qid=3268290f-37ec-44ec-a0f4-42cba559c59d&v=&b=&from_search=6 2) https://es.wikipedia.org/wiki/Estad%C3%ADstica_inferencial 3)http://gc.initelabs.com/recursos/files/r157r/w13122w/Estad%20para%20Neg_1aEd_07.pdf 4)https://es.wikipedia.org/wiki/Inferencia_bayesiana 5)http://www.monografias.com/trabajos91/prueba-hipotesis-proporciones-z-y-ji-cuadrado-empleando-excel-y-winstats/prueba-hipotesis-proporciones-z-y-ji-cuadrado-empleando-excel-y-winstats.shtml#ixzz49iVhIKv4 6)http://www.urosario.edu.co/Administracion/documentos/investigacion/laboratorio/miller_2_2.pdf 7)http://www.iuma.ulpgc.es/~nunez/mastertecnologiastelecomunicacion/Tema3DisenodeExperimentos/doe-4-bloques_al_azar.pdf
8)http://www.uru.edu/fondoeditorial/libros/pdf/manualdestatistix/cap2.pdf 9)http://es.slideshare.net/williamleon20/prueba-de-hipotesis-para-proporciones-est-ind-clase02?qid=4362a8d2-eb8c-462f-af15-4447d390f248&v=&b=&from_search=1 https://es.wikipedia.org/wiki/Tabla_de_contingencia 10)http://www.ugr.es/~batanero/pages/ARTICULOS/Gustavo2.pdf 11)http://es.slideshare.net/search/slideshow?searchfrom=header&q=hipotesis+de+varias+proporciones 12)https://www.google.co.ve/search?q=calculo+estadistico+de+la+prueba+formula+de+z+
diferencia+entre+porpociones+onservadas+diferencia+enre+poporciones&espv=2&biw=1366&bih=667&tbm=isch&source=lnms&sa=X&ved=0ahUKEwiX8K2hsvjMAhXqxYMKHTD3C4cQ_AUIBygC#tbm=isch&q=conclusion&imgrc=y98-eCMnKFr_2M%3A
13) www.psicocode.com/resumenes/tema5disenos.pdf 14) www.ugr.es/~bioestad/_private/cpfund6.pdf 15) www.uru.edu/fondoeditorial/libros/pdf/manualdestatistix/cap6.pdf
Recommended