33
PRUEBA DE HIPÓTESIS, DISTRIBUCIÓN JI CUADRADA, ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL JUAN CARLOS SALAS SANCHEZ C.I. 17527362 4TO SEMESTRE DE INFORMATICA ESTADISTICA PROBABILISTICA INSTITUTO UNIVERSITARIO DE LA FRONTERA SEDE SAN CRISTÓBAL

Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Embed Size (px)

DESCRIPTION

Prueba de Hipótesis, Distribución Ji

Citation preview

Page 1: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

PRUEBA DE HIPÓTESIS, DISTRIBUCIÓN

JI CUADRADA, ANÁLISIS DE REGRESIÓN

Y CORRELACIÓN LINEAL

JUAN CARLOS SALAS SANCHEZ

C.I. 17527362

4TO SEMESTRE DE INFORMATICA

ESTADISTICA PROBABILISTICA

INSTITUTO UNIVERSITARIO DE LA FRONTERA SEDE SAN CRISTÓBAL

Page 2: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

PRUEBA DE HIPOTESIS Afirmación acerca de los parámetros de la población. Etapas Básicas en Pruebas de Hipótesis. Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la estadística muestral, así como la media (x), con el parámetro hipotético, se compara con una supuesta media poblacional (). Después se acepta o se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta. Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor hipotético del parámetro que se compra con el resultado muestral resulta muy poco probable cuando la hipótesis es cierta. Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%, entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoria mente con una probabilidad de 1.05 o menos. Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la estadística muestral (el estimador no segado del parámetro que se prueba) o una versión transformada de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una media poblacional, se toma la media de una muestra aleatoria de esa distribución normal, entonces es común que se transforme la media en un valor z el cual, a su vez, sirve como estadística de prueba. Consecuencias de las Decisiones en Pruebas de Hipótesis.

Decisiones Posibles Situaciones Posibles

La hipótesis nula es verdadera

La hipótesis nula es falsa

Aceptar la Hipótesis Nula Se acepta correctamente Error tipo II

Rechazar la Hipótesis Nula Error tipo I Se rechaza correctamente

Etapa 4.- Establecer el valor o valores críticos de la estadística de prueba. Habiendo especificado la hipótesis nula, el nivel de significancia y la estadística de prueba que se van a utilizar, se produce a establecer el o los valores críticos de estadística de prueba. Puede haber uno o más de esos valores, dependiendo de si se va a realizar una prueba de uno o dos extremos.

Page 3: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Etapa 5.- Determinar el valor real de la estadística de prueba. Por ejemplo, al probar un valor hipotético de la media poblacional, se toma una muestra aleatoria y se determina el valor de la media muestral. Si el valor crítico que se establece es un valor de z, entonces se transforma la media muestral en un valor de z. Etapa 6.- Tomar la decisión. Se compara el valor observado de la estadística muestral con el valor (o valores) críticos de la estadística de prueba. Después se acepta o se rechaza la hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá efecto sobre otras decisiones de los administradores operativos, como por ejemplo, mantener o no un estándar de desempeño o cuál de dos estrategias demercadotecnia utilizar. La distribución apropiada de la prueba estadística se divide en dos regiones: una región de rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente. Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de la región de rechazo.

PASOS DE LA PRUEBA DE HIPÓTESIS 1. Expresar la hipótesis nula 2. 3. Expresar la hipótesis alternativa 4. Especificar el nivel de significancía 5. Determinar el tamaño de la muestra 6. Establecer los valores críticos que establecen las regiones de rechazo de las de no

rechazo. 7. Determinar la prueba estadística. 8. Coleccionar los datos y calcular el valor de la muestra de la prueba estadística

apropiada. 9. Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo. 10. Determinar la decisión estadística. 11. Expresar la decisión estadística en términos del problema.

Page 4: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

CONCEPTOS BÁSICOS PARA EL PROCEDIMIENTO DE PRUEBAS DE HIPÓTESIS. Hipótesis Estadística: Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la población aplicada. Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas. Son, en general, enunciados acerca de las distribuciones de probabilidad de las poblaciones. Hipótesis Nula. En muchos casos formulamos una hipótesis estadística con el único propósito de rechazarla o invalidarla. Así, si queremos decidir si una moneda está trucada, formulamos la hipótesis de que la moneda es buena (o sea p = 0,5, donde p es la probabilidad de cara). Analógicamente, si deseamos decidir si un procedimiento es mejor que otro, formulamos la hipótesis de que no hay diferencia entre ellos (o sea. Que cualquier diferencia observada se debe simplemente a fluctuaciones en el muestreo de la misma población). Tales hipótesis se suelen llamar hipótesis nula y se denotan por Ho. Para todo tipo de investigación en la que tenemos dos o más grupos, se establecerá una hipótesis nula. La hipótesis nula es aquella que nos dice que no existen diferencias significativas entre los grupos. Por ejemplo, supongamos que un investigador cree que si un grupo de jóvenes se somete a un entrenamiento intensivo de natación, éstos serán mejores nadadores que aquellos que no recibieron entrenamiento. Para demostrar su hipótesis toma al azar una muestra de jóvenes, y también al azar los distribuye en dos grupos: uno que llamaremos experimental, el cual recibirá entrenamiento, y otro que no recibirá entrenamiento alguno, al que llamaremos control. La hipótesis nula señalará que no hay diferencia en el desempeño de la natación entre el grupo de jóvenes que recibió el entrenamiento y el que no lo recibió. Una hipótesis nula es importante por varias razones: Es una hipótesis que se acepta o se rechaza según el resultado de la investigación. El hecho de contar con una hipótesis nula ayuda a determinar si existe una diferencia entre los grupos, si esta diferencia es significativa, y si no se debió al azar. No toda investigación precisa de formular hipótesis nula. Recordemos que la hipótesis nula es aquella por la cual indicamos que la información a obtener es contraria a la hipótesis de trabajo. Al formular esta hipótesis, se pretende negar la variable independiente. Es decir, se enuncia que la causa determinada como origen del problema fluctúa, por tanto, debe rechazarse como tal. Otro ejemplo: Hipótesis: el aprendizaje de los niños se relaciona directamente con su edad.

Page 5: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Hipótesis Alternativa. Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa. Por ejemplo: Si una hipótesis es p = 0,5, hipótesis alternativa podrían ser p = 0,7, p " 0,5 ó p > 0,5. Una hipótesis alternativa a la hipótesis nula se denotará por H1.

Al responder a un problema, es muy conveniente proponer otras hipótesis en que aparezcan variables independientes distintas de las primeras que formulamos. Por tanto, para no perder tiempo en búsquedas inútiles, es necesario hallar diferentes hipótesis alternativas como respuesta a un mismo problema y elegir entre ellas cuáles y en qué orden vamos a tratar su comprobación.

Las hipótesis, naturalmente, serán diferentes según el tipo de investigación que se esté realizando. En los estudios exploratorios, a veces, el objetivo de la investigación podrá ser simplemente el de obtener los mínimos conocimientos que permitan formular una hipótesis. También es aceptable que, en este caso, resulten poco precisas, como cuando afirmamos que "existe algún tipo de problema social en tal grupo", o que los planetas poseen algún tipo de atmósfera, sin especificar de qué elementos está compuesto. Los trabajos de índole descriptiva generalmente presentan hipótesis del tipo "todos los X poseen, en alguna medida, las característica Y". Por ejemplo, podemos decir que todas las naciones poseen algún comercio internacional, y dedicarnos a describir, cuantificando, las relaciones comerciales entre ellas. También podemos hacer afirmaciones del tipo "X pertenece al tipo Y", como cuando decimos que una tecnología es capital - intensiva. En estos casos, describimos, clasificándolo, el objeto de nuestro interés, incluyéndolo en un tipo ideal complejo de orden superior. Por último, podemos construir hipótesis del tipo "X produce (o afecta) a Y", donde estaremos en presencia de una relación entre variables. Errores de tipo I y de tipo II. Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I. Por otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos que se cometió un error de tipo II. En ambos casos, se ha producido un juicio erróneo. Para que las reglas de decisión (o no contraste de hipótesis) sean buenos, deben diseñarse de modo que minimicen los errores de la decisión; y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un intento de disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo. En la práctica, un tipo de error puede ser más grave que el otro, y debe alcanzarse un compromiso que disminuya el error más grave. La única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra que no siempre es posible.

Page 6: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Niveles de Significación. Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuesto a correr el riesgo de cometerán error de tipo I, se llama nivel de significación. Esta probabilidad, denota a menudo por se, suele especificar antes de tomar la muestra, de manera que los resultados obtenidos no influyan en nuestra elección. En la práctica, es frecuente un nivel de significación de 0,05 ó 0,01, si bien se une otros valores. Si por ejemplo se escoge el nivel de significación 0,05 (ó 5%) al diseñar una regla de decisión, entonces hay unas cinco (05) oportunidades entre 100 de rechazar la hipótesis cuando debiera haberse aceptado; Es decir, tenemos un 95% de confianza de que hemos adoptado la decisión correcta. En tal caso decimos que la hipótesis ha sido rechazada al nivel de significación 0,05, lo cual quiere decir que tal hipótesis tiene una probabilidad 0,05 de ser falsa. Prueba de Uno y Dos Extremos. Cuando estudiamos ambos valores estadísticos es decir, ambos lados de la media lo llamamos prueba de uno y dos extremos o contraste de una y dos colas. Con frecuencia no obstante, estaremos interesados tan sólo en valores extremos a un lado de la media (o sea, en uno de los extremos de la distribución), tal como sucede cuando se contrasta la hipótesis de que un proceso es mejor que otro (lo cual no es lo mismo que contrastar si un proceso es mejor o peor que el otro) tales contrastes se llaman unilaterales, o de un extremo. En tales situaciones, la región crítica es una región situada a un lado de la distribución, con área igual al nivel de significación. Curva Característica Operativa Y Curva De Potencia Podemos limitar un error de tipo I eligiendo adecuadamente el nivel de significancia. Es posible evitar el riesgo de cometer el error tipo II simplemente no aceptando nunca la hipótesis, pero en muchas aplicaciones prácticas esto es inviable. En tales casos, se suele recurrir a curvas características de operación o curvas de potencia que son gráficos que muestran las probabilidades de error de tipo II bajo diversas hipótesis. Proporcionan indicaciones de hasta que punto un test dado nos permitirá evitar un error de tipo II; es decir, nos indicarán la potencia de un test a la hora de prevenir decisiones erróneas. Son útiles en el diseño de experimentos por que sugieren entre otras cosas el tamaño de muestra a manejar. Pruebas de hipótesis para la media y proporciones Debido a la dificultad de explicar este tema se enfocará un problema basado en un estudio en una fábrica de llantas. En este problema la fábrica de llantas tiene dos turnos de operarios, turno de día y turno mixto. Se selecciona una muestra aleatoria de 100 llantas producidas por cada turno para ayudar al gerente a sacar conclusiones de cada una de las siguientes preguntas: 1.- ¿Es la duración promedio de las llantas producidas en el turno de día igual a 25 000 millas? 2.- ¿Es la duración promedio de las llantas producidas en el turno mixto menor de 25 000 millas?

Page 7: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

3.- ¿Se revienta más de un 8% de las llantas producidas por el turno de día antes de las 10 000 millas? Prueba De Hipótesis Para La Media En la fábrica de llantas la hipótesis nula y alternativa para el problema se plantearon como sigue: Ho: μ = 25 000 H1: μ ≠ 25 000

Si se considera la desviación estándar σ las llantas producidas en el turno de día, entonces, con base en el teorema de limite central, la distribución en el muestreo de la media seguiría la distribución normal, y la prueba estadística que está basada en la diferencia

entre la media de la muestra y la media μ hipotιtica se encontrara como sigue: Para ver el gráfico seleccione la opción "Descargar" del menú superior Si el tamaño de la región α de rechazo se estableciera en 5% entonces se podrían determinar los valores críticos de la distribución. Dado que la región de rechazo está dividida en las dos colas de la distribución, el 5% se divide en dos partes iguales de 2.5%. Dado que ya se tiene la distribución normal, los valores críticos se pueden expresar en unidades de desviación. Una región de rechazo de 0.25 en cada cola de la distribución normal, da por resultado un área de .475 entre la media hipotética y el valor crítico. Si se busca está área en la distribución normal, se encuentra que los valores críticos que dividen las regiones de rechazo y no rechazo son + 1.96 y - 1.96

Por tanto, la regla para decisión sería: Rechazar Ho si Z > + 1.96 O si Z < - 1.96 De lo contrario, no rechazar Ho No obstante, en la mayor parte de los casos se desconoce la desviación estándar de la población. La desviación estándar se estima al calcular S, la desviación estándar de la muestra. Si se supone que la población es normal la distribución en el muestreo de la media seguiría una distribución t con n-1 grados de libertad. En la práctica, se a encontrado que siempre y cuando el tamaño de la muestra no sea muy pequeño y la población no este muy sesgada, la distribución t da una buena aproximación a la

Page 8: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

distribución de muestra de la media. La prueba estadística para determinar la diferencia entre la media de la muestra y la media de la población cuando se utiliza la desviación estándar S de la muestra. Para una muestra de 100, si se selecciona un nivel de significancía de .05, los valores críticos de la distribución t con 100-1= 99 grados de libertad se puede obtener como se indica en la siguiente tabla: Para ver el gráfico seleccione la opción "Descargar" del menú superior Como esta prueba de dos colas, la región de rechazo de .05 se vuelve a dividir en dos partes iguales de .025 cada una. Con el uso de las tablas para t, los valores críticos son –1.984 y +1.984. La regla para la decisión es: Rechazar Ho si >+1.984 O si - 1.984 De lo contrario, no rechazar Ho

Los resultados de la muestra para el turno de día fueron =25 430 millas, =4 000 millas y = 100. Puesto que se está probando si la media es diferente a 25 000 millas, se tiene con la ecuación Para ver el gráfico seleccione la opción "Descargar" del menú superior Dado que = 1.075, se ve que -1.984 < +1.075 < + 1.984, entonces no se rechaza Ho. Por ello, la de cisión de no rechazar la hipótesis nula Ho. En conclusión es que la duración promedio de las llantas es 25 000 millas. A fin de tener en cuenta la posibilidad de un error de tipo II, este enunciado se puede redactar como "no hay pruebas de que la duración promedio de las llantas sea diferente a 25 000 millas en las llantas producidas en el turno de día". Prueba De Hipótesis Para Proporciones El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con datos cualitativos. Por ejemplo, en el problema anterior el gerente de la fábrica de llantas quería determinar la proporción de llantas que se reventaban antes de 10,000 millas. Este es un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en cuanto a la proporción de los valores que tienen una característica particular. El gerente de la fábrica de llantas quiere que la calidad de llantas producidas, sea lo bastante alta para que muy pocas se revienten antes de las 10,000 millas. Si más de un 8% de las llantas se revientan antes de las 10,000 millas, se llegaría a concluir que el proceso no funciona correctamente. La hipótesis nula y alternativa se pueden expresar como sigue:

Page 9: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Ho: p .08 (funciona correctamente) H1: p > .08 (no funciona correctamente)

La prueba estadística se puede expresar en términos de la proporción de éxitos como sigue: En donde Para ver el gráfico seleccione la opción "Descargar" del menú superior p = proporción de éxitos de la hipótesis nula Ahora se determinará si el proceso funciona correctamente para las llantas producidas para el turno de día. Los resultados del turno de día índican que cinco llantas en una muestra de 100 se reventaron antes de 10,000 millas para este problema, si se selecciona un nivel de significancía de .05, las regiones de rechazo y no rechazo se establecerían como a continuación se muestra: Para ver el gráfico seleccione la opción "Descargar" del menú superior Y la regla de decisión sería: Z -1.107 < + 1.645; por tanto no rechazar Ho. La hipótesis nula no se rechazaría por que la prueba estadística no ha caído en la región de rechazo. Se llegaría a la conclusión de que no hay pruebas de que más del 8% de las llantas producidas en el turno de día se revienten antes de 10,000 millas. El gerente no ha encontrado ninguna prueba de que ocurra un número excesivo de reventones en las llantas producidas en el turno de día. http://cosmech.tripod.com/index.htm Pruebas de Hipótesis Una hipótesis estadística es una suposición hecha con respecto a la función de distribución de una variable aleatoria. Para establecer la verdad o falsedad de una hipótesis estadística con certeza total, será necesario examinar toda la población. En la mayoría de las situaciones reales no es posible o practico efectuar este examen, y el camino más aconsejable es tomar una muestra aleatoria de la población y en base a ella, decidir si la hipótesis es verdadera o falsa. En la prueba de una hipótesis estadística, es costumbre declarar la hipótesis como verdadera si la probabilidad calculada excede el valor tabular llamado el nivel de significación y se declara falsa si la probabilidad calculada es menor que el valor tabular. La prueba a realizar dependerá del tamaño de las muestras, de la homogeneidad de las varianzas y de la dependencia o no de las variables. Si las muestras a probar involucran a más de 30 observaciones, se aplicará la prueba de Z, si las muestras a evaluar involucran un número de observaciones menor o igual que 30 se emplea la prueba de t de student. La fórmula de cálculo depende de si las varianzas son

Page 10: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

homogéneas o heterogéneas, si el número de observaciones es igual o diferente, o si son variables dependientes. Para determinar la homogeneidad de las varianzas se toma la varianza mayor y se divide por la menor, este resultado es un estimado de la F de Fisher. Luego se busca en la tabla de F usando como numerador los grados de libertad (n-1) de la varianza mayor y como denominador (n-1) de la varianza menor para encontrar la F de Fisher tabular. Si la F estimada es menor que la F tabular se declara que las varianzas son homogéneas. Si por el contrario, se declaran las varianzas heterogéneas. Cuando son variables dependientes (el valor de una depende del valor de la otra), se emplea la técnica de pruebas pareadas. Como en general estas pruebas se aplican a dos muestras, se denominarán a y b para referirse a ellas, así entenderemos por:

na al número de elementos de la muestra a nb al número de elementos de la muestra b xb al promedio de la muestra b s2a la varianza de la muestra a Y así sucesivamente

Entonces se pueden distinguir 6 casos a saber: 1. Caso de muestras grandes (n>30) 2. Caso de na = nb y s2a = s2b 3. Caso de na = nb y s2a <> s2b 4. Caso de na <> nb y s2a = s2b 5. Caso de na <> nb y s2a <> s2b 6. Caso de variables dependientes

1.-Cuando las muestras a probar involucran a más de 30 observaciones.

Ejemplo: La altura promedio de 50 palmas que tomaron parte de un ensayo es de 78 cm. con una desviación estándar de 2.5 cm.; mientras que otras 50 palmas que no forman parte del ensayo tienen media y desviación estándar igual a 77.3 y 2.8 cm.

Se desea probar la hipótesis de que las palmas que participan en el ensayo son más altas que las otras. Consultando el valor z de la tabla a 95% de probabilidad se tiene que es 1.96, por lo consiguiente, el valor z calculado no fue mayor al valor de la tabla y entonces se declara la prueba no significativa.

Page 11: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Conclusión: Las alturas promedio de los 2 grupos de palmas son iguales y la pequeña diferencia observada en favor al primer grupo se debe al azar. 2.-Caso de número igual de observaciones y varianzas homogéneas.

Ejemplo: Se plantó cierto experimento en 24 parcelas para probar el efecto de la presencia o ausencia de K en el rendimiento de palma. Peso medio del racimo (Kg.)

n a b a2 b2

1 20.0 24.0 400.00 576.00

2 24.0 28.0 576.00 784.00

3 21.0 25.0 441.00 625.00

4 22.0 25.0 484.00 625.00

5 23.0 27.0 529.00 729.00

6 24.0 27.5 576.00 756.25

7 22.5 28.0 506.25 784.00

8 22.0 26.0 484.00 576.00

9 21.5 26.0 462.25 676.00

10 20.0 24.5 400.00 600.25

11 22.0 26.5 484.00 702.25

12 24.0 28.5 576.00 812.25

Suma 266 316 5918.5 8346

Promedio 22.16 26.33

s2a = 5918.5 - (266)2/12 = 2.02 11 s2b = 8346 - (316)2/12 = 2.24 11

Page 12: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Se busca en la tabla de t de student con 2 (n-1) grados de libertad o sea 22, y se encuentra que el valor tabular es de 2.074 al 95% de probabilidad, el cual es menor que la t calculada y por lo tanto se declara la prueba significativa. Conclusión: La diferencia entre promedios observados es atribuible al efecto de tratamiento (K), por haberse conseguido un resultado significativo. 3.-Caso de igual número de observaciones y varianzas heterogéneas.

Ejemplo: Se plantó cierto experimento en 24 parcelas con dos clases de semillas: semilla mezclada y semilla DxP seleccionada. Se desea saber si el rendimiento observado por la semilla seleccionada difiere a la otra. Producción de palma: TM/ha/año Para ver la tabla seleccione la opción "Descargar" del menú superior

s2a = 1748.61 - (144.5)2/12 = 0.78 11 s2b = 4001.14 - (216.2)2/12 = 9.63 11 Consultando la tabla de t con n-1 grados de libertad (11) se encuentra un valor de 2.201, por lo tanto, la diferencia se declara significativa. Conclusión: El rendimiento observado por las plantas de semilla seleccionada fue significativamente superior a las otras. 4.-Caso de diferente número de observaciones y varianzas homogéneas

Ejemplo: Se tomó una área de terreno distribuida en 22 parcelas y a 13 de ellas se les aplicó un fertilizante nitrogenado para medir el efecto del N en el crecimiento. Área foliar de la hoja # 17 en m2 Para ver la tabla seleccione la opción "Descargar" del menú superior

Page 13: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

s2a = 968.93 - (112.1)2/13 = 0.19 12 s2b = 390.84 - (59.2)2/9 = 0.18 8 s2c = 12(0.19) + 8(0.18) = 0.19 20 Consultando la tabla de t con n-1 grados de libertad (11) se encuentra un valor de 2.201, por lo tanto, la diferencia se declara significativa. Conclusión: El rendimiento observado por las plantas de semilla seleccionada fue significativamente superior a las otras. Ejemplo: Se tomó una área de terreno distribuida en 22 parcelas y a 13 de ellas se les aplicó un fertilizante nitrogenado para medir el efecto del N en el crecimiento. Área foliar de la hoja # 17 en m2 Para ver la tabla seleccione la opción "Descargar" del menú superior

s2a = 968.93 - (112.1)2/13 = 0.19 12 s2b = 390.84 - (59.2)2/9 = 0.18 8 s2c = 12(0.19) + 8(0.18) = 0.19 20 Consultando la tabla con (na-1) + (nb-1) o sea (20) grados de libertad, se obtiene el valor tabular de 2.086, el cual es menor que la t calculada, por lo tanto la diferencia se declara significativa. Conclusión: La diferencia detectada en estas dos muestras es atribuible a la aplicación del fertilizante nitrogenado. 5.- Caso de diferente número de observaciones y varianzas heterogéneas.

En este caso, la tc es comparada con la tg (t generada), que a diferencia de los casos anteriores, hay que calcularla.

Page 14: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Dónde: ta y tb son los valores de la tabla con n-1 grados de libertad para a y b respectivamente Ejemplo: Se tomaron 2 muestras de palma comercial de orígenes diferentes y se midió el porcentaje de almendra en el racimo en ambas muestras, el objeto es probar si las muestras son diferentes genéticamente o no. Porcentaje de almendra Para ver la tabla seleccione la opción "Descargar" del menú superior s2a = 225.02 - (53)2/14 = 1.88 13

s2b = 192.26 - (43.80)2/10 = 0.05 9

En este caso la t generada (tg), reemplaza la t de la tabla y como la tc es menor que la tg, la diferencia se declara No significativa. Conclusión: La diferencia observada entre promedios es atribuible únicamente a errores de muestreo o variabilidad natural, y no a diferencias genéticas. 6.-Caso de muestras pareadas (de variables dependientes) En este caso, se asume que las muestras han sido distribuidas por pares.

Ejemplo: Se tomaron 12 foliolos de palma joven y a cada uno se le trató la mitad con Benlate para medir la inhibición del crecimiento de hongos. Magnitud del dano Sin Con

Page 15: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

n Benlate Benlate D = X - Y D2 Para ver la tabla seleccione la opción "Descargar" del menú superior

Consultando la tabla con n-1 grados de libertad se obtiene el valor tabular de 2.201, por lo tanto, la diferencia se declara significativa. Conclusión: De la prueba se desprende que el tratamiento con benlate redujo significativamente la incidencia de hongos. Utilidad de las hipótesis: El uso y formulación correcta de las hipótesis le permiten al investigador poner a prueba aspectos de la realidad, disminuyendo la distorsión que pudieran producir sus propios deseos o gustos. Pueden ser sometidas a prueba y demostrarse como probablemente correctas o incorrectas sin que interfieran los valores o creencias del individuo.

Page 16: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

DISTRIBUCION JI-CUADRADA (X2)

En realidad la distribución ji-cuadrada es la distribución muestral de s2. O sea que si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la distribución muestral de varianzas.

Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico X2. Si se elige una muestra de tamaño n de una población normal con

varianza , el estadístico:

tiene una distribución muestral que es una distribución ji-cuadrada con gl=n-1 grados de libertad y se denota X2 (X es la minúscula de la letra griega ji). El estadístico ji-cuadrada esta dado por:

donde n es el tamaño de la muestra, s2 la varianza muestral y la varianza de la población de donde se extrajo la muestra. El estadístico ji-cuadrada también se puede dar con la siguiente expresión:

PROPIEDADES DE LAS DISTRIBUCIONES JI-CUADRADA

1. Los valores de X2 son mayores o iguales que 0. 2. La forma de una distribución X2 depende del gl=n-1. En consecuencia, hay un

número infinito de distribuciones X2. 3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1. 4. Las distribuciones X2 no son simétricas. Tienen colas estrechas que se extienden a

la derecha; esto es, están sesgadas a la derecha. 5. Cuando n>2, la media de una distribución X2 es n-1 y la varianza es 2(n-1). 6. El valor modal de una distribución X2 se da en el valor (n-3).

Page 17: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

La siguiente figura ilustra tres distribuciones X2. Note que el valor modal aparece en el valor (n-3) = (gl-2).

La función de densidad de la distribución X2 esta dada por:

para x>0

La tabla que se utilizará para estos apuntes es la del libro de probabilidad y estadística de

Walpole, la cual da valores críticos (gl) para veinte valores especiales de . Para denotar el valor crítico de una distribución X2 con gl grados de libertad se usa el

símbolo (gl); este valor crítico determina a su derecha un área de bajo la curva X2 y sobre el eje horizontal. Por ejemplo para encontrar X2

0.05(6) en la tabla se localiza 6 gl

en el lado izquierdo y a o largo del lado superior de la misma tabla.

Cálculo de Probabilidad

El cálculo de probabilidad en una distribución muestral de varianzas nos sirve para saber como se va a comportar la varianza o desviación estándar en una muestra que proviene de una distribución normal.

Page 18: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Ejemplos:

1. Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos en una ciudad grande forman una distribución normal con una desviación

estándar =1 minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor que 2.

Solución:

Primero se encontrará el valor de ji-cuadrada correspondiente a s2=2 como sigue:

El valor de 32 se busca adentro de la tabla en el renglón de 16 grados de libertad y se encuentra que a este valor le corresponde un área a la derecha de 0.01. En consecuencia, el valor de la probabilidad es P(s2>2)

2. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de

una población normal con varianza

, tenga una varianza muestral:

a. Mayor que 9.1 b. Entre 3.462 y 10.745

Solución.

a. Primero se procederá a calcular el valor de la ji-cuadrada:

Al buscar este número en el renglón de 24 grados de libertad nos da un área a la derecha de 0.05. Por lo que la P(s2 >9.1) = 0.05

Page 19: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

1. Se calcularán dos valores de ji-cuadrada:

y

Aquí se tienen que buscar los dos valores en el renglón de 24 grados de libertad. Al buscar el valor de 13.846 se encuentra un área a la derecha de 0.95. El valor de 42.98 da un área a la derecha de 0.01. Como se está pidiendo la probabilidad entre dos valores se resta el área de 0.95 menos 0.01 quedando 0.94.

Por lo tanto la P(3.462 s2 10.745) = 0.94

Estimación de la Varianza

Para poder estimar la varianza de una población normal se utilizará la distribución ji-cuadrada.

Al despejar esta fórmula la varianza poblacional nos queda:

Los valores de X2 dependerán de nivel de confianza que se quiera al cual le

llamamos . Si nos ubicamos en la gráfica se tiene:

Page 20: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Ejemplos:

1. Los siguientes son los pesos, en decagramos, de 10 paquetes de semillas de pasto distribuidas por cierta compañía: 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8, 46.9, 45.2 y 46. Encuentre un intervalo de confianza de 95% para la varianza de todos los paquetes de semillas de pasto que distribuye esta compañía, suponga una población normal.

Solución:

Primero se calcula la desviación estándar de la muestra:

al elevar este resultado al cuadrado se obtiene la varianza de la muestra s2= 0.286.

Para obtener un intervalo de confianza de 95% se elige un = 0.05. Después con el uso de la tabla con 9 grados de libertad se obtienen los valores de X2.

Se puede observar en la gráfica anterior que el valor de X2 corre en forma normal, esto es de izquierda a derecha.

Por lo tanto, el intervalo de confianza de 95% para la varianza es:

Page 21: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Graficamente:

Se observa que la varianza corre en sentido contrario, pero esto es sólo en la gráfica. La interpretación quedaría similar a nuestros temas anteriores referentes a estimación. Con un nivel de confianza del 95% se sabe que la varianza de la población de los pesos de los paquetes de semillas de pasto esta entre 0.135 y 0.935 decagramos al cuadrado.

2. En trabajo de laboratorio se desea llevar a cabo comprobaciones cuidadosas de la variabilidad de los resultados que producen muestras estándar. En un estudio de la cantidad de calcio en el agua potable, el cual se efectúa como parte del control de calidad, se analizó seis veces la misma muestra en el laboratorio en intervalos aleatorios. Los seis resultados en partes por millón fueron 9.54, 9.61, 9.32, 9.48, 9.70 y 9.26. Estimar la varianza de los resultados de la población para este estándar, usando un nivel de confianza del 90%.

Solución:

Al calcular la varianza de la muestra se obtiene un valor de s2= 0.0285.

Se busca en la tabla los valores correspondientes con 5 grados de libertad, obteniéndose dos resultados. Para X2

(0.95,5)= 1.145 y para X2(0.0,5)= 11.07.

Entonces el intervalo de confianza esta dado por:

Page 22: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

y

ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL Al trabajar con dos variables cuantitativas podemos estudiar la relación que existe entre ellas mediante la correlación y la regresión. Aunque los cálculos de ambas técnicas pueden ser similares en algunos aspectos e incluso dar resultados parecidos, no deben confundirse. En la correlación tan solo medimos la dirección y la fuerza de la asociación de una variable frente a la otra, pero nunca una relación de causalidad. Solo cuando tenemos una variable que es causa o depende de otra, podremos realizar entonces una regresión. En este capítulo estudiaremos dos de los coeficientes de correlación más utilizados, como el coeficiente de Pearson y el coeficiente no paramétrico de Spearman. También veremos un ejemplo de regresión lineal simple y cómo se deben interpretar sus resultados.

Coeficiente de correlación de Pearson (r)

Si tenemos dos variables cuantitativas y deseamos medir el grado de asociación podemos utilizar el coeficiente de correlación de Pearson. En primer lugar, es muy aconsejable realizar un gráfico de dispersión entre ambas variables y estudiar visualmente la relación entre ellas. Este coeficiente mide asociación lineal y al ser una prueba paramétrica requiere para su uso que ambas variables tengan distribuciones normales1. De no ser así, deberemos utilizar el coeficiente no paramétrico de Spearman. El coeficiente de correlación de Pearson (r) puede tomar valores entre -1 y +1, de modo que un valor de "r" positivo nos indica que al aumentar el valor de una variable también aumenta el valor de la otra (Figura 1A), y por el contrario, "r" será negativo si al aumentar el valor de una variable disminuye la otra (Figura 1B). La correlación será perfecta si r= ±1, en este caso los puntos formarán todos una recta. Es importante a priori determinar qué valor de "r" vamos a considerar como clínicamente relevante, puesto que una correlación tan baja como r= 0,07 sería significativa (p=0,027) con un tamaño muestral de unas 1000 personas. Al igual que cualquier otro parámetro, conviene darlo con sus correspondientes intervalos de confianza. Un coeficiente de correlación significativo, lo único que nos indica

Page 23: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

es que es bastante improbable que en nuestrapoblación "r" sea cero, y por tanto su intervalo de confianza no incluirá el cero. Figura 1. El coeficiente de correlación de Pearson.

A

B

Coeficiente de correlación no paramétrico de Spearman (rho)

Al igual que el coeficiente de Pearson, también podemos utilizarlo para medir el grado de asociación entre dos variables cuantitativas, sin embargo no es necesario que ambas variables sean normales, e incluso lo podemos utilizar en variables ordinales. Como todas las pruebas no paramétricas, este coeficiente se construye sustituyendo los valores de las variables por sus rangos o posiciones, si los valores de las variables fuesen ordenados de menor a mayor. Al contrario de otras pruebas no paramétricas, si permite construir intervalos de confianza1. La interpretación de este coeficiente es muy similar al de Pearson, pudiendo alcanzar valores de entre -1 y +1 indicando asociación negativa o positiva respectivamente. Tanto el coeficiente "r" de Pearson como el coeficiente rho de Spearman, son medidas adimensionales por lo que no poseen unidades. Usos incorrectos de los coeficientes de correlación Ambos coeficientes, tanto el de Pearson, como el de Spearman, requieren que las observaciones sean independientes, por lo que no debemos aplicar una correlación entre dos variables en los que tuviéramos medidos pacientes de forma repetida. El encontrar una asociación significativa no indica que una variable sea la causa y que la otra el efecto. La correlación nunca mide una relación causa-efecto. Además, no distingue

Page 24: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

entre variable dependiente e independiente y por tanto la correlación de la variable "x" frente a la variable "y" es la misma que la de la variable "y" frente a "x" 1. Esto no sucede así en la regresión. Siempre hay que tener mucho cuidado con la interpretación de un coeficiente de correlación puesto que otras variables, llamadas de confusión, pueden ser las causantes reales de la asociación. Esto sucede cuando dos variables independientes entre sí dependen ambas de una tercera. Por ejemplo está demostrado que en los niños, existe una correlación positiva entre el tamaño del pie y su capacidad para sumar. Sin embargo lo que en realidad sucede es que los niños con mayor pie, son también los de mayor edad y por tanto los que mejor suman. Este tipo de correlaciones se denominan espúreas o engañosas y nos pueden llevar a conclusiones erróneas. También hay que advertir a aquellos investigadores que tengan la tentación de correlacionar un número grande de variables cuantitativas con el único objetivo de "a ver si encuentro algo". Aparte de tener una difícil justificación este modo de actuar, si cruzáramos solo 20 variables todas ellas independientes, tendríamos hasta 190 pares de variables en los que estudiar la correlación, y sólo por azar, es de esperar aproximadamente unas 9 ó 10 como significativas. Es decir, el 5% de las correlaciones realizadas serian significativas con una p<0,05, cometiendo un error tipo I al afirmar que hay asociación cuando en realidad no la hay. Para evitarlo, podríamos utilizar para cada p la corrección de Bonferroni 2. Tampoco debemos utilizar la correlación para evaluar la concordancia entre dos medidas cuantitativas, siendo aconsejables otros índices como el coeficiente de correlación intraclase y otra serie de técnicas.

Regresión lineal simple

Si deseamos estudiar la relación entre dos variables cuantitativas y además una de ellas puede considerarse como variable dependiente o "respuesta" podemos considerar el uso de la regresión lineal simple. Con la regresión, aparte de medir el grado de asociación entre las dos variables, podremos realizar predicciones de la variable dependiente. Veamos un ejemplo de regresión lineal simple y cómo se interpretarían sus resultados. Dependiendo del programa estadístico utilizado, pueden variar la cantidad de información y el formato de las salidas, aunque los resultados van a ser los mismos así como su interpretación. Supongamos que deseemos estudiar la asociación entre el volumen máximo expirado en el primer segundo de una expiración forzada (FEV1) y la talla medida en centímetros de un grupo de 170 adolescentes de edades comprendidas entre los 14 y los 18 años (Tabla I). Tabla I. Ejemplo en 170 adolescentes.

Nº FEV1 (litros) Altura (cm.)

1 3,46 171

2 4,55 172

3 4,53 182

Page 25: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

4 4,59 179

5 3,67 173

6 4,71 180

… … …

… … …

168 4,38 177

169 5,06 184

170 3,06 152

FEV1: Volumen espiratorio forzado en el primer segundo

En primer lugar debemos realizar un gráfico de dispersión como el de la Figura 2A y estudiar visualmente si la relación entre nuestra variable dependiente (FEV1) y nuestra variable independiente (talla) puede considerarse lineal 4. Por convenio, se coloca la variable dependiente en el eje Y de las ordenadas y la variable independiente en el eje X de las abscisas. Si no observamos un comportamiento lineal, debemos transformar la variable dependiente o incluso replantearnos el tipo de análisis, ya que es posible que la relación entre ambas variables en caso de existir, pueda no ser lineal. En nuestro ejemplo, si parece cumplirse una relación lineal entre FEV1 y la talla. Si calculásemos el coeficiente de correlación de pearson nos daría un resultado de 0,86 (IC95%: 0,82; 0,90), indicando que la asociación es positiva y por tanto valores altos de FEV1 se corresponden a su vez con valores altos de talla. Sin embargo sólo con la correlación no tendríamos la suficiente información si quisiéramos hacer predicciones de los valores de FEV1 en función de la talla. El objetivo de la regresión lineal simple es encontrar la mejor recta de ajuste de entre todas las posibles dentro de la nube de puntos de la Figura 2A. La mejor recta de ajuste será aquella que minimice las distancias verticales entre cada punto y la recta, calculándose normalmente por el método de "mínimos cuadrados" (Figura 2B) 1, 5. De este modo conseguiremos una ecuación para la recta de regresión de Y (variable dependiente) en función de X (variable independiente) de la forma Y=a+bX. En nuestro ejemplo, el problema radica en estimar a (constante de la recta) y b (pendiente de la recta) de modo que podamos construir la ecuación o recta de regresión: FEV1=a+bTalla que minimice esas distancias. Figura 2. Gráfico de dispersión.

Page 26: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

A

B

Cualquier programa estadístico nos debe dar al menos tres informaciones básicas: Valor de "R cuadrado": En la regresión lineal simple, se trata del coeficiente de correlación de Pearson elevado al cuadrado. Se le conoce por coeficiente de determinación y siempre será un valor positivo entre 0 y 1. En nuestro ejemplo (Tabla I) la "R cuadrado" es de 0,75 lo cual significa que nuestra variable independiente (talla en cm) es capaz de explicar hasta un 75% de la variabilidad observada en nuestra variable dependiente (FEV1). ANOVA de la regresión: Se descompone por un lado, en la suma de cuadrados explicada por la recta de regresión y por otro, en la suma de cuadrados no explicada por la regresión, denominada residual. La suma de ambas es lo que se llama suma de cuadrados totales. Por tanto, cuanto mayor sea la suma de cuadrados de la regresión respecto a la residual, mayor porcentaje de variabilidad observada podemos explicar con nuestra recta de regresión. Si la tabla presenta un resultado significativo (p<0,05) rechazaríamos la hipótesis nula que afirma que la pendiente de la recta de regresión es 0. Coeficientes de la regresión: Los coeficientes estimados a (constante de la recta) y b (pendiente de la recta) que en nuestro ejemplo sería FEV1 (litros)= -8,387 + 0,073*TALLA (cm.) (Tabla II). En nuestra tabla, no solo aparecen los coeficientes, sino sus intervalos de confianza, y además el valor de "beta" que no es mas que el coeficiente b estandarizado y que en la regresión lineal simple coincide con el coeficiente de correlación de Pearson. El valor positivo de b (0,073) nos indica el incremento de FEV1 por cada centímetro en la

Page 27: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

talla. Para un adolescente de 170 cm. de altura podríamos esperar un valor de FEV1 de 0,073*170-8,387 que daría como resultado 4,03. Tabla II. Coeficientes estimados de la recta de regresión.

B Error típ. Beta p IC 95%

Constante (a) -8,387 0,552 - <0,001 (-9,476; -7,298)

TALLA (b) 0,073 0,003 0,864 <0,001 (0,066; 0,079)

IC95%: Intervalo de confianza del 95% Después de realizar el análisis hay que asegurarse de que no se violan las hipótesis en las que se sustenta la regresión lineal: normalidad de la variable dependiente para cada valor de la variable explicativa, independencia de las observaciones muestrales, y la misma variabilidad de Y para cada valor de nuestra variable independiente5. Toda esta información se puede extraer estudiando el comportamiento de los residuos, es decir, la diferencia entre los valores observados y los pronosticados por nuestra recta de regresión. La Figura 3A es un histograma de frecuencias en el que se han normalizado o tipificado los residuos de modo que su media es 0 y su varianza 1. Como podemos observar su distribución es similar a una distribución normal. Otro gráfico muy interesante es el de la Figura 3B, en el que se han colocado en el eje X los valores pronosticados por la regresión ya tipificados y en el eje Y, los residuos también tipificados. Los puntos han de situarse de forma aleatoria sin ningún patrón de comportamiento, porque en caso contrario, es muy posible que estemos violando alguno de los supuestos de la regresión lineal simple 1, 5. Figura 3. Gráfico de residuos.

A

Page 28: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

B

Regresión lineal múltiple

La regresión lineal múltiple estima los coeficientes de la ecuación lineal, con una o más variables independientes, que mejor prediga el valor de la variable dependiente. Por ejemplo, se puede intentar predecir el total de facturación lograda por servicios prestados en una IPS cada mes (la variable dependiente) a partir de variables independientes tales como: Tipo de servicio, edad, frecuencia del servicio, tipo de usuario y los años de antigüedad en el sistema del usuario. Métodos de selección de variables en el análisis de regresión lineal La selección del método permite especificar cómo se introducen las variables independientes en el análisis. Utilizando distintos métodos se pueden construir diversos modelos de regresión a partir del mismo conjunto de variables. Para introducir las variables del bloque en un sólo paso seleccione Introducir. Para eliminar las variables del bloque en un solo paso, seleccione Eliminar. La selección de variables Hacia adelante introduce las variables del bloque una a una basándose en los criterios de entrada. La eliminación de variables Hacia atrás introduce todas las variables del bloque en un único paso y después las elimina una a una basándose en los criterios de salida. La entrada y salida de variables mediante Pasos sucesivos examina las variables del bloque en cada paso para introducirlas o excluirlas. Se trata de un procedimiento hacia adelante por pasos. Los valores de significación de los resultados se basan en el ajuste de un único modelo. Por ello, estos valores no suele ser válidos cuando se emplea un método por pasos (Pasos sucesivos, Hacia adelante o Hacia atrás). Todas las variables deben superar el criterio de tolerancia para que puedan ser introducidas en la ecuación, independientemente del método de entrada especificado. El nivel de tolerancia por defecto es 0,0001. Tampoco se introduce una variable si esto provoca que la tolerancia de otra ya presente en el modelo se sitúe por debajo del criterio de tolerancia. Todas las variables independientes seleccionadas se añaden a un mismo modelo de regresión. Sin embargo, puede especificar distintos métodos de introducción para

Page 29: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

diferentes subconjuntos de variables. Por ejemplo, puede introducir en el modelo de regresión un bloque de variables que utilice la selección por pasos sucesivos, y un segundo bloque que emplee la selección hacia adelante. Para añadir al modelo de regresión un segundo bloque de variables, pulse en Siguiente.

Regresión lineal: Consideraciones sobre los datos

Datos. Las variables dependientes e independientes deben ser cuantitativas. Las variables categóricas, como la religión, estudios principales o el lugar de residencia, han de recodificarse como variables binarias (dummy) o como otros tipos de variables de contraste. Supuestos. Para cada valor de la variable independiente, la distribución de la variable dependiente debe ser normal. La varianza de distribución de la variable dependiente debe ser constante para todos los valores de la variable independiente. La relación entre la variable dependiente y cada variable independiente debe ser lineal y todas las observaciones deben ser independientes. Estadísticos. Para cada variable: número de casos válidos, media y desviación típica. Para cada modelo: coeficientes de regresión, matriz de correlaciones, correlaciones parciales y semiparciales, R múltiple, R cuadrado, R cuadrado corregida, cambio en R cuadrado, error típico de la estimación, tabla de análisis de la varianza, valores pronosticados y residuos. Además, intervalos de confianza al 95% para cada coeficiente de regresión, matriz de varianza-covarianza, factor de inflación de la varianza, tolerancia, prueba de Durbin-Watson, medidas de distancia (Mahalanobis, Cook y valores de influencia), DfBeta, DfAjuste, intervalos de predicción y diagnósticos por caso. Diagramas: diagramas de dispersión, gráficos parciales, histogramas y gráficos de probabilidad normal. Gráficos. Los gráficos pueden ayudar a validar los supuestos de normalidad, linealidad e igualdad de las varianzas. También son útiles para detectar valores atípicos, observaciones poco usuales y casos de influencia. Tras guardarlos como nuevas variables, dispondrá en el Editor de datos de los valores pronosticados, los residuos y otros valores diagnósticos, con los cuales podrá poder crear gráficos respecto a las variables independientes. Se encuentran disponibles los siguientes gráficos: Diagramas de dispersión. Puede representar cualquier combinación por parejas de la lista siguiente: la variable dependiente, los valores pronosticados tipificados, los residuos tipificados, los residuos eliminados, los valores pronosticados corregidos, los residuos estudentizados o los residuos eliminados estudentizados. Represente los residuos tipificados frente a los valores pronosticados tipificados para contrastar la linealidad y la igualdad de las varianzas. Generar todos los gráficos parciales. Muestra los diagramas de dispersión de los residuos de cada variable independiente y los residuos de la variable dependiente cuando se regresan ambas variables por separado sobre las restantes variables independientes. En la ecuación debe haber al menos dos variables independientes para que se generen los gráficos parciales.

Page 30: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Gráficos de residuos tipificados. Puede obtener histogramas de los residuos tipificados y gráficos de probabilidad normal que comparen la distribución de los residuos tipificados con una distribución normal.

Métodos dependientes

Análisis De Regresión Lineal Múltiple Conceptualmente, el FIVi (Factor de incremento de la varianza) es la proporción de variabilidad de la iésima variable, que explican el resto de las variables independientes. La tolerancia de una variable es la proporción de variabilidad de la variable, que no se explica por el resto de las variables independientes. La tolerancia y el FIV son muy útiles en la construcción de modelos de regresión. Si construimos un modelo paso a paso entrando las variables de una en una, es útil conocer la tolerancia o el FIV de las variables independientes ya entradas en la ecuación. De esta manera, las variables con mayor tolerancia son las que mayor información aportarán al modelo. Además de la tolerancia y el FIV, debemos estudiar la matriz de correlaciones. Altas correlaciones entre las variables implicadas en el modelo deben considerarse como indicios de colinealidad. Puede ocurrir que, aun siendo pequeñas las correlaciones entre las variables exista colinealidad. Supongamos que tenemos K variables independientes y construimos otra que sea la media de los valores de las otras K variables, en este caso la colinealidad será completa, pero si K es grande, los coeficientes de correlación serán pequeños. Por lo tanto, el estudio de la matriz de correlaciones no es suficiente. Una técnica que cada vez se utiliza más, aunque resulta algo sofisticada, es el análisis de los autovalores de la matriz de correlaciones o de la matriz del producto cruzado. A partir de los autovalores, se puede calcular él indice de condicionamiento IC tanto global del modelo como de cada variable. El índice de condicionamiento, es la raíz cuadrada del cociente entre el máximo y el mínimo autovalores. Si el IC es mayor que 30, existe colinealidad elevada, si el IC es mayor que 10 y menor que 30, la colinealidad es moderada, si el IC es menor que 10, no existe colinealidad. También es interesante el índice de condicionamiento para cada variable Ici, que es la raíz cuadrada del cociente del máximo autovalor y el iésimo autovalor. La varianza de cada coeficiente de regresión, incluida la constante, puede ser descompuesta como la suma de componentes asociadas a cada uno de los autovalores si el porcentaje de la varianza de algunos coeficientes de correlación se asocia con el mismo autovalor, hay evidencia de colinealidad.

Page 31: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

PASOS: Identificar Xi, Y Construír diagrama de dispersión Estímar los parámetros del modelo. Probar la signifícancia Determinar la fuerza de la asociación Verificar la exactitud de la predicción Análisis de residuales Validación cruzada del modelo

Regresión múltiple de variable ficticia [1]

La utilización de la regresión en la investigación de mercados podría verse seriamente limitada por el hecho de que las variables independientes deben presentarse en escalas de intervalos. Afortunadamente, existe una forma de emplear variables independientes nominales dentro de un contexto de regresión. El procedimiento recibe el nombre de Regresión Múltiple de Variable Ficticia RMVF. Básicamente RMVF convierte las variables nominales en una serie de variables binarias que se codifican 0-1 por ejemplo, suponemos que deseamos utilizar la variable nominal Sexo en una regresión. Podríamos codificarla de la siguiente manera:

CATEGORIA CODIGO

Masculino 0

Femenino 1

El intervalo entre 0 y 1 es igual y, por tanto, aceptable en la regresión. Nótese que hemos convertido una variable nominal de dos categorías en una variable 0-1 podemos extender este enfoque a una variable nominal de múltiples categorías. La variable nominal de cuatro categorías, área de estudio, puede convertirse en tres variables ficticias, x1, x2, y x3 de la siguiente manera:

AREA x1 X2 X3

Humanidades 1 0 0

Salud 0 1 0

Matemáticas 0 0 1

C. Naturales 0 0 0

Esta variable nominal de cuatro categorías se convierte en K-1 categorías son 0 ó 1, la K-ésima categoría se determina automáticamente como 0 ó 1. Crear una k-ésima variable ficticia sería redundante y, de hecho, invalidaría toda la regresión. Es arbitraria la elección de la categoría en la cual todo equivale a cero. Nótese que sólo una de las variables x1, x2, ó x3 tomará el valor de 1 para cualquier individuo y las otras dos X serán cero R. Humano = a + b Humanidades + c Salud + d Matemáticas + e C.Naturales

Page 32: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

En una regresión podemos tener la cantidad de variables ficticias que sean necesarias, sujetas a la restricción de que cada variable ficticia utiliza un grado de libertad. Por lo mismo, debemos contar con un tamaño de muestra adecuado.

Regresión logística

La regresión logística resulta útil para los casos en los que se desea predecir la presencia o ausencia de una característica o resultado según los valores de un conjunto de variables predictoras. Es similar a un modelo de regresión lineal pero está adaptado para modelos en los que la variable dependiente es dicotómica. Los coeficientes de regresión logística pueden utilizarse para estimar la razón de las ventajas (odds ratio) de cada variable independiente del modelo. La regresión logística se puede aplicar a un rango más amplio de situaciones de investigación que el análisis discriminante. Ejemplo. ¿Qué características del estilo de vida son factores de riesgo de enfermedad cardiovascular? Dada una muestra de pacientes a los que se mide la situación de fumador, dieta, ejercicio, consumo de alcohol, y estado de enfermedad cardiovascular , se puede construir un modelo utilizando las cuatro variables de estilo de vida para predecir la presencia o ausencia de enfermedad cardiovascular en una muestra de pacientes. El modelo puede utilizarse posteriormente para derivar estimaciones de la razón de las ventajas para cada uno de los factores y así indicarle, por ejemplo, cuánto más probable es que los fumadores desarrollen una enfermedad cardiovascular frente a los no fumadores. Datos. La variable dependiente debe ser dicotómica. Las variables independientes pueden estar a nivel de intervalo o ser categóricas; si son categóricas, deben ser variables dummy o estar codificadas como indicadores (existe una opción en el procedimiento para recodificar automáticamente las variables categóricas). Supuestos. La regresión logística no se basa en supuestos distribucionales en el mismo sentido en que lo hace el análisis discriminante. Sin embargo, la solución puede ser más estable si los predictores tienen una distribución normal multivariante. Adicionalmente, al igual que con otras formas de regresión, la multicolinealidad entre los predictores puede llevar a estimaciones sesgadas y a errores típicos inflados . El procedimiento es más eficaz cuando la pertenencia a grupos es una variable categórica auténtica; si la pertenencia al grupo se basa en valores de una variable continua (por ejemplo "CI alto " en contraposición a "CI bajo"), deberá considerar el utilizar la regresión lineal para aprovechar la información mucho más rica ofrecida por la propia variable continua. Estadísticos. Para cada análisis: Casos totales, Casos seleccionados, Casos válidos. Para cada variable categórica: codificación de los parámetros. Para cada paso: variables introducidas o eliminadas, historial de iteraciones, -2 log de la verosimilitud, bondad de ajuste, estadístico de bondad de ajuste de Hosmer-Lemeshow, chi-cuadrado del modelo ¡, chi-cuadrado de la mejora, tabla de clasificación, correlaciones entre las variables, gráfico de las probabilidades pronosticadas y los grupos observados, chi-cuadrado residual. Para cada variable de la ecuación: Coeficiente (B), Error típico de B, Estadístico de Wald, R,

Page 33: Prueba de Hipótesis, Distribución Ji Cuadrada, Análisis de Regresión y Correlación Lineal - Juan Carlos Salas Sanchez - IUFRONT - 4to Informatica

Razón de las ventajas estimada (exp(B)), Intervalo de confianza para exp(B), Log de la verosimilitud si el término se ha eliminado del modelo. Para cada variable que no esté en la ecuación: Estadístico de puntuación, R. Para cada caso: grupo observado, probabilidad pronosticada, grupo pronosticado, residuo, residuo tipificado. Métodos. Puede estimar modelos utilizando la entrada en bloque de las variables o cualquiera de los siguientes métodos por pasos: Condicional hacia adelante, LR hacia adelante, Wald hacia adelante, Condicional hacia atrás, LR hacia atrás o Wald hacia atrás. Regresión logística multinomial

La opción Regresión logística multinomial resulta útil en aquellas situaciones en las que desee poder clasificar a los sujetos según los valores de un conjunto de variables predictoras. Este tipo de regresión es similar a la regresión logística, pero más general, ya que la variable dependiente no está restringida a dos categorías. Datos. La variable dependiente debe ser categórica. Las variables independientes pueden ser factores o covariables. En general, los factores deben ser variables categóricas y las covariables deben ser variables continuas