17
BACHILLER: Luis Balderrama C.I: 25.061.895 * REPUBLICA BOLIVARIANA DE VENEZUELA I. U. P SANTIAGO MARIÑO SEDE BARCELONA ESTADISTICAS SECCION C-V CORRELACION DE PEARSON Y SPERMAN

correlación pearson y sperman

Embed Size (px)

Citation preview

Page 1: correlación pearson y sperman

BACHILLER: Luis Balderrama

C.I: 25.061.895

* REPUBLICA BOLIVARIANA DE VENEZUELAI. U. P SANTIAGO MARIÑO

SEDE BARCELONAESTADISTICASSECCION C-V

CORRELACION DE PEARSONY SPERMAN

Page 2: correlación pearson y sperman

El coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.

De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.

En el caso de que se esté estudiando dos variables aleatorias X y Y sobre una población; el coeficiente de correlación de Pearson se simboliza con la letra siendo la expresión que nos permite calcularlo:

Donde:

es la covarianza de ( X , Y )

E es la desviación típica de la variable X

es la desviación típica de la variable Y

De manera análoga podemos calcular este coeficiente sobre un estadístico muestra, denotado como

a:

* COEFICIENTE DE CORRELACION DE PEARSON

Page 3: correlación pearson y sperman

El valor del índice de correlación varía en el intervalo [-1,1]:

• Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante.

• Si 0 < r < 1, existe una correlación positiva.

• Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables.

• Si -1 < r < 0, existe una correlación negativa.

• Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.

* INTERPRETACION

Page 4: correlación pearson y sperman

* La covariación es el grado de concordancia de las posiciones relativas de los datos de dos variables. En consecuencia el coeficiente de correlación de Pearson opera con puntuaciones tipificadas (que miden posiciones relativas) y se define:

El fundamento del coeficiente de Pearson es el siguiente: Cuanto más intensa sea la concordancia (en sentido directo o inverso) de las posiciones relativas de los datos en las dos variables, el producto del numerador toma mayor valor (en sentido absoluto). Si la concordancia es exacta, el numerador es igual a N (o a -N), y el índice toma un valor igual a 1 (o -1).

Por ejemplo:

Observa que los datos tipificados (expresados como puntuaciones z) en las dos columnas de la derecha tienen los mismos valores en ambas variables, dado que las posiciones relativas son las mismas en las variables X e Y.

* COEFICIENTE DE PEARSON

Page 5: correlación pearson y sperman

* Si obtenemos los productos de los valores tipificados para cada caso, el resultado es:

El cociente de dividir la suma de productos (5) por N (hay que tener en cuenta que N es el número de casos, NO el número de datos) es igual a 1:

EJEMPLO 2:

* COEFICIENTE DE PEARSON

Page 6: correlación pearson y sperman

* COEFICIENTE DE PEARSON* El valor de la correlación es igual a 1 o -1 si la covariación es de

intensidad máxima, y se va acercando hacia el 0 cuanto más pequeña sea la intensidad de la covariación. Además, el índice tiene signo positivo cuando la covariación es directa y negativo cuando es inversa.

* (Los ejemplos anteriores los puedes practicar con otros datos -pero de la misma escala- si estás leyendo el tema en ordenador, para la que cual hay que clicar dos veces en la siguiente imagen)

Page 7: correlación pearson y sperman

a) El coeficiente de correlación de Pearson puede tomar valores entre -1 y 1.

b) La correlación de una variable con ella misma siempre es igual a 1.

c) El valor 0 indica ausencia de covariación lineal, pero NO si la covariación es de tipo no lineal. (Ver ejemplo en el apartado de relaciones no lineales).

Diagramas de dispersión. Correlación de Pearson

La finalidad de este ejercicio es facilitar la comprensión de la relación entre los valores numéricos del coeficiente de correlación de Pearson y los diagramas de dispersión.

Covarianza

El índice de Covarianza es el sumatorio de productos cruzados de las variables, dividido por N:

Una expresión equivalente es:

* CARACTERISTICAS

Page 8: correlación pearson y sperman

* A partir de la Covarianza se ha derivado la siguiente fórmula del coeficiente de correlación de Pearson (esta fórmula es alternativa a la de productos cruzados de las variables tipificadas y da el mismo resultado):

Características:

a) El índice de Covarianza toma:

- El valor 0 si no hay covariación entre las variables.

- Un valor positivo si hay covariación directa. Será más grande cuanto mayor sea la intensidad de la covariación directa.

- Un valor negativo si hay covariación inversa. Será más pequeño cuanto mayor sea la intensidad de la covariación inversa.

b) El índice de Covarianza no tiene máximo ni tampoco mínimo.

c) El índice de Covarianza mide la covariación en la escala original de las variables y es sensible a la variabilidad, por tanto NO debe ser utilizada para hacer comparaciones cuando las escalas de las variables comparadas, o la variación, son diferentes.

* Covarianza

Page 9: correlación pearson y sperman

* Cuando en el fenómeno estudiado las dos variables son cuantitativas se usa el coeficiente de correlación de Pearson

Es llamado así en homenaje a Karl Pearson. Las dos variables son designadas por X y Y

DESVENTAJAS

El valor 0 representa la falta de correlación.

Cuando las variables X e Y, son independientes el numerador se anula y el coeficiente de correlación poblacional tiene valor 0

En cambio una correlación nula no implica independencia de caracteres

* VENTAJAS

Page 10: correlación pearson y sperman

* El coeficiente de correlación de Spearman, ρ (rho) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.

El estadístico ρ viene dado por la expresión:

donde D es la diferencia entre los correspondientes estadísticos de orden de x - y. N es el número de parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student

* Coeficiente de correlación de Spearman

Page 11: correlación pearson y sperman

* La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

EJEMPLO:

* INTERPRETACION

Page 12: correlación pearson y sperman

* El primer paso es ordenar los datos de la primera columna. Se agregan dos columnas 'orden(i)' y 'orden(t)'

Para el orden i, se corresponderán con el número de fila del cuadro, para 99, orden(i) =3 ya que ocupa el 3.er lugar, ordenado de menor a mayor

para el orden t, se debe hacer lo mismo pero ordenando por 'Horas de TV a la semana', para no hacer otro cuadro, la secuencia ordenada quedaría.

T = { 0, 7, 7, 12, 17, 20, 28, 28, 28, 50 }

para este caso, el orden sería para cada elemento, respectivamente:

orden(t) = { 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 }

sin embargo, el valor de orden está dado por el valor promedio de sus posiciones, así para:

7 aparece 2 veces, sumando sus posiciones = ( 2 + 3 ) / 2 = 2.5

28 aparece 3 veces, sumando sus posiciones = ( 7 + 8 + 9 ) / 3 = 8

50 aparece 1 vez, sumando sus posiciones = 10 / 1 = 10

Después, se crean dos columnas más, una columna "d" que muestra las diferencias entre las dos columnas de orden y, otra columna "d2". Esta última es sólo la columna "d" al cuadrado.

Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:

* EJEMPLO

Page 13: correlación pearson y sperman

* Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.

Los valores de la columna d2 pueden ser sumados para averiguar El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula.

De lo que resulta

Determinando la significación estadística

La aproximación moderna al problema de averiguar si un valor observado de ρ es significativamente diferente de cero (siempre tendremos -1 ≤ ρ ≤ 1) es calcular la probabilidad de que sea mayor o igual que el ρ esperado, dada la hipótesis nula, utilizando un test de permutación. Esta aproximación es casi siempre superior a los métodos tradicionales, a no ser que el conjunto de datos sea tan grande que la potencia informática no sea suficiente para generar permutaciones (poco probable con la informática moderna), o a no ser que sea difícil crear un algoritmo para crear permutaciones que sean lógicas bajo la hipótesis nula en el caso particular de que se trate (aunque normalmente estos algoritmos no ofrecen dificultad).

* EJEMPLO

Page 14: correlación pearson y sperman

* Aunque el test de permutación es a menudo trivial para cualquiera con recursos informáticos y experiencia en programación, todavía se usan ampliamente los métodos tradicionales para obtener significación. La aproximación más básica es comparar el ρ observado con tablas publicadas para varios niveles de significación. Es una solución simple si la significación sólo necesita saberse dentro de cierto rango, o ser menor de un determinado valor, mientras haya tablas disponibles que especifiquen los rangos adecuados. Más abajo hay una referencia a una tabla semejante. Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los años se han usado complicados trucos matemáticos para generar tablas para tamaños de muestra cada vez mayores, de modo que no es práctico para la mayoría extender las tablas existentes.

Una aproximación alternativa para tamaños de muestra suficientemente grandes es una aproximación a la distribución t de Student. Para tamaños de muestra más grandes que unos 20 individuos, la variable

tiene una distribución t de Student en el caso nulo (correlación cero). En el caso no nulo (ej: para averiguar si un ρ observado es significativamente diferente a un valor teórico o si dos ρs observados difieren significativamente), los tests son mucho menos potentes, pero puede utilizarse de nuevo la distribución t.

* Determinando la significación estadística

Page 15: correlación pearson y sperman

* Una generalización del coeficiente de Spearman es útil en la situación en la cual hay tres o más condiciones, varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendrán un orden en particular. Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorará de intento en intento. Un test de la significación de la tendencia entre las condiciones en esta situación fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas ordenadas.

VENTAJAS

Al ser Spearman una técnica no paramétrica es libre de distribución probabilística (2, 5, 9)

Los supuestos son menos estrictos. Es robusto a la presencia de outlier, (es decir, permite ciertos desvíos del patrón normal)

La manifestación de una relación causa-efecto, es posible solo a través de la comprensión de la relación natural que existen entres las variables y no debe manifestarse solo por la existencia de una fuerte correlación.

* Determinando la significación estadística

Page 16: correlación pearson y sperman

* Indicándonos asociaciones negativas o positivas respectivamente, 0 cero significa no correlación pero no independencia.

La tau de kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

* DESVENTAJAS

Page 17: correlación pearson y sperman

* http://www.uv.es/webgid/Descriptiva/31_coeficiente_de_pearson.html

https://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman

* BIBLIOGRAFIA