View
227
Download
1
Category
Preview:
Citation preview
الرحمن الله الرحمن بسم الله بسمالرحيمالرحيم
Correlación y Correlación y regresiónregresión
Dr. Moataza Mahmoud Abdel WahabConferencista sobre BioestadísticaInstituto Superior de Salud Pública
Universidad de Alejandría
CorrelaciónCorrelación
Es la relación entre dos variables cuantitativas sin ser capaz de inferir relaciones causales.
Correlación es una técnica estadística utilizada para determinar el grado en el que dos variables están relacionadas
• Dos variables cuantitativas
• Una variable es llamada independiente (X)
y la otra dependiente (Y)
• Los puntos no se unen
• No es tabla de frecuencias
Diagrama de dispersión de puntos
Ejemplo
Dispersión de puntos de peso y presión Dispersión de puntos de peso y presión arterial sistólicaarterial sistólica
80
100
120
140
160
180
200
220
60 70 80 90 100 110 120wt (kg)
SBP(mmHg)TAS (mm HG)
Peso (Kg)
80
100
120
140
160
180
200
220
60 70 80 90 100 110 120Wt (kg)
SBP(mmHg)
Diagrama de puntos dispersos de peso y tensión arterial sistólica
TAS (mm HG)
Peso (Kg)
Dispersión de puntos
El modelo de los datos es indicativo del tipo de relación entre las dos variables:
Relación positiva Relación negativa No hay relación
Relación positivaRelación positiva
Número de horas para estudio
Cal
ifica
ción
fina
l del
cur
so
0
2
4
6
8
10
12
14
16
18
0 10 20 30 40 50 60 70 80 90
Age in Weeks
Hei
gh
t in
CM
Edad en semanas
Est
atur
a en
cm
Relación negativaRelación negativa
Confiabilidad
Edad del Auto
Sin relaciónSin relación
Tasa de pulso (latidos/minuto)
Pes
o (li
bras
)
Coeficiente de correlaciónCoeficiente de correlación
Estadístico que muestra el grado de relación entre las dos variables
Coeficiente de correlación simple (r)Coeficiente de correlación simple (r)
También llamado correlación de También llamado correlación de Pearson Pearson
Mide la Mide la naturaleza naturaleza y y fuerzafuerza entre dos entre dos variables variables cuantitativascuantitativas..
El El signosigno de de rr denota la naturaleza de denota la naturaleza de la asociación la asociación
Mientras que el Mientras que el valorvalor de de rr denota la denota la fuerza de asociación.fuerza de asociación.
Si el signo es Si el signo es positivo,positivo, significa que la significa que la relación es relación es directa directa (un incremento en una (un incremento en una variable está asociado con el incremento variable está asociado con el incremento de la otra variable; una disminución de de la otra variable; una disminución de una variable está asociado con la una variable está asociado con la disminución de la otra variable).disminución de la otra variable).
Si el signo es Si el signo es negativo, negativo, significa una significa una relación relación inversa o indirectainversa o indirecta (significando (significando que el incremento en una variable está que el incremento en una variable está asociado con una disminución de la otra asociado con una disminución de la otra variable).variable).
El valor de r está entre ( -1) y ( +1)El valor de r está entre ( -1) y ( +1) El valor de r denota la fuerza de la El valor de r denota la fuerza de la
asociación como se ilustra en el siguiente asociación como se ilustra en el siguiente diagrama.diagrama.
-1 10-0.25-0.75 0.750.25
fuerte fuerteintermedio intermediodébil débil
sin relación
Correlación perfecta
correlación perfecta
Directaindirecta
Si Si rr = cero = cero significa que no hay asociación o significa que no hay asociación o correlación entre las dos variables.correlación entre las dos variables.
Si Si 0 < 0 < rr < 0.25 < 0.25 = débil correlación. = débil correlación.
Si Si 0.25 ≤ 0.25 ≤ rr < 0.75 < 0.75 = intermedia correlación. = intermedia correlación.
Si Si 0.75 ≤ 0.75 ≤ rr < 1 < 1 = fuerte correlación. = fuerte correlación.
Si Si r r = l= l = perfecta correlación. = perfecta correlación.
n
y)(y.
n
x)(x
n
yxxy
r2
22
2
¿Cómo clacular el coeficiente de correlación simple (r)?
EjemploEjemplo::
Una muestra de 6 niños fue seleccionada, datos de su Una muestra de 6 niños fue seleccionada, datos de su edad en años y peso en kilogramos fue registrada edad en años y peso en kilogramos fue registrada como se muestra en la siguiente tabla. Se requiere como se muestra en la siguiente tabla. Se requiere encontrar la correlación entre edad y peso.encontrar la correlación entre edad y peso.
Nº serial
Edad (años)
Peso (Kg)
1712
268
3812
4510
5611
6913
Las dos variables son de tipo cuantitativo, Las dos variables son de tipo cuantitativo, una variable (edad) es llamada una variable (edad) es llamada independiente y la otra (peso) es llamada independiente y la otra (peso) es llamada dependiente y con notación de variable Y, dependiente y con notación de variable Y, para encontrar la relación entre edad y para encontrar la relación entre edad y peso, calcule el coeficiente de correlación peso, calcule el coeficiente de correlación simple, usando la siguiente fórmula:simple, usando la siguiente fórmula:
n
y)(y.
n
x)(x
n
yxxy
r2
22
2
Nº Serial
Edad (años)
(x)
Peso (Kg)
(y)xyX2Y2
17128449144
268483664
38129664144
45105025100
56116636121
691311781169
Total∑x=41
∑y=66
∑xy= 461
∑x2=291
∑y2=742
r = 0.759r = 0.759
Fuerte correlación directaFuerte correlación directa
6
(66)742.
6
(41)291
6
6641461
r22
Ejemplo: Relación entre ansiedad y puntaje de Ejemplo: Relación entre ansiedad y puntaje de pruebaspruebas
AnsiedadAnsiedad
))XX((
Puntaje Puntaje de de
prueba prueba (Y)(Y)
XX22YY22XYXY
101022100100442020
88336464992424
22994481811818
117711494977
5566252536363030
6655363625253030
∑∑X = 32X = 32∑∑Y = 32Y = 32∑∑XX22 = 230 = 230∑∑YY22 = 204 = 204∑∑XY=129XY=129
Calculando el coeficiente de correlaciónCalculando el coeficiente de correlación
94.)200)(356(
1024774
32)204(632)230(6
)32)(32()129)(6(22
r
r = - 0.94
Fuerte correlación indirecta
Coeficiente de correlación de Rankings Coeficiente de correlación de Rankings de Spearman (rde Spearman (rss))
No es una prueba no paramétrica de No es una prueba no paramétrica de correlación. correlación. Este procedimiento usa los dos rankings que Este procedimiento usa los dos rankings que puede asignarse a los valores de la muestra en puede asignarse a los valores de la muestra en x y en y.x y en y.Coeficiente de correlación de rankings de Coeficiente de correlación de rankings de Spearman puede calcularse en los siguientes Spearman puede calcularse en los siguientes casos:casos:
Ambas variables son cuantitativas.Ambas variables son cuantitativas.Ambas variables son cualitativas ordinales.Ambas variables son cualitativas ordinales.Una variable es cuantitativa y la otra es cualitativa Una variable es cuantitativa y la otra es cualitativa ordinal.ordinal.
ProcedimientoProcedimiento::
1.1. Ranquee los valores de X de primero a n Ranquee los valores de X de primero a n donde n es el número de pares de donde n es el número de pares de valores de x y y en la muestra.valores de x y y en la muestra.
2.2. Ranquee el valor de y de primero a n.Ranquee el valor de y de primero a n.
3.3. Calcule el valor de di para cada par de Calcule el valor de di para cada par de observaciones restando el ranking de yi observaciones restando el ranking de yi del ranking de xi.del ranking de xi.
4.4. Eleve al cuadrado cada di y ∑diEleve al cuadrado cada di y ∑di22 lo cual lo cual es la suma de valores al cuadrado.es la suma de valores al cuadrado.
5.5. Aplique la siguiente fórmula:Aplique la siguiente fórmula:
1)n(n
(di)61r
2
2
s
El valor de rs denota la magnitud y naturaleza de la asociación dando la misma interpretación el r simple.
EjemploEjemplo
En un estudio de la relación entre el nivel de En un estudio de la relación entre el nivel de educación e ingreso, se obtuvieron los siguientes educación e ingreso, se obtuvieron los siguientes datos. Encuentre la relación entre ellos y datos. Encuentre la relación entre ellos y comente.comente.
Números de la
muestra
Nivel de educación(X)
Ingreso(Y)
APreparatoriaPreparatoria25
BPrimariaPrimaria10
CUniversidadUniversidad8
DSecundariaSecundaria10
ESecundariaSecundaria15
FAnalfabetaAnalfabeta50
GUniversidadUniversidad60
Respuesta:Respuesta:
(X)(Y)
RankingX
RankingY
didi2
APreparatoria255324
BPrimaria1065.50.50.25
CUniversidad81.57-5.5
30.25
DSecundaria103.55.5-24
ESecundaria153.54-0.5
0.25
FAnalfabeta5072525
GUniversidad601.510.50.25
∑ di2=64
Comentario:Comentario:
Hay una correlación débil indirecta entre el Hay una correlación débil indirecta entre el nivel de educación y el ingreso.nivel de educación y el ingreso.
1.0)48(7
6461
sr
EjercicioEjercicio
Análisis de regresiónAnálisis de regresión
Regresión: técnica enfocada a la predicción de algunas variables conociendo a otras.
El proceso de predecir la variable Y usando la variable X.
RegresiónRegresión
Usa la variable (x) para predecir el valor de la Usa la variable (x) para predecir el valor de la variable resultado (y)variable resultado (y)
Nos dice cuanto es el valor de cambio de y en Nos dice cuanto es el valor de cambio de y en función del cambio en los valores de x.función del cambio en los valores de x.
Correlación y regresiónCorrelación y regresión
Correlación describe la fuerza de una relación Correlación describe la fuerza de una relación lineal entre dos variables
Lineal significa “línea recta”
Regresión nos dice como trazar la línea recta descrita en la correlación.
Regresión Calcule la línea que de “el mejor trazo” para un grupo de Calcule la línea que de “el mejor trazo” para un grupo de
datosdatos
La línea de regresión hace la suma de cuadrados de los La línea de regresión hace la suma de cuadrados de los residuales, menores a cualquier otra línearesiduales, menores a cualquier otra línea
Regresión minimiza los residuales
80
100
120
140
160
180
200
220
60 70 80 90 100 110 120Wt (kg)
Peso Kg
TAS(mmHg)
Usando el método de los cuadrados mínimos (un Usando el método de los cuadrados mínimos (un procedimiento que minimiza las desviaciones procedimiento que minimiza las desviaciones verticales de puntos trazados alrededor de la verticales de puntos trazados alrededor de la línea recta) somos capaces de construir el mejor línea recta) somos capaces de construir el mejor trazado de la línea recta en la gráfica de puntos trazado de la línea recta en la gráfica de puntos dispersos y luego formular la ecuación de dispersos y luego formular la ecuación de regresión en la forma deregresión en la forma de::
n
x)(x
n
yxxy
b2
2
1)xb(xyy b
bXay
Ecuación de regresión
La ecuación de regresión describe la línea de regresión matemáticamente Intersección Pendiente
80
100
120
140
160
180
200
220
60 70 80 90 100 110 120Wt (kg)
SBP(mmHg)TAS (mmHg)
Peso (Kg)
Ecuación linealEcuación linealEcuación linealEcuación linealY
Y = bX + a
a = Y-intercept
X
Changein Y
Change in X
b = Slope
bXay Cambio en Y
Cambio en X
b= pendiente
a = intersección
Horas estudiando y Horas estudiando y calificacionescalificaciones
Regresión de calificaciones sobre horas de estudio
Linear Regression
2.00 4.00 6.00 8.00 10.00
Number of hours spent studying
70.00
80.00
90.00
Final grade in course = 59.95 + 3.17 * studyR-Square = 0.88
Calificación final predicha en clase =
59.95 + 3.17*(número de horas de estudio por semana)
Regresión lineal
Calificación final en el curso= 59.95 + 3.17 * horas de estudio
R2=0.88
Número de horas empleadas en estudio
Ca
lifi
ca
ció
n f
ina
l e
n e
l c
urs
o
Prediga la calificación final dePrediga la calificación final de ……
Alguien quien estudia 12 horas Calificación final = 59.95 + (3.17*12) Calificación final = 97.99
Alguine quien estudia 1 hora: Calificación final = 59.95 + (3.17*1) Calificación final = 63.12
Calificación final en clases predicha= 59.95 + 3.17*(horas de estudio)
EjercicioEjercicio
Una muestra de 6 personas fue Una muestra de 6 personas fue seleccionada el valor de su edad seleccionada el valor de su edad (variable x) y su peso, mostrados en la (variable x) y su peso, mostrados en la siguiente tabla. Encuentre la ecuación de siguiente tabla. Encuentre la ecuación de regresión y que se predice del peso regresión y que se predice del peso cuando la edad es 8.5 años.cuando la edad es 8.5 años.
Número serialEdad (x)Peso (y)
123456
768569
128
12101113
RespuestaRespuesta
Número serial
Edad (x)
Peso (y)xyX2Y2
123456
768569
128
12101113
8448965066
117
493664253681
14464
144100121169
Total4166461291742
6.836
41x 11
6
66y
92.0
6
)41(291
6
6641461
2
b
Ecuación de regresión
6.83)0.9(x11y (x)
0.92x4.675y (x)
12.50Kg8.5*0.924.675y (8.5)
Kg58.117.5*0.924.675y (7.5)
11.411.611.8
1212.212.412.6
7 7.5 8 8.5 9
Age (in years)
Wei
ght (
in K
g)
Creamos una lñínea de regresión trazando dos valores estimados para y contra su componente de x, y luego extendiendo la línea a la derecha y a la
izquierda.
Edad (en años)
Pes
o (e
n K
g)
Ejercicio 2Ejercicio 2
Los siguientes son las Los siguientes son las edades en años y la edades en años y la presión arterial (PA) presión arterial (PA) de 20 adultos de 20 adultos aparentemente aparentemente sanos.sanos.
Edad (x)
PA (y)
Edad (x)
PA (y)
20436326533158465870
120128141126134128136132140144
46536020634326193123
128136146124143130124121126123
Encuentre la correlación entre Encuentre la correlación entre edad y presión arterial usando el edad y presión arterial usando el coeficiente de correlación de coeficiente de correlación de Spearman y comente.Spearman y comente.Encuentre la ecuación de Encuentre la ecuación de regresiónregresión¿Cual es la presión arterial ¿Cual es la presión arterial predecible para un hombre de 25 predecible para un hombre de 25 años?años?
Serialxyxyx2
1201202400400
24312855041849
36314188833969
4261263276676
55313471022809
6311283968961
75813678883364
84613260722116
95814081203364
1070144100804900
Serialxyxyx2
114612858882116
125313672082809
136014687603600
14201242480400
156314390093969
164313055901849
17261243224676
18191212299361
19311263906961
20231232829529
Total852263011448
641678
n
x)(x
n
yxxy
b2
2
1 4547.0
20
85241678
20
2630852114486
2
=
=112.13 + 0.4547 x
para edad 25
Presión arterial = 112.13 + 0.4547 * 25=123.49 = 123.5 mm hg
y
Regresión múltiple
Análisis de regresión múltiple es una extensión del análisis simple de regresión permitiendo más de una variable independiente.
Recommended