Qué aspectos conceptuales y metodológicos tener en cuenta?
DE LOS DATOS
Los patrones y procesos que estudiamos ocurren en un espacio
ANÁLISIS
La autocorrelación espacial es una propiedad inherente al sistema de estudio
múltiples factores que interactúan a distintas escalas.
Los múltiples factores que explican la diversidad pueden co-variar entre sí debido a relaciones causales o en respuesta a otras variables multicolineariedad
Cómo selecciono el mejor modelo explicativo de mis datos?
ENFOQUE DE TRABAJO Descriptivo-comparativo.
Imposible realizar experimentos a macro-escala
Imposible poner a prueba hipótesis de manera directa.
Derivamos predicciones acerca de asociaciones.
Por qué adoptar una “perspectiva geográfica”
• El “gradiente latitudinal” en la riqueza de especies” es un fenómeno en tres dimensiones
• La “latitude”, “altitud” o “longitud” son variables DESCRIPTIVAS
La perspectiva geográfica, es mucho más informativa respecto de los factores ambientales que gobiernan la variación en el tamaño de los rangos geográficos
Variación geográfica Autocorrelación espacial
Dado pares de localidades separadas por ciertas distancias, es la propiedad de variables aleatorias de tomar valores que son más similares (autocorrelación positiva) o menos similares (autocorrelación negativa) que lo esperado por pares de localidades aleatoreamente asociados (Legendre 1993)
Modelo 1a: Ausencia de autocorrelación espacial = datos completamente independientes
MODELO 1b= CON DEPENDENCIA FUNCIONAL ENTRE DOS MODELO 1b= CON DEPENDENCIA FUNCIONAL ENTRE DOS VARIABLES VARIABLES
INDEPENDENCIA ESPACIALINDEPENDENCIA ESPACIAL
MODELO II: AUTOREGRESIVO (inherente)CADA VALOR DE X DEPENDE DE LOS ANTERIORES
Modelo auto-regresivo de primer orden
MODELO III: AUTOREGRESIVO (INDUCIDO)Modelo auto-regresivo de Tipo II
MODELO IV: DOBLEMENTE AUTOREGRESIVO
Autocorrelación inherente + inducida
Modelo auto-regresivo de Tipo II
La autocorrelación espacial “infla” los p produce resultados artificialmente significativos
Qué hacer?
Ignorar el hecho . . .
Elegir un p más conservativo (p < 0.01)
SOLUCIONES RÁPIDAS…
Utilizar un subconjunto de datos independientes
Ajustar por el tamaño efectivo de la muestra (correción de Duilleuteil)
Modelo auto-regresivo de primer orden
Aleatorizar los datos para “romper” la auto-correlación
Comparar el valor del estimador observado en los datos originales vs. aleatorizados
Aleatorizar 2 variables y recalcular la correlación entre ambas
Comparar el valor de correlación variables originals vs. variables aleatorizadas
Estimar la autocorrelación espacialEstimar la autocorrelación espacial
Indice de Moran Indice de Moran
Uno de los indicadores más viejos para Uno de los indicadores más viejos para estimar autocorrelación espacial (Moran, estimar autocorrelación espacial (Moran, 1950). 1950).
Aplica a zonas con puntos donde se miden Aplica a zonas con puntos donde se miden variables.variables.
Compara el valor de la variable en una Compara el valor de la variable en una localidad con el valor en las localidades localidad con el valor en las localidades vecinas.vecinas.
i j i iji
i j jiji
XXW
XXXXWNI
2,
,
)()(
))((
N es el número de casos
Xi valor de la variable en una determinada localidad
Xj valor de la variable en otra determinada localidad
X media de la variable
Wij peso aplicado a la comparación entre la localidad i y localidad j
Índice de MoranÍndice de Moran
Wij es una matriz de contiguidad
Si la zona j es adyacente a la zona i, la interacción recibe un peso de 1
Wij también puede ser la distancia inversa entre las localidades i y j (1/dij)
B
C
D
E
A
El índice de Moran calcula los productos cruzados entre los valores (desvíos) de pares puntos, y pondera por la distancia entre los puntos de cada par
Al igual que un índice de correlación varía entre -1 y 1
i j i iji
i j jiji
XXW
XXXXWNI
2,
,
)()(
))((
Covarianza entre cada par de puntos separado por d
Varianza estimada a partir de todos los puntos
Numerador se calcula para cada clase de distancia (d) (intervienen solamente los puntos a distancia d)
Sumatoria de todas las distancias entre los puntos
Construcción de correlograma utilizando el índice de Construcción de correlograma utilizando el índice de MoranMoran
Cálculo de clases de distanciaCálculo de clases de distancia
Análisis de estructuras espaciales
Patrones espaciales en la riqueza de Patrones espaciales en la riqueza de especies de aves a escala globalespecies de aves a escala global
Diferencias entre el Nuevo Mundo y el Diferencias entre el Nuevo Mundo y el Viejo MundoViejo Mundo
EL PATRÓN DE AUTOCORRELACIÓN PRESENTE EN LOS DATOS ES LA SEÑAL (estructura) QUE QUEREMOS EXPLICAR…
Pero…qué ocurre cuando medimos la asociación entre una variable respuesta y distintas variables ambientales que tienen estructura espacial?
Consecuencias de la relación riqueza-ambiente espacialmente estructurada
No podemos distinguir asociaciones causales vs. No podemos distinguir asociaciones causales vs. espúreas. espúreas.
Variables que tengan un patrón de autocorrelación Variables que tengan un patrón de autocorrelación fuerte serán seleccionadas en detrimento de aquellas fuerte serán seleccionadas en detrimento de aquellas que muestran menor autocorrelación espacial. que muestran menor autocorrelación espacial.
Dependencia de la escala: variables con estructura a Dependencia de la escala: variables con estructura a gran escala, dejarán sin explicar (residuo) variación gran escala, dejarán sin explicar (residuo) variación espacialmente estructurada a escala local (y vice-espacialmente estructurada a escala local (y vice-versa).versa).
AET
ANNT
TMIN
PET
ELEV
¿Cómo analizar las relaciones riqueza-ambiente espacialmente estructuradas?
AET
ANNT
TMIN
ELEV PET
RZA
Regresión múltiple por pasos (Stepwise multiple regression)
(1)ANNT
(2)ANNT2 R2 = 76.9%
(3)AET
(4)ELEV
(5)TMIN
(6)PET R2 = 86.6 %
Patrón de autocorrelación en los residuales de la riqueza
ANNT
AET
ELEV
TMIN
PET
CONCLUSIONES
La autocorrelación espacial es un nuevo paradigma analítico La autocorrelación espacial es un nuevo paradigma analítico en ecología geográfica y macroecología. en ecología geográfica y macroecología.
SiempreSiempre debemos probar la existencia de autocorrelación debemos probar la existencia de autocorrelación espacial en los residuales de una regresión. espacial en los residuales de una regresión.
Si Si NONO hay autocorrelación en los residuales de un modelo hay autocorrelación en los residuales de un modelo OLS, quiere decir que la interpretación de los resultados no OLS, quiere decir que la interpretación de los resultados no está afectada por la autocorrelación espacial de la variables está afectada por la autocorrelación espacial de la variables originales.originales.
Tener en cuenta el efecto de la escala espacial. Distintos Tener en cuenta el efecto de la escala espacial. Distintos predictores pueden explicar la variación de la riqueza a predictores pueden explicar la variación de la riqueza a distintas escalas espaciales. distintas escalas espaciales.
Efectos de Escala
2 aspectos de la escala:
Área focal o
“grano”
Extensión
Cambios en la escala de trabajoCambios en la escala de trabajopueden afectar el análisis depueden afectar el análisis de
La forma del patrón. La forma del patrón. Los determinantes ambientales del patrón.Los determinantes ambientales del patrón.
MULTICOLINEARIDAD
Cuando los datos están estandarizados a
Media = 0
Varianza = 1
* = r
Multicolinearidad entre variables = complica la detección de efectos independientes (variables confundidas)
* = (rr1 – rr2r12)/(1 – r122)
Nuestra capacidad para detectar un efecto disminuye al incrementarse la multicolinearidad
¿Cómo me doy cuenta si mis análisis están afectados por este problema? Síntomas…
Coeficientes de regresión parcial con signos “equivocados”Coeficientes de regresión parcial con signos “equivocados” Variables que ingresan al modelo con coeficientes de igual Variables que ingresan al modelo con coeficientes de igual
magnitud y signos opuestos. magnitud y signos opuestos. Variables que tienen una relación clara con mi variable Variables que tienen una relación clara con mi variable
respuesta y la relación cambia a un “sin sentido” al ingresarlas respuesta y la relación cambia a un “sin sentido” al ingresarlas en un modelo de regresión múltipleen un modelo de regresión múltiple
Variables que muestra asociaciones significativas, se hacen Variables que muestra asociaciones significativas, se hacen no significativas en presencia de otras variables. no significativas en presencia de otras variables.
La suma de los rLa suma de los r22 parciales no coincide con el R parciales no coincide con el R22 total. total. La aplicación del modelo con fines predictivos da valores muy La aplicación del modelo con fines predictivos da valores muy
imprecisos (coeficientes reflejan efectos compartidos).imprecisos (coeficientes reflejan efectos compartidos).
Cómo “solucionamos” el problema??
(1) Eliminar variables: Cuáles?
(2) Establecer modelos a priori (Evitar las expediciones de pesca).
(3) Comparar el ajuste de subconjuntos de modelos (R2
adj, Akaike)
Tratar de eliminar/disminuir el problema??
Explorar las relaciones funcionales de colinearidad.
Regresión residual
Regresión secuencial
Regresión por análisis de componentes principales
Análisis de senderos (ecuaciones estructurales)
Análisis de regresión parcial
Ejemplo (Hawkins et al)Ejemplo (Hawkins et al)
Qué factores Qué factores determinan las determinan las relaciones diversidad-relaciones diversidad-ambiente en ambiente en mariposas? mariposas?
Los datos están Los datos están tomados a escala de tomados a escala de sub-estados dentro de sub-estados dentro de CaliforniaCalifornia
42106
111
79 11386
128
105
86
81
69115
108
86
82
68
84
84
84
77
50
62919999
97
106
114111
111
11284
121
73
116 107
112
111
78
44
63
61
88
100
80
117
121
88
114
8811868
8682
76
7285
63 67
102
89
71
71
70
96
64
95
9595
99 96
118
110122110
117
115
114
111
93
90
123
117
122
107
109
103
104
123
120105
81
104
Variables predictorasVariables predictoras
EnergíaEnergía Temperatura mínimaTemperatura mínima Temperatura máximaTemperatura máxima No. de días cálidosNo. de días cálidos No. de días fríosNo. de días fríos
PET máximaPET máxima
Agua y agua/energíaAgua y agua/energía Precipitation anualPrecipitation anual AET máximaAET máxima
TopografíaTopografía Rango de elevaciónRango de elevación Elevación mediaElevación media Heterogeneidad topográficaHeterogeneidad topográfica
Variabilidad climáticaVariabilidad climática Rango en temperaturaRango en temperatura Long estación crecimiento Long estación crecimiento EstacionalidadEstacionalidad IrregularidadIrregularidad
AreaArea Tamaño del sub-estadoTamaño del sub-estado
EspacioEspacio LatitudLatitud LongitudLongitud
Interacciones bióticasInteracciones bióticas Numero de spp plantasNumero de spp plantas
Cómo reducimos el número de Cómo reducimos el número de variables?variables?
Análisis PCA extrae combinaciones lineares de Análisis PCA extrae combinaciones lineares de variables (componentes ortogonales).variables (componentes ortogonales).
A partir de los componentesA partir de los componentes
1)1) Decididimos cuántas variables mantenerDecididimos cuántas variables mantener
2)2) Interpretar los coeficientes de aporte a cada componente Interpretar los coeficientes de aporte a cada componente (loadings)(loadings)
Ejes y % variación explicadaEjes y % variación explicadaEigenvalues % Eigenvalues % Accum % Accum % Broken Broken
stickstick
4.862 4.862 0.286 0.286 0.286 0.286 0.202 0.202 4.634 4.634 0.272 0.272 0.559 0.559 0.143 0.143 2.838 2.838 0.167 0.167 0.725 0.725 0.114 0.114 1.881 1.881 0.111 0.111 0.836 0.836 0.094 0.094 0.862 0.862 0.051 0.051 0.887 0.887 0.071 0.071 0.484 0.484 0.028 0.028 0.915 0.915 0.068 0.068 0.355 0.355 0.021 0.021 0.936 0.936 0.058 0.058 0.285 0.285 0.017 0.017 0.953 0.953 0.041 0.041 0.221 0.221 0.013 0.013 0.966 0.966 0.042 0.042 0.184 0.184 0.011 0.011 0.977 0.977 0.036 0.036 0.121 0.121 0.008 0.008 0.985 0.985 0.03 0.03 0.096 0.096 0.006 0.006 0.99 0.99 0.025 0.025 0.066 0.066 0.004 0.004 0.994 0.994 0.011 0.011 0.049 0.049 0.003 0.003 0.997 0.997 0.015 0.015 0.033 0.033 0.002 0.002 0.999 0.999 0.011 0.011 0.013 0.013 0.0 0.0 0.991 0.991 0.007 0.007 0.005 0.005 0.0 0.0 1.0 0.003 1.0 0.003
Interpretar el peso de las variables Interpretar el peso de las variables en cada ejeen cada eje
11 22 33 44
Community types Community types 0.577 0.577 -0.309 -0.309 0.364 0.364 -0.454 -0.454
Area Area 0.209 0.209 0.562 0.562 -0.418 -0.418 -0.275 -0.275
Elevation range Elevation range 0.68 0.68 0.053 0.053 -0.163 -0.163 -0.662-0.662
Topogr Hetero Topogr Hetero 0.633 0.633 -0.07 -0.07 -0.088 -0.088 -0.697-0.697
Mean Elevation Mean Elevation 1 1 -0.01 -0.01 -0.167 -0.167 0.085 0.085
Highest temp Highest temp -0.032 -0.032 0.7130.713 0.589 0.589 -0.043 -0.043
Lowest temp Lowest temp -0.831-0.831 0.079 0.079 0.259 0.259 -0.448 -0.448
Range in temp Range in temp 0.417 0.417 0.677 0.677 0.52 0.52 0.234 0.234
Mean days >32.2 CMean days >32.2 C -0.277 -0.277 0.7940.794 -0.169 -0.169 -0.172 -0.172
Mean days < 0 C Mean days < 0 C 0.8970.897 0.069 0.069 0.106 0.106 0.383 0.383
Growing season Growing season -0.466 -0.466 -0.051 -0.051 0.7380.738 -0.205 -0.205
Mean annual tempMean annual temp -0.313 -0.313 0.751 0.751 0.535 0.535 -0.173 -0.173
Seasonality Seasonality 0.356 0.356 0.8340.834 0.133 0.133 0.064 0.064
Irregularity Irregularity 0.663 0.663 0.509 0.509 0.272 0.272 0.208 0.208
Precipitation Precipitation 0.227 0.227 -0.615 -0.615 0.425 0.425 -0.204 -0.204
Max AET Max AET 0.344 0.344 -0.488 -0.488 0.569 0.569 -0.063 -0.063
Max PET Max PET -0.112 -0.112 0.683 0.683 -0.564 -0.564 -0.262 -0.262
Utilidad del PCA?Utilidad del PCA?
VentajasVentajas Elimina colinearidad entre predictoresElimina colinearidad entre predictores Resultan modelos ambientales lógicos. Resultan modelos ambientales lógicos. Ayuda a identificar gradientes independientes. Ayuda a identificar gradientes independientes.
DesventajasDesventajas Interpretación de los ejes es subjetivaInterpretación de los ejes es subjetiva Interpretación de los modelos es descriptiva. Interpretación de los modelos es descriptiva. Dificultad para particionar los efectos dentro de ejes.Dificultad para particionar los efectos dentro de ejes.
Análisis de senderos (ecuaciones Análisis de senderos (ecuaciones estructuralesestructurales
Las variables ambientales covarían por la Las variables ambientales covarían por la forma en que se estructura el mundo realforma en que se estructura el mundo real
Modelos regresión múltiple (stepwise) asumen que Modelos regresión múltiple (stepwise) asumen que las variables son independienteslas variables son independientes
Análisis de senderos permite incorporar la Análisis de senderos permite incorporar la covariación en el análisiscovariación en el análisis
La lógica de un análisis de regresiónLa lógica de un análisis de regresión
Asume sólo efectos Asume sólo efectos directos. directos. Correlaciones entre Correlaciones entre predictores = 0predictores = 0
YX2
1X
3X
4X e
b4
b3
b1
b2
La lógica del análisis de senderosLa lógica del análisis de senderos
Asume efectos directos Asume efectos directos e indirectos; e indirectos;
NO asume que los NO asume que los predictores son predictores son independientesindependientes X2
1X
3X
4X
p31
p42
p53
p15
p43
ex3
5X
p41
p52
p32
ex5
ex4
r12
p54
El análisis de senderos particiona las correlaciones total El análisis de senderos particiona las correlaciones total en distinto tipos de “efectos”en distinto tipos de “efectos”
Correlación total
Efectoscausales
Asociaciones No causales
Efectosdirectos
Efectos indirectos
Antecedentes Compartidos
Factores No asignados
42106
111
79 11386
128
105
86
81
69115
108
86
82
68
84
84
84
77
50
62919999
97
106
114111
111
11284
121
73
116 107
112
111
78
44
63
61
88
100
80
117
121
88
114
8811868
8682
76
7285
63 67
102
89
71
71
70
96
64
95
9595
99 96
118
110122110
117
115
114
111
93
90
123
117
122
107
109
103
104
123
120105
81
104
Mariposas de California
Min Temp
Mean elevation
Precipitation
Max AET
Range in elevation
Butterfly richness
Plant richness
Min Temp
Mean elevation
Precipitation
Max AET
Range in elevation
Butterfly richness
Modelo AmbientalModelo Ambiental
Min Temp
Mean elevation
Precipitation
Max AET
Range in elevation
Butterfly richness
-0.30
0.10
0.08
-0.71
-0.11
0.68
0.56
0.46
0.36
R2 = 0.665, 2 = 4.33, P = 0.115
Cálculo de efectosCálculo de efectos
Efecto directoEfecto directo Efecto Efecto indirectoindirecto
Efecto totalEfecto total
Min Min temperaturatemperatura 0.300.30 0.0040.004 0.3040.304
PrecipitaciónPrecipitación 0.100.10 0.2450.245 0.3450.345
AETAET 0.360.36 00 0.3600.360
Rango en Rango en elevaciónelevación 0.460.46 00 0.4600.460
Análisis de senderosAnálisis de senderos
VentajasVentajas Permite partir efectos directos e indirectosPermite partir efectos directos e indirectos Permite comparar hipotesis alternativasPermite comparar hipotesis alternativas
DesventajasDesventajas Requiere hipótesis Requiere hipótesis a prioria priori sobre relaciones causales sobre relaciones causales Puede no generar relaciones únicasPuede no generar relaciones únicas Requiere/asume relaciones linearesRequiere/asume relaciones lineares
Análisis de regresión parcialAnálisis de regresión parcial
Partir la variación explicada RPartir la variación explicada R2 de distintos de distintos modelos de regresión en una parte compartida modelos de regresión en una parte compartida y otra independiente. Establecer las fuentes de y otra independiente. Establecer las fuentes de variación. variación.
Muy simple de calcular e interpretar. Muy simple de calcular e interpretar.
Ejemplo de patrones globales en la riqueza de Ejemplo de patrones globales en la riqueza de especies (Hawkins et al. 2003)especies (Hawkins et al. 2003)
Objetivo – Comparar asociaciones entre la Objetivo – Comparar asociaciones entre la riqueza de especies y el clima y región riqueza de especies y el clima y región biogeográfica (220 x 220 km)biogeográfica (220 x 220 km)
Clima: AET (agua-energía) (a + b)• r2 = 0.724
Región biogeográfica (b + c) • r2 = 0.584
Climate y region covarían• r2 = 0.509
Análisis de regresión parcialAnálisis de regresión parcial
b = (a + b) + (b + c) – (a + b + c)
d = 1 – R2total
a = (a + b) – b = efecto “puro” AET
c = (b + c) – b = efecto “puro” región
Desde el punto de vista biológico es más relevante preguntarse si una variable es importante, en lugar de significativa estadísticamente
•Comparamos varios modelos alternativos como aproximaciones a una “verdad” subyacente.
•Estimamos el valor de los parámetros (magnitud o importancia de los efectos o asociaciones) en lugar de contrastar con una hipótesis “nula”
OTRAS CUESTIONES METODOLÓGICAS
Cómo selecciono el mejor modelo?
Cómo selecciono el mejor modelo?
y = + x +
Parte determinista
(regularidad)
Parte estocástica
(ruido)
Bondad de ajuste = habilidad del modelo para capturar regularidad + ruido
Generalidad = habilidad del modelo para predecir nuevos datos - - - > cuán bien predice la regularidad
GeneralidadGeneralidad
Complejidad del ModeloBaja Alta
Aju
ste
del m
odel
o
Pob
reB
ueno Bondad de ajuste
Generalidad
SobreAjuste(Overfitting)
GeneralidadGeneralidad
Un buen ajuste puede alcanzarse simplemente Un buen ajuste puede alcanzarse simplemente porque el model es más flexible.porque el model es más flexible.
Un buen ajuste es necesario, pero no Un buen ajuste es necesario, pero no suficiente para capturar procesos suficiente para capturar procesos subyacentes.. subyacentes..
Un buen ajuste califica a un modelo como Un buen ajuste califica a un modelo como posible candidato a ser tenido en cuenta.posible candidato a ser tenido en cuenta.
Selección del mejor modelo
AIC Indice de información de Akaike
Mide la falta de generalidad
Cuanto más chico sea su valor mejor
AIC = -2 ln L(w*|y) + 2K
y = datos w* = estimaciones de máxima probabilidad (máxima verosimilitud) cuáles son los parámetros que hace más probable la observación de mis datos. K = Número de parámetros de mi modelo (penaliza la complejidad)
La forma funcional del modelo propuesto NO importa, solamente importa el número de parámetros (complejidad)
AIC permite comparar modelos que tienen distinto número de variables.
En regresión OLS, AIC = n ln(s2) + 2K donde s2 es la variancia de residuales en el modelo de regresion, n es el tamaño de muestra
yi=β0 +β1 xi + i N (0, σ2)
LS (cuadrados mínimos)LS (cuadrados mínimos)
β0 β1 minimizan
(i )2
Cuadrados mínimos
MLE (máxima MLE (máxima verosimilitud)verosimilitud)
β0 β1 son los parámetros que hacen más probable la observación de mis datos
EJEMPLO HIPOTETICO: Número de éxitos en función del número de intentos. Conozco los datos, el modelo y el valor del parámetro.
(1) Empezamos con un modelo probabilístico para describir la distribución de mis datos.
(2) El modelo describe la probabilidad de distribución de mis datos, dado ciertos parámetros y una forma específica
y = número de éxitos
n = es el número de intentos
p = parámetro; si asumo que p = 0.4
La probabilidad de observar mis datos: y = 15, n = 40dado un modelo binomial con parámetro p = 0.4
SITUACIÓN REAL
(1) Tengo mis datos.
(2) El modelo verdadero es desconocido, pero ASUMO un modelo de distribución de probabilidad de mis datos.
(3) Los parámetros son desconocidos pero los ESTIMO.
(4) Efectúo varias estimaciones del/los parámetros a partir de la función de verosimilitud o likelihood.
(5) Computamos la probabilidad de los datos utilizando varios valores de parámetros y luego tomamos el valor del parámetro que sea la mejor estimación, dado los datos y el modelo que asumimos.
Reglas prácticas para seleccionar entre múltiples modelos
Estimar el AIC para múltiples modelosEstimar el AIC para múltiples modelos Ordenar los modelos de menor a mayor AICOrdenar los modelos de menor a mayor AIC Calcular las diferencias de AIC entre el modelo Calcular las diferencias de AIC entre el modelo
con AICcon AICminmin y cada uno de los modelos y cada uno de los modelos alternativos alternativos AIC = AIC = AICi - AIC - AICmin
AIC > 2, los modelos son diferentes entre si. > 2, los modelos son diferentes entre si. AIC < 2, los modelos son indistinguibles. < 2, los modelos son indistinguibles.
Se focaliza en 9 proposiciones o supuestos que pueden influir en la decisión de qué método analítico desarrollar
(1) La presencia de autocorrelación espacial genera sesgo (distorsión) Se ¨infla” la significancia estadística. Subestima el error estándar.
Abandonar la estadística frecuentista. Dejar de pensar en significativo o no significativo
Los estimación de los coeficientes de regresión no es confiable
La falta de precisión ocurre cuando se trabaja con muestras pequeñasEl verdadero problema está en usar modelos de regresión
(2) La regresión espacial es mejor
Las regresiones espaciales funcionan con datos simulados. La respuesta de los datos reales es impredecible.
(3) El mundo es estacionario…. En realidad no lo es
Los análisis de regresión múltiple (comunes o espaciales) asumen que la relación entre las variables (respuesta y explicativa) son constantes en todo el universo de datos.
Utilizar técnicas que permitan evaluar cómo varía la relación a través del espacio.
(4) Los coeficientes de regresión parcial significan algo.
Los coeficientes de regresión parcial estandarizados miden asociaciones. Los datos tienen una estructura compleja de interdependenciaBuscar alternativas: CART y SEM
(5) Los coeficientes de regresión identifican efectos
Los coeficientes de regresión no están ligados a un único proceso.El uso de la palabra “efecto” es incorrecta. “efecto” en SEM = hipótesis“efecto” en meta-análisis = no es mecanicista.
(7) La tierra es redonda (p< 0.05)
¿Los promedios en cualquier atributo tienen que ser corregidos por la riqueza de especies? Según Hawkins: no
(6) La riqueza de especies genera un sesgo
El cálculo de significancia no es apropiado.Moverse hacía la filosofía de la selección múltiple de modelos Abandonar la estadística frecuentista.
(8) Los procesos espaciales explican los patrones espaciales
Si conociéramos todo y pudiéramos medir variables explicativas a distintas escalas, el componente espacial de la variación sería 0El “espacio” en si mismo no explica nada
(9) La autocorrelación espacial causa un “red shift” (viraje al rojo) en las regresiones múltiples (= favorece a las variables de macro-escala)
El efecto de procesos locales se superpone con efectos a macro-escala para influir sobre el patrón. Calidad de los datos: muestreo vs. Mapa. Grano de análisis
El cambio en los coeficientes se debe a un problema de la regresión en sí misma. Aplicar regresiones espaciales implica realizar numerosos supuestos.
SEVM (spatial eigenvector mapping) sobre los residuales
Reconocer autocorrelación espacial (SA) en el modelado estadístico es crucial
Autocorrelación espacial = fenómeno que se limita a pocos vecinos desde un punto focal, a cualquier escala de estudio.
Tendencia espacial = fenómeno que ocurre a escalas más grandes respecto de la extensión del estudio A escalas geográficas grandes las tendencias espaciales se relacionan con los gradientes ambientales
La autocorrelación espacial no sesga los coeficientes de regresión (Hawkins) afirmación infundada/ modelos de simulación
Si la SA en la variable respuesta está causada por la SA de los predictores
No hay problema. Esto es lo que queremos estudiar. Incluimos los predictores en un modelo de regresión común residuales no correlacionados. OK
Si persiste un patrón de correlación en los residuales PROBLEMA se viola los supuestos del modelo/ estimación no confiable de los coeficientes
Debemos distinguir entre:
(1)Proceso ecológico espacial: es un proceso que actúan en el espacio y se ve afectado por la distancia (dispersión, migración, comportamiento territorial).
(2)Proceso ecológico no-espacial: Es aquel sobre el cual la distancia no influye.
¿Cómo proceder?
1.- Seleccionar un modelo estadístico
CART son muy flexibles y permiten la detección de umbrales.
2.- Seleccionar predictores ecológicos relevantes
3.- Sustituir predictores ambientales desconocidos por predictores espaciales NO correlacionados con los predictores ambientales
. . . SEVM sobre residuales
4.- Mapear los residuales. Verificar la ausencia de patrón espacial luego del análisis.
Área de estudio
Colección de datos I. Abundancia de Coleópteros
450 trampas de caída
9 trampas/100m2 x 50 sitios
Nov 2004-Ene 2005- Mar 2005
ABUND = suma del promedio de individuos capturados en los tres muestreos
Colección de datos II. Temperatura y precipitación
• 50 hobbos • (1 x 50 sitios)• 745 lecturas/62 días
TMIN = temperatura mínima diaria promedio
TVAR = rango de temperatura (máx.-min.) diario promedio
PREC = precipitación media anual (Barros et al.1983)
Colección de datos III. Productividad primaria
Cobertura del dosel
TREECOV
Cobertura de hierbas
HERBCOV
Cobertura de arbustos
SHRUBCOV
Peso seco de hojarasca
LITTER
Colección de datos IV. Presencia de ganado
FEC = Número de bostas (caballos y vacas) dentro de cada parcela de 100m2
Análisis de los datos
Estructura ecológica– Elaboración modelo
conceptual– Análisis de caminos
Estructura espacial-Mapeo de patrones
-Cuantificación de patrones(obtención filtros espaciales)
Integración de la estructura espacial y ecológica
Análisis de regresiones parciales
¿Cómo es la estructura ecológica de las relaciones abundancia-ambiente? Gradiente completo
ABUNDr2 = 0.81
LITTER
SHRUBCOV
HERBCOV
PREC
TMIN
TREECOV
TVAR
FEC
+0.56
+0.27
+0.75
+1.01
+0.12
-0.36
-0.80
-0.39
+0.37
¿Cómo es la estructura espacial de las variables analizadas?
¿Cómo cuantificar patrones de variación espacial en la abundancia?SEVM PCNM = Análisis de coordenadas principales de matrices de vecindad
Dada la matriz D de distancia, ¿Podemos encontrar las variables que podrían haberla generado?Es decir, ¿Podemos encontrar una matriz de datos X que puede haber generado la D?
•Método: entender como se genera una matriz D conocida la X y reconstruir el camino al revés para encontrar la matriz X a partir de la D
Descomposición de la matriz de distancia
Coordenadas principales
Series de funciones senos y cosenos
Patrones de variación espacial en la abundancia
Gradiente completo
PCNM
Filtros
espaciales
Análisis de regresión múltiple
Ev1
Ev2
Bosque
Estepa
Patrones de variación espacial en la abundancia
Integración de la estructura ecológica y espacial: Análisis de regresión parcial Borcard & Legendre & otros…
AmbienteEspacio
(b)
ABUND
Sin explicar
(a)(c)
(d)
¿Qué proporción de la variación se explica por la interacción entre los organismos y el ambiente?
¿Qué proporción de la variación se explica por filtros espaciales independientemente de las variables ambientales?
¿Qué proporción de la variación se explica por efecto de las variables ambientales espacialmente estructuradas?
Modelo espacial
R2 = (b+c)Modelo ambiental
R2 = (a + b)
Modelo completo
R2 = (a + b) +(b + c) + d
Partición de la variación: Gradiente Completo
PREC TMIN TVAR FEC
TREECOV*
SHRUBCOV
HERBCOV
Sin explicar
ABUND
Filtro 1
Filtro 2
Escala Regional
d = 0.20
b = 0.63
a = 0.17c = 0.03
Efectos de escala (grano) sobre la estimación de las áreas geográficas
Efectos de escala (grano) sobre la distribución de frecuencias de tamaños de las áreas geográficas
Riq.
de
spp
Altitud
• Gradientes completos vs. Gradientes incompletos
Muestrear gradientes completosEstandarizar por efectos de áreaEstandarizar por esfuerzo de muestreo patrones jorobados (hump-shaped)
Efectos de escala (extensión) sobre la relación riqueza de especies-altitud
Efectos de escala (extensión) sobre la frecuencia de formas en la relación riqueza de especies-altitud
Efectos de escala (extensión) sobre la frecuencia de formas en la relación riqueza de especies-altitud
Gradientes altitudinales en la riqueza de especies de artrópodos: Gradientes altitudinales en la riqueza de especies de artrópodos: factores metodológicos que afectan la percepción del patrónfactores metodológicos que afectan la percepción del patrón
La forma de la relación riqueza vs. altitud puede depender de:
los organismos estudiados
las condiciones climáticas locales
varios factores metodológicos
JOR
JOR y DEC
JOR, DEC, MES-DEC, MES-PICO ¿?
Introducción
Altitud
# despp.
Introducción
La forma de la relación riqueza vs. altitud no es universal
Monotónica decreciente, meseta- decreciente, meseta con pico, jorobada, creciente, otras
Altitud
# despp.
Factores metodológicos
Extensión: gradientes incompletos Muestreo no estandarizado
Se propone que: • Gradiente completo• Muestreo estandarizado
JOR
Introducción
Trabajos de síntesis bibliográfica
En la percepción de la forma de la relación riqueza vs. altitud influyen :
La “calidad” de los trabajos que se incluyen
El método elegido para asignar los patrones
OBJETIVO: Evaluar en qué medida, la manera de asignar los patrones y la “calidad” de los trabajos incluidos en un estudio de síntesis influyen en la percepción de la forma de la relación entre la riqueza de especies y la altitud
Capítulo IIntroducción
Hipótesis y Predicciones
La identificación de los patrones riqueza vs altitud (R-A) depende de:
H1: la calidad de los estudios originales incluidos en el meta-análisis
P1: La incertidumbre en la identificación de la forma aumenta a medida se relajan los criterios de inclusión de un trabajo en el análisis
H2: los métodos usados para identificar la formaP2: Los estudios agrupados bajo el criterio más exigente
son más robustos al método seleccionado para identificar la forma del patrón
Criterios de selección
Trabajos diseñados o no para estudiar la relación R-A
Taxa subordinados (ej: subfamilias) dentro de un nivel taxonómico mayor (ej: familia), taxa subordinados
Patrones locales conformando un patrón regional, locales
Búsqueda bibliográfica Scopus y Zoological record
Métodos
Trabajos del mismo autor sólo si usaron distintos sets de datos
PARA EVITAR PSEUDO-REPLICACIÓN
Trabajos que reportaron al menos 5 pares de datos de ALTIT y RIQ
Métodos
3 grupos teniendo en cuenta:
Proporción del gradiente muestreado (PpGr)
Si el esfuerzo de muestreo fue estandarizado (MueSt) Número de puntos del gradiente (N)
Presencia de disturbio antrópico (Dist)
Clasificación de los gradientes
MueSt PpGr N Dist
Estricto SI ≥70% ≥10 NO
IntermedioSI ≥50% <10 NO
SI <70% ≥10 NO
Laxo
NO SI
NO NO
SI SI
SI <50% <10
Métodos
Criterios de Clasificación de los gradientes
109 gradientes (de 75 trabajos)
“Estrictos”: N= 21; “intermedios”: N=42; “laxos”: N=46
Métodos
Métodos
Identificación de la formaMétodo estadístico decrecimiento
monotónico
Método visual
incremento monotónico
unimodal
idem JOR pero al revés
riq = a
riq = a ± b*altit
riq = a ± b*altit ± c*altit2
riq = a - b*altit2
DEC
CREC
JOR
U-PAT
MES
Forma final: consenso entre métodos visual y estadístico. Falta de consenso CONT
NP No patrón
25% + de spp
300 m consecutivos
Meseta a altit bajas
regla de decisión: AICc
Capítulo I
Estadístico Visual Consenso
0
10
20
30
40
50
0102030405060
0
10
20
30
40
50
Conjunto completo
(y ≈ en “intermedios” y
“laxos”)
predomina DEC
alta proporción de NP y CONT
0
10
20
30
40
50
0
10
20
30
40
50
0
10
20
30
40
50
“Estrictos”
predomina JOR
los NP, pero hay
Resultados y DiscusiónE
stri
cto
Tod
os
Capítulo I
Estadístico Visual Consenso
0
10
20
30
40
50
0
10
20
30
40
50
0
10
20
30
40
50
0102030405060
0
10
20
30
40
50
0
10
20
30
40
50
0
10
20
30
40
50
0102030405060
0
10
20
30
40
50 P2: Los estudios agrupados bajo el criterio más exigente son más robustos al método seleccionado para identificar la forma del patrónP1: La incertidumbre en la identificación de la forma aumenta a medida se relajan los criterios de inclusión de un trabajo en el análisis
Resultados y DiscusiónE
stri
cto
Inte
rmed
ioL
axo
Capítulo I
Las características de los trabajos que se incluyen en un estudio de síntesis influyen fuertemente en el resultado final
Se confirman las dos predicciones
El uso de distintos métodos para identificar la forma de la relación interactúa con la calidad de los trabajos para influir en la distribución relativa de los patrones
Discusión
Capítulo IDiscusión
Cambian las conclusiones si privilegiamos cantidad en lugar de “calidad”
Reducir el esfuerzo de muestreo favorece la percepción de DEC
En “intermedios” y “laxos”, presencia de NP podría atribuirse a factores de diseño, PERO su persistencia en “estrictos” sugiere variación idiosincrática en atrópodos
Aunque quedaron muy pocos gradientes en el conjunto estricto la consistencia entre los métodos apoya la existencia de múltiples formas de la relación R-A en artrópodos