Download ppt - Qué aspectos conceptuales y metodológicos tener en cuenta? DE LOS DATOS Los patrones y procesos que estudiamos ocurren en un espacio ANÁLISIS La autocorrelación

Qué aspectos conceptuales y metodológicos tener en cuenta?

DE LOS DATOS

Los patrones y procesos que estudiamos ocurren en un espacio

ANÁLISIS

La autocorrelación espacial es una propiedad inherente al sistema de estudio

múltiples factores que interactúan a distintas escalas.

Los múltiples factores que explican la diversidad pueden co-variar entre sí debido a relaciones causales o en respuesta a otras variables multicolineariedad

Cómo selecciono el mejor modelo explicativo de mis datos?

ENFOQUE DE TRABAJO Descriptivo-comparativo.

Imposible realizar experimentos a macro-escala

Imposible poner a prueba hipótesis de manera directa.

Derivamos predicciones acerca de asociaciones.

Por qué adoptar una “perspectiva geográfica”

• El “gradiente latitudinal” en la riqueza de especies” es un fenómeno en tres dimensiones

• La “latitude”, “altitud” o “longitud” son variables DESCRIPTIVAS

La perspectiva geográfica, es mucho más informativa respecto de los factores ambientales que gobiernan la variación en el tamaño de los rangos geográficos

Variación geográfica Autocorrelación espacial

Dado pares de localidades separadas por ciertas distancias, es la propiedad de variables aleatorias de tomar valores que son más similares (autocorrelación positiva) o menos similares (autocorrelación negativa) que lo esperado por pares de localidades aleatoreamente asociados (Legendre 1993)

Modelo 1a: Ausencia de autocorrelación espacial = datos completamente independientes

MODELO 1b= CON DEPENDENCIA FUNCIONAL ENTRE DOS MODELO 1b= CON DEPENDENCIA FUNCIONAL ENTRE DOS VARIABLES VARIABLES

INDEPENDENCIA ESPACIALINDEPENDENCIA ESPACIAL

MODELO II: AUTOREGRESIVO (inherente)CADA VALOR DE X DEPENDE DE LOS ANTERIORES

Modelo auto-regresivo de primer orden

MODELO III: AUTOREGRESIVO (INDUCIDO)Modelo auto-regresivo de Tipo II

MODELO IV: DOBLEMENTE AUTOREGRESIVO

Autocorrelación inherente + inducida

Modelo auto-regresivo de Tipo II

La autocorrelación espacial “infla” los p produce resultados artificialmente significativos

Qué hacer?

Ignorar el hecho . . .

Elegir un p más conservativo (p < 0.01)

SOLUCIONES RÁPIDAS…

Utilizar un subconjunto de datos independientes

Ajustar por el tamaño efectivo de la muestra (correción de Duilleuteil)

Modelo auto-regresivo de primer orden

Aleatorizar los datos para “romper” la auto-correlación

Comparar el valor del estimador observado en los datos originales vs. aleatorizados

Aleatorizar 2 variables y recalcular la correlación entre ambas

Comparar el valor de correlación variables originals vs. variables aleatorizadas

Estimar la autocorrelación espacialEstimar la autocorrelación espacial

Indice de Moran Indice de Moran

Uno de los indicadores más viejos para Uno de los indicadores más viejos para estimar autocorrelación espacial (Moran, estimar autocorrelación espacial (Moran, 1950). 1950).

Aplica a zonas con puntos donde se miden Aplica a zonas con puntos donde se miden variables.variables.

Compara el valor de la variable en una Compara el valor de la variable en una localidad con el valor en las localidades localidad con el valor en las localidades vecinas.vecinas.

i j i iji

i j jiji

XXW

XXXXWNI

2,

,

)()(

))((

N es el número de casos

Xi valor de la variable en una determinada localidad

Xj valor de la variable en otra determinada localidad

X media de la variable

Wij peso aplicado a la comparación entre la localidad i y localidad j

Índice de MoranÍndice de Moran

Wij es una matriz de contiguidad

Si la zona j es adyacente a la zona i, la interacción recibe un peso de 1

Wij también puede ser la distancia inversa entre las localidades i y j (1/dij)

B

C

D

E

A

El índice de Moran calcula los productos cruzados entre los valores (desvíos) de pares puntos, y pondera por la distancia entre los puntos de cada par

Al igual que un índice de correlación varía entre -1 y 1

i j i iji

i j jiji

XXW

XXXXWNI

2,

,

)()(

))((

Covarianza entre cada par de puntos separado por d

Varianza estimada a partir de todos los puntos

Numerador se calcula para cada clase de distancia (d) (intervienen solamente los puntos a distancia d)

Sumatoria de todas las distancias entre los puntos

Construcción de correlograma utilizando el índice de Construcción de correlograma utilizando el índice de MoranMoran

Cálculo de clases de distanciaCálculo de clases de distancia

Análisis de estructuras espaciales

Patrones espaciales en la riqueza de Patrones espaciales en la riqueza de especies de aves a escala globalespecies de aves a escala global

Diferencias entre el Nuevo Mundo y el Diferencias entre el Nuevo Mundo y el Viejo MundoViejo Mundo

EL PATRÓN DE AUTOCORRELACIÓN PRESENTE EN LOS DATOS ES LA SEÑAL (estructura) QUE QUEREMOS EXPLICAR…

Pero…qué ocurre cuando medimos la asociación entre una variable respuesta y distintas variables ambientales que tienen estructura espacial?

Consecuencias de la relación riqueza-ambiente espacialmente estructurada

No podemos distinguir asociaciones causales vs. No podemos distinguir asociaciones causales vs. espúreas. espúreas.

Variables que tengan un patrón de autocorrelación Variables que tengan un patrón de autocorrelación fuerte serán seleccionadas en detrimento de aquellas fuerte serán seleccionadas en detrimento de aquellas que muestran menor autocorrelación espacial. que muestran menor autocorrelación espacial.

Dependencia de la escala: variables con estructura a Dependencia de la escala: variables con estructura a gran escala, dejarán sin explicar (residuo) variación gran escala, dejarán sin explicar (residuo) variación espacialmente estructurada a escala local (y vice-espacialmente estructurada a escala local (y vice-versa).versa).

AET

ANNT

TMIN

PET

ELEV

¿Cómo analizar las relaciones riqueza-ambiente espacialmente estructuradas?

AET

ANNT

TMIN

ELEV PET

RZA

Regresión múltiple por pasos (Stepwise multiple regression)

(1)ANNT

(2)ANNT2 R2 = 76.9%

(3)AET

(4)ELEV

(5)TMIN

(6)PET R2 = 86.6 %

Patrón de autocorrelación en los residuales de la riqueza

ANNT

AET

ELEV

TMIN

PET

CONCLUSIONES

La autocorrelación espacial es un nuevo paradigma analítico La autocorrelación espacial es un nuevo paradigma analítico en ecología geográfica y macroecología. en ecología geográfica y macroecología.

SiempreSiempre debemos probar la existencia de autocorrelación debemos probar la existencia de autocorrelación espacial en los residuales de una regresión. espacial en los residuales de una regresión.

Si Si NONO hay autocorrelación en los residuales de un modelo hay autocorrelación en los residuales de un modelo OLS, quiere decir que la interpretación de los resultados no OLS, quiere decir que la interpretación de los resultados no está afectada por la autocorrelación espacial de la variables está afectada por la autocorrelación espacial de la variables originales.originales.

Tener en cuenta el efecto de la escala espacial. Distintos Tener en cuenta el efecto de la escala espacial. Distintos predictores pueden explicar la variación de la riqueza a predictores pueden explicar la variación de la riqueza a distintas escalas espaciales. distintas escalas espaciales.

Efectos de Escala

2 aspectos de la escala:

Área focal o

“grano”

Extensión

Cambios en la escala de trabajoCambios en la escala de trabajopueden afectar el análisis depueden afectar el análisis de

La forma del patrón. La forma del patrón. Los determinantes ambientales del patrón.Los determinantes ambientales del patrón.

MULTICOLINEARIDAD

Cuando los datos están estandarizados a

Media = 0

Varianza = 1

* = r

Multicolinearidad entre variables = complica la detección de efectos independientes (variables confundidas)

* = (rr1 – rr2r12)/(1 – r122)

Nuestra capacidad para detectar un efecto disminuye al incrementarse la multicolinearidad

¿Cómo me doy cuenta si mis análisis están afectados por este problema? Síntomas…

Coeficientes de regresión parcial con signos “equivocados”Coeficientes de regresión parcial con signos “equivocados” Variables que ingresan al modelo con coeficientes de igual Variables que ingresan al modelo con coeficientes de igual

magnitud y signos opuestos. magnitud y signos opuestos. Variables que tienen una relación clara con mi variable Variables que tienen una relación clara con mi variable

respuesta y la relación cambia a un “sin sentido” al ingresarlas respuesta y la relación cambia a un “sin sentido” al ingresarlas en un modelo de regresión múltipleen un modelo de regresión múltiple

Variables que muestra asociaciones significativas, se hacen Variables que muestra asociaciones significativas, se hacen no significativas en presencia de otras variables. no significativas en presencia de otras variables.

La suma de los rLa suma de los r22 parciales no coincide con el R parciales no coincide con el R22 total. total. La aplicación del modelo con fines predictivos da valores muy La aplicación del modelo con fines predictivos da valores muy

imprecisos (coeficientes reflejan efectos compartidos).imprecisos (coeficientes reflejan efectos compartidos).

Cómo “solucionamos” el problema??

(1) Eliminar variables: Cuáles?

(2) Establecer modelos a priori (Evitar las expediciones de pesca).

(3) Comparar el ajuste de subconjuntos de modelos (R2

adj, Akaike)

Tratar de eliminar/disminuir el problema??

Explorar las relaciones funcionales de colinearidad.

Regresión residual

Regresión secuencial

Regresión por análisis de componentes principales

Análisis de senderos (ecuaciones estructurales)

Análisis de regresión parcial

Ejemplo (Hawkins et al)Ejemplo (Hawkins et al)

Qué factores Qué factores determinan las determinan las relaciones diversidad-relaciones diversidad-ambiente en ambiente en mariposas? mariposas?

Los datos están Los datos están tomados a escala de tomados a escala de sub-estados dentro de sub-estados dentro de CaliforniaCalifornia

42106

111

79 11386

128

105

86

81

69115

108

86

82

68

84

84

84

77

50

62919999

97

106

114111

111

11284

121

73

116 107

112

111

78

44

63

61

88

100

80

117

121

88

114

8811868

8682

76

7285

63 67

102

89

71

71

70

96

64

95

9595

99 96

118

110122110

117

115

114

111

93

90

123

117

122

107

109

103

104

123

120105

81

104

Variables predictorasVariables predictoras

EnergíaEnergía Temperatura mínimaTemperatura mínima Temperatura máximaTemperatura máxima No. de días cálidosNo. de días cálidos No. de días fríosNo. de días fríos

PET máximaPET máxima

Agua y agua/energíaAgua y agua/energía Precipitation anualPrecipitation anual AET máximaAET máxima

TopografíaTopografía Rango de elevaciónRango de elevación Elevación mediaElevación media Heterogeneidad topográficaHeterogeneidad topográfica

Variabilidad climáticaVariabilidad climática Rango en temperaturaRango en temperatura Long estación crecimiento Long estación crecimiento EstacionalidadEstacionalidad IrregularidadIrregularidad

AreaArea Tamaño del sub-estadoTamaño del sub-estado

EspacioEspacio LatitudLatitud LongitudLongitud

Interacciones bióticasInteracciones bióticas Numero de spp plantasNumero de spp plantas

Cómo reducimos el número de Cómo reducimos el número de variables?variables?

Análisis PCA extrae combinaciones lineares de Análisis PCA extrae combinaciones lineares de variables (componentes ortogonales).variables (componentes ortogonales).

A partir de los componentesA partir de los componentes

1)1) Decididimos cuántas variables mantenerDecididimos cuántas variables mantener

2)2) Interpretar los coeficientes de aporte a cada componente Interpretar los coeficientes de aporte a cada componente (loadings)(loadings)

Ejes y % variación explicadaEjes y % variación explicadaEigenvalues % Eigenvalues % Accum % Accum % Broken Broken

stickstick

4.862 4.862 0.286 0.286 0.286 0.286 0.202 0.202 4.634 4.634 0.272 0.272 0.559 0.559 0.143 0.143 2.838 2.838 0.167 0.167 0.725 0.725 0.114 0.114 1.881 1.881 0.111 0.111 0.836 0.836 0.094 0.094 0.862 0.862 0.051 0.051 0.887 0.887 0.071 0.071 0.484 0.484 0.028 0.028 0.915 0.915 0.068 0.068 0.355 0.355 0.021 0.021 0.936 0.936 0.058 0.058 0.285 0.285 0.017 0.017 0.953 0.953 0.041 0.041 0.221 0.221 0.013 0.013 0.966 0.966 0.042 0.042 0.184 0.184 0.011 0.011 0.977 0.977 0.036 0.036 0.121 0.121 0.008 0.008 0.985 0.985 0.03 0.03 0.096 0.096 0.006 0.006 0.99 0.99 0.025 0.025 0.066 0.066 0.004 0.004 0.994 0.994 0.011 0.011 0.049 0.049 0.003 0.003 0.997 0.997 0.015 0.015 0.033 0.033 0.002 0.002 0.999 0.999 0.011 0.011 0.013 0.013 0.0 0.0 0.991 0.991 0.007 0.007 0.005 0.005 0.0 0.0 1.0 0.003 1.0 0.003

Interpretar el peso de las variables Interpretar el peso de las variables en cada ejeen cada eje

11 22 33 44

Community types Community types 0.577 0.577 -0.309 -0.309 0.364 0.364 -0.454 -0.454

Area Area 0.209 0.209 0.562 0.562 -0.418 -0.418 -0.275 -0.275

Elevation range Elevation range 0.68 0.68 0.053 0.053 -0.163 -0.163 -0.662-0.662

Topogr Hetero Topogr Hetero 0.633 0.633 -0.07 -0.07 -0.088 -0.088 -0.697-0.697

Mean Elevation Mean Elevation 1 1 -0.01 -0.01 -0.167 -0.167 0.085 0.085

Highest temp Highest temp -0.032 -0.032 0.7130.713 0.589 0.589 -0.043 -0.043

Lowest temp Lowest temp -0.831-0.831 0.079 0.079 0.259 0.259 -0.448 -0.448

Range in temp Range in temp 0.417 0.417 0.677 0.677 0.52 0.52 0.234 0.234

Mean days >32.2 CMean days >32.2 C -0.277 -0.277 0.7940.794 -0.169 -0.169 -0.172 -0.172

Mean days < 0 C Mean days < 0 C 0.8970.897 0.069 0.069 0.106 0.106 0.383 0.383

Growing season Growing season -0.466 -0.466 -0.051 -0.051 0.7380.738 -0.205 -0.205

Mean annual tempMean annual temp -0.313 -0.313 0.751 0.751 0.535 0.535 -0.173 -0.173

Seasonality Seasonality 0.356 0.356 0.8340.834 0.133 0.133 0.064 0.064

Irregularity Irregularity 0.663 0.663 0.509 0.509 0.272 0.272 0.208 0.208

Precipitation Precipitation 0.227 0.227 -0.615 -0.615 0.425 0.425 -0.204 -0.204

Max AET Max AET 0.344 0.344 -0.488 -0.488 0.569 0.569 -0.063 -0.063

Max PET Max PET -0.112 -0.112 0.683 0.683 -0.564 -0.564 -0.262 -0.262

Utilidad del PCA?Utilidad del PCA?

VentajasVentajas Elimina colinearidad entre predictoresElimina colinearidad entre predictores Resultan modelos ambientales lógicos. Resultan modelos ambientales lógicos. Ayuda a identificar gradientes independientes. Ayuda a identificar gradientes independientes.

DesventajasDesventajas Interpretación de los ejes es subjetivaInterpretación de los ejes es subjetiva Interpretación de los modelos es descriptiva. Interpretación de los modelos es descriptiva. Dificultad para particionar los efectos dentro de ejes.Dificultad para particionar los efectos dentro de ejes.

Análisis de senderos (ecuaciones Análisis de senderos (ecuaciones estructuralesestructurales

Las variables ambientales covarían por la Las variables ambientales covarían por la forma en que se estructura el mundo realforma en que se estructura el mundo real

Modelos regresión múltiple (stepwise) asumen que Modelos regresión múltiple (stepwise) asumen que las variables son independienteslas variables son independientes

Análisis de senderos permite incorporar la Análisis de senderos permite incorporar la covariación en el análisiscovariación en el análisis

La lógica de un análisis de regresiónLa lógica de un análisis de regresión

Asume sólo efectos Asume sólo efectos directos. directos. Correlaciones entre Correlaciones entre predictores = 0predictores = 0

YX2

1X

3X

4X e

b4

b3

b1

b2

La lógica del análisis de senderosLa lógica del análisis de senderos

Asume efectos directos Asume efectos directos e indirectos; e indirectos;

NO asume que los NO asume que los predictores son predictores son independientesindependientes X2

1X

3X

4X

p31

p42

p53

p15

p43

ex3

5X

p41

p52

p32

ex5

ex4

r12

p54

El análisis de senderos particiona las correlaciones total El análisis de senderos particiona las correlaciones total en distinto tipos de “efectos”en distinto tipos de “efectos”

Correlación total

Efectoscausales

Asociaciones No causales

Efectosdirectos

Efectos indirectos

Antecedentes Compartidos

Factores No asignados

42106

111

79 11386

128

105

86

81

69115

108

86

82

68

84

84

84

77

50

62919999

97

106

114111

111

11284

121

73

116 107

112

111

78

44

63

61

88

100

80

117

121

88

114

8811868

8682

76

7285

63 67

102

89

71

71

70

96

64

95

9595

99 96

118

110122110

117

115

114

111

93

90

123

117

122

107

109

103

104

123

120105

81

104

Mariposas de California

Min Temp

Mean elevation

Precipitation

Max AET

Range in elevation

Butterfly richness

Plant richness

Min Temp

Mean elevation

Precipitation

Max AET

Range in elevation

Butterfly richness

Modelo AmbientalModelo Ambiental

Min Temp

Mean elevation

Precipitation

Max AET

Range in elevation

Butterfly richness

-0.30

0.10

0.08

-0.71

-0.11

0.68

0.56

0.46

0.36

R2 = 0.665, 2 = 4.33, P = 0.115

Cálculo de efectosCálculo de efectos

Efecto directoEfecto directo Efecto Efecto indirectoindirecto

Efecto totalEfecto total

Min Min temperaturatemperatura 0.300.30 0.0040.004 0.3040.304

PrecipitaciónPrecipitación 0.100.10 0.2450.245 0.3450.345

AETAET 0.360.36 00 0.3600.360

Rango en Rango en elevaciónelevación 0.460.46 00 0.4600.460

Análisis de senderosAnálisis de senderos

VentajasVentajas Permite partir efectos directos e indirectosPermite partir efectos directos e indirectos Permite comparar hipotesis alternativasPermite comparar hipotesis alternativas

DesventajasDesventajas Requiere hipótesis Requiere hipótesis a prioria priori sobre relaciones causales sobre relaciones causales Puede no generar relaciones únicasPuede no generar relaciones únicas Requiere/asume relaciones linearesRequiere/asume relaciones lineares

Análisis de regresión parcialAnálisis de regresión parcial

Partir la variación explicada RPartir la variación explicada R2 de distintos de distintos modelos de regresión en una parte compartida modelos de regresión en una parte compartida y otra independiente. Establecer las fuentes de y otra independiente. Establecer las fuentes de variación. variación.

Muy simple de calcular e interpretar. Muy simple de calcular e interpretar.

Ejemplo de patrones globales en la riqueza de Ejemplo de patrones globales en la riqueza de especies (Hawkins et al. 2003)especies (Hawkins et al. 2003)

Objetivo – Comparar asociaciones entre la Objetivo – Comparar asociaciones entre la riqueza de especies y el clima y región riqueza de especies y el clima y región biogeográfica (220 x 220 km)biogeográfica (220 x 220 km)

Clima: AET (agua-energía) (a + b)• r2 = 0.724

Región biogeográfica (b + c) • r2 = 0.584

Climate y region covarían• r2 = 0.509

Análisis de regresión parcialAnálisis de regresión parcial

b = (a + b) + (b + c) – (a + b + c)

d = 1 – R2total

a = (a + b) – b = efecto “puro” AET

c = (b + c) – b = efecto “puro” región

Desde el punto de vista biológico es más relevante preguntarse si una variable es importante, en lugar de significativa estadísticamente

•Comparamos varios modelos alternativos como aproximaciones a una “verdad” subyacente.

•Estimamos el valor de los parámetros (magnitud o importancia de los efectos o asociaciones) en lugar de contrastar con una hipótesis “nula”

OTRAS CUESTIONES METODOLÓGICAS

Cómo selecciono el mejor modelo?

Cómo selecciono el mejor modelo?

y = + x +

Parte determinista

(regularidad)

Parte estocástica

(ruido)

Bondad de ajuste = habilidad del modelo para capturar regularidad + ruido

Generalidad = habilidad del modelo para predecir nuevos datos - - - > cuán bien predice la regularidad

GeneralidadGeneralidad

Complejidad del ModeloBaja Alta

Aju

ste

del m

odel

o

Pob

reB

ueno Bondad de ajuste

Generalidad

SobreAjuste(Overfitting)

GeneralidadGeneralidad

Un buen ajuste puede alcanzarse simplemente Un buen ajuste puede alcanzarse simplemente porque el model es más flexible.porque el model es más flexible.

Un buen ajuste es necesario, pero no Un buen ajuste es necesario, pero no suficiente para capturar procesos suficiente para capturar procesos subyacentes.. subyacentes..

Un buen ajuste califica a un modelo como Un buen ajuste califica a un modelo como posible candidato a ser tenido en cuenta.posible candidato a ser tenido en cuenta.

Selección del mejor modelo

AIC Indice de información de Akaike

Mide la falta de generalidad

Cuanto más chico sea su valor mejor

AIC = -2 ln L(w*|y) + 2K

y = datos w* = estimaciones de máxima probabilidad (máxima verosimilitud) cuáles son los parámetros que hace más probable la observación de mis datos. K = Número de parámetros de mi modelo (penaliza la complejidad)

La forma funcional del modelo propuesto NO importa, solamente importa el número de parámetros (complejidad)

AIC permite comparar modelos que tienen distinto número de variables.

En regresión OLS, AIC = n ln(s2) + 2K donde s2 es la variancia de residuales en el modelo de regresion, n es el tamaño de muestra

yi=β0 +β1 xi + i N (0, σ2)

LS (cuadrados mínimos)LS (cuadrados mínimos)

β0 β1 minimizan

(i )2

Cuadrados mínimos

MLE (máxima MLE (máxima verosimilitud)verosimilitud)

β0 β1 son los parámetros que hacen más probable la observación de mis datos

EJEMPLO HIPOTETICO: Número de éxitos en función del número de intentos. Conozco los datos, el modelo y el valor del parámetro.

(1) Empezamos con un modelo probabilístico para describir la distribución de mis datos.

(2) El modelo describe la probabilidad de distribución de mis datos, dado ciertos parámetros y una forma específica

y = número de éxitos

n = es el número de intentos

p = parámetro; si asumo que p = 0.4

La probabilidad de observar mis datos: y = 15, n = 40dado un modelo binomial con parámetro p = 0.4

SITUACIÓN REAL

(1) Tengo mis datos.

(2) El modelo verdadero es desconocido, pero ASUMO un modelo de distribución de probabilidad de mis datos.

(3) Los parámetros son desconocidos pero los ESTIMO.

(4) Efectúo varias estimaciones del/los parámetros a partir de la función de verosimilitud o likelihood.

(5) Computamos la probabilidad de los datos utilizando varios valores de parámetros y luego tomamos el valor del parámetro que sea la mejor estimación, dado los datos y el modelo que asumimos.

Reglas prácticas para seleccionar entre múltiples modelos

Estimar el AIC para múltiples modelosEstimar el AIC para múltiples modelos Ordenar los modelos de menor a mayor AICOrdenar los modelos de menor a mayor AIC Calcular las diferencias de AIC entre el modelo Calcular las diferencias de AIC entre el modelo

con AICcon AICminmin y cada uno de los modelos y cada uno de los modelos alternativos alternativos AIC = AIC = AICi - AIC - AICmin

AIC > 2, los modelos son diferentes entre si. > 2, los modelos son diferentes entre si. AIC < 2, los modelos son indistinguibles. < 2, los modelos son indistinguibles.

Se focaliza en 9 proposiciones o supuestos que pueden influir en la decisión de qué método analítico desarrollar

(1) La presencia de autocorrelación espacial genera sesgo (distorsión) Se ¨infla” la significancia estadística. Subestima el error estándar.

Abandonar la estadística frecuentista. Dejar de pensar en significativo o no significativo

Los estimación de los coeficientes de regresión no es confiable

La falta de precisión ocurre cuando se trabaja con muestras pequeñasEl verdadero problema está en usar modelos de regresión

(2) La regresión espacial es mejor

Las regresiones espaciales funcionan con datos simulados. La respuesta de los datos reales es impredecible.

(3) El mundo es estacionario…. En realidad no lo es

Los análisis de regresión múltiple (comunes o espaciales) asumen que la relación entre las variables (respuesta y explicativa) son constantes en todo el universo de datos.

Utilizar técnicas que permitan evaluar cómo varía la relación a través del espacio.

(4) Los coeficientes de regresión parcial significan algo.

Los coeficientes de regresión parcial estandarizados miden asociaciones. Los datos tienen una estructura compleja de interdependenciaBuscar alternativas: CART y SEM

(5) Los coeficientes de regresión identifican efectos

Los coeficientes de regresión no están ligados a un único proceso.El uso de la palabra “efecto” es incorrecta. “efecto” en SEM = hipótesis“efecto” en meta-análisis = no es mecanicista.

(7) La tierra es redonda (p< 0.05)

¿Los promedios en cualquier atributo tienen que ser corregidos por la riqueza de especies? Según Hawkins: no

(6) La riqueza de especies genera un sesgo

El cálculo de significancia no es apropiado.Moverse hacía la filosofía de la selección múltiple de modelos Abandonar la estadística frecuentista.

(8) Los procesos espaciales explican los patrones espaciales

Si conociéramos todo y pudiéramos medir variables explicativas a distintas escalas, el componente espacial de la variación sería 0El “espacio” en si mismo no explica nada

(9) La autocorrelación espacial causa un “red shift” (viraje al rojo) en las regresiones múltiples (= favorece a las variables de macro-escala)

El efecto de procesos locales se superpone con efectos a macro-escala para influir sobre el patrón. Calidad de los datos: muestreo vs. Mapa. Grano de análisis

El cambio en los coeficientes se debe a un problema de la regresión en sí misma. Aplicar regresiones espaciales implica realizar numerosos supuestos.

SEVM (spatial eigenvector mapping) sobre los residuales

Reconocer autocorrelación espacial (SA) en el modelado estadístico es crucial

Autocorrelación espacial = fenómeno que se limita a pocos vecinos desde un punto focal, a cualquier escala de estudio.

Tendencia espacial = fenómeno que ocurre a escalas más grandes respecto de la extensión del estudio A escalas geográficas grandes las tendencias espaciales se relacionan con los gradientes ambientales

La autocorrelación espacial no sesga los coeficientes de regresión (Hawkins) afirmación infundada/ modelos de simulación

Si la SA en la variable respuesta está causada por la SA de los predictores

No hay problema. Esto es lo que queremos estudiar. Incluimos los predictores en un modelo de regresión común residuales no correlacionados. OK

Si persiste un patrón de correlación en los residuales PROBLEMA se viola los supuestos del modelo/ estimación no confiable de los coeficientes

Debemos distinguir entre:

(1)Proceso ecológico espacial: es un proceso que actúan en el espacio y se ve afectado por la distancia (dispersión, migración, comportamiento territorial).

(2)Proceso ecológico no-espacial: Es aquel sobre el cual la distancia no influye.

¿Cómo proceder?

1.- Seleccionar un modelo estadístico

CART son muy flexibles y permiten la detección de umbrales.

2.- Seleccionar predictores ecológicos relevantes

3.- Sustituir predictores ambientales desconocidos por predictores espaciales NO correlacionados con los predictores ambientales

. . . SEVM sobre residuales

4.- Mapear los residuales. Verificar la ausencia de patrón espacial luego del análisis.

Área de estudio

Colección de datos I. Abundancia de Coleópteros

450 trampas de caída

9 trampas/100m2 x 50 sitios

Nov 2004-Ene 2005- Mar 2005

ABUND = suma del promedio de individuos capturados en los tres muestreos

Colección de datos II. Temperatura y precipitación

• 50 hobbos • (1 x 50 sitios)• 745 lecturas/62 días

TMIN = temperatura mínima diaria promedio

TVAR = rango de temperatura (máx.-min.) diario promedio

PREC = precipitación media anual (Barros et al.1983)

Colección de datos III. Productividad primaria

Cobertura del dosel

TREECOV

Cobertura de hierbas

HERBCOV

Cobertura de arbustos

SHRUBCOV

Peso seco de hojarasca

LITTER

Colección de datos IV. Presencia de ganado

FEC = Número de bostas (caballos y vacas) dentro de cada parcela de 100m2

Análisis de los datos

Estructura ecológica– Elaboración modelo

conceptual– Análisis de caminos

Estructura espacial-Mapeo de patrones

-Cuantificación de patrones(obtención filtros espaciales)

Integración de la estructura espacial y ecológica

Análisis de regresiones parciales

¿Cómo es la estructura ecológica de las relaciones abundancia-ambiente? Gradiente completo

ABUNDr2 = 0.81

LITTER

SHRUBCOV

HERBCOV

PREC

TMIN

TREECOV

TVAR

FEC

+0.56

+0.27

+0.75

+1.01

+0.12

-0.36

-0.80

-0.39

+0.37

¿Cómo es la estructura espacial de las variables analizadas?

¿Cómo cuantificar patrones de variación espacial en la abundancia?SEVM PCNM = Análisis de coordenadas principales de matrices de vecindad

Dada la matriz D de distancia, ¿Podemos encontrar las variables que podrían haberla generado?Es decir, ¿Podemos encontrar una matriz de datos X que puede haber generado la D?

•Método: entender como se genera una matriz D conocida la X y reconstruir el camino al revés para encontrar la matriz X a partir de la D

Descomposición de la matriz de distancia

Coordenadas principales

Series de funciones senos y cosenos

Patrones de variación espacial en la abundancia

Gradiente completo

PCNM

Filtros

espaciales

Análisis de regresión múltiple

Ev1

Ev2

Bosque

Estepa

Patrones de variación espacial en la abundancia

Integración de la estructura ecológica y espacial: Análisis de regresión parcial Borcard & Legendre & otros…

AmbienteEspacio

(b)

ABUND

Sin explicar

(a)(c)

(d)

¿Qué proporción de la variación se explica por la interacción entre los organismos y el ambiente?

¿Qué proporción de la variación se explica por filtros espaciales independientemente de las variables ambientales?

¿Qué proporción de la variación se explica por efecto de las variables ambientales espacialmente estructuradas?

Modelo espacial

R2 = (b+c)Modelo ambiental

R2 = (a + b)

Modelo completo

R2 = (a + b) +(b + c) + d

Partición de la variación: Gradiente Completo

PREC TMIN TVAR FEC

TREECOV*

SHRUBCOV

HERBCOV

Sin explicar

ABUND

Filtro 1

Filtro 2

Escala Regional

d = 0.20

b = 0.63

a = 0.17c = 0.03

Efectos de escala (grano) sobre la estimación de las áreas geográficas

Efectos de escala (grano) sobre la distribución de frecuencias de tamaños de las áreas geográficas

Riq.

de

spp

Altitud

• Gradientes completos vs. Gradientes incompletos

Muestrear gradientes completosEstandarizar por efectos de áreaEstandarizar por esfuerzo de muestreo patrones jorobados (hump-shaped)

Efectos de escala (extensión) sobre la relación riqueza de especies-altitud

Efectos de escala (extensión) sobre la frecuencia de formas en la relación riqueza de especies-altitud

Efectos de escala (extensión) sobre la frecuencia de formas en la relación riqueza de especies-altitud

Gradientes altitudinales en la riqueza de especies de artrópodos: Gradientes altitudinales en la riqueza de especies de artrópodos: factores metodológicos que afectan la percepción del patrónfactores metodológicos que afectan la percepción del patrón

La forma de la relación riqueza vs. altitud puede depender de:

los organismos estudiados

las condiciones climáticas locales

varios factores metodológicos

JOR

JOR y DEC

JOR, DEC, MES-DEC, MES-PICO ¿?

Introducción

Altitud

# despp.

Introducción

La forma de la relación riqueza vs. altitud no es universal

Monotónica decreciente, meseta- decreciente, meseta con pico, jorobada, creciente, otras

Altitud

# despp.

Factores metodológicos

Extensión: gradientes incompletos Muestreo no estandarizado

Se propone que: • Gradiente completo• Muestreo estandarizado

JOR

Introducción

Trabajos de síntesis bibliográfica

En la percepción de la forma de la relación riqueza vs. altitud influyen :

La “calidad” de los trabajos que se incluyen

El método elegido para asignar los patrones

OBJETIVO: Evaluar en qué medida, la manera de asignar los patrones y la “calidad” de los trabajos incluidos en un estudio de síntesis influyen en la percepción de la forma de la relación entre la riqueza de especies y la altitud

Capítulo IIntroducción

Hipótesis y Predicciones

La identificación de los patrones riqueza vs altitud (R-A) depende de:

H1: la calidad de los estudios originales incluidos en el meta-análisis

P1: La incertidumbre en la identificación de la forma aumenta a medida se relajan los criterios de inclusión de un trabajo en el análisis

H2: los métodos usados para identificar la formaP2: Los estudios agrupados bajo el criterio más exigente

son más robustos al método seleccionado para identificar la forma del patrón

Criterios de selección

Trabajos diseñados o no para estudiar la relación R-A

Taxa subordinados (ej: subfamilias) dentro de un nivel taxonómico mayor (ej: familia), taxa subordinados

Patrones locales conformando un patrón regional, locales

Búsqueda bibliográfica Scopus y Zoological record

Métodos

Trabajos del mismo autor sólo si usaron distintos sets de datos

PARA EVITAR PSEUDO-REPLICACIÓN

Trabajos que reportaron al menos 5 pares de datos de ALTIT y RIQ

Métodos

3 grupos teniendo en cuenta:

Proporción del gradiente muestreado (PpGr)

Si el esfuerzo de muestreo fue estandarizado (MueSt) Número de puntos del gradiente (N)

Presencia de disturbio antrópico (Dist)

Clasificación de los gradientes

MueSt PpGr N Dist

Estricto SI ≥70% ≥10 NO

IntermedioSI ≥50% <10 NO

SI <70% ≥10 NO

Laxo

NO SI

NO NO

SI SI

SI <50% <10

Métodos

Criterios de Clasificación de los gradientes

109 gradientes (de 75 trabajos)

“Estrictos”: N= 21; “intermedios”: N=42; “laxos”: N=46

Métodos

Métodos

Identificación de la formaMétodo estadístico decrecimiento

monotónico

Método visual

incremento monotónico

unimodal

idem JOR pero al revés

riq = a

riq = a ± b*altit

riq = a ± b*altit ± c*altit2

riq = a - b*altit2

DEC

CREC

JOR

U-PAT

MES

Forma final: consenso entre métodos visual y estadístico. Falta de consenso CONT

NP No patrón

25% + de spp

300 m consecutivos

Meseta a altit bajas

regla de decisión: AICc

Capítulo I

Estadístico Visual Consenso

0

10

20

30

40

50

0102030405060

0

10

20

30

40

50

Conjunto completo

(y ≈ en “intermedios” y

“laxos”)

predomina DEC

alta proporción de NP y CONT

0

10

20

30

40

50

0

10

20

30

40

50

0

10

20

30

40

50

“Estrictos”

predomina JOR

los NP, pero hay

Resultados y DiscusiónE

stri

cto

Tod

os

Capítulo I

Estadístico Visual Consenso

0

10

20

30

40

50

0

10

20

30

40

50

0

10

20

30

40

50

0102030405060

0

10

20

30

40

50

0

10

20

30

40

50

0

10

20

30

40

50

0102030405060

0

10

20

30

40

50 P2: Los estudios agrupados bajo el criterio más exigente son más robustos al método seleccionado para identificar la forma del patrónP1: La incertidumbre en la identificación de la forma aumenta a medida se relajan los criterios de inclusión de un trabajo en el análisis

Resultados y DiscusiónE

stri

cto

Inte

rmed

ioL

axo

Capítulo I

Las características de los trabajos que se incluyen en un estudio de síntesis influyen fuertemente en el resultado final

Se confirman las dos predicciones

El uso de distintos métodos para identificar la forma de la relación interactúa con la calidad de los trabajos para influir en la distribución relativa de los patrones

Discusión

Capítulo IDiscusión

Cambian las conclusiones si privilegiamos cantidad en lugar de “calidad”

Reducir el esfuerzo de muestreo favorece la percepción de DEC

En “intermedios” y “laxos”, presencia de NP podría atribuirse a factores de diseño, PERO su persistencia en “estrictos” sugiere variación idiosincrática en atrópodos

Aunque quedaron muy pocos gradientes en el conjunto estricto la consistencia entre los métodos apoya la existencia de múltiples formas de la relación R-A en artrópodos