44
Grados en Biología, Biotecnología y Ciencias Ambientales Facultad de Biología Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado Diseño experimental y análisis estadístico

Diseño Experimental y Análisis Estadístico · PDF fileCompetencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología Diseño experimental

Embed Size (px)

Citation preview

Grados en Biología, Biotecnología y

Ciencias Ambientales

Facultad de Biología

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado

Diseño experimental y análisis estadístico

Profesor: José Francisco Calvo Sendín | [email protected] | webs.um.es/jfcalvo

1. El método científico

2. Fundamentos de probabilidad

3. Contraste estadístico de hipótesis

4. Fundamentos del diseño experimental

5. Análisis estadístico: enfoques metodológicos

6. Análisis estadístico: estadísticos descriptivos

7. Análisis estadístico: métodos y modelos

Diseño experimental y análisis estadístico – Facultad de Biología

Diseño experimental y análisis estadístico

1. El método científico

• Ciencia

La ciencia trata de explicar racionalmente la naturaleza obteniendo explicaciones sobre el funcionamiento de un sistema, o siendo capaz de predecir los resultados del sistema (Kéry y Schaub 2012).

Science is a process for learning about nature in which competing ideas about how the world works are measured against observations (Richard Feynman, citado en Hilborn y Mangel 1997).

• Hipótesis:

Son las ideas o descripciones sobre cómo funciona el mundo.

Dado que nuestras descripciones del mundo son casi siempre incompletas y nuestras medidas incorporan incertidumbre e imprecisión, necesitamos métodos que nos permitan evaluar el grado de concordancia entre las ideas confrontadas y las observaciones: la estadística (Hilborn y Mangel 1997).

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

1. El método científico

• Hipótesis y teorías

Una hipótesis científica se refiera a un mecanismo o relación causa-efecto particular. Una teoría científica es mucho más general y sintética (Gotelli y Ellison 2004) e implica un nivel de evidencia y soporte considerablemente mayor (Hilborn y Mangel 1997).

• Método científico

Es la técnica que se utiliza para decidir entre las hipótesis en base a las observaciones (Gotelli y Ellison 2004).

• Azar, variación, impredecibilidad, incertidumbre

Cualquier sistema que encontramos en la naturaleza (y cualquier faceta de la vida) es estocástico; es decir, sistemas que no son completamente predecibles porque incluyen procesos aleatorios que añaden un mayor o menor grado de variabilidad y, en consecuencia, de incertidumbre en sus resultados.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

1. El método científico

• Modelos

Para interpretar formalmente cualquier observación necesitamos un modelo. Los modelos son herramientas para evaluar las hipótesis (Hilborn y Mangel 1997). Un modelo es una definición abstracta de cómo creemos que nuestras observaciones son el resultado de cantidades observables (datos) e inobservables (parámetros).

Los resultados de un sistema estocástico (la respuesta) pueden expresarse, en forma de modelo estadístico:

𝐫𝐞𝐬𝐩𝐮𝐞𝐬𝐭𝐚 = 𝐩𝐚𝐫𝐭𝐞 𝐬𝐢𝐬𝐭𝐞𝐦á𝐭𝐢𝐜𝐚 + 𝐩𝐚𝐫𝐭𝐞 𝐞𝐬𝐭𝐨𝐜á𝐬𝐭𝐢𝐜𝐚

Pero un modelo es una abstracción y, por tanto, siempre es incorrecto (Kéry 2010).

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

“señal”, información estructural “ruido”, entropía

• El papel de los modelos en ciencia: Dichos sobre los modelos científicos

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Fuente: Kéry y Schaub (2012)

Modelling is as much art as it is science (McCullagh y Nelder)

All models are wrong, but some are useful (Box)

There has never been a straight line nor a Normal distribution in history, and yet, using assumptions of linearity and normality allows, to a good approximation, to understand and predict a huge number of observations (Youden)

Everything should be made as simple as possible, but not simpler (Einstein)

Nothing is gained if you replace a world that you don’t understand with a model that you don’t understand (Maynard Smith)

It is difficult to imagine another method that so effectively fosters clear thinking about a system than the use of a model written in the language of algebra (Kéry)

Diseño experimental y análisis estadístico

1. El método científico

• Contraste de hipótesis

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Fuente: Wiens (1989)

Método hipotético-deductivo

Diseño experimental y análisis estadístico

1. El método científico

Karl Popper (1902-1994) Fuente: Wikimedia Commons

• Cuatro visiones filosóficas de la ciencia

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Filósofo Palabras clave Tipo de confrontación

Popper Falsación de hipótesis Una única hipótesis es refutada por confrontación con los datos.

Kuhn Paradigmas, ciencia normal, revolución científica

Una única hipótesis es utilizada hasta que exista mucha información de que ha sido “derrocada” por una hipótesis “mejor”.

Polanyi República de la ciencia

Se permiten múltiples visiones del mundo de acuerdo a diferentes opiniones de los científicos. La confrontación de estas visiones y los datos son juzgadas en función de su (i) verosimilitud, (ii) valor, (iii) interés.

Lakatos Programa de investigación científica

Confrontación de múltiples hipótesis con los datos como juez.

Fuente: Hilborn y Mangel (1997)

Diseño experimental y análisis estadístico

1. El método científico

• Probabilidad y estadística

Son ciencias que tratan sobre la incertidumbre.

Estudian las características de:

• Sistemas estocásticos (descritos por los parámetros de un modelo).

• Los efectos o resultados de dichos sistemas (los datos observados).

La teoría probabilística especifica los parámetros y el modelo.

La estadística intenta inferir (deducir) las propiedades del sistema, dado el modelo.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

1. El método científico

La inferencia estadística tiene como objetivo la estimación de las propiedades o características de una población a partir del análisis de una muestra de dicha población

“You can, for example, never foretell what any one man will do, but you can say with precision what an average number will be up to. Individuals vary, but the percentages remain constant. So says the statistician.”

Sherlock Holmes. The Sign of Four.

• Probabilidad:

Es la frecuencia esperada con la que ocurre un evento

• Midiendo la probabilidad

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Si no hubiese incertidumbre en el

resultado no haría falta ni la probabilidad ni la

estadística

Diseño experimental y análisis estadístico

2. Fundamentos de probabilidad

𝑃 =número de resultados

número de ensayos

𝑃 =número de hembras nacidas

número de individuos nacidos

0,0 ≤ 𝑃 ≤ 1,0

Ley de Hardy-Weinberg

𝑃 𝐴𝐴 = 𝑝2 𝑃 𝐴𝑎 = 2𝑝𝑞 = 𝑃 ℎ𝑒𝑚𝑏𝑟𝑎 𝐴 𝑦 𝑚𝑎𝑐ℎ𝑜 𝑎 𝑜 𝑃 ℎ𝑒𝑚𝑏𝑟𝑎 𝑎 𝑦 𝑚𝑎𝑐ℎ𝑜 𝐴 𝑃 𝑎𝑎 = 𝑞2

• Probabilidad condicional

Es la probabilidad de que ocurra un evento A, sabiendo que también sucede otro evento B (probabilidad de A dado B):

• Teorema de Bayes:

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

2. Fundamentos de probabilidad

𝐴

𝐵

𝐴 ∩ 𝐵

𝑆

Conjunto de todos los resultados

posibles

𝑃 𝐴 𝐵 = 𝑃 𝐵 𝐴 𝑃(𝐴)

𝑃(𝐵)

área de B / área de S

𝑃 𝐴 𝐵 = 𝑃(𝐴 ∩ 𝐵)

𝑃(𝐵)

Probabilidad conjunta de A y B

prior (distribución o probabilidad

previa)

posterior (distribución o probabilidad

posterior)

Den

sid

ad

z

• Variables aleatorias y distribuciones de probabilidad

La distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso la probabilidad de que ocurra.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

2. Fundamentos de probabilidad

95%

𝑁(0,1)

Distribución normal (media = 0, desviación

estándar = 1)

-1,96 1,96

Prueba un web app en

showmeshiny.com

• Variables aleatorias y distribuciones de probabilidad

Ejemplos:

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

2. Fundamentos de probabilidad

Distribución Media Varianza Comentarios

Bernoulli 𝑝 𝑝(1 − 𝑝) Un único experimento con dos posibles resultados

Binomial 𝑛𝑝 𝑛𝑝(1 − 𝑝) Secuencia de n ensayos de Bernoulli

Poisson 𝜆 𝜆 Eventos raros independientes

Uniforme (𝑏 − 𝑎)

2

(𝑏 − 𝑎)2

12 Resultados equiprobables sobre el intervalo [a, b]

Normal 𝜇 𝜎2 Genera curvas simétricas para datos continuos

Log-normal 𝑒𝜇+𝜎2

2 𝑒𝜇+𝜎2

2 × 𝑒𝜎2 Para datos con asimetría positiva (right-skewed)

Exponencial 1 𝛽 1 𝛽2 Distribución continua análoga a la de Poisson

Dis

cret

as

Co

nti

nu

as

Fuente: Gotelli y Ellison (2004)

• La probabilidad proporciona las bases para la inferencia

La inferencia estadística tiene como objetivo la estimación de las propiedades o características de un sistema (por ejemplo, una población) a partir del análisis de una muestra.

Por inferencia podemos entender lo siguiente (Royle y Dorazio 2008):

Confrontar modelos con datos para estimar parámetros (ajustar un modelo).

Contrastar hipótesis, seleccionar modelos o evaluar modelos.

Realizar predicciones.

Proporcionar asesoramiento para muestrear procesos subyacentes de manera eficiente.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

2. Fundamentos de probabilidad

• Significación estadística y valores de P

El contraste de hipótesis se realiza mediante pruebas o test estadísticos. Cada test produce un resultado numérico (un estadístico) y un valor de probabilidad asociado (P).

• La hipótesis nula estadística (H0)

Establece un modelo simple que considera que las variaciones observadas en los datos son debidas al azar y no al efecto del factor o factores estudiados.

• La hipótesis alternativa (H1)

En general, como hipótesis alternativas (una o varias), se definen las que sí consideran la existencia de efectos debidos al factor o factores estudiados.

• Habitualmente se utiliza el criterio P < 0,05 para rechazar H0

• Pero el rechazo de H0 NO implica aceptar H1 (solo sugiere que H1 puede ser cierta).

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

3. Contraste de hipótesis estadísticas

• El valor de probabilidad (P, p, P-value, p-value)

Expresa la probabilidad de obtener los datos observados (y otros más extremos pero no observados) dado un modelo específico (definido por un parámetro o conjunto de parámetros θ):

Habitualmente el modelo considerado es la hipótesis nula (H0), y por tanto, el valor de P es la probabilidad de obtener unos datos (generalmente expresados como el resultado de un test estadístico) al menos tan extremos como los observados:

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

También es frecuente utilizar otras notaciones:

P (datos|H0) Pr (datos|H0) Pr {datos|H0}

P (datos|H0)

Diseño experimental y análisis estadístico

3. Contraste de hipótesis estadísticas

P ( y ≥ yobs|θ )

P no es la probabilidad de que

H0 “sea cierta”

• Verosimilitud (likelihood)

De manera similar a un valor de P, la verosimilitud (ℒ) cuantifica la probabilidad de los datos dado un modelo. Pero ℒ solo usa los datos observados, no los más extremos e inobservados. :

La interpretación de ℒ es opuesta (como una versión inversa) a la de P: aquél

valor 𝜃 que proporcione el máximo de la función de verosimilitud para los datos observados es considerado la mejor estima de θ (estimación de máxima verosimilitud, maximum likelihood estimate, MLE).

La verosimilitud de los datos es directamente proporcional a la probabilidad de obtener los datos observados dado el parámetro o parámetros estimados.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

3. Contraste de hipótesis estadísticas

ℒ(θ | yobs ) ∝ P ( yobs | θ )

“es proporcional a” θ puede ser un escalar o un vector

• Verosimilitud (likelihood)

Las verosimilitudes son números muy pequeños, menores que 1, por lo que suele utilizarse más frecuentemente el logaritmo (natural) de la verosimilitud:

Un buen modelo es el que tiene una alta verosimilitud. Por tanto, cuanto mayor es logℒ, mejor es el ajuste del modelo a los datos.

Un valor de ℒ es, en sí mismo, irrelevante. Pero tiene utilidad comparativa. La razón de verosimilitudes (likelihood ratio) permite comparar cuánto más verosímil es un parámetro frente a otro:

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

3. Contraste de hipótesis estadísticas

También denotado como logLik, LL, L

ℒ(θ 2 | yobs ) / ℒ(θ 1| yobs )

logℒ

• Verosimilitud, desvianza y criterio de información de Akaike (AIC)

La desvianza (deviance) se calcula como:

siendo ℒs la verosimilitud del modelo saturado: aquél que tiene tantos parámetros como datos y, por tanto, tiene un “ajuste” perfecto.

El criterio de información de Akaike (Akaike’s information criterion) se calcula como:

siendo K el número de parámetros del modelo.

Al igual que la verosimilitud y la desvianza, el AIC proporciona una medida de la calidad relativa de un modelo, para un conjunto dado de datos. Cuanto menor sea el valor de AIC de un modelo, mejor es el ajuste.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

3. Contraste de hipótesis estadísticas

−2 (logℒ − logℒs)

−2 (logℒ − logℒs) + 2K

• Errores en el contraste de hipótesis

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

3. Contraste de hipótesis estadísticas

Decisión:

Realidad: No rechazar H0 Rechazar H0

H0 cierta

Decisión correcta (probabilidad = 1 – α)

Error Tipo I (probabilidad = α)

“falso positivo”

H0 falsa

Error Tipo II (probabilidad = β )

“falso negativo”

Decisión correcta (probabilidad = 1 – β )

Nivel de significación;

habitualmente α = 0,05

Poder o potencia estadística: 1 – β

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

3. Contraste de hipótesis estadísticas

• Errores en el contraste de hipótesis

• Potencia estadística

La potencia estadística es la probabilidad de rechazar una H0 falsa (la probabilidad de observar un efecto cuando realmente ocurre). Depende de cuatro factores:

1. El nivel de significación (α ). 2. El tamaño del efecto. Es la magnitud mínima de la diferencia o

asociación que se considera relevante. Es una medida del “grado de diferencia” o del “grado de relación” que queremos detectar. Es una medida estandarizada, de cálculo complejo.

3. El tamaño de la muestra (n ). A mayor tamaño de muestra mayor potencia al aumentar la precisión.

4. La variabilidad de la respuesta (σ ). A menor variabilidad mayor potencia. Influye en la estimación del tamaño del efecto y es mayor cuando el tamaño de la muestra es pequeño.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

3. Contraste de hipótesis estadísticas

• Potencia estadística

La potencia 1 β aumenta si seleccionamos un nivel de significación α mayor:

Pero elegir un α mayor

implica un mayor

riesgo de cometer

error Tipo I.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

3. Contraste de hipótesis estadísticas

• Potencia estadística

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

3. Contraste de hipótesis estadísticas

Mayor nivel de significación α

Mayor tamaño del efecto

Mayor tamaño de la muestra (precisión)

Prueba un web app en

showmeshiny.com

α

• El debate sobre la utilidad de P

La cultura científica basada en el uso de P ha dominado durante la mayor parte del siglo XX (y aún domina en el siglo XXI). No obstante, se tiende a abandonar su utilización y cada vez con mayor frecuencia se emplean como alternativa procedimientos de selección de modelos e inferencia multimodelo, nuevo paradigma para el análisis estadístico.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

3. Contraste de hipótesis estadísticas

En síntesis, un procedimiento de selección de modelos evalúa un conjunto de modelos “candidatos” (generalmente mediante el AIC) y realiza la estimación de parámetros en función de las estimaciones ponderadas de dicho parámetro en los diferentes modelos.

Se busca la “mejor” explicación posible para los datos observados (best approximating model) y, bajo esta perspectiva, el uso de P no tiene sentido.

Portada del libro de Burnham y Anderson (2002)

• Diseño experimental:

Término que describe la estructura lógica de un experimento.

• Experimento:

Es una operación o procedimiento para testar una hipótesis.

• Unidad experimental:

División más pequeña de material experimental que recibe un tratamiento.

• Tratamientos y controles:

Tratamiento es un término general para cualquier conjunto de comparaciones. Entre los tipos tratamientos de un experimento debe figurar uno de control, que sirva de comparación para el análisis de los efectos (generalmente un no-tratamiento). En determinadas ocasiones (por ejemplo cuando se pretende determinar entre dos o mas tratamientos cuál es el mejor), cada tratamiento actuaría como control del resto.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

4. Fundamentos del diseño experimental

[Krebs, 1999]

• Experimentos “manipulativos” y “experimentos” mensurativos

En sentido estricto, un experimento es un procedimiento de investigación en el que todos los factores ambientales están bajo control. Como consecuencia es imprescindible manipular las condiciones en las que se realiza el estudio: hablamos de experimentos “manipulativos” o estudios experimentales.

No obstante, muchas investigaciones utilizan procedimientos de obtención de la información “no manipulativos” que reciben la denominación de muestreos. El muestreo es un procedimiento de observación y medida exclusivamente: hablamos de estudios observacionales, “experimentos” mensurativos, o “experimentos naturales”.

Generalmente el tratamiento estadístico en ambos casos es idéntico, pero la diferencia radica en la confianza y generalidad que podemos atribuir a las conclusiones derivadas del estudio. En cualquier caso, los principios generales del diseño experimental deben ser igualmente aplicados.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

4. Fundamentos del diseño experimental

• Elementos clave en el diseño experimental

1. Replicación y pseudorreplicación Replicar consiste en disponer al menos de dos unidades experimentales por cada tipo de tratamiento. La incorrecta consideración de lo que constituye una unidad experimental se conoce como pseudorreplicación.

2. Aleatorización y espaciamiento Otro aspecto fundamental es la distribución de las réplicas en el espacio: un esquema de disposición espacial aceptable debe considerar la adecuada separación o espaciamiento (interspersion) de aquellas unidades experimentales con el mismo tratamiento. Lo ideal es una distribución aleatoria.

3. Control del diseño Por control del diseño nos referimos a la consideración de otros elementos que tiene por objeto reducir el error experimental.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

4. Fundamentos del diseño experimental

• Elementos clave en el diseño experimental

1. Replicación y pseudorreplicación

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

4. Fundamentos del diseño experimental

Fuente: Krebs (1999)

• Elementos clave en el diseño experimental:

2. Aleatorización y espaciamiento

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

4. Fundamentos del diseño experimental

Fuente: Krebs (1999)

• Elementos clave en el diseño experimental

3. Control del diseño

Para reducir el error experimental (es decir, para que las conclusiones de las comparaciones estadísticas sean más precisas), hay que considerar:

a) usar unidades experimentales más homogéneas;

b) usar información de variables adicionales medidas en cada unidad experimental (análisis de la covarianza);

c) usar más réplicas;

d) usar un diseño experimental más eficiente: diseños equilibrados o “balanceados” (balancing) y uso de bloques (blocking).

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

4. Fundamentos del diseño experimental

• Factores (efectos) fijos y factores (efectos) aleatorios

Una variable la consideramos factor fijo cuando sus niveles o valores son considerados de interés específico en la investigación y son seleccionados o “deliberadamente”.

Una variable la consideramos como factor aleatorio cuando sus niveles o valores se seleccionan aleatoriamente entre todos los posibles. [No confundir con el concepto de variable aleatoria.]

Los efectos fijos son los que analizamos normalmente sobre observaciones estadísticamente independientes. Los efectos aleatorios surgen cuando tenemos más de una observación en cada unidad experimental (Venables y Ripley 2002).

Según los factores considerados, tenemos diseños (y modelos estadísticos) fijos, aleatorios o mixtos (si incluyen ambos tipos de efectos).

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

4. Fundamentos del diseño experimental

• Tipos (en función de la naturaleza de las variables) (Gotelli y Ellison 2004)

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

4. Fundamentos del diseño experimental

• Tipos de diseño experimental (Krebs 1999)

1. Modelos lineales aditivos

2. Diseños factoriales

3. Diseños de bloques aleatorios

4. Diseños split-plot

5. Diseños anidados

6. Diseños de cuadrado latino

7. Diseños de medidas repetidas

8. Estudios de impacto ambiental

Variable independiente

Variable dependiente Continua Categórica

Continua Regresión ANOVA

Categórica Regresión logística Tabular

• Análisis paramétrico

• Análisis Bayesiano

• Análisis de Monte Carlo

• Análisis no paramétrico

• Selección de modelos e inferencia multimodelo

• Análisis paramétrico (clásico, convencional o frecuentista)

Asume que los datos se ajustan a un determinado tipo de distribución conocida. Estima los parámetros de dicha distribución a partir de los datos.

Aquí la probabilidad se define como la frecuencia relativa de una característica de los datos.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

5. Análisis estadístico: enfoques metodológicos

Ronald Fischer (1890-1962) Fuente: Wikimedia Commons

Thomas Bayes (1702-1761) Fuente: Wikimedia Commons

• Análisis Bayesiano

El análisis Bayesiano es mucho más antiguo (s. XVIII) que el frecuentista, pero es más complejo y su uso no se ha generalizado hasta el desarrollo de software accesible para la mayoría de usuarios (WinBUGS).

La estadística Bayesiana también asume que los datos se ajustan a una distribución, pero los parámetros se estiman no solo a partir de los datos, sino también de información o conocimiento previo, y asigna probabilidades a esos parámetros. Por tanto, la probabilidad se usa para expresar la incertidumbre sobre un parámetro (en estadística clásica es sobre los datos).

La receta para un análisis Bayesiano es (Lindley 1983): ¿Qué es lo que no sabes y te interesa? Llámalo θ. ¿Qué sabes? Llámalo D. Ahora calcula P (θ |D). ¿Cómo? Usando las reglas de probabilidad.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

5. Análisis estadístico: enfoques metodológicos

• Análisis de Monte Carlo (tests de aleatorización)

No asume ningún tipo de distribución paramétrica de los datos (por ejemplo, normalidad). Utiliza la aleatorización de los datos observados (permutaciones aleatorias).

• Análisis no paramétrico

Se fundamentan en el análisis de los datos transformados en sus rangos (número de orden), pero son un caso especial de análisis de Monte Carlo.

Actualmente su uso no se recomienda (Gotelli y Ellison 2004) porque:

a) con la transformación se pierde mucha información,

b) las técnicas paramétricas son a menudo “robustas” frente las violaciones de las asunciones (gracias al Teorema del Límite Central), y

c) solo hay métodos disponibles para análisis simples.

• Selección de modelos e inferencia multimodelo: punto 7

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

5. Análisis estadístico: enfoques metodológicos

• Exactitud y precisión

Son dos aspectos fundamentales en el proceso de obtención de datos. La ausencia de exactitud se denomina sesgo (bias). La precisión se refiere a la dispersión de los datos y se relaciona con la repetibilidad y la reproducibilidad.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

6. Análisis estadístico: conoce tus datos

Fuente: Wikimedia Commons

• Representa tus datos

> sewage

> attach(sewage)

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

6. Análisis estadístico: conoce tus datos

Variable de respuesta (dependiente)

Tratamiento (variable

categórica independiente)

Covariable

Tamaño de la

muestra (8 + 8)

• Representa tus datos gráficamente

> hist(coliform)

> plot(day, coliform, col=factor(method))

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

6. Análisis estadístico: conoce tus datos

• Box plot (box-and-whisker plot, diagrama de caja)

> boxplot(coliform ~ method)

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

6. Análisis estadístico: conoce tus datos

Fuente: Wikimedia Commons

• Barras de error

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

6. Análisis estadístico: conoce tus datos

Barra de error Tipo Descripción Fórmula

Rango Descriptivo Amplitud entre los extremos de los datos

El mayor valor menos el menor

Desviación estándar (SD)

Descriptivo Diferencia media entre los datos y su media SD =

(𝑥𝑖−𝑥 2

𝑛 − 1

Error estándar Inferencial Medida de la variabilidad de la media, si el estudio se repite muchas veces

SE = SD 𝑛

Intervalo de confianza (CI)

Inferencial

Intervalo de valores entre los cuales se estima que estará la media verdadera con una determinada probabilidad de acierto

𝑥 ± 𝑡𝜐,1−𝛼 2 × SE

Fuente: Cumming et al. (2007)

• Requisitos de normalidad y homocedasticidad. Transformaciones

La aplicación de los test paramétricos presenta una serie de requisitos que deben cumplir los datos: independencia, normalidad (ajuste a una distribución normal) y homogeneidad de varianzas (homocedasticidad).

La independencia se consigue con un diseño experimental (o de muestreo) adecuado. Si tenemos datos no independientes hay que utilizar las técnicas adecuadas para analizarlos (modelos mixtos).

La normalidad y la homocedasticidad (en el caso de variables continuas) se pueden conseguir a través de transformaciones (por ejemplo aplicando logaritmos).

No obstante, los tests paramétricos suelen ser “robustos” frente a las violaciones de estos requisitos.

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

6. Análisis estadístico: conoce tus datos

• Guion de ejercicios prácticos

ANOVA, regresión lineal y ANCOVA

ANOVA de dos factores

Modelos lineales generalizados

Más sobre regresión

Modelos mixtos

Modelos anidados

Análisis split-plot

Análisis de datos pareados

Tablas de contingencia, chi-cuadrado y análisis log-lineal

Tablas de contingencia con más de un factor

Selección de modelos e inferencia multimodelo

Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología

Diseño experimental y análisis estadístico

7. Análisis estadístico: métodos y modelos

Bibliografía recomendada

• Gotelli NJ, Ellison AM. 2004. A Primer of Ecological Statistics. Sinauer, Sunderland, MA.

• Krebs CJ. 1999. Ecological Methodology. 2ª ed. Benjamin/Cummings, Menlo Park, CA.

• Venables WN, Ripley BD. 2002. Modern Applied Statistics with S. 4ª ed. Springer, New York.

Otras referencias citadas

• Burnham KP, Anderson DR. 2002. Model Selection and Multimodel Inference. 2ª ed. Springer, New York.

• Cumming G, Fidler F, Vaux DL. 2007. Error bars in experimental biology. The Journal of Cell Biology, 177: 7-11.

• Hilborn R, Mangel M. 1997. The Ecological Detective. Confronting Models with Data. Princeton University Press, Princeton, NJ.

• Kéry M. 2010. Introduction to WinBUGS for Ecologists. Elsevier, Amsterdam.

• Kéry M, Schaub M. 2012. Bayesian Population Analysis Using WinBUGS. Elsevier, Amsterdam.

• Lindley DV. 1983. Theory and practice of Bayesian statistics. Statistician 32: 1-11.

• Royle JA, Dorazio RM. 2008. Hierarchical Modeling and Inference in Ecology. Elsevier, Amsterdam.

• Wiens JA. 1989. The Ecology of Bird Communities. Cambridge University Press, Cambridge.

Diseño experimental y análisis estadístico – Facultad de Biología