46
Estadística Parte 2 Francisco J. Carrera Troyano Instituto de Física de Cantabria Consejo Superior de Investigaciones Científicas y Universidad de Cantabria Octubre 2016

Estadística Parte 2 - IFCA | Instituto de Física de Cantabria …venus.ifca.unican.es/.../Estadistica_Parte2.pdf · 2016-12-02 · Pruebas paramétricas de la media (Press et al

  • Upload
    others

  • View
    11

  • Download
    1

Embed Size (px)

Citation preview

Estadística Parte 2

Francisco J. Carrera Troyano

Instituto de Física de Cantabria Consejo Superior de Investigaciones Científicas

y Universidad de Cantabria

Octubre 2016

Índice 1.  Incertidumbres y errores

–  Incertidumbres en las medidas •  Errores en la medida: sistemáticos y estadísticos. Incertidumbres.

Distribuciones original y de la muestra. Momentos de una distribución. Medidas del valor central. Medidas de la dispersión. Puntos aislados.

–  Análisis de errores •  Propagación de errores. Barras de error asimétricas.

2.  Contrastes de hipótesis paramétricos y no paramétricos –  Comparación de dos distribuciones

•  Comparación de las medias. Comparación de las varianzas. Test χ2. Test de Kolmogorov-Smirnov. Comparación de distribuciones bidimensionales

•  Análisis de varianza: ANOVA •  Correlación lineal. Test no-paramétricos. Correlaciones parciales.

Variables con límites superiores e inferiores –  Significancia de una detección

•  Cociente señal-ruido. 3.  Modelado estadístico de datos

–  Métodos de máxima verosimilitud •  Modelos frente a datos. Verosimilitud. χ2: Introducción, Estimación de

parámetros. Bondad del ajuste. Incertidumbre en los parámetros. Regresión lineal.

•  Verosimilitud en régimen Poissoniano

Comparación de dos distribuciones: Introducción •  Sólo se puede probar la diferencia, nunca la igualdad •  Hipótesis: H, hipótesis nula H0

–  Suele ser “las dos distribuciones son iguales” –  La alternativa HA

–  Definimos un estadístico X (función de los datos) y tratamos de definir una probabilidad P(X|H0)

•  Niveles de significancia: –  0.01, 0.05, ... ciencias de la vida –  1σ, 2σ... (gaussianas) ciencias “duras”

•  Grados de libertad (d.o.f.): ν=N-no de ligaduras adicionales •  Dos muestras:

–  A con número de datos NA

–  B con número de datos NB

–  N=NA+NB

Pruebas paramétricas de la media (Press et al. 1994)

•  Si σA=σB:

–  Distribución t de Student con ν=NA+NB-2 –  P~0 si las distribuciones son distintas, I función beta incompleta

•  Si σA≠σB: –  Cuidado; si σ diferentes posiblemente la forma de la distribución

sea distinta también y la media quizá sea inútil

–  t distribuida ~como t de Student con ν grados de libertad •  Basadas en distribución gaussiana

t = xA − xBSD

SD =xi,A − xA( )

2+ xi,B − xB( )

2

B∑

A∑

NA + NB − 21NA

+1NB

⎝⎜

⎠⎟

P(H0 ) =1− A(t |ν ) = I νν+t2

ν2, 12

⎝⎜

⎠⎟

11

2222

222

22

⎟⎟⎠

⎞⎜⎜⎝

+−

⎟⎟⎠

⎞⎜⎜⎝

⎟⎟⎠

⎞⎜⎜⎝

⎛+

=

+

−=

B

B

B

A

A

A

B

B

A

A

B

B

A

A

BA

NNs

NNs

Ns

Ns

Ns

Ns

xxt ν

Prueba paramétrica de la varianza (Press et al. 1994)

•  Test F:

•  I función beta incompleta: –  P~0 distribuciones muy diferentes –  El 2 es porque buscamos “igual”, no mayor o menor

•  Basada en distribución gaussiana

F = sA2

sB2 , sA > sB νA = NA −1,νB = NB −1

P(H0 ) = 2I νBνB+νAF

νB

2,ν A

2⎛

⎝⎜

⎠⎟

Prueba no paramétrica de la media (Wall & Jenkins 2003)

•  No supone distribución gaussiana •  Rango: se trata de sustituir {xA},{xB} por el rango

(lugar) que ocupan al unirlas y ordenarlas: {rA}{rB} –  Ojo con los empates: se asigna el rango promedio

•  Prueba de la suma de rangos (test U de Wilcoxon-Mann-Whitney): RA=ΣrA RB=ΣrB –  NA>10 y NB>10: RA gaussiana N( NA(N+1)/2 , √NANB(N+1)/12 ) –  NA<10, NB<10 tablas –  Eficiente, y útil para muestras pequeñas –  También sensible a distintas formas de la distribución –  Equivale al test t con rangos

Pruebas no paramétricas de la media y de la varianza para N grande

•  Se trata de aplicar pruebas conocidas a los rangos –  Si valores muy diferentes a los originales, probablemente

distribuciones no gaussianas –  Se basan en que para N>> distribución ~gaussiana

•  Prueba de la media: test t con rangos •  Prueba de la varianza: test F con rangos •  Eficientes y sensibles a forma distribución

Prueba de la varianza para N grande (Hines & Montgomery 1990)

•  No requiere distribución gaussiana •  Requiere N >>

•  Test Z: –  Paramétrico: sólo usa varianzas y número de datos –  Aceptamos H0 si Z~0 (varianzas iguales)

Z = sA − sBsD / 2

P(H0 ) =1− 2 12π

dx e−x2

2

0

Z

Pruebas generales (Press et al. 1994)

•  Se usan para comparar la distribución general de dos conjuntos de datos

•  Se pueden comparar: –  Datos con datos, o datos con distribución –  Datos agrupados, discretos o continuos

•  Test χ2: datos agrupados en n bines {NAi}{NBi}, NA=ΣNAi, NB=ΣNBi

–  Si n>> ó NAi,NBi>>: Q(χ2|ν) Γ incompleta buena aproximación a P(H0) –  Si comparamos con modelo {nBi}, nB=ΣnBi

χ 2 =NAi − NBi( )2

NAi + NBi

NA = NB ν = n−1i=1

n

χ 2 =

NAiNB

NA

− NBiNA

NB

#

$%

&

'(

2

NAi + NBi

NA ≠ NB ν = ni=1

n

( )∑= ⎩

⎨⎧

≠=

=−=−=

n

i AB

AB

Bi

BiAi

NnnNnn

nnN

1

22 1

ν

νχ

Pruebas generales (Press et al. 1994)

•  Test de Kolmogorov-Smirnov (KS): –  Para datos sin agrupar, continuos o discretos –  Se comparan las distribuciones cumulativas

–  Aproximación buena si Ne≥4 –  Sensible a desplazamientos pero no a dispersiones, ni a

diferencias en rangos pequeños

BA

BAeNBNA

x

eNx

NNNNNxSxSD

NNxPxSD

+=−=

=−=

∞<<∞−

∞<<∞−

)()(

)()(

max

max

λ = Ne + 0.12+0.11Ne

!

"##

$

%&&D

QKS (λ) = 2 −1( ) j−1 e−2 j2λ2

j=1

¿Cuál usar? •  Si distribuciones gaussianas:

–  t –  F –  χ2

•  Si no se sabe o no gaussiano –  U –  KS:

•  pero no demasiado sensible a colas

•  Si N>> χ2 vale en cualquier caso •  En general, transformación de rango es buena idea:

–  t (U), F con rangos: eficientes y sensibles a forma distribución

•  Ver tablas 5.4, 5.5 y 5.6 de Wall & Jenkins (2003)

Siempre valen, pero no usan toda la información de la muestra: –  Menos eficientes –  Requieren muestras

mayores, en general

Ejercicio 2

•  Archivos dat1.dat,dat2.dat,dat3.dat en http://venus.ifca.unican.es/~carreraf/Estadistica/Ejercicios

•  Utilizar varias de las pruebas que hemos visto para comparar esas tres distribuciones de datos, en particular para responder a las siguientes preguntas: –  ¿Tienen la misma media? –  ¿Tienen la misma varianza? –  ¿Son compatibles con ser la misma distribución?

•  A la vista de los resultados, comentar si las pruebas realmente responden a lo que se espera de ellas

Test KS en dos dimensiones (Press et al. 1994)

•  Idea de Peacock y Fasano & Franceschini •  Esencialmente es una generalización de KS a 2D:

–  D es la diferencia entre las fracciones de los puntos que están en cada cuadrante (el máximo de los máximos de los cuatro)

–  r coeficiente de correlación lineal

•  Expresión OK si N≥20 o P<0.2: –  Si P>0.2 distribuciones compatibles, pero P no es preciso –  Más precisión comparando distribución D simulaciones con D obs.

⎪⎩

⎪⎨⎧

+=

⎟⎟⎟⎟

⎜⎜⎜⎜

⎟⎠⎞

⎜⎝⎛ −−+

=>

dist-distmodelodist

75.025.011)(

2BA

BAKSobsNNNNN

N

Nr

NDQDDP

Test KS en dos dimensiones (Press et al. 1994)

•  Idea de Peacock y Fasano & Franceschini •  Esencialmente es una generalización de KS a 2D:

–  D es la diferencia entre las fracciones de los puntos que están en cada cuadrante (el máximo de los máximos de los cuatro)

–  r coeficiente de correlación lineal

•  Expresión OK si N≥20 o P<0.2: –  Si P>0.2 distribuciones compatibles, pero P no es preciso –  Más precisión comparando distribución D simulaciones con D obs.

⎪⎩

⎪⎨⎧

+=

⎟⎟⎟⎟

⎜⎜⎜⎜

⎟⎠⎞

⎜⎝⎛ −−+

=>

dist-distmodelodist

75.025.011)(

2BA

BAKSobsNNNNN

N

Nr

NDQDDP

Índice 1.  Incertidumbres y errores

–  Incertidumbres en las medidas •  Errores en la medida: sistemáticos y estadísticos. Incertidumbres.

Distribuciones original y de la muestra. Momentos de una distribución. Medidas del valor central. Medidas de la dispersión. Puntos aislados.

–  Análisis de errores •  Propagación de errores. Barras de error asimétricas.

2.  Contrastes de hipótesis paramétricos y no paramétricos –  Comparación de dos distribuciones

•  Comparación de las medias. Comparación de las varianzas. Test χ2. Test de Kolmogorov-Smirnov. Comparación de distribuciones bidimensionales

•  Análisis de varianza: ANOVA •  Correlación lineal. Test no-paramétricos. Correlaciones parciales.

Variables con límites superiores e inferiores –  Significancia de una detección

•  Cociente señal-ruido. 3.  Modelado estadístico de datos

–  Métodos de máxima verosimilitud •  Modelos frente a datos. Verosimilitud. χ2: Introducción, Estimación de

parámetros. Bondad del ajuste. Incertidumbre en los parámetros. Regresión lineal.

•  Verosimilitud en régimen Poissoniano

Análisis de varianza: ANalysis Of Variance (ANOVA)

•  Detecta diferencias entre las medias de más de dos distribuciones o de varias submuestras de la misma distribución –  Mediante el análisis de las variaciones (varianzas) entre las

submuestras

•  Supone: –  Iguales varianzas entre las (sub)muestras –  Estadística gaussiana

–  Pero es robusto frente a incumplimientos (moderados) de esta suposición

•  La hipótesis nula H0 es que todas las (sub)muestras tienen la misma media: –  No distingue entre las distintas hipótesis alternativas (p. ej. sólo una

de las submuestras es diferente de las demás...)

ANOVA: un factor de variación I (Gorgas, Cardiel & Zamorano 2009)

•  De una muestra se extraen t poblaciones independientes de tamaños n1,n2...nt. –  Definimos tratamiento como la característica que diferencia a estas

muestras

•  Condiciones: –  t poblaciones distribución normal –  misma varianza poblacional σ2 de las t poblaciones –  t muestras elegidas aleatoriamente

•  Hipótesis nula H0: las medias son todas iguales µ1=µ2=...=µt –  HA: al menos dos de las medias son diferentes

•  Método se basa en estudiar las variaciones entre los datos dentro y fuera de las distintas muestras: –  VDT variación dentro de los tratamientos: intrínsecas, debidas al azar –  VET variación entre tratamientos: entre las distintas poblaciones –  VT variación total

ANOVA: un factor de variación II •  xij valor de la variable correspondiente al elemento i del

tratamiento j: i=1...nj, j=1...t. Número total N=Σj nj –  Medias muestrales ⟨x⟩j=(Σi xij)/nj

–  Media total ⟨x⟩=(ΣjΣi xij)/N=(Σjnj⟨x⟩j)/N

•  VT= ΣjΣi(xij-⟨x⟩)2 =...= ΣjΣi(xij-⟨x⟩j)2 + Σj nj(⟨x⟩j-⟨x⟩)2 VT=VDT+VET Ecuación fundamental de ANOVA

•  Ahora tenemos en cuenta el número de datos usado: –  VDT: s2

VDT=[ΣjΣi(xij-⟨x⟩j)2]/(N-t)=VDT/(N-t)≡ME estimación de la varianza poblacional, únicamente por efectos aleatorios

–  VET: s2VET=[Σjnj(⟨x⟩j-⟨x⟩)2]/(t-1)=VET/(t-1)≡MT tiene en cuenta efectos

aleatorios y diferencias entre medias por tratamientos –  MT≥ME

•  Se usa el test F para ver “cuánto de distintas” F=MT/ME con d.o.f. υMT=t-1 y υME=N-t –  Si H0 ambas iguales: F~1

ANOVA: un factor de variación. Ejemplo (Hines & Montgomery 12-1.1)

Un fabricante de papel para bolsas de la compra está interesado en mejorar la resistencia a la tensión de las bolsas, que se piensa que está relacionada con la concentración de madera dura en la pulpa, con valores típicos entre el cinco y el veinte por ciento. El ingeniero a cargo del estudio hace seis muestras para algunas concentraciones y mide su resistencia a la tensión con los siguientes resultados: Emplear un análisis ANOVA para ver si efectivamente cambia la resistencia como función de la concentración de madera dura en la pulpa

Concentración (%) Medidas 5 7 8 15 11 9 10 10 12 17 13 18 19 15 15 14 18 19 17 16 18 20 19 25 22 23 18 20

ANOVA: dos factores de variación I (Hines & Montgomery 1980)

•  De una muestra se extraen poblaciones independientes según dos características: –  t tratamientos: T1...Tt –  b bloques: B1...Bb

•  Condiciones: –  t,b poblaciones distribución normal –  misma varianza poblacional σ2 de las t,b poblaciones –  t,b muestras elegidas aleatoriamente todas con el mismo número n

•  Ahora más hipótesis: –  H0: todas las medias de los tratamientos iguales µT1=µT2=...=µTt

–  H´0: todas las medias de los bloques iguales µB1=µB2=...=µBb

–  HA (H´A ): al menos dos de las medias de los tratamientos (bloques) son diferentes

–  Término de interacción: no hay diferencia entre las medias por tratamientos, por bloques y por ambos a la vez H´´0

ANOVA: dos factores de variación II •  De nuevo, el método se basa en estudiar las variaciones

entre los datos: –  VDT variación debida al azar –  VET variación debida al azar más las posibles diferencias

sistemáticas entre los tratamientos –  VEB variación debida al azar más las posibles diferencias entre los

bloques –  VTB variación de interacción –  VT variación total

•  xijk valor de la variable correspondiente al elemento i=1...n, del tratamiento j=1...t, y del bloque k=1...b. El número total N=tbn –  Medias tratamiento ⟨x⟩Tj=(ΣiΣk xijk)/bn –  Medias bloque ⟨x⟩Bk=(ΣiΣj xijk)/tn –  Medias tratamiento-bloque ⟨x⟩jk=(Σi xijk)/n –  Media total ⟨x⟩=(ΣiΣjΣk xijk)/N

ANOVA: dos factores de variación III

•  VT= ΣiΣjΣk(xijk-⟨x⟩)2 =VDT+VET+VEB+VTB =VT –  VDT = ΣiΣjΣk(xijk-⟨x⟩jk)2 –  VET = nbΣj(⟨x⟩Tj-⟨x⟩)2 –  VEB = ntΣk(⟨x⟩Bk-⟨x⟩)2

–  VTB = nΣjΣk(⟨x⟩jk-⟨x⟩Tj-⟨x⟩Bk+⟨x⟩)2

•  Ahora tenemos en cuenta el número de datos usado: –  ME ≡ s2

VDT=VDT/[tb(n-1)] únicamente por efectos aleatorios –  MT ≡ s2

VET=VET/(t-1)>ME tiene en cuenta efectos aleatorios y diferencias entre medias por tratamientos

–  MB ≡ s2VEB=VEB/(b-1)>ME tiene en cuenta efectos aleatorios y

diferencias entre medias por bloques –  MTB ≡ s2

VTB=VTB/[(t-1) (b-1)]>ME tiene en cuenta efectos aleatorios y diferencias entre medias por tratamientos y bloques

ANOVA: dos factores de variación IV •  Se usa el test F para ver “cuánto de distintas”:

–  FT =MT/ME con d.o.f. υME=tb(n-1) y υMT=t-1 : si H0 FT~1 –  FB=MB/ME con d.o.f. υME=tb(n-1) y υMB=b-1 : si H´0 FB~1 –  FTB=MTB/ME con d.o.f. υME=tb(n-1) y υMTB=(t-1)(b-1) : si H´´0 FTB~1

ANOVA: dos factores de variación. Ejemplo (Hines & Montgomery Ejemplo 13-3)

Las pinturas de imprimación para aviones se aplican sobre el aluminio con dos métodos distintos (con pistola y por inmersión). Se realiza un experimento para investigar el efecto del tipo de imprimación y del método de aplicación sobre la adhesión de las siguientes capas de pintura, con los siguientes resultados: Emplear un análisis ANOVA para ver si cambia la adhesión de la pintura con el tipo de imprimación y el método de aplicación

Imprimación Inmersión Pistola 1 4.0,4.5,4.3 5.4,4.9,5.6 2 5.6,4.9,5.4 5.8,6.1,6.3 3 3.8,3.7,4.0 5.5,5.0,5.0

ANOVA: dos factores de variación, 1 dato I (Gorgas, Cardiel & Zamorano 2009)

•  De una muestra se extraen datos independientes según dos características: –  t tratamientos: T1...Tt –  b bloques: B1...Bb

•  Condiciones: –  1 dato tomado para cada combinación t,b

•  Ahora tres hipótesis: –  H0: todas las medias de los tratamientos iguales µT1=µT2=...=µTt

–  H´0: todas las medias de los bloques iguales µB1=µB2=...=µBb

–  HA (H´A ): al menos dos de las medias de los tratamientos (bloques) son diferentes

–  No hay término de interacción, puesto que no podemos definir la varianza para cada combinación t,b

ANOVA: dos factores de variación, 1 dato II •  De nuevo, el método se basa en estudiar las variaciones

entre los datos: –  VDT variación debida al azar –  VET variación debida al azar más las posibles diferencias

sistemáticas entre los tratamientos –  VEB variación debida al azar más las posibles diferencias entre los

bloques –  VT variación total

•  xjk valor de la variable correspondiente al elemento del tratamiento j=1...t, y del bloque k=1...b. El número total N=tb –  Medias tratamiento ⟨x⟩Tj=(Σk xjk)/b –  Medias bloque ⟨x⟩Bk=(Σj xjk)/t –  Media total ⟨x⟩=(ΣjΣk xjk)/N

ANOVA: dos factores de variación, 1 dato III

•  VT= ΣjΣk(xjk-⟨x⟩)2 =VDT+VET+VEB =VT –  VDT = ΣjΣk(xjk-⟨x⟩Tj-⟨x⟩Bk+⟨x⟩)2 –  VET = bΣj(⟨x⟩Tj-⟨x⟩)2 –  VEB = tΣk(⟨x⟩Bk-⟨x⟩)2

•  Ahora tenemos en cuenta el número de datos usado: –  ME ≡ s2

VDT=VDT/[(t-1) (b-1)] únicamente por efectos aleatorios –  MT ≡ s2

VET=VET/(t-1)>ME tiene en cuenta efectos aleatorios y diferencias entre medias por tratamientos

–  MB ≡ s2VEB=VEB/(b-1)>ME tiene en cuenta efectos aleatorios y

diferencias entre medias por bloques

•  Se usa el test F para ver “cuánto de distintas”: –  FT =MT/ME con d.o.f. υME=(t-1) (b-1) y υMT=t-1 : si H0 FT~1 –  FB =MB/ME con d.o.f. υME=(t-1) (b-1) y υMB=b-1: si H´0 FB~1

Índice 1.  Incertidumbres y errores

–  Incertidumbres en las medidas •  Errores en la medida: sistemáticos y estadísticos. Incertidumbres.

Distribuciones original y de la muestra. Momentos de una distribución. Medidas del valor central. Medidas de la dispersión. Puntos aislados.

–  Análisis de errores •  Propagación de errores. Barras de error asimétricas.

2.  Contrastes de hipótesis paramétricos y no paramétricos –  Comparación de dos distribuciones

•  Comparación de las medias. Comparación de las varianzas. Test χ2. Test de Kolmogorov-Smirnov. Comparación de distribuciones bidimensionales

•  Análisis de varianza: ANOVA •  Correlación lineal. Test no-paramétricos. Correlaciones parciales.

Variables con límites superiores e inferiores –  Significancia de una detección

•  Cociente señal-ruido. 3.  Modelado estadístico de datos

–  Métodos de máxima verosimilitud •  Modelos frente a datos. Verosimilitud. χ2: Introducción, Estimación de

parámetros. Bondad del ajuste. Incertidumbre en los parámetros. Regresión lineal.

•  Verosimilitud en régimen Poissoniano

•  Ante nada mirar los datos críticamente: –  Si el ojo no ve nada, cálculo es pérdida de tiempo –  “Regla del pulgar”

•  Sólo miden una correlación lineal •  Notación: pares de datos (xi,yi) i=1...N

Correlación lineal

•  Ante nada mirar los datos críticamente: –  Si el ojo no ve nada, cálculo es pérdida de tiempo –  “Regla del pulgar”

•  Sólo miden una correlación lineal •  Notación: pares de datos (xi,yi) i=1...N

Correlación lineal

Cuarteto de Anscombe (1973)

•  Importancia de gráficas •  Los cuatro con idénticos:

–  Medias de X e Y –  Coeficientes de regresión lineal –  Líneas de regresión –  Residuos en Y –  Errores en la pendiente –  Matriz de covarianza

•  Diferencia entre independencia y correlación •  Aplicación de la “regla del pulgar” •  Correlación no lineal •  Sigma clipping

•  “Buena correlación” –  Pues claro: no podemos detectar fuentes distantes si no son muy

brillantes

•  “Esquina superior izquierda vacía” –  Pues claro: fuentes brillantes son escasas, difíciles de encontrar en

volumen pequeño

Efectos de selección

Sandage (1972)

Coeficiente de correlación lineal: paramétrico (Press et al. 1994)

•  -1≤r≤1: según si y↓ó↑ cuando x↑ ó no –  r~0: no correlación

•  Si x,y colas cortas (p. ej. gaussiana) y N>500: –  en ausencia de correlación: r distribución N(0,1/√N)

•  Si N no tan grande y gaussianas, H0 ≡no correlación:

•  r es un estadístico débil para decidir si: –  Una correlación es significativa –  Una correlación es mayor que otra

∑∑

∑−−

−−=

ii

ii

iii

yyxx

yyxxr

22 )()(

))((

⎟⎠

⎞⎜⎝

⎛=−=−−

=+

21,

2)(2

12

202

νν

ν

ν

t

IHPNr

Nrt

Test robustos no paramétricos (Press et al. 1994)

•  Transformación de rango: rangos uniformes •  Coeficiente de correlación de rangos de Spearman: rS

–  {Ri}{Si} rango de datos en cada distribución –  Si N>30: t de Student con ν=N-2 (ver anterior) –  Si 4<N<30: Tabla 2.5 (Wall & Jenkins 2003) –  Eficiente: merece la pena hacer transformación de rangos

xi → Riyi → Si

"#$

%$rS =

(Ri − R)(Si − S)i∑

(Ri − R)2 (Si − S)

2

i∑

i∑

∈ [0,1] t = rSN − 21− rS

2

Test robustos no paramétricos (Press et al. 1994)

•  τ de Kendall: similar al anterior, idénticos en mayor parte casos –  Sólo usa rangos relativos N(N-1)/2 pares:

•  concordantes: xi>xj e yi>yj ó xi<xj e yi<yj •  discordantes: xi>xj e yi<yj ó xi<xj e yi>yj •  extra-y: xi=xj •  extra-x: yi=yj

–  H0≡ no correlación

⎟⎟⎠

⎞⎜⎜⎝

−+

=−∈++++

−=

)1(9104,0)(]1,1[

)x-extradiscon)(y-extradiscon(discorconcor

0 NNNNHPτ

Ojo! Si ambos se descarta

Si dudas sobre aplicabilidad estadístico

•  Test de permutaciones: –  Suponer H0=no correlación –  Simulaciones, repetir muchas veces:

•  Para cada xi, tomar yi al azar •  Calcular estadístico preferido

–  Comparar distribución estadístico simulado con estadístico original

Ejercicio 3

•  Archivos dat5.dat,dat6.dat http://venus.ifca.unican.es/~carreraf/Estadistica/Ejercicios

•  Utilizar varias de las pruebas que hemos visto para ver si hay correlaciones entre las dos columnas de cada uno de esos ficheros

Correlaciones parciales (Wall & Jenkins 2003)

•  Se pueden encontrar correlaciones entre cantidades aparentemente inconexas: –  Altura niños y calidad escritura (edad) –  Tamaño pies China y precio pescado en Puerto Pesquero (tiempo)

•  Técnica para ver si una correlación entre dos cantidades depende de una tercera: si tres variables {x1,x2,x3} con N datos cada una

–  t12,3 de Student con ν=N-2 –  También se pueden hacer simulaciones para “calibrar” t12,3

( )( ) 23,12

3,123,12

23,12

223

213

2313123,12 1

23

111 3,12 r

NrtNr

rrrrrr r −

−=

−=

−−

−= σ

Variables con límites superiores o inferiores (Feigelson & Nelson, 1985, ApJ, 293, 192)

•  Cuando datos X sólo pueden registrarse si están en un intervalo [A,C]: –  Si A=-∞: datos censurados por la derecha, límites inferiores –  Si C=∞: datos censurados por la izquierda, límites superiores –  Si la existencia de medidas fuera de [A,C] no se puede determinar: distribución

truncada •  Se denomina Análisis de supervivencia o Datos de duración de vida:

–  Origen en cálculos de tarifas de seguros (Halley 1693): •  Personas de riesgo (vivas) •  Personas fallecidas •  Personas que han salido de la muestra (datos censurados)

–  Estrategia común es ignorar límites, pero derroche de datos y sesgos •  Mayor parte literatura con límites inferiores, pero en Física más común

límites superiores: –  Tiempo de exposición –  Sensibilidad del aparato ⇒  Puede haber que cambiar límites superiores por inferiores: si M es el máximo

de los valores, definimos X´i=M-X, o simplemente X´i=-Xi

Conceptos de análisis de supervivencia (Feigelson & Babu, 2012, CUP)

•  Datos censurados: cuando se conoce su existencia, pero no el valor del parámetro para ellos

–  Censurado por la izquierda: límite superior •  Datos truncados: cuando se desconoce incluso su existencia •  Idealmente: censura por la izquierda al azar

–  La causa de la no-detección es independiente de la cantidad a medir –  Métodos desarrollados para este caso

•  Definiciones: –  Se tienen i=1...N variables {Xi}, independientes e idénticamente distribuidas, con función

densidad f(x), y función de distribución F(x)=∫x-∞dt f(t) –  Cada uno con un límite asociado Ci –  δi=1 si detectado (se mide Xi), δi=0 si no detectado (sólo se sabe que Xi<Ci) –  Ti=min(Xi, Ci) ⇒ datos definidos en términos de pares (Ti, δi) –  Función de supervivencia S(x)=P(X>x)=1-F(x)

•  Probabilidad de que un objeto se estropee tras un cierto uso –  Tasa de riesgo: h(x)=f(x)/S(x)=-d LnS(x)/dx –  f(x)=S(x) h(x)

•  S(x), h(x) más fáciles de modelar en muchas situaciones

Análisis de supervivencia I (Feigelson & Babu, 2012, CUP)

•  Estimación paramétrica: si se conoce f(x) de antemano –  Verosimilitud L=ΠiP(Ti, δi)=Πi[f(Ti) ]δi[1-S(Ti)]1-δi

–  Y se estiman los parámetros maximizando la verosimilitud (Sección 3 del curso) •  Estimación no paramétrica: Kaplan-Meier

–  Estimador de la función de riesgo cumulativa HKM(x)=Σxi≥x di/Ni •  {xi} datos observados ordenados •  Ni número de datos (observados o no) con valores mayores o iguales que xi •  di número de datos con valor xi (si no repetidos di=1)

–  Estimador de la función de supervivencia SKM(x)=Πxi≥x (1-di/Ni) –  Redistribuir a la izquierda: Redistribuyendo el “peso” del límite superior igualmente entre

las detecciones a valores inferiores SKM(xi)=SKM(xi-1)×(Ni-di)/Ni –  Si la muestra es grande SKM aproximadamente gaussiano con varianza estimable –  KM propiedades deseables, si censura al azar

•  Pruebas con dos muestras: comparación de distribuciones –  Más generales que KM, porque no piden censura al azar –  Gehan: dos muestras {x1i} i=1...N {x2j} j=1...M se define Uij

•  WG=ΣiΣjUij •  Para muestras grandes es gaussiano con media 0 y varianza estimable

•  Otras pruebas para más muestras

+1 , x1i < x2 j (x1i puede estar censurado)

−1 , x1i > x2 j (x2 j puede estar censurado)

0 , x1i = x2 j (o indefinido)

"

#

$$

%

$$

&

'

$$

(

$$

Análisis de supervivencia II (Feigelson & Babu, 2012, CUP)

•  Correlaciones: normalmente generalizaciones de la τ de Kendall –  Permiten censura en ambas direcciones –  Helsel:

–  donde: •  nc: pares concordantes, teniendo en cuenta datos censurados •  nd: pares discordantes, teniendo en cuenta datos censurados •  nt,x, nt,y: empates o indeterminados

–  Cuando aumenta el número de datos censurados tanto el numerador como el denominador disminuyen

–  Significancia como para τ de Kendall pero ajustando por empates e indeterminados •  Correlaciones parciales: uso de la τ de Kendall generalizada

–  Que es asintóticamente gaussiana –  Si no seguro de suposiciones: simulaciones (bootstrap)

•  Y más, literatura muy abundante

τ H =nc − nd

N(N −1)2

− nt,x"

#$

%

&'

N(N −1)2

− nt,y"

#$

%

&'

τ12,3 =τ12 −τ13τ 231−τ 213( ) 1−τ 223( )

Índice 1.  Incertidumbres y errores

–  Incertidumbres en las medidas •  Errores en la medida: sistemáticos y estadísticos. Incertidumbres.

Distribuciones original y de la muestra. Momentos de una distribución. Medidas del valor central. Medidas de la dispersión. Puntos aislados.

–  Análisis de errores •  Propagación de errores. Barras de error asimétricas.

2.  Contrastes de hipótesis paramétricos y no paramétricos –  Comparación de dos distribuciones

•  Comparación de las medias. Comparación de las varianzas. Test χ2. Test de Kolmogorov-Smirnov. Comparación de distribuciones bidimensionales

•  Análisis de varianza: ANOVA •  Correlación lineal. Test no-paramétricos. Correlaciones parciales.

Variables con límites superiores e inferiores –  Significancia de una detección

•  Cociente señal-ruido. 3.  Modelado estadístico de datos

–  Métodos de máxima verosimilitud •  Modelos frente a datos. Verosimilitud. χ2: Introducción, Estimación de

parámetros. Bondad del ajuste. Incertidumbre en los parámetros. Regresión lineal.

•  Verosimilitud en régimen Poissoniano

Significancia de una detección

•  ¿Con qué nivel de confianza podemos decir que hemos detectado un efecto?

•  Se pueden usar los métodos anteriores de comparación de distribuciones si se tiene un modelo para la ausencia de señal (“ruido”)

•  Alternativamente: –  Escoger un estadístico y calcularlo para los datos reales –  Hacer simulaciones de la distribución en ausencia de señal –  Calcular el estadístico para las simulaciones –  Comparar estadístico observado con la distribución de estadísticos

simulados –  Si el valor observado es poco frecuente, es que los datos reales tienen

algo que no está en las simulaciones

Cociente señal ruido (SNR) I (≈Bradt 2004, http://www.eso.org/~ohainaut/ccd/sn.html)

•  Definido como el cociente entre la señal S y el ruido R : –  SNR=S/R

–  Trasfondo Gaussiano •  Situación: cuenta de fotones (Poisson) con números

suficientemente altos (Gauss) –  Señal medida a partir de diferencia entre cuentas totales T (=S+B) y

cuentas en el fondo B: S=T-B ⇒σ2S~σ2

T+σ2B

–  En estas circunstancias varianza σ2=N ⇒σ2S~σ2

T+σ2B=T+B=S+2B

•  Definiciones: –  Señal: tasa de cuentas rS, tiempo total t=nτ: S=nτrS

–  Ruido: diversos ingredientes en varianza •  De la propia fuente, varianza S= nτrS

•  Del fondo con tasa de cuentas rB, varianza 2B= 2nτrB

•  Del ruido de lectura rL, varianza = nrL2

⇒ R2=nτrS + 2nτrB + nrL2

•  Así que SNR=nτrS / √nτrS + 2nτrB + nrL

2

•  Se distinguen distintos regímenes: –  Fuente brillante: rS>> ⇒ SNR~√nτrS∝√t

•  Mejora aumentando el tiempo de exposición •  Problema más bien no saturar

–  Dominado por el fondo: rB>> ⇒ SNR~nτrS /√2nτrB∝√t=√nτ •  Mejora aumentando el tiempo de exposición •  Puede convenir n>> τ<< (si cielo puede saturar)

–  Dominado por el ruido de lectura rL>>: SNR~nτrS /rL√n∝τ/√n

•  Al contrario, conviene ahora τ>> con n<<

Cociente señal ruido (SNR) II (≈Bradt 2004, http://www.eso.org/~ohainaut/ccd/sn.html)