Upload
chechoapolo
View
218
Download
0
Embed Size (px)
Citation preview
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
1/63
Análisis Multivariado Básico
Mathias Bourel
IMERL - Facultad de Ingenieŕıa, Universidad de la República, Uruguay
18 de agosto de 2015
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 1 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
2/63
Presentación curso: Temario
Módulo 1: Modelos Lineales (regresión lineal simple, múltiple, multivariada, regresiónlógistica) (1 mes).
Módulo 2: Técnicas de reducción de la dimensión y estudio de base de datos (componentes
principales, análisis factorial, análisis de correspondencia, análisis discriminante, escaladomultidimensional) (1 mes).
Módulo 3: Introducción a las técnicas de Aprendizaje Automático (principios básicos,arboles de clasificación y regresión, support vector machines, bagging, boosting, randomforest) (1 mes).
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 2 / 49
http://find/http://goback/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
3/63
Presentación curso: Bibliograf́ıa
1 D. Peña, Analisis de Datos Multivariantes , Mac Graw Hill, 2002.
2 A. I. Izenman, Modern Multivariate Statistical Techniques , Springer, 2008.
3 F. Carmona, Modelos Lineales, Notas de curso, Universitat de Barcelona, 2003.
4 G. James, D. Witten, T. Hastie, R. Tibshirani, An Introduction to Statistical Learning withApplications in R , Springer, 2013.
5 B. S. Everitt y T. Hothorn, A Handbook of Statistical Analyses Using R , 2nd edition,Chapman & Hall/CRC, 2010.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 3 / 49
http://goforward/http://find/http://goback/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
4/63
Presentación curso: Aprobación
1 3 entregas de ejercicios (40 %)
2 Proyecto final (20 %)3 Defensa oral + oral teórico (40 %)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 4 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
5/63
Vector Aleatorio o Variable aleatoria vectorial
En las técnicas de Análisis Multivariado que trabajaremos en este curso usaremos bases de datosdonde:
en cada fila consideraremos individuos.
en cada columna un valor o una categoŕıa que toma el individuo para una caracteŕısticadeterminada.
Estas caracteŕısticas son realización de una variable aleatoria real x : Ω
→R.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 5 / 49
http://find/http://goback/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
6/63
Vector Aleatorio o Variable aleatoria vectorial
En las técnicas de Análisis Multivariado que trabajaremos en este curso usaremos bases de datosdonde:
en cada fila consideraremos individuos.
en cada columna un valor o una categoŕıa que toma el individuo para una caracteŕısticadeterminada.
Estas caracteŕısticas son realización de una variable aleatoria real x : Ω
→R.
x ∈ Rp : x = (x 1, x 2, . . . , x p ) donde cada x i : Ω → R es una variable aleatoria real.Pueden ser discretas, continuas o mixta. Por ejemplo:
x = (x 1, x 2) ∈ R2 donde x 1=edad, x 2=peso (discreta).x = (x 1, x 2, x 3) ∈ R3 donde x 1=temperatura, x 2=presión atm, x 3=humedad (continua).x = (x 1, x 2, x 3) ∈ R3 donde x 1=sexo (0 o 1), x 2=edad, x 3=peso (mixta).
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 5 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
7/63
Base de datos supervisadas y no supervisadas
1
Supervisado. Son bases de datos del tipoX |Y
con X ∈ Mn×p e Y ∈ Mn×1 (etiqueta).Usaremos este tipo de bases de datos para hacer inferencia y construir un predictor f quedada una nueva observación pueda predecir una categoŕıa o un valor habiendo aprendido delas observaciones de la base de dato.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 6 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
8/63
Base de datos supervisadas y no supervisadas
1
Supervisado. Son bases de datos del tipoX |Y
con X ∈ Mn×p e Y ∈ Mn×1 (etiqueta).Usaremos este tipo de bases de datos para hacer inferencia y construir un predictor f quedada una nueva observación pueda predecir una categoŕıa o un valor habiendo aprendido delas observaciones de la base de dato.
Ejemplo: Modelos lineales, Análisis Discriminante, Técnicas de aprendizaje supervisado(CART, SVM, Métodos de agregación).
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 6 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
9/63
Base de datos supervisadas y no supervisadas
1
Supervisado. Son bases de datos del tipoX |Y
con X ∈ Mn×p e Y ∈ Mn×1 (etiqueta).Usaremos este tipo de bases de datos para hacer inferencia y construir un predictor f quedada una nueva observación pueda predecir una categoŕıa o un valor habiendo aprendido delas observaciones de la base de dato.
Ejemplo: Modelos lineales, Análisis Discriminante, Técnicas de aprendizaje supervisado(CART, SVM, Métodos de agregación).
2 No supervisado. Son bases de datos del tipo
X
con X
∈ Mn×p
Usaremos este tipo de bases de datos para reducir la cantidad de variables consideradas,encontrar determinados patrones, hacer agrupamientos,...
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 6 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
10/63
Base de datos supervisadas y no supervisadas
1
Supervisado. Son bases de datos del tipoX |Y
con X ∈ Mn×p e Y ∈ Mn×1 (etiqueta).Usaremos este tipo de bases de datos para hacer inferencia y construir un predictor f quedada una nueva observación pueda predecir una categoŕıa o un valor habiendo aprendido delas observaciones de la base de dato.
Ejemplo: Modelos lineales, Análisis Discriminante, Técnicas de aprendizaje supervisado(CART, SVM, Métodos de agregación).
2 No supervisado. Son bases de datos del tipo
X
con X
∈ Mn×p
Usaremos este tipo de bases de datos para reducir la cantidad de variables consideradas,encontrar determinados patrones, hacer agrupamientos,...
Ejemplo: Análisis Factorial (ACP, AF, ACS, ACM), Cluster, Estimación de la densidad.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 6 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
11/63
Distribución conjunta de una variable aleatoria vectorial
Sea x = (x 1, . . . , x p ) ∈ Rp
una VA vectorial.Función de distribución:
F x(x 0) = P(x ≤ x 0) = P(x 1 ≤ x 01 , x 2 ≤ x 02 , . . . , x p ≤ x 0p )
Si x es discreta, entonces p (x 0) = P(x = x 0) = P(x 1 = x 01 , x 2 = x 02 , . . . , x p = x
0p )
Decimos que x es absolutamente continua, si existe una función f : RP
→R no negativa
con Rp f (x) d x = 1 tal queF x(x
0) =
x 0−∞
f (x) d x =
x 01−∞
x 02−∞
. . .
x 0p −∞
f (x 1, . . . , x p ) dx 1 dx 2 . . . dx p
Si x es escalar y absolutamente continua, entonces
p (x 0
) =Px ∈ [x 0 − ∆x 2 , x 0 + ∆x 2 ] = x
0+ ∆x 2
x 0−∆x 2 f (t ) dt ≈ f (x 0
)∆x En general si x es vectorial p (x 0) = f (x 0)∆x, siendo ∆x el elemento de volumen.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 7 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
12/63
Aplicación: clasificación bayesiana
Supongamos que trabajamos con una población P con densidad f que se puede subdividir en dossubpoblaciones P 1 y P 2 y sea α la proporción de P en P 2. Entonces la probabilidad de observar x es
p (x ) = P(1)p (x |P 1) + P(2)p (x |P 2)f (x )∆x = P(1)f 1(x )∆x + P(2)f 2(x )∆x
y simplificando por ∆x se tiene que
f (x ) = (1 − α)f 1(x ) + αf 2(x )que es una mezcla de dos densidades.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 8 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
13/63
Aplicación: clasificación bayesiana
Entonces utilizando la formula de Bayes:
P(P 1|x ) = P(P 1)p (x |P 1)p (x )
= (1− α)f 1(x )
f (x ) P(P 2|x ) = P(P 2)p (x |P 2)
p (x ) =
αf 2(x )
f (x )
Decidimos P 1 siP(P 1|x ) > P(P 2|x )
y si suponemos que α = 12 , entonces dedidimos P 1 si
f 1(x ) > f 2(x )
La probabilidad de cometer un error para una observación x es P(error |x ) = P(P 1|x ) sidecidimos P 2 o P(error |x ) = P(P 2|x ) si decidimos P 1.Entonces P(error |x ) = mı́n{P(P 1|x ),P(P 2|x )}La probabilidad del error global es ḿınima si y sólo si la probabilidad de cometer un error en cada
observación es ḿınima.La regla de decisión bayesiana toma la decisión que minimiza la probabilidad de error.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 9 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
14/63
Distribuciones marginales y condicionadas
DISTRIBUCIONES MARGINALES:
x = (x 1, x 2) ∈ R2 con distribución conjunta f x 1,x 2 entonces
f x 1 (x 1) =
R
f x 1,x 2 (x 1, x 2) dx 2 f x 2 (x 2) =
R
f x 1,x 2 (x 1, x 2) dx 1
y con abuso de notación:
f (x 1) =
R
f (x 1, x 2) dx 2 f (x 2) =
R
f (x 1, x 2) dx 1
R
f x 1 (x 1) dx 1 = R
f x 2 (x 2) dx 2 = 1
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 10 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
15/63
Distribuciones marginales y condicionadas
DISTRIBUCIONES CONDICIONADAS:
Sea el vector aleatorio X = (x1, x2) ∈ Rp ×2. Definimos la distribución condicionada de x1para un valor de x2 = x
02
como
f (x1|x2 = x02) = f (x1, x
02
)
f (x02
)suponiendo que f (x02) = 0
Esto es consistente con el concepto de probabilidad condicionada, pues, suponiendo que lasvariables x1 y x2 son escalares
f (x 1|x 02 )∆x 1 P(x 1|x
02 )
= f (x 1, x
02 )∆x 1∆x 2
f (x 02 )∆x 2 P(x 1,x
02 )
P(x 02 )
Entoncesf (x1, x2) = f (x1|x2)f (x2) f (x1, x2) = f (x2|x1)f (x1)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 11 / 49
Di ib i i l di i d
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
16/63
Distribuciones marginales y condicionadas
La distribución marginal de x2 se puede calcular como
f (x2) =
f (x2|x1)f (x1)d x1
Observar que si multiplicamos por ∆x2 esto se puede interpretar como
f (
x2)∆
x2 = f (x2|x1)f (x1)d x1∆x2
p (x2) =
f (x2|x1)∆x2 p (x2|x1)
f (x1)∆x1 p (x1)
FORMULA DE BAYES:
f (x1|x2) = f
(x
2|x
1)f
(x
1)f (x2) =
f (
x2|
x1)
f (
x1) f (x2|x1)f (x1 )d x1
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 12 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
17/63
Ej l
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
18/63
Ejemplo
Distribución condicionada de los votos por personas con nivel de ingreso B:
c 1 c 2 c 3 c 4
B 0,010,2
= 0,05 0,040,2
= 0,2 0,070,2
= 0,35 0,080,2
= 0,4
Distribución condicionada de los ingresos por votantes del candidato c 4:
A M B
c 40,010,19
= 0,0526 0,10,19
= 0,5263 0,080,19
= 0, 4211
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 14 / 49
Independencia de ectores aleatorios
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
19/63
Independencia de vectores aleatorios
x1 y x2 son independientes sif (x2|x1) = f (x2)
lo cual equivale a
f (x1, x2) = f (x1)f (x2)Notación: x1 ⊥ x2Observación: si x1 ⊥ x2 entonces g 1(x1) = y1 ⊥ y2 = g 2(x2)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 15 / 49
Vector de medias
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
20/63
Vector de medias
Sea x = (x 1, . . . , x p ) una VA en Rp . El vector de medias es
E(x) = µ =
µ1
...µp
=
E(x 1)...
E(x p )
Proposición 1
E(Ax + b) = AE(x) + b siendo A una matriz y b un vector.
Si x = (x1, x2) y a, b ∈ R entonces E(ax1 + b x2) = aE(x1) + b E(x2 )
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 16 / 49
Esperanza de una función
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
21/63
Esperanza de una funcion
Suponemos que y = g (x) con g una función escalar y x un vector aleatorio. Entonces
E(y ) = yf (y )dy = . . . g (x)f (x 1, . . . , x p ) dx 1 . . . , dx p
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 17 / 49
Matriz de varianzas y covarianzas
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
22/63
Matriz de varianzas y covarianzas
Sea x = (x 1, . . . , x p ) una VA en Rp . Su matriz de varianzas y covarianzas es la matriz cuadarada
Var (x) = V x = E[(x− µ)(x − µ)′] ∈Mp ×p
V x =
σ21 s 12 . . . s 1p
s 12 σ22 . . . s 2p ...
. . ....
s 1p s 2p . . . σ2p
siendo
σ2i = Var (x i ), s ij = Cov (x i , x j ) = E(x i x j )− E(x i )E(x j )
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 18 / 49
Matriz de varianzas y covarianzas
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
23/63
Matriz de varianzas y covarianzas
Propiedades:
1 V x es simétrica (es claro)
2 V x es semidefinida positiva, es decir para todo w ∈ Rp se tiene que w′V x w ≥ 0.
En efecto, sea w ∈Rp
y defino y = (x− µ)′
w ∈R
. EntoncesE(y ) = E((x− µ)′w) = E((x − µ))′w = 0
Por lo tantoVar (y ) = E(y 2) = w′E((x − µ)(x − µ)′)w = w′V x w ≥ 0
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 19 / 49
Transformación de vectores aleatorios
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
24/63
Transformacion de vectores aleatorios
Sea x = (x 1, . . . , x p ) un vector aleatorio de Rp con densidad f x (x) y sea otro vector aleatorio
y = (y 1, . . . , y p ) ∈ Rp definido por
y 1 = g 1(x 1, . . . , x p )y 2 = g 2(x 1, . . . , x p )
..
.y p = g p (x 1, . . . , x p )
donde suponemos que existen las funciones inversas x 1 = h1(y 1, . . . , y p ), . . . , x p = hp (y 1, . . . , y p ),siendo g 1, . . . , g p , h1, . . . , hp diferenciables.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 20 / 49
Transformación de vectores aleatorios
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
25/63
Transformacion de vectores aleatorios
Entonces puede demostrarse (regla del Jacobiano) que:
f y (y) = f x (x)
det
∂ x 1∂ y 1
. . . . . . ∂ x 1
∂ y p
......
∂ x p
∂ y
1
. . . . . .∂ x p
∂ y
p
Caso particular. Supongamos que y = Ax siendo A ∈Mp ×p invertible. Entoncesf y (y) = f x (A
−1y)| det(A−1)|
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 21 / 49
Esperanza y varianza de transformaciones lineales
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
26/63
Esperanza y varianza de transformaciones lineales
Supongamos que y = Ax siendo A ∈ Mp ×p . EntoncesProposición 2
1 µy = Aµx
2 V y = AV x A′
Demostración.
1 Ya lo vimos.
2 V y = E((y − µy )(y − µy )′)= E(A(x − µx )(x − µx )′A′) = AE((x − µx )(x − µx )′)A′ = AV x A′
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 22 / 49
Esperanza condicionada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
27/63
p
La esperanza de x1 condicionada a x2 es:
E(x1|x2) =
x1f (x1|x2) d x1
y es una función de x2.Si x2 es un valor fijo entonces E(x1|x2) es constante.Si x2 es un variable aleatoria entonces E(x1|x2) es una variable aleatoria.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 23 / 49
Esperanza condicionada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
28/63
p
Proposición 3
Se cumple que E(x1) = E
E(x1|x2)
y la esperanza de la media condicionada es la esperanza marginal
Demostración:E(x1) =
x1f (x1)d x1 =
x1
f (x1 |x2)f (x2)d x2
d x1
=
x1f (x1|x2)f (x2)d x1d x2 =
f (x2)
x1f (x1|x2)d x1
d x2
= f (x2)E(x1|x2)d x2 = EE(x1|x2)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 24 / 49
Varianza condicionada
http://goforward/http://find/http://goback/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
29/63
La varianza de x1 condicionada a x2 es la varianza de la distribución de x1 condicionada a x2:Var (x1|x2) = V 1|2
Esta matriz tiene las propiedades de una matriz de varianzas y covarianzas.
Supongamos que x1 = x 1 es escalar. Entonces si µ1 = E(x 1) se tiene que:
x 1
−µ1 = x 1
−E(x 1
|x2) + E(x 1
|x2)
−µ1
⇒ E(x 1 − µ1)2 = E(x 1 −E(x 1|x2) + E(x 1|x2)− µ1)2= E
(x 1 −E(x 1|x2))2
+ E
(E(x 1|x2)− µ1)2
+2E(x 1 −E(x 1|x2)(E(x 1|x2 − µ1)
=0 (ejercicio)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 25 / 49
Descomposición de la varianza
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
30/63
E
(x 1 − µ1)2
(C )
= E
(x 1 −E(x 1|x2))2
(A)
+E
(E(x 1|x2)− µ1)2
(B )
Recordar que var (z ) = E
(z − E(z ))2
entonces:
(C ) : como µ1 = E(x 1) entonces E(x 1 − µ1)2 = var (x 1)(B ) : como µ1 = E(E(x 1|x2)) entonces E
(E(x 1|x2)− µ1)2
= var (E(x 1|x2))
(A) : como (x 1 −E(x 1|x2))2 = var (x 1|x2) entonces E
(x 1 − E(x 1|x2))2
= E(var (x 1|x2))Por lo tanto
var (x 1) = E(var (x 1|x2)) + var (E(x 1|x2))
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 26 / 49
Descomposición de la varianza
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
31/63
var (x 1) = E(var (x 1|x2)) + var (E(x 1|x2))El primer termino promedia las varianzas de las distribuciones condicionadas. El segundo terminorecoge las diferencias entre la media global µ1 y las medias condicionadas.
Si x 1 ⊥ x2 entonces
E(x 1|x2) = x 1f (x 1|x2) dx 1 = x 1f (x 1) dx 1 = E(x 1) = µ1y por lo tanto el segundo miembro var (E(x 1|x2)) = 0En modelos lineales univariantes, si x es la media global:
1
n (x i − x )2 =
1
n (x i −
x i )
2 + 1
n (
x i − x )2
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 27 / 49
Matriz de correlación
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
32/63
Sea x ∈ Rp vector aleatorio con matriz de covarianzas V x . La matriz de correlación se define porR x = D
−1/2V x D −1/2
donde D = diag (σ21 , . . . , σ2p )
R x ∈ Mp ×p es simétrica y definida positiva.
r ij = s ij
σi σ j ∀ i , j = 1 . . . , p Coeficiente de correlación lineal
r ij = s ij
σi σ j =
cov (x i , x j ) var (x i )
var (x j )
∈ [−1, 1] ∼ (coseno)
r ij = 1
↔ ∃a
∈R tal que x i
−x i = a(x j
−x j )
Si r ij = 0 eso no significa que ho haya relación entre las variables, solo que no es lineal.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 28 / 49
Distribución binomial
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
33/63
1 Queremos clasificar en dos clases A y B . Supongamos que P(A) = p (= cte ). La variablealeatoria considerada es
x =
1, si la observacíon pertenece a A0, si la observación no pertenece a A
Entonces x ∼ Ber (p ) con P(x = 1) = p y P(x = 0) = 1 − p .2 Supongamos que repetimos independientemente este experimento y tenemos n
observaciones x 1, x 2, . . . , x n. Defino y =n
i =1x i con x i ∼ Ber (p ). Se tiene que
P(y = r ) = n!
r !(n − r )! p r (1− p )n−r ∀ r = 0, . . . , n
Entonces y ∼ Bin(n, p )
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 29 / 49
Distribución multinomial
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
34/63
Supongamos que ahora tenemos G clases y p = (p 1, . . . , p G ) es un vector de probabilidad
(G
g =1p g = 1). Definimos
x j =
1, si la observación pertenece a G j
0, si la observacíon no pertenece a G j ∀ j = 1, . . . , G
Entonces x = (x 1, . . . , x G ) es de la forma (0, . . . , 0, 1, 0, . . . , 0). Las componentes de esta
variable aleatoria no son independientes puesG
j =1x j = 1, su distribución se llama
multinomial puntual y tiene como función de probabilidad
P(x 1, . . . , x G ) = p x 11 . . . p
x G G
y la probabilidad de que la j -esima coordenada sea 1 es p j .
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 30 / 49
Distribución multinomial
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
35/63
Sea x = (x1, . . . , xn) una muestra de n vectores de esta VA multinomial puntual. Por lotanto esto es equivalente a clasificar n elementos de una muestra en G clases. Llamamosdistribuci´ on multinomial a la distribución del vector
y =n
i =1
xi
Las componentes del vector y corresponden a las frecuencias con que se observan cada claseen la muestra:
y i ∈ {0, 1, . . . , n}G
i =1 y
i = n
P(y 1 = n1, . . . , y G = nG ) = n!
n1! . . . nG !p
n11 . . . p
nG G
n =G
i =1
ni
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 31 / 49
Distribución multinomial
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
36/63
Sea x = (x1, . . . , xn) una muestra de n vectores de esta VA multinomial puntual. Por lotanto esto es equivalente a clasificar n elementos de una muestra en G clases. Llamamosdistribuci´ on multinomial a la distribución del vector
y =n
i =1
xi
Las componentes del vector y corresponden a las frecuencias con que se observan cada claseen la muestra:
y i ∈ {0, 1, . . . , n}
G
i =1 y i = nP(y 1 = n1, . . . , y G = nG ) =
n!
n1! . . . nG !p
n11 . . . p
nG G
n =G
i =1
ni
Si y tiene distribución multinomial notamos:
y ∼ Mult (n, p)En este caso (ejercicio):
1 E(y) = np = µy
2 Var (y) = n(diag (p) − pp′) = diag (µy )− 1n µy µ′y
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 31 / 49
Distribución multinomial (ejemplo)
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
37/63
10 personas votan por 4 candidatos con probabilidades
P(1) = 1
2, P(2) = P(3) =
1
8, P(4) =
1
4
Calcular la probabilidad que (y 1, y 2, y 3, y 4) = (6, 1, 2, 1):
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 32 / 49
Distribución multinomial (ejemplo)
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
38/63
10 personas votan por 4 candidatos con probabilidades
P(1) = 1
2, P(2) = P(3) =
1
8, P(4) =
1
4
Calcular la probabilidad que (y 1, y 2, y 3, y 4) = (6, 1, 2, 1):
P(y 1 = 6, y 2 = 1, y 3 = 2, y 4 = 1) = 10!
6!1!2!1!
1
2
6 18
1 18
2 14
1
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 32 / 49
Normal univariada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
39/63
Recordamos:
1 la densidad de una normal univariada t́ıpica
f (x ) = 1√
2πe −
12
x 2
y escribimos x ∼ N (0, 1)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 33 / 49
Normal univariada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
40/63
Recordamos:
1 la densidad de una normal univariada t́ıpica
f (x ) = 1√
2πe −
12
x 2
y escribimos x ∼ N (0, 1)2 la densidad de una normal univariada
f (x ) =
1
√ 2πσ e − 12
x −µσ
2
y escribimos x ∼ N (µ, σ2)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 33 / 49
Normal univariada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
41/63
Recordamos:
1 la densidad de una normal univariada t́ıpica
f (x ) = 1√
2πe −
12
x 2
y escribimos x ∼ N (0, 1)2 la densidad de una normal univariada
f (x ) =
1
√ 2πσ e − 12
x −µσ
2
y escribimos x ∼ N (µ, σ2)
Observaciones:Si σ es grande el pico de la gaussiana es chico y si σ es chico el pico de la gaussiana esgrande.
Si x ∼ N (µ, σ2) entonces z = x −µσ ∼ N (0, 1).
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 33 / 49
Normal univariada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
42/63
−15 −10 −5 0 5 10
0 . 0 0
0 . 0
5
0 . 1
0
0 . 1
5
N(0,3) y N(0,1)
N = 100000 Bandwidth = 0.2705
D e n s i t y
Figura: En negro N (0, 3) y en rojo N (0, 1)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 34 / 49
Normal univariada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
43/63
P(µ−σ
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
44/63
Decimos que x = (x 1, . . . , x d ) es gaussiana t́ıpica en Rd si tiene densidad conjunta
f x (x) = 1
(2π)d 2
e −12||x||2
Notación:
x ∼ N (0Rd
, I d )
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 36 / 49
Normal multivariada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
45/63
Decimos que x = (x 1, . . . , x d ) es gaussiana t́ıpica en Rd si tiene densidad conjunta
f x (x) = 1
(2π)d 2
e −12||x||2
Notación:
x ∼ N (0Rd
, I d )
Decimos que y es gaussiana en Rd o normal multivariada con media µ ∈ Rd y matriz decovarianza Σ = AA′ siendo A ∈ Md ×d si y tiene la misma distribución que µ + Ax conx ∼ N (0
Rd , I d ).
Notación:y ∼ N (µ, Σ)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 36 / 49
Normal multivariada: ejemplo
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
46/63
Sea x = (x 1, x 2) ∼ N (0R2 , I 2)
Si defino
y = 11 + 1 01 1 x 1x 2 Entonces
y ∼ N
11
,
1 1
1 2
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 37 / 49
Normal bivariada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
47/63
library(mvtnorm) library(MASS)
x
y
d e n s i t y
f u
n c t i o n
Figura: N (µ, Σ) con µ = (0, 0) y Σ =
1 00 1
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 38 / 49
Densidad de una normal N (µ,Σ)
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
48/63
Si y es gaussiana en Rd , y ∼ N (µ, Σ) con Σ = AA′ e y = µ + Ax entoncesy = Q (x)
con Q : Rd → Rd definida por Q (x) = µ + Ax.
1
Si y = Ax entonces f y (x ) = f x (A
−1
x )|det (A)
−1
|M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 39 / 49
Densidad de una normal N (µ,Σ)
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
49/63
Si y es gaussiana en Rd , y ∼ N (µ, Σ) con Σ = AA′ e y = µ + Ax entoncesy = Q (x)
con Q : Rd → Rd definida por Q (x) = µ + Ax.
Supongamos que A es invertible, entonces Q es biyectiva, J Q = det(A) y por lo tanto, por el
teorema del Jacobiano 1
, Y es absolutamente continua con densidad:
f y (x) = f Q (x )(x) = Φd (A−1(x− µ)) 1
det(Σ)=
1
(2π)d /2
det(Σ)e −
12 ||A
−1(x−µ)||2
= 1
(2π)d /2
det(Σ)
e −12
(A−1(x−µ))′A−1 (x−µ) = 1
(2π)d /2
det(Σ)
e −12
(x−µ)′Σ−1 (x−µ)
1
Si y = Ax entonces f y (x ) = f x (A
−1
x )|det (A)
−1
|M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 39 / 49
Normal multivariada (teoremas)
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
50/63
Se puede probar:
1 Si x = (x 1, . . . , x d ) ∼ N (µ, Σ) entonces x 1, . . . , x d independientes si y sólo si sonincorrelacionadas (es decir Σ es una matriz diagonal).
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 40 / 49
Normal multivariada (teoremas)
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
51/63
Se puede probar:
1 Si x = (x 1, . . . , x d ) ∼ N (µ, Σ) entonces x 1, . . . , x d independientes si y sólo si sonincorrelacionadas (es decir Σ es una matriz diagonal).
Es bien conocido que si x 1, . . . , x d son independientes entonces x 1, . . . , x d estánincorrelacionadas y esto implica que la matriz de varianzas del vector x = (x 1, . . . , x d )es diagonal.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 40 / 49
Normal multivariada (teoremas)
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
52/63
Se puede probar:
1 Si x = (x 1, . . . , x d ) ∼ N (µ, Σ) entonces x 1, . . . , x d independientes si y sólo si sonincorrelacionadas (es decir Σ es una matriz diagonal).
Es bien conocido que si x 1, . . . , x d son independientes entonces x 1, . . . , x d estánincorrelacionadas y esto implica que la matriz de varianzas del vector x = (x 1, . . . , x d )es diagonal.
El rećıproco no es siempre cierto en general, pero si x es gaussiano se cumple, pues
f x(x ) =d
i =1
f x i (x i )
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 40 / 49
Normal multivariada (teoremas)
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
53/63
Se puede probar:
1 Si x = (x 1, . . . , x d ) ∼ N (µ, Σ) entonces x 1, . . . , x d independientes si y sólo si sonincorrelacionadas (es decir Σ es una matriz diagonal).
Es bien conocido que si x 1, . . . , x d son independientes entonces x 1, . . . , x d estánincorrelacionadas y esto implica que la matriz de varianzas del vector x = (x 1, . . . , x d )es diagonal.
El rećıproco no es siempre cierto en general, pero si x
es gaussiano se cumple, pues
f x(x ) =d
i =1
f x i (x i )
2 Si x1, . . . , xn es una sucesión de vectores aleatorios i.i.d, con E (x1) = µ y matriz decovarianzas Σ entonces
1√ n
ni =1
(xi − µ) D −→n
N d (0Rd , Σ)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 40 / 49
Distribución normal bivariada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
54/63
La distribución normal de un vector (x 1, x 2) de media µ = (µ1, µ2) y matriz de covarianza
Σ =
σ21 cov (x 1, x 2)
cov (x 2, x 1) σ22
tiene como densidad
f (x 1,x 2)(x 1, x 2) = 1
(√
2π)2
det(Σ)exp
−1
2(x 1 − µ1 x 2 − µ2)Σ−1
x 1 − µ1
x 2 − µ2
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 41 / 49
Normal multivariada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
55/63
−2 −1 0 1 2 3
− 4
− 2
0
2
4
X_1
X_
2
Figura: Σ =
1 0
0 1
P(X 2 > 0|X 1 > 2) = P(X 2 > 0)
−2 −1 0 1 2
− 3
− 2
− 1
0
1
2
3
X_1
X_
2
Figura: Σ =
1 0,80,8 1
P(X 2 > 0|X 1 > 2) > P(X 2 > 0)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 42 / 49
Normal Multivariada (propiedades)
http://find/http://goback/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
56/63
Sea x ∼ N (µ, Σ) entonces tenemos las siguientes propiedades:1 La distribución es simétrica alrededor de µ.
Esto es porque f (µ + a) = f (µ − a).2 La distribución tiene un único máximo en µ.
Al ser Σ definida positiva, el término del exponente (x−
µ)′Σ−1(x−
µ) es siempre positivo,y f (x) es máxima cuando este término es nulo, o sea si x = µ.
3 La media es µ y la matriz de varianzas-covarianzas es Σ.
4 Las distribuciones marginales son normales.
5 Si x ∈ Rd es normal y A ∈Mk ×d es una matriz entonces y = Ax ∈ Rk es normal.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 43 / 49
Test normalidad en R
http://find/http://goback/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
57/63
Nos preguntamos si los datos tienen distribución normal. Para eso podemos recurrir a laadaptación del test de normalidad de Shapiro-Wilk para datos multivariados.
library(mvnormtest)
x=iris[,1:4]x=as.matrix(x)mshapiro.test(t(x))
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 44 / 49
Normal Multivariada
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
58/63
Si cortamos con hiperplanos paralelos a las p variables, se obtienen curvas de nivel 2 cuyaecuación es
(x − µ)′Σ−1(x− µ) = cte (elipsoides)y define entonces una medida de la distancia de x al centro µ.Esta medida se llama distancia de Mahalanobis y
D 2 = (x − µ)′Σ−1(x− µ)Supongamos que tenemos dos normales N (0, 1) y N (10, 102). Sea x = 3, entonces:
1 La distancia euclidea de x = 3 a 1 es más corta que la distancia de 3 a 10.2 La distancia de Mahalanobis de x = 3 a la distribución que tiene desviación t́ıpica 1 es
(3− 0)1(3 − 0) = 93 La distancia de Mahalanobis de x = 3 a la distribución que tiene desviación t́ıpica 10 es
(3− 10) 1100
(3− 10) = 0,49Con la distancia de Mahalanobis, el punto x = 3 está más cerca de la segunda distribución. Esmás probable que provenga de ella (lo veremos en breve).La distancia de Mahalanobis se distribuye como una χ2(p )
2La curva de nivel α de una funcón f : Rd → R se define como Cα = {x ∈ Rd : f (x) = α}
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 45 / 49
Distribuciones mezcladas
M h l d t lti i t i d bl i di ti t Si
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
59/63
Muchas veces los datos multivariantes provienen de poblaciones distintas. Si suponemos quetenemos G poblaciones, entonces
P(x ∈ A) =G
i =1
P(x ∈ A, x ∈ i ) =G
i =1
P(x ∈ A|x ∈ i )P(x ∈ i ) =G
i =1
πi P(x ∈ A|x ∈ i )
y por lo tanto la función de densidad de la población es
f (x) =G
i =1
πi f i (x)
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 46 / 49
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
60/63
M e z c l a
M.B o
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
61/63
d e n or m al e s m ul t i v
ar i a d a s
−2
−1
0
1
2
0.0 0.1 0.2 0.3 0.4 0.5 0.6
x
densidad
−4
−2
0
2
4
0.00 0.05 0.10 0.15 0.20
x
densidad
−4
0
0.0 0.1 0.2 0.3 0.4
x
densidad
o ur el ( I ME R L
, U d el aR )
An´ al i s i s M ul t i v ar i a d o
B́ a s i c o
Mezcla de normales multivariadas
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
62/63
b i v n .k d e
Y
Z
Mezcla de tres normales
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 48 / 49
Referencias
http://find/
8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas
63/63
D. Peña, Analisis de Datos Multivariantes , Mac Graw Hill, 2002.
A. I. Izenman, Modern Multivariate Statistical Techniques , Springer, 2008.
M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 49 / 49
http://find/