Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas

8/18/2019 Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas

1/63

Análisis Multivariado Básico

Mathias Bourel

IMERL - Facultad de Ingenieŕıa, Universidad de la República, Uruguay

18 de agosto de 2015

M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 1 / 49

http://find/


2/63

Presentación curso: Temario

Módulo 1: Modelos Lineales (regresión lineal simple, múltiple, multivariada, regresiónlógistica) (1 mes).

Módulo 2: Técnicas de reducción de la dimensión y estudio de base de datos (componentes

principales, análisis factorial, análisis de correspondencia, análisis discriminante, escaladomultidimensional) (1 mes).

Módulo 3: Introducción a las técnicas de Aprendizaje Automático (principios básicos,arboles de clasificación y regresión, support vector machines, bagging, boosting, randomforest) (1 mes).


http://find/http://goback/


3/63

Presentación curso: Bibliograf́ıa

1 D. Peña, Analisis de Datos Multivariantes , Mac Graw Hill, 2002.

2 A. I. Izenman, Modern Multivariate Statistical Techniques , Springer, 2008.

3 F. Carmona, Modelos Lineales, Notas de curso, Universitat de Barcelona, 2003.

4 G. James, D. Witten, T. Hastie, R. Tibshirani, An Introduction to Statistical Learning withApplications in R , Springer, 2013.

5 B. S. Everitt y T. Hothorn, A Handbook of Statistical Analyses Using R , 2nd edition,Chapman & Hall/CRC, 2010.


http://goforward/http://find/http://goback/


4/63

Presentación curso: Aprobación

1 3 entregas de ejercicios (40 %)

2 Proyecto final (20 %)3 Defensa oral + oral teórico (40 %)


http://find/


5/63

Vector Aleatorio o Variable aleatoria vectorial

En las técnicas de Análisis Multivariado que trabajaremos en este curso usaremos bases de datosdonde:

en cada fila consideraremos individuos.

en cada columna un valor o una categoŕıa que toma el individuo para una caracteŕısticadeterminada.

Estas caracteŕısticas son realización de una variable aleatoria real x : Ω

→R.




6/63

Vector Aleatorio o Variable aleatoria vectorial

En las técnicas de Análisis Multivariado que trabajaremos en este curso usaremos bases de datosdonde:

en cada fila consideraremos individuos.

en cada columna un valor o una categoŕıa que toma el individuo para una caracteŕısticadeterminada.

Estas caracteŕısticas son realización de una variable aleatoria real x : Ω

→R.

x ∈ Rp : x = (x 1, x 2, . . . , x p ) donde cada x i : Ω → R es una variable aleatoria real.Pueden ser discretas, continuas o mixta. Por ejemplo:

x = (x 1, x 2) ∈ R2 donde x 1=edad, x 2=peso (discreta).x = (x 1, x 2, x 3) ∈ R3 donde x 1=temperatura, x 2=presión atm, x 3=humedad (continua).x = (x 1, x 2, x 3) ∈ R3 donde x 1=sexo (0 o 1), x 2=edad, x 3=peso (mixta).


http://find/


7/63

Base de datos supervisadas y no supervisadas

1

Supervisado. Son bases de datos del tipoX |Y

con X ∈ Mn×p e Y ∈ Mn×1 (etiqueta).Usaremos este tipo de bases de datos para hacer inferencia y construir un predictor f quedada una nueva observación pueda predecir una categoŕıa o un valor habiendo aprendido delas observaciones de la base de dato.


http://find/


8/63


1



Ejemplo: Modelos lineales, Análisis Discriminante, Técnicas de aprendizaje supervisado(CART, SVM, Métodos de agregación).


http://find/


9/63


1




2 No supervisado. Son bases de datos del tipo

X

con X

∈ Mn×p

Usaremos este tipo de bases de datos para reducir la cantidad de variables consideradas,encontrar determinados patrones, hacer agrupamientos,...


http://find/


10/63


1




2 No supervisado. Son bases de datos del tipo

X

con X

∈ Mn×p

Usaremos este tipo de bases de datos para reducir la cantidad de variables consideradas,encontrar determinados patrones, hacer agrupamientos,...

Ejemplo: Análisis Factorial (ACP, AF, ACS, ACM), Cluster, Estimación de la densidad.


http://find/


11/63

Distribución conjunta de una variable aleatoria vectorial

Sea x = (x 1, . . . , x p ) ∈ Rp

una VA vectorial.Función de distribución:

F x(x 0) = P(x ≤ x 0) = P(x 1 ≤ x 01 , x 2 ≤ x 02 , . . . , x p ≤ x 0p )

Si x es discreta, entonces p (x 0) = P(x = x 0) = P(x 1 = x 01 , x 2 = x 02 , . . . , x p = x

0p )

Decimos que x es absolutamente continua, si existe una función f : RP

→R no negativa

con Rp f (x) d x = 1 tal queF x(x

0) =

x 0−∞

f (x) d x =

x 01−∞

x 02−∞

. . .

x 0p −∞

f (x 1, . . . , x p ) dx 1 dx 2 . . . dx p

Si x es escalar y absolutamente continua, entonces

p (x 0

) =Px ∈ [x 0 − ∆x 2 , x 0 + ∆x 2 ] = x

0+ ∆x 2

x 0−∆x 2 f (t ) dt ≈ f (x 0

)∆x En general si x es vectorial p (x 0) = f (x 0)∆x, siendo ∆x el elemento de volumen.


http://find/


12/63

Aplicación: clasificación bayesiana

Supongamos que trabajamos con una población P con densidad f que se puede subdividir en dossubpoblaciones P 1 y P 2 y sea α la proporción de P en P 2. Entonces la probabilidad de observar x es

p (x ) = P(1)p (x |P 1) + P(2)p (x |P 2)f (x )∆x = P(1)f 1(x )∆x + P(2)f 2(x )∆x

y simplificando por ∆x se tiene que

f (x ) = (1 − α)f 1(x ) + αf 2(x )que es una mezcla de dos densidades.


http://find/


13/63

Aplicación: clasificación bayesiana

Entonces utilizando la formula de Bayes:

P(P 1|x ) = P(P 1)p (x |P 1)p (x )

= (1− α)f 1(x )

f (x ) P(P 2|x ) = P(P 2)p (x |P 2)

p (x ) =

αf 2(x )

f (x )

Decidimos P 1 siP(P 1|x ) > P(P 2|x )

y si suponemos que α = 12 , entonces dedidimos P 1 si

f 1(x ) > f 2(x )

La probabilidad de cometer un error para una observación x es P(error |x ) = P(P 1|x ) sidecidimos P 2 o P(error |x ) = P(P 2|x ) si decidimos P 1.Entonces P(error |x ) = mı́n{P(P 1|x ),P(P 2|x )}La probabilidad del error global es ḿınima si y sólo si la probabilidad de cometer un error en cada

observación es ḿınima.La regla de decisión bayesiana toma la decisión que minimiza la probabilidad de error.


http://find/


14/63

Distribuciones marginales y condicionadas

DISTRIBUCIONES MARGINALES:

x = (x 1, x 2) ∈ R2 con distribución conjunta f x 1,x 2 entonces

f x 1 (x 1) =

R

f x 1,x 2 (x 1, x 2) dx 2 f x 2 (x 2) =

R

f x 1,x 2 (x 1, x 2) dx 1

y con abuso de notación:

f (x 1) =

R

f (x 1, x 2) dx 2 f (x 2) =

R

f (x 1, x 2) dx 1

R

f x 1 (x 1) dx 1 = R

f x 2 (x 2) dx 2 = 1


http://find/


15/63


DISTRIBUCIONES CONDICIONADAS:

Sea el vector aleatorio X = (x1, x2) ∈ Rp ×2. Definimos la distribución condicionada de x1para un valor de x2 = x

02

como

f (x1|x2 = x02) = f (x1, x

02

)

f (x02

)suponiendo que f (x02) = 0

Esto es consistente con el concepto de probabilidad condicionada, pues, suponiendo que lasvariables x1 y x2 son escalares

f (x 1|x 02 )∆x 1 P(x 1|x

02 )

= f (x 1, x

02 )∆x 1∆x 2

f (x 02 )∆x 2 P(x 1,x

02 )

P(x 02 )

Entoncesf (x1, x2) = f (x1|x2)f (x2) f (x1, x2) = f (x2|x1)f (x1)


Di ib i i l di i d

http://find/


16/63


La distribución marginal de x2 se puede calcular como

f (x2) =

f (x2|x1)f (x1)d x1

Observar que si multiplicamos por ∆x2 esto se puede interpretar como

f (

x2)∆

x2 = f (x2|x1)f (x1)d x1∆x2

p (x2) =

f (x2|x1)∆x2 p (x2|x1)

f (x1)∆x1 p (x1)

FORMULA DE BAYES:

f (x1|x2) = f

(x

2|x

1)f

(x

1)f (x2) =

f (

x2|

x1)

f (

x1) f (x2|x1)f (x1 )d x1


http://find/


17/63

Ej l

http://find/


18/63

Ejemplo

Distribución condicionada de los votos por personas con nivel de ingreso B:

c 1 c 2 c 3 c 4

B 0,010,2

= 0,05 0,040,2

= 0,2 0,070,2

= 0,35 0,080,2

= 0,4

Distribución condicionada de los ingresos por votantes del candidato c 4:

A M B

c 40,010,19

= 0,0526 0,10,19

= 0,5263 0,080,19

= 0, 4211


Independencia de ectores aleatorios

http://find/


19/63

Independencia de vectores aleatorios

x1 y x2 son independientes sif (x2|x1) = f (x2)

lo cual equivale a

f (x1, x2) = f (x1)f (x2)Notación: x1 ⊥ x2Observación: si x1 ⊥ x2 entonces g 1(x1) = y1 ⊥ y2 = g 2(x2)


Vector de medias

http://find/


20/63

Vector de medias

Sea x = (x 1, . . . , x p ) una VA en Rp . El vector de medias es

E(x) = µ =

µ1

...µp

=

E(x 1)...

E(x p )

Proposición 1

E(Ax + b) = AE(x) + b siendo A una matriz y b un vector.

Si x = (x1, x2) y a, b ∈ R entonces E(ax1 + b x2) = aE(x1) + b E(x2 )


Esperanza de una función

http://find/


21/63

Esperanza de una funcion

Suponemos que y = g (x) con g una función escalar y x un vector aleatorio. Entonces

E(y ) = yf (y )dy = . . . g (x)f (x 1, . . . , x p ) dx 1 . . . , dx p


Matriz de varianzas y covarianzas

http://find/


22/63


Sea x = (x 1, . . . , x p ) una VA en Rp . Su matriz de varianzas y covarianzas es la matriz cuadarada

Var (x) = V x = E[(x− µ)(x − µ)′] ∈Mp ×p

V x =

σ21 s 12 . . . s 1p

s 12 σ22 . . . s 2p ...

. . ....

s 1p s 2p . . . σ2p

siendo

σ2i = Var (x i ), s ij = Cov (x i , x j ) = E(x i x j )− E(x i )E(x j )



http://find/


23/63


Propiedades:

1 V x es simétrica (es claro)

2 V x es semidefinida positiva, es decir para todo w ∈ Rp se tiene que w′V x w ≥ 0.

En efecto, sea w ∈Rp

y defino y = (x− µ)′

w ∈R

. EntoncesE(y ) = E((x− µ)′w) = E((x − µ))′w = 0

Por lo tantoVar (y ) = E(y 2) = w′E((x − µ)(x − µ)′)w = w′V x w ≥ 0


Transformación de vectores aleatorios

http://find/


24/63

Transformacion de vectores aleatorios

Sea x = (x 1, . . . , x p ) un vector aleatorio de Rp con densidad f x (x) y sea otro vector aleatorio

y = (y 1, . . . , y p ) ∈ Rp definido por

y 1 = g 1(x 1, . . . , x p )y 2 = g 2(x 1, . . . , x p )

..

.y p = g p (x 1, . . . , x p )

donde suponemos que existen las funciones inversas x 1 = h1(y 1, . . . , y p ), . . . , x p = hp (y 1, . . . , y p ),siendo g 1, . . . , g p , h1, . . . , hp diferenciables.


Transformación de vectores aleatorios

http://find/


25/63

Transformacion de vectores aleatorios

Entonces puede demostrarse (regla del Jacobiano) que:

f y (y) = f x (x)

det

∂ x 1∂ y 1

. . . . . . ∂ x 1

∂ y p

......

∂ x p

∂ y

1

. . . . . .∂ x p

∂ y

p

Caso particular. Supongamos que y = Ax siendo A ∈Mp ×p invertible. Entoncesf y (y) = f x (A

−1y)| det(A−1)|


Esperanza y varianza de transformaciones lineales

http://find/


26/63

Esperanza y varianza de transformaciones lineales

Supongamos que y = Ax siendo A ∈ Mp ×p . EntoncesProposición 2

1 µy = Aµx

2 V y = AV x A′

Demostración.

1 Ya lo vimos.

2 V y = E((y − µy )(y − µy )′)= E(A(x − µx )(x − µx )′A′) = AE((x − µx )(x − µx )′)A′ = AV x A′


Esperanza condicionada

http://find/


27/63

p

La esperanza de x1 condicionada a x2 es:

E(x1|x2) =

x1f (x1|x2) d x1

y es una función de x2.Si x2 es un valor fijo entonces E(x1|x2) es constante.Si x2 es un variable aleatoria entonces E(x1|x2) es una variable aleatoria.


Esperanza condicionada

http://find/


28/63

p

Proposición 3

Se cumple que E(x1) = E

E(x1|x2)

y la esperanza de la media condicionada es la esperanza marginal

Demostración:E(x1) =

x1f (x1)d x1 =

x1

f (x1 |x2)f (x2)d x2

d x1

=

x1f (x1|x2)f (x2)d x1d x2 =

f (x2)

x1f (x1|x2)d x1

d x2

= f (x2)E(x1|x2)d x2 = EE(x1|x2)


Varianza condicionada

http://goforward/http://find/http://goback/


29/63

La varianza de x1 condicionada a x2 es la varianza de la distribución de x1 condicionada a x2:Var (x1|x2) = V 1|2

Esta matriz tiene las propiedades de una matriz de varianzas y covarianzas.

Supongamos que x1 = x 1 es escalar. Entonces si µ1 = E(x 1) se tiene que:

x 1

−µ1 = x 1

−E(x 1

|x2) + E(x 1

|x2)

−µ1

⇒ E(x 1 − µ1)2 = E(x 1 −E(x 1|x2) + E(x 1|x2)− µ1)2= E

(x 1 −E(x 1|x2))2

+ E

(E(x 1|x2)− µ1)2

+2E(x 1 −E(x 1|x2)(E(x 1|x2 − µ1)

=0 (ejercicio)


Descomposición de la varianza

http://find/


31/63

var (x 1) = E(var (x 1|x2)) + var (E(x 1|x2))El primer termino promedia las varianzas de las distribuciones condicionadas. El segundo terminorecoge las diferencias entre la media global µ1 y las medias condicionadas.

Si x 1 ⊥ x2 entonces

E(x 1|x2) = x 1f (x 1|x2) dx 1 = x 1f (x 1) dx 1 = E(x 1) = µ1y por lo tanto el segundo miembro var (E(x 1|x2)) = 0En modelos lineales univariantes, si x es la media global:

1

n (x i − x )2 =

1

n (x i −

x i )

2 + 1

n (

x i − x )2


Matriz de correlación

http://find/


32/63

Sea x ∈ Rp vector aleatorio con matriz de covarianzas V x . La matriz de correlación se define porR x = D

−1/2V x D −1/2

donde D = diag (σ21 , . . . , σ2p )

R x ∈ Mp ×p es simétrica y definida positiva.

r ij = s ij

σi σ j ∀ i , j = 1 . . . , p Coeficiente de correlación lineal

r ij = s ij

σi σ j =

cov (x i , x j ) var (x i )

var (x j )

∈ [−1, 1] ∼ (coseno)

r ij = 1

↔ ∃a

∈R tal que x i

−x i = a(x j

−x j )

Si r ij = 0 eso no significa que ho haya relación entre las variables, solo que no es lineal.


Distribución binomial

http://find/


33/63

1 Queremos clasificar en dos clases A y B . Supongamos que P(A) = p (= cte ). La variablealeatoria considerada es

x =

1, si la observacíon pertenece a A0, si la observación no pertenece a A

Entonces x ∼ Ber (p ) con P(x = 1) = p y P(x = 0) = 1 − p .2 Supongamos que repetimos independientemente este experimento y tenemos n

observaciones x 1, x 2, . . . , x n. Defino y =n

i =1x i con x i ∼ Ber (p ). Se tiene que

P(y = r ) = n!

r !(n − r )! p r (1− p )n−r ∀ r = 0, . . . , n

Entonces y ∼ Bin(n, p )


Distribución multinomial

http://find/


34/63

Supongamos que ahora tenemos G clases y p = (p 1, . . . , p G ) es un vector de probabilidad

(G

g =1p g = 1). Definimos

x j =

1, si la observación pertenece a G j

0, si la observacíon no pertenece a G j ∀ j = 1, . . . , G

Entonces x = (x 1, . . . , x G ) es de la forma (0, . . . , 0, 1, 0, . . . , 0). Las componentes de esta

variable aleatoria no son independientes puesG

j =1x j = 1, su distribución se llama

multinomial puntual y tiene como función de probabilidad

P(x 1, . . . , x G ) = p x 11 . . . p

x G G

y la probabilidad de que la j -esima coordenada sea 1 es p j .



http://find/


35/63

Sea x = (x1, . . . , xn) una muestra de n vectores de esta VA multinomial puntual. Por lotanto esto es equivalente a clasificar n elementos de una muestra en G clases. Llamamosdistribuci´ on multinomial a la distribución del vector

y =n

i =1

xi

Las componentes del vector y corresponden a las frecuencias con que se observan cada claseen la muestra:

y i ∈ {0, 1, . . . , n}G

i =1 y

i = n

P(y 1 = n1, . . . , y G = nG ) = n!

n1! . . . nG !p

n11 . . . p

nG G

n =G

i =1

ni



http://find/


36/63

Sea x = (x1, . . . , xn) una muestra de n vectores de esta VA multinomial puntual. Por lotanto esto es equivalente a clasificar n elementos de una muestra en G clases. Llamamosdistribuci´ on multinomial a la distribución del vector

y =n

i =1

xi

Las componentes del vector y corresponden a las frecuencias con que se observan cada claseen la muestra:

y i ∈ {0, 1, . . . , n}

G

i =1 y i = nP(y 1 = n1, . . . , y G = nG ) =

n!

n1! . . . nG !p

n11 . . . p

nG G

n =G

i =1

ni

Si y tiene distribución multinomial notamos:

y ∼ Mult (n, p)En este caso (ejercicio):

1 E(y) = np = µy

2 Var (y) = n(diag (p) − pp′) = diag (µy )− 1n µy µ′y


Distribución multinomial (ejemplo)

http://find/


37/63

10 personas votan por 4 candidatos con probabilidades

P(1) = 1

2, P(2) = P(3) =

1

8, P(4) =

1

4

Calcular la probabilidad que (y 1, y 2, y 3, y 4) = (6, 1, 2, 1):


Distribución multinomial (ejemplo)

http://find/


38/63

10 personas votan por 4 candidatos con probabilidades

P(1) = 1

2, P(2) = P(3) =

1

8, P(4) =

1

4

Calcular la probabilidad que (y 1, y 2, y 3, y 4) = (6, 1, 2, 1):

P(y 1 = 6, y 2 = 1, y 3 = 2, y 4 = 1) = 10!

6!1!2!1!

1

2

6 18

1 18

2 14

1


Normal univariada

http://find/


39/63

Recordamos:

1 la densidad de una normal univariada t́ıpica

f (x ) = 1√

2πe −

12

x 2

y escribimos x ∼ N (0, 1)


Normal univariada

http://find/


40/63

Recordamos:


f (x ) = 1√

2πe −

12

x 2

y escribimos x ∼ N (0, 1)2 la densidad de una normal univariada

f (x ) =

1

√ 2πσ e − 12

x −µσ

2

y escribimos x ∼ N (µ, σ2)


Normal univariada

http://find/


41/63

Recordamos:


f (x ) = 1√

2πe −

12

x 2

y escribimos x ∼ N (0, 1)2 la densidad de una normal univariada

f (x ) =

1

√ 2πσ e − 12

x −µσ

2

y escribimos x ∼ N (µ, σ2)

Observaciones:Si σ es grande el pico de la gaussiana es chico y si σ es chico el pico de la gaussiana esgrande.

Si x ∼ N (µ, σ2) entonces z = x −µσ ∼ N (0, 1).


Normal univariada

http://find/


42/63

−15 −10 −5 0 5 10

0 . 0 0

0 . 0

5

0 . 1

0

0 . 1

5

N(0,3) y N(0,1)

N = 100000 Bandwidth = 0.2705

D e n s i t y

Figura: En negro N (0, 3) y en rojo N (0, 1)


Normal univariada

http://find/


43/63

P(µ−σ


44/63

Decimos que x = (x 1, . . . , x d ) es gaussiana t́ıpica en Rd si tiene densidad conjunta

f x (x) = 1

(2π)d 2

e −12||x||2

Notación:

x ∼ N (0Rd

, I d )


Normal multivariada

http://find/


45/63

Decimos que x = (x 1, . . . , x d ) es gaussiana t́ıpica en Rd si tiene densidad conjunta

f x (x) = 1

(2π)d 2

e −12||x||2

Notación:

x ∼ N (0Rd

, I d )

Decimos que y es gaussiana en Rd o normal multivariada con media µ ∈ Rd y matriz decovarianza Σ = AA′ siendo A ∈ Md ×d si y tiene la misma distribución que µ + Ax conx ∼ N (0

Rd , I d ).

Notación:y ∼ N (µ, Σ)


Normal multivariada: ejemplo

http://find/


46/63

Sea x = (x 1, x 2) ∼ N (0R2 , I 2)

Si defino

y = 11 + 1 01 1 x 1x 2 Entonces

y ∼ N

11

,

1 1

1 2


Normal bivariada

http://find/


47/63

library(mvtnorm) library(MASS)

x

y

d e n s i t y

f u

n c t i o n

Figura: N (µ, Σ) con µ = (0, 0) y Σ =

1 00 1


Densidad de una normal N (µ,Σ)

http://find/


48/63

Si y es gaussiana en Rd , y ∼ N (µ, Σ) con Σ = AA′ e y = µ + Ax entoncesy = Q (x)

con Q : Rd → Rd definida por Q (x) = µ + Ax.

1

Si y = Ax entonces f y (x ) = f x (A

−1

x )|det (A)

−1

|M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 39 / 49

Densidad de una normal N (µ,Σ)

http://find/


49/63

Si y es gaussiana en Rd , y ∼ N (µ, Σ) con Σ = AA′ e y = µ + Ax entoncesy = Q (x)

con Q : Rd → Rd definida por Q (x) = µ + Ax.

Supongamos que A es invertible, entonces Q es biyectiva, J Q = det(A) y por lo tanto, por el

teorema del Jacobiano 1

, Y es absolutamente continua con densidad:

f y (x) = f Q (x )(x) = Φd (A−1(x− µ)) 1

det(Σ)=

1

(2π)d /2

det(Σ)e −

12 ||A

−1(x−µ)||2

= 1

(2π)d /2

det(Σ)

e −12

(A−1(x−µ))′A−1 (x−µ) = 1

(2π)d /2

det(Σ)

e −12

(x−µ)′Σ−1 (x−µ)

1

Si y = Ax entonces f y (x ) = f x (A

−1

x )|det (A)

−1

|M.Bourel (IMERL, UdelaR) Análisis Multivariado Básico 18 de agosto de 2015 39 / 49

Normal multivariada (teoremas)

http://find/


50/63

Se puede probar:

1 Si x = (x 1, . . . , x d ) ∼ N (µ, Σ) entonces x 1, . . . , x d independientes si y sólo si sonincorrelacionadas (es decir Σ es una matriz diagonal).



http://find/


51/63

Se puede probar:


Es bien conocido que si x 1, . . . , x d son independientes entonces x 1, . . . , x d estánincorrelacionadas y esto implica que la matriz de varianzas del vector x = (x 1, . . . , x d )es diagonal.



http://find/


52/63

Se puede probar:



El rećıproco no es siempre cierto en general, pero si x es gaussiano se cumple, pues

f x(x ) =d

i =1

f x i (x i )



http://find/


53/63

Se puede probar:



El rećıproco no es siempre cierto en general, pero si x

es gaussiano se cumple, pues

f x(x ) =d

i =1

f x i (x i )

2 Si x1, . . . , xn es una sucesión de vectores aleatorios i.i.d, con E (x1) = µ y matriz decovarianzas Σ entonces

1√ n

ni =1

(xi − µ) D −→n

N d (0Rd , Σ)


Distribución normal bivariada

http://find/


54/63

La distribución normal de un vector (x 1, x 2) de media µ = (µ1, µ2) y matriz de covarianza

Σ =

σ21 cov (x 1, x 2)

cov (x 2, x 1) σ22

tiene como densidad

f (x 1,x 2)(x 1, x 2) = 1

(√

2π)2

det(Σ)exp

−1

2(x 1 − µ1 x 2 − µ2)Σ−1

x 1 − µ1

x 2 − µ2


Normal multivariada

http://find/


55/63

−2 −1 0 1 2 3

− 4

− 2

0

2

4

X_1

X_

2

Figura: Σ =

1 0

0 1

P(X 2 > 0|X 1 > 2) = P(X 2 > 0)

−2 −1 0 1 2

− 3

− 2

− 1

0

1

2

3

X_1

X_

2

Figura: Σ =

1 0,80,8 1

P(X 2 > 0|X 1 > 2) > P(X 2 > 0)


Normal Multivariada (propiedades)



56/63

Sea x ∼ N (µ, Σ) entonces tenemos las siguientes propiedades:1 La distribución es simétrica alrededor de µ.

Esto es porque f (µ + a) = f (µ − a).2 La distribución tiene un único máximo en µ.

Al ser Σ definida positiva, el término del exponente (x−

µ)′Σ−1(x−

µ) es siempre positivo,y f (x) es máxima cuando este término es nulo, o sea si x = µ.

3 La media es µ y la matriz de varianzas-covarianzas es Σ.

4 Las distribuciones marginales son normales.

5 Si x ∈ Rd es normal y A ∈Mk ×d es una matriz entonces y = Ax ∈ Rk es normal.


Test normalidad en R



57/63

Nos preguntamos si los datos tienen distribución normal. Para eso podemos recurrir a laadaptación del test de normalidad de Shapiro-Wilk para datos multivariados.

library(mvnormtest)

x=iris[,1:4]x=as.matrix(x)mshapiro.test(t(x))


Normal Multivariada

http://find/


58/63

Si cortamos con hiperplanos paralelos a las p variables, se obtienen curvas de nivel 2 cuyaecuación es

(x − µ)′Σ−1(x− µ) = cte (elipsoides)y define entonces una medida de la distancia de x al centro µ.Esta medida se llama distancia de Mahalanobis y

D 2 = (x − µ)′Σ−1(x− µ)Supongamos que tenemos dos normales N (0, 1) y N (10, 102). Sea x = 3, entonces:

1 La distancia euclidea de x = 3 a 1 es más corta que la distancia de 3 a 10.2 La distancia de Mahalanobis de x = 3 a la distribución que tiene desviación t́ıpica 1 es

(3− 0)1(3 − 0) = 93 La distancia de Mahalanobis de x = 3 a la distribución que tiene desviación t́ıpica 10 es

(3− 10) 1100

(3− 10) = 0,49Con la distancia de Mahalanobis, el punto x = 3 está más cerca de la segunda distribución. Esmás probable que provenga de ella (lo veremos en breve).La distancia de Mahalanobis se distribuye como una χ2(p )

2La curva de nivel α de una funcón f : Rd → R se define como Cα = {x ∈ Rd : f (x) = α}


Distribuciones mezcladas

M h l d t lti i t i d bl i di ti t Si

http://find/


59/63

Muchas veces los datos multivariantes provienen de poblaciones distintas. Si suponemos quetenemos G poblaciones, entonces

P(x ∈ A) =G

i =1

P(x ∈ A, x ∈ i ) =G

i =1

P(x ∈ A|x ∈ i )P(x ∈ i ) =G

i =1

πi P(x ∈ A|x ∈ i )

y por lo tanto la función de densidad de la población es

f (x) =G

i =1

πi f i (x)


http://find/


60/63

M e z c l a

M.B o


61/63

d e n or m al e s m ul t i v

ar i a d a s

−2

−1

0

1

2

0.0 0.1 0.2 0.3 0.4 0.5 0.6

x

densidad

−4

−2

0

2

4

0.00 0.05 0.10 0.15 0.20

x

densidad

−4

0

0.0 0.1 0.2 0.3 0.4

x

densidad

o ur el ( I ME R L

, U d el aR )

An´ al i s i s M ul t i v ar i a d o

B́ a s i c o

Mezcla de normales multivariadas


62/63

b i v n .k d e

Y

Z

Mezcla de tres normales


Referencias

http://find/


63/63

D. Peña, Analisis de Datos Multivariantes , Mac Graw Hill, 2002.

A. I. Izenman, Modern Multivariate Statistical Techniques , Springer, 2008.

http://find/

Documents

Tema 1 Repaso Probabilidad - Distribuciones Multivariantes - Mezclas