30
Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

Mestrado Profissional em Administração

Disciplina: Análise Multivariada

Professor: Hedibert Freitas Lopes

1º trimestre de 2015

Page 2: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

2

Decomposição Espectral

Autovalores e autovetores

MANLY, Cap. 2

Page 3: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

3

Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou correlação em Multivariada). Os autovalores de A são os escalares que satisfazem a seguinte equação

| A - λ Ip| = 0 (função característica). Propriedade: para todo autovalor li, existe um vetor gi (diferente de zero) tal que

A gi = λi gi .

O vetor gi é denominado autovetor de A, associado ao autovalor λi.

Page 4: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

4

Decomposição Espectral Qualquer matriz simétrica A (pxp) pode ser escrita como

A = EΛET , onde Λ (pxp) é a matriz diagonal dos autovalores de A e E (pxp) é uma matriz ortogonal cujas colunas são os autovetores padronizados de A. Autovetores padronizados de A:

ei = gi / |gi|

λ1 ... 0Λ = : : :

: : :0 ... λp

Page 5: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

5

Exemplo: Encontrar os auto-valores e auto-vetores da matriz de correlações

⎥⎦

⎤⎢⎣

⎡=

18,08,01

R> R = matrix(c(1,0.8,0.8,1),2,2) > R [,1] [,2] [1,] 1.0 0.8 [2,] 0.8 1.0 > eigen(R) $values [1] 1.8 0.2 $vectors [,1] [,2] [1,] 0.7071068 -0.7071068 [2,] 0.7071068 0.7071068

Page 6: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

6

Análise de Componentes Principais

MANLY, Cap. 6

HAIR et al., Cap. 3

Page 7: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

7

Análise de Componentes Principais

Objetivos: ! Facilitar a análise de um grande conjunto de

variáveis: reduzindo a dimensionalidade do problema (número de variáveis), com um controle da perda de informação;

! Criação de índices.

Page 8: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

8

Análise de Componentes Principais Interpretação: " Algebricamente: transformação ou combinação

linear de p variáveis aleatórias X1, X2, ..., Xp.

" Geometricamente: seleção de um novo conjunto de eixos obtido pela rotação do sistema original que tem X1, X2, ..., Xp como coordenadas. Esse novo sistema tem direção com variabilidade máxima.

Page 9: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

9

Análise de Componentes Principais

Método: A partir de um banco de dados, no qual foram medidas p variáveis, criar outras p variáveis (componentes principais) que contenham toda a informação da amostra original. As componentes são combinações lineares das variáveis originais e são formadas uma a uma de tal modo que as primeiras resumam o maior grau de explicação possível do conjunto de variáveis originais.

Page 10: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

10

Variáveis originais

X1

X2

:

Xp

Componentes principais

CP1

CP2

:

CPq

: CPp

As q primeiras componentes resumem, por

exemplo, 80% do comportamento

geral das p variáveis originais

Situação hipotética

ACP

Page 11: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

11

Obtenção das CP

Decomposição espectral da matriz de covariâncias ou correlações:

#  autovalores: λ1, λ2, ... , λp

#  autovetores padronizados: e1 , e2, ..., ep

ei = (ei1, ei2, …, eip)T X = (X1, X2, …, Xp)T

CPi = eiT X

Page 12: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

12

Esquema

CP1 = e11 X1 + e12 X2+ … + e1p Xp

CP2 = e21 X1 + e22 X2+ … + e2p Xp

CPp = ep1 X1 + ep2 X2+ … + epp Xp

Page 13: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

13

Propriedade - Matriz de covariâncias

Variável Variância Comp. Variância X1 σ1

2 CP1 λ1

X2 σ22 CP2 λ2

... ... ... ... Xp σp

2 CPp λp

σT2 ∑

=

σp

i 1

2i σT

2 ∑∑==

==p

i

p

iiT

11

2iσλλ

T2T λσ =

Page 14: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

14

Características das componentes

Componentes Variância % de explicação CP1 1λ 100 1λ / 2

Tσ CP2 2λ 100 2λ / 2

... ... ...

CPp pλ 100 pλ / 2Tσ

Total T2T λσ =

As componentes são não-correlacionadas

Page 15: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

15

Propriedade - Matriz de correlações

Variável Variância Comp. Variância X1 1 CP1 λ1

X2 1 CP2 λ2

... ... ... ... Xp 1 CPp λp

σT2 p σT

2 pp

i

p

ii ==∑∑

== 1

2i

1

σλ

Page 16: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

16

Escolha do número de componentes principais

Se o nº de CP usado foi muito pequeno, pode haver uma redução exagerada da dimensionalidade e muita informação pode ser perdida.

Se o nº de CP usado foi muito grande, pode-se não atender aos objetivos de redução de dimensionalidade.

Na literatura existem vários critérios que auxiliam na escolha do nº de CP e basicamente 3 deles serão citados:

Page 17: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

17

$  Reter o nº de CP que acumulem pelo menos certa porcentagem da variabilidade total dos dados, na prática 70%;

$  Reter as CP que acumulem pelo menos uma certa porcentagem da variabilidade de cada uma das variáveis originais, na prática 50%;

$  Critério de Kaiser: manter na análise as CP correspondentes aos autovalores maiores do que a média dos autovalores, no caso da matriz de covariâncias; ou as CP correspondentes aos autovalores maiores do que 1, no caso da matriz de correlação.

Escolha do número de componentes principais

Page 18: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

18

Correlação entre as componentes e variáveis aleatórias originais

As componentes principais são não correlacionadas, ou seja,

Corr (CPi , CPj) = 0

pois os autovetores são ortogonais.

A correlação entre as componentes e cada uma das variáveis aleatórias originais é dada por

Corr (CPi , Xk) = eik (λi)0.5 / sk

Page 19: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

19

Interpretação das componentes principais

A interpretação da CP é feita com base nas correlações entre as variáveis originais e as CP e nos coeficientes dados pelas combinações lineares das CP.

As correlações medem as contribuições individuais de cada variável e não consideram a contribuição multivariada das demais. Já os coeficientes são medidas das contribuições multivariadas. Desta forma, a interpretação deve ser feita baseando-se tanto nas correlações como nos coeficientes das CP.

Page 20: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

20

Exemplo: Bebidas - Atributos 1. A marca tem um sabor refrescante. 2. A prefiro essa marca por ter menos calorias. 3. A marca elimina minha sede imediatamente. 4. Gosto do sabor adocicado da marca. 5. Prefiro consumir a marca após atividade física, pois me dá

energia. 6. Prefiro a marca pois vem numa embalagem que não agride o

meio ambiente. 7. A marca tem minerais e vitaminas que mantêm baixa a

necessidade de água de meu corpo. 8. A marca tem um sabor único. 9. A marca possui uma mistura de minerais e vitaminas que é

saudável para o meu corpo. 10. Eu prefiro a marca quando realmente estou com sede.

Page 21: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

Matriz de Correlações

Page 22: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

ACP a partir das matrize de covariancia e correlações

Page 23: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

23

Comp.1 Comp.3 Comp.5 Comp.7 Comp.9

pca.cov

Variances

02

46

8

Comp.1 Comp.3 Comp.5 Comp.7 Comp.9

pca.cor

Variances

01

23

4

Scree plot

Page 24: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

Loadings

Page 25: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

-0.2 -0.1 0.0 0.1 0.2

-0.2

-0.1

0.0

0.1

0.2

Comp.1

Comp.2

1

2

34

5

6

7

8

9

10

11

12

13

14

15

16

17

18 19

20

21

22

23

24

25

2627

28

29

30

31

32

3334

35

36

37

38

39

40

41

42

43

44

4546

47

48

49

50

51

52 53 54

55

5657

58

59

6061

62

63

6465

66 6768

69

70

71

72

73

74

75

76

7778

7980

81

82

83

84

85

86

87

8889

90

91

92

93

94

95

-5 0 5 10

-50

510

X1

X2

X3

X4

X5

X6

X7

X8

X9

X10

Biplot

Page 26: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

26

Correlações entre X e componentes principais

Page 27: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

X2: A prefiro essa marca por ter menos calorias. X3: A marca elimina minha sede imediatamente. X5: Prefiro consumir a marca após atividade física, pois me dá energia X7: A marca tem minerais e vitaminas que mantêm baixa a necessidade de água de meu corpo. X9: A marca possui uma mistura de minerais e vitaminas que é saudável para o meu corpo. X10: Eu prefiro a marca quando realmente estou com sede. X1: A marca tem um sabor refrescante. X4: Gosto do sabor adocicado da marca. X8: A marca tem um sabor único. X6: Prefiro a marca pois vem numa embalagem que não agride o meio ambiente. CP1: Elimina a sede e é saudável para o corpo CP2: Não preocupação com sabor da bebida CP3: Não agressão ao meio-ambiente

Composicao das CP

Page 28: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

28

Caso: Construção de índice Deseja-se construir um índice de desenvolvimento de países.

Conta-se com uma amostra de 85 países, para os quais levantou-se uma série de indicadores socioeconômicos. (arquivo mundo.xls).

Como utilizar ACP para construir tal índice? Como devem ser os indicadores?

Page 29: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

29

Índice de desenvolvimento X1: população em milhares de habitantes X2: densidade populacional X3: % de população urbana X4: expectativa de vida feminina X5: expectativa de vida masculina X6: crescimento populacional X7: mortalidade infantil X8: PIB per capita X9: % de homens alfabetizados X10: % de mulheres alfabetizadas Arquivo: mundo.xls

Page 30: Mestrado Profissional em Administraçãohedibert.org/.../2015/02/AnaliseMultivariada-aula3.pdf · 3 Objetivo e Definição Seja A uma matriz de ordem pxp (matriz de covariância ou

30

Construção de Índices Utilizando a matriz de correlação, construa um índice de

desenvolvimento dos países, usando todas as variáveis do arquivo de dados (X1 a X10).

Explique os resultados.

Qual a porcentagem de explicação do índice?

Dê um nome para o índice criado.

Quais são as variáveis mais importantes e menos importantes no índice?

O sinal do peso de cada uma das variáveis do índice era esperado? Justifique com base no problema.