View
215
Download
0
Category
Preview:
Citation preview
Mestrado Profissional em Administração Disciplina: Análise Multivariada
Professor: Hedibert Freitas Lopes
1º trimestre de 2015
Agradecimento: A maioria das notas de aula sao de autoria da Professora Adriana Bruscato Bortoluzzo. Entretanto, todo e qualquer erro/inconsistencia e’ de minha inteira responsabilidade.
2
Tópicos do Curso
1. Análise Exploratória de Dados Multivariados 2. Inferência Multivariada 3. Análise de Componentes Principais 4. Análise Fatorial 5. Regressão Logística 6. Análise Discriminante 7. Análise de Correlação Canônica 8. Análise de Agrupamentos 9. Escalonamento Multidimensional 10. Análise de Correspondência 11. Análise de Preferência Conjunta 12. Modelagem de Equações Estruturais
3
Bibliografia Básica: ! MANLY, B. F. J. Multivariate Statistical Methods. 3 ed. New York: Chapman & Hall / CRC, 2004. ! HAIR Jr., J.F., ANDERSON, R.E., TATHAM, R.L. & BLACK, W.C. Multivariate Data Analysis. 5 ed. New Jersey: Prentice Hall, 1998. Bibliografia Complementar: ! BARROSO, L. P. e ARTES, R. Tópicos de Análise Multivariada. ! DILLON, W.R. & GOLDSTEIN, M. Multivariate Analysis: Methods and Applications. New York: Wiley, 1984. ! MALHOTRA, N.K. Marketing Research: An Applied Orientation. 3 ed. New Jersey: Prentice Hall, 1999. ! SHARMA, S. Applied Multivariate Techniques. New York: Wiley, 1996.
4
Critério de Avaliação " Prova: 50% " Trabalho: 25% " Exercícios e leitura de artigos: 25%
Avisos Matéria do curso: compreende a matéria dada em sala de
aula e a apresentada nas indicações de leitura.
Softwares:
R - http://www.r-project.org
5
Análise Exploratória de Dados Multivariados MANLY, Cap. 1 e 3 & HAIR et al., Cap. 1 e 2
A seleção de métodos apropriados para representação gráfica multivariada fornece melhor entendimento de cada variável e das relações existentes entre elas.
6
Exemplo 1: descritiva.csv X5 =0.25X1 + 0.5X2 + 0.1X3 + 0.1X4 Indivíduo X1 X2 X3 X4 X5 X6
1 5,0 2,5 4,0 10,0 4,0 02 8,1 4,1 9,5 5,0 5,7 03 8,3 4,5 5,0 2,0 5,3 04 6,1 6,5 10,0 0,0 6,1 05 5,1 5,8 9,5 1,0 5,5 06 0,0 0,0 0,0 0,0 0,0 07 6,3 4,9 5,0 0,0 4,8 08 7,0 6,0 10,0 2,0 6,3 19 5,5 6,3 7,0 9,0 6,4 110 8,0 3,7 10,0 5,0 5,5 111 6,7 6,4 5,0 5,0 6,2 112 10,0 10,0 10,0 10,0 10,0 1
X1 a X5 refletem o grau de satisfação (escala de 0 a 10) de 5 produtos de uma empresa e X6 representa o gênero do cliente (1= Feminino)
9
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
=
5,064,12 5,62 5,23 4,83 4,12 14,991,63 2,88 3,50 5,621,63 10,775,38 5,67 5,232,88 5,38 6,05 4,31 4,833,50 5,67 4,316,18
2S
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
=
1,00 0,470,76 0,950,86 0,471,00 0,13 0,30 0,36 0,760,13 1,00 0,670,70 0,950,30 0,671,00 0,70 0,860,36 0,70 0,70 1,00
R
Matrizes de covariâncias e correlações
11
Diagramas de dispersao X1
0 2 4 6 8 10 0 2 4 6 8 10
02
46
810
02
46
810
X2
X3
02
46
810
02
46
810
X4
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
02
46
810
X5
13
Sexo
X1
02
46
810
F M
SexoX2
02
46
810
F M
Sexo
X3
02
46
810
F M
Sexo
X4
02
46
810
F M
Sexo
X5
02
46
810
F M
14
X1
0 2 4 6 8 10 0 2 4 6 8 10
02
46
810
02
46
810
X2
X3
02
46
810
02
46
810
X4
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
02
46
810
X5
15
data = read.csv(descritiva.csv,header=TRUE) attach(data) summary(data) X = data[,1:5] apply(X,2,mean) var(X) cor(X) boxplot(X) pairs(X) par(mfrow=c(2,3)) for (i in 1:5){ boxplot(data[,i]~data[,6],axes=FALSE,xlab=Sexo,ylab=paste(X,i,sep=)) axis(2);box();axis(1,at=1:2,lab=c(F,M)) } pairs(X,col=1+data[,6],pch=16)
16
Outliers multivariados
! Pontos com comportamento diferente do observado para a maioria dos dados.
! Pontos distantes da massa dos dados.
! Chamados de valores aberrantes.
17
Causas mais comuns
" Erros de medida (transcrição/ digitação).
" Unidade amostra l não pertence à população em estudo.
" Ocorrência de evento extraordinário com explicação científica (variabilidade natural dos dados).
18
O que fazer? Depende de como foi gerado.
Retirar da amostra se for fruto de erros de medida, de transcrição/ digitação ou se a unidade amostral não pertence à população em estudo.
Considerar na análise se for fruto da variabilidade natural dos dados; nesse caso adotar técnicas robustas de análise ou fazer a análise com e sem o valor.
19
Como identificar valores aberrantes?
Univariado: Z-score, boxplot, histograma &
distância de Mahalanobis.
Bivariado: Gráfico de dispersão & distância de
Mahalanobis.
Multivariado: Distância de Mahalanobis.
20
Unidimensionais
Q1: primeiro quartil
Q3: terceiro quartil
Possíveis valores aberrantes:
X > Q3 + 1,5(Q3-Q1) = Q3 + 1,5 IQ
ou
X < Q1 - 1,5(Q3-Q1) = Q1 - 1,5 IQ
21
45
67
67
89
Gráfico de caixas
4 5 6 7
05
1015
Aval1
6 7 8 9 10
05
1015
Aval1
Histograma
Unidimensionais
22
Atenção para distribuições assimétricas
0100
200300
0 100200300400
0102030
405060
Aval2
Histograma Gráfico de Caixas
Valores aberrantes ou conseqüência da assimetria?
23
Teste
A distância entre a média e a observação é utilizada como medida para outliers.
Distância grande = possíveis valores aberrantes
22 )x -(x )x (x,D = 2
22M
)x -(x )x (x,DS
=ou
24
H0: x não é um outlier H1: H0 é falsa.
Se X seguir uma distribuição normal, então, para grandes amostras, a distribuição de
se aproxima de uma qui-quadrado com 1 grau de liberdade.
)x (x,D2M
Teste
25
[ ] )x (x,D P 2M
21 >χ
for pequena, então x é um possível valor aberrante (rejeita-se H0).
Regra Prática
Se p =
26
Valores aberrantes bidimensionais
2,00
7,00
12,00
17,00
22,00
27,00
32,00
37,00
42,00
47,00
52,00
2,00 7,00 12,00 17,00 22,00 27,00
X
Y
Valor aberrante em x, y e (x,y)
Valor aberrante em x e y, mas não é um valor desajustado em (x,y) pois está na linha de tendência
Valor aberrante em (x,y), mas não em x, nem em y
Valor aberrante em y e (x,y)
Valor aberrante em x e (x,y)
27
Valores Aberrantes Multidimensionais
! p variáveis de interesse.
! Identificação gráfica prejudicada (pode ser feita através da representação gráfica de casos)
28
Identificação Numérica Distância Euclidiana ao centro (D):
Distâncias grandes = possíveis valores
aberrantes
( ) ( ) ( )( ) ( )2pip
21i1
iT
ii
xx...xx
- - ,D
−++−=
= xxxxxx
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=
ip
i2
i1
i
x
xx
!x
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=
p
2
1
x
xx
!x
29
Identificação Numérica
Distância de Mahalanobis (DM):
( ) ( ) ( )xxSxxxx - - ,D i1T
ii2M
−=
Distâncias grandes = possíveis valores aberrantes
30
H0: x=(x1, x2, ..., xp)T não é um possível outlier H1: x=(x1, x2, ..., xp)T é um possível outlier
Se X1, X2, ..., Xp seguirem uma distribuição normal, então, para grandes amostras, a distribuição de
se aproxima de uma qui-quadrado com p graus de liberdade.
)x (x,D2M
Teste para valores aberrantes multidimensionais
31
H0: x=(x1, x2, ..., xp)T não é um possível outlier H1: x=(x1, x2, ..., xp)T é um possível outlier
for pequena, então x é um possível valor aberrante (rejeita-se H0).
Regra Prática
Se p =
Teste para valores aberrantes multidimensionais
[ ] )x (x,D P 2M
2p >χ
32
Exemplo 2: Avaliação de vinhos
Variáveis (vinho.txt): X1: Aroma X2: Corpo X3: Sabor
Foram dadas notas de 0 a 10 para 39 vinhos
nos quesitos aroma, corpo e sabor.
35
Observações mais distantes pelo critério de Mahalanobis
0 10 20 30 40
05
1015
20
Observation
Mah
alan
obis
dis
tanc
e
Cut-off for 5% levelCut-off for 1% levelCut-off for 0.1% level
36
Observações mais distantes pelo critério de Mahalanobis
Caso Dm Pv Aroma Corpo Sabor
39 4,59 0,0001 7,7 2,6 2,5
38 2,88 0,0403 7,7 6,6 6,7
06 2,69 0,0642 4,3 5,5 3,5
37
Exemplo 3: Índice de Liberdade Econômica (ILE-2013.csv) O ambiente institucional de um país interfere na estratégia e performance
de uma empresa. Para avaliar este ambiente, várias entidades
internacionais criaram índices comparativos entre os países.
Um deles é o Índice de Liberdade Econômica (ILE) publicado anualmente
pela Fundação Heritage e o The Wall Street Journal. O índice é calculado
através da avaliação de 10 abordagens institucionais que procuram
mensurar o grau de liberdade concedido aos agentes econômicos. Cada
indicador é classificado em uma escala de 0 a 100, onde quanto maior for
a avaliação, mais liberdade econômica é reconhecida institucionalmente.
38
1 – Negócios (Business Freedom) - liberdade para se criar negócios e está associado a barreiras de entrada e saída de competidores. Quanto mais livre for a mobilidade, mais alta será a nota do país.
2 – Comércio (Trade Freedom) - regulamentações do comércio internacional. Tarifas e taxas de importação e exportação de produtos e restrições à quotas, preços entre outros. Quanto menor forem os encargos, maior será a nota do país.
3 – Carga tributária (Fiscal Freedom) - carga tributária que incide sobre os indivíduos, empresas e percentual do PIB. Quanto menor forem as tributações, maior será a nota do país.
4 – Governo (Gov't Size) - participação do Governo na Economia. É mensurado com base nos gastos do Governo em relação ao % do PIB. Quanto menor for a participação do Governo no PIB, melhor será a avaliação do país, pois entende-se que haverá mais espaço para iniciativas privadas.
5 – Política monetária (Monetary Freedom) - política monetária. A mensuração se baseia em indicadores históricos de estabilidade da inflação descontando práticas de controle de preços, como congelamentos por exemplo. Quanto mais controlada for a inflação, melhor será a nota do país.
39
6 - Investimentos (Investment Freedom) - liberdade para entrada de investimentos estrangeiros e saída de investimentos para o exterior. Quanto mais livre for o fluxo de capitais, maior será a nota do país.
7 – Setor financeiro (Financial Freedom) - regulamentação do Estado sobre o setor financeiro, principalmente quanto à concessão de Crédito. Quanto mais livre uma Instituição Financeira for para alocar seus recursos administrados, maior será a nota do país.
8 – Direitos de propriedade (Property Rights) - direito de exercer propriedade sobre bens e acordos (enforcement). Quanto mais eficiente, rápido e transparente for o sistema judiciário de um país, maior será sua nota.
9 – Corrupção (Freedom from Corruption) - grau de transparência e corrupção de um governo, mensurado com base na classificação da Transparência Internacional. Quanto menor for a corrupção, maior será a nota do país.
10 – Trabalho (Labor Freedom) - liberdade concedida aos agentes econômicos para negociações de contratos de trabalho. Contratações, demissões, remunerações e demais aspectos da legislação trabalhista. Quanto maior for a liberdade concedida, maior será a nota do país.
40
Overall score score Property rights property Freedom from corruption corrupt Fiscal freedom fiscal Government spending govern Business freedom busin Labor freedom labor Monetary freedom monet Trade freedom trade Investment freedom invest Financial freedom finan
Nomes das variaveis
42
score
20 60 40 60 80 100 20 60 100 0 20 60 0 20 60
3070
2080
property
corrupt
060
4080 fiscal
govern
060
2080
busin
labor
2080
060 monet
trade
4080
060 invest
30 50 70 90 0 20 60 0 40 80 20 40 60 80 40 60 80 20 40 60 80
2080
finan
43
Property rights 0.85 Freedom from corruption 0.78 Fiscal freedom 0.03 Government spending 0.00 Business freedom 0.77 Labor freedom 0.52 Monetary freedom 0.61 Trade freedom 0.64 Investment freedom 0.83 Financial freedom 0.86
Correlacao com Overall Score
45
0 20 40 60 80 100
020
4060
80100
property
corrupt
AfricaAmericaAsiaEuropaOceania
0 20 40 60 80 100
020
4060
80100
invest
finan
Recommended