400
MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO UNIVERSIDADE FEDERAL DE LAVRAS DEPARTAMENTO DE CIÊNCIAS EXATAS ANÁLISE MULTIVARIADA Daniel Furtado Ferreira LAVRAS, MG 1996

multivariada - ufla

Embed Size (px)

Citation preview

Page 1: multivariada - ufla

MINISTÉRIO DA EDUCAÇÃO E DO DESPORTO UNIVERSIDADE FEDERAL DE LAVRAS DEPARTAMENTO DE CIÊNCIAS EXATAS

ANÁLISE MULTIVARIADA

Daniel Furtado Ferreira

LAVRAS, MG

1996

Page 2: multivariada - ufla

ii

SUMÁRIO Pág.

1. Aspectos da análise multivariada 1

1.1. Introdução 1

1.2. Aplicação das técnicas multivariadas 3

1.3. Organização de dados 5

1.4. Distâncias 15

1.5. Exercícios 24

2. Álgebra vetorial e matricial 25

2.1. Introdução 25

2.2. Elementos de álgebra vetorial 26

2.3. Elementos de álgebra matricial 34

2.4. Exercícios 82

3. Amostragem multivariada 89

3.1. Introdução 89

3.2. Geometria amostral 90

3.3. Amostras aleatórias e esperanças do vetor de média e da matriz de covariância amostral. 101

3.4. Variância generalizada 104

3.5. Variância generalizada de variáveis generalizadas 113

3.6. Outra generalização da variância 116

3.7. Exercícios 117

Page 3: multivariada - ufla

iii

4. Distribuição normal multivariada 119

4.1. Introdução 119

4.2. Pressuposições das análises multivariadas 120

4.3. Densidade normal multivariada e suas propriedades 121

4.4. Distribuição normal bivariada 125

4.5. Distribuição amostral de X e S 133

4.6. Distribuições amostral derivada da distribuição normal multivariada 138

4.7. Verificando a normalidade 143

4.8. Exercícios 169

5. Inferências sobre o vetor média 171

5.1. Introdução 171

5.2. Inferências sobre média de uma população normal 171

5.3. Região de confiança e comparações simultâneas de componentes de média 177

5.4. Inferências sobre proporções de grandes amostras 190

5.5. Comparações pareadas 192

5.6. Comparações de vetores de médias de duas populações 199

5.7. Exercícios 215

6. Análise de variância multivariada 219

6.1. Introdução 219

6.2. Delineamento de classificação simples 220

Page 4: multivariada - ufla

iv

6.3. Intervalos de confiança simultâneos para o efeito de tratamentos 230

6.4. Exercícios 232

7. Componentes principais 233

7.1. Introdução 233

7.2. Componentes principais populacionais 234

7.3. Componentes principais amostrais 250

7.4. Gráficos dos componentes principais 256

7.5. Inferências para grandes amostras 259

7.6. Exercícios 282

8. Análise de agrupamento 285

8.1. Introdução 285

8.2. Medidas de parecença (similaridades e dissimilaridades) 286

8.3. Agrupamentos 296

8.4. Exercícios 308

9. Análise de fatores 309

9.1. Introdução 309

9.2. Modelo de fatores ortogonais 310

9.3. Estimação de cargas fatoriais 316

9.4. Rotação fatorial 342

9.5. Teste da falta de ajuste do modelo fatorial 346

Page 5: multivariada - ufla

v

9.6. Escores fatoriais 349

9.7. Exercícios 354

10. Análise de correlação canônica 355

10.1. Introdução 355

10.2. Variáveis canônicas e correlação canônica populacionais 356

10.3. Variáveis e correlações canônicas amostrais 371

10.4. Inferências para grandes amostras 380

10.5. Exercícios 386

11. Referencias bibliográficas 389

Apêndices 395

Índice remissivo 397

Page 6: multivariada - ufla

||[ ]||Aspectos da análise multivariada

1

1.1. Introdução

Nos trabalhos científicos, o problema de se inferir, a partir de dados

mensurados pelo pesquisador, sobre os processos ou fenômenos físicos,

biológicos ou sociais, que não se pode diretamente observar, é uma realidade

constante. A pesquisa científica se constitui num processo interativo de

aprendizado. Para explicação de um fenômeno, o pesquisador em geral coleta e

analisa dados de acordo com uma hipótese. Por outro lado, a análise destes

mesmos dados coletados de amostragem ou experimentação geralmente sugere

modificações da explicação do fenômeno, além disso, devido à complexidade

destes fenômenos, o pesquisador deve coletar observações de diferentes

variáveis. Neste contexto, a inferência estatística é realizada de acordo com o

paradigma hipotético-dedutivo (Bock, 1975).

Devido aos fenômenos serem estudados a partir de dados coletados

ou mensurados em muitas variáveis, os métodos estatísticos delineados para

obter informações a partir destes conjuntos de informações, são denominados de

métodos de análises multivariados. A necessidade de compreensão das relações

Page 7: multivariada - ufla

1. Aspectos da análise multivariada 2

entre as diversas variáveis faz com que as análises multivariadas sejam

complexas ou até mesmo difíceis. O objetivo do presente material é apresentar a

utilidade das técnicas multivariada de uma forma clara, usando exemplos

ilustrativos e evitando o máximo de possível de cálculo.

Sendo assim, os objetivos gerais, para os quais a análise

multivariada conduz são:

a. redução de dados ou simplificação estrutural: o fenômeno sob estudo é

representado da maneira mais simples possível, sem sacrificar

informações valiosas e tornando as interpretações mais simples;

b. ordenação e agrupamento: agrupamento de objetos (tratamentos) ou

variáveis similares, baseados em dados amostrais ou experimentais;

c. investigação da dependência entre variáveis: estudos das relações

estruturais entre variáveis muitas vezes é de interesse do pesquisador;

d. predição: relações entre variáveis devem ser determinadas para o

propósito de predição de uma ou mais variável com base na observação

de outras variáveis;

e. construção e teste de hipóteses.

Os modelos multivariados possuem em geral, um propósito através

do qual o pesquisador pode testar ou inferir a respeito de uma hipótese sobre um

Page 8: multivariada - ufla

Ferreira, D.F. Estatística multivariada 3

determinado fenômeno. No entanto a sua utilização adequada depende do bom

conhecimento das técnicas e das suas limitações. A frase utilizada por Marriott

(1974) descreve bem este fato: “Não há mágica com os métodos numéricos, e que

apesar de serem uma importante ferramenta para análise e interpretação de

dados, não devem ser utilizados como máquinas automáticas de encher lingüiça,

transformando massas numéricas em pacotes de fatos científicos”.

1.2. Aplicação de técnicas multivariadas

As técnicas estatísticas constituem se uma parte integral da pesquisa

científica e em particular as técnicas multivariadas tem sido regularmente aplicada

em várias investigações científicas nas áreas de biologia, física, sociologia e

ciências médicas. Parece, neste instante, ser apropriado descrever as situações

em que as técnicas multivariadas têm um grande valor.

Medicina

Nos estudos onde as reações de pacientes a um determinado

tratamento são mensuradas em algumas variáveis e possuem difícil diagnóstico,

as técnicas multivariadas podem ser usadas para construir uma medida de

resposta simples ao tratamento, na qual é preservada a maior parte da informação

da amostra e das múltiplas variáveis respostas. Em outras situações as técnicas

Page 9: multivariada - ufla

1. Aspectos da análise multivariada 4

multivariadas podem ser usadas também quando a classificação de um paciente,

baseada nos sintomas medidos em algumas variáveis, é difícil de ser realizada.

Neste caso, uma técnica multivariada de classificação, em que se cria uma função

que pode ser usada para separar as pessoas doentes das não doentes, pode ser

implementada.

Sociologia

Em alguns estudos o inter-relacionamento e o agrupamento de

indivíduos, cidades ou estados em grupos homogêneos em relação à mobilidade,

número de estrangeiros nascidos e de segunda geração em determinado país é

necessária em alguns estudos sociológicos. As técnicas de análise multivariada,

conhecidas como análise de agrupamento (Cluster analysis), pode ser empregada

com esta finalidade.

Biologia

No melhoramento de plantas é necessário, após o final de uma

geração, selecionar aquelas plantas que serão os genitores da próxima geração. a

seleção deve ser realizada de maneira que a próxima geração seja melhorada em

relação à resposta média de uma série de características da geração anterior. O

objetivo do melhorista consiste em maximizar o ganho genético em um espaço

Page 10: multivariada - ufla

Ferreira, D.F. Estatística multivariada 5

mínimo de tempo. As análises multivariadas podem ser usadas para converter

uma série de características para um índice, na qual a seleção e escolha dos pais

possam ser feitas.

Em algumas situações se deseja a separação de algumas espécies,

e as técnicas multivariadas têm sido utilizadas com esta finalidade. Uma função é

construída e os seus valores são usados para esta separação.

1.3. Organização de dados

Através deste material pretende-se tratar das análises realizadas em

muitas características ou variáveis. Essas medidas, muitas vezes chamadas de

dados, devem ser organizadas e apresentadas em várias formas. Por exemplo, a

utilização de gráficos e arranjos tabulares são importantes auxiliares nas análises

de dados. Por outro lado, números que resumem, ou seja, que descrevem

quantitativamente certas características, são essenciais para a interpretação de os

dados amostrais ou experimentais.

Arranjos

Os dados multivariados são provenientes de uma pesquisa em

determinada área em que são selecionadas p ≥ 1 variáveis ou características para

Page 11: multivariada - ufla

1. Aspectos da análise multivariada 6

serem mensuradas. As medidas são tomadas em cada unidade da amostra ou do

experimento. A representação destes dados é feita com a notação xjk para indicar

um valor particular da j-ésima unidade amostral ou experimental e da k-ésima

variável mensurada. Conseqüente, estas medidas de p variáveis em n unidades

amostrais ou experimentais, podem ser representadas conforme o arranjo

apresentado na Tabela 1.1.

Tabela 1.1. Representação de dados através da notação xjk para indicar um valor

particular da k-ésima variável mensurada na j-ésima unidade amostral

ou experimental.

Variáveis

Unidades amostrais ou experimentais

1 2 ... k ... p

1 X11 X12... X1k... X1p

2 X21 X22... X2k... X2p

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. j Xj1 Xj2... Xjk... Xjp

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. n Xn1 Xn2... Xnk... Xnp

Page 12: multivariada - ufla

Ferreira, D.F. Estatística multivariada 7

Estes valores, apresentados na Tabela 1.1, podem ser

representados em um arranjo retangular, denominado de X, com n linhas e p

colunas, da seguinte forma:

11 12 1 1

21 22 2 2

1 2

1 2

k p

k p

j j jk jp

n n nk np

x x x xx x x x

Xx x x x

x x x x

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

Exemplo 1.1

Uma seleção de 4 firmas de ração de Minas Gerais foi obtida para

avaliar a venda de rações. Cada observação bivariada forneceu a quantidade de

sacos de ração vendidos e a quantidade de reais de cada venda. Os dados

obtidos na forma tabular são:

Variável 1 (Reais/venda) 80 120 90 110

Variável 2 (número de sacos de ração vendidos)

10

12

6

8

Usando a notação proposta anteriormente, tem-se:

X11=80 X21=120 X31=90 X41=110 X12=10 X22=12 X32=6 X42=8

E a matriz X dos dados é:

Page 13: multivariada - ufla

1. Aspectos da análise multivariada 8

80 10120 12

90 6110 8

X

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

A organização dos dados em arranjos facilita a exposição e permite

que os cálculos sejam efetuados de uma forma ordenada e eficiente. Os ganhos

na eficiência são: (1) descrição dos cálculos como operações com matrizes e

vetores; e (2) sua fácil implementação em computadores.

ESTATÍSTICAS DESCRITIVAS

Grandes conjuntos de dados possuem um sério obstáculo para

qualquer tentativa de extração de informações visuais pertinentes aos mesmos.

muitas das informações contidas nos dados podem ser obtidas por cálculo de

certos números, conhecidos como estatísticas descritivas. Por exemplo, a média

aritmética ou média amostral, é uma estatística descritiva que fornece informação

de posição, isto é, representa um valor central para o conjunto de dados. Como

um outro exemplo, a média das distâncias ao quadrado de cada dado em relação

à média, fornece uma medida de dispersão, ou variabilidade.

Às estatísticas descritivas que mensuram posição, variação e

associação linear são enfatizadas. As descrições formais destas medidas estão

apresentadas a seguir.

A média amostral, simbolizada por X , é dada por:

Page 14: multivariada - ufla

Ferreira, D.F. Estatística multivariada 9

1

1 n

k jkj

X Xn =

= ∑ k=1, 2, ..., p (1.1)

Uma medida de variação é fornecida pela variância amostral,

definida para as n observações de i-ésima variável por:

( )22

1

11 =

= = −− ∑

n

k kk jk kj

S S X Xn

k = 1, 2, ..., p (1.2)

A raiz quadrada da variância amostral, kkS , é conhecida como

desvio padrão amostral. Esta medida de variação está na mesma unidade de

medida das observações.

Uma medida de associação entre as observações de duas variáveis,

variáveis k e k’, é dada pela covariância amostral:

( )( )' ' '1

11 =

= − −−∑n

kk jk k jk kjX X X X

nS k, k’=1,2, ..., p (1.3)

Se grandes valores de uma variável são observados em conjunto

com grandes valores da outra variável, e os pequenos valores também ocorrem

juntos, Skk’ será positiva. Se grandes valores de uma variável ocorrem com

pequenos valores da outra, Skk’ será negativa. Se não há associação entre os

Page 15: multivariada - ufla

1. Aspectos da análise multivariada 10

valores das duas variáveis, Skk’ será aproximadamente zero. Quando k=k’, a

covariância reduz-se a variância amostral. Além disso, Skk’= Sk’k, para todo k e k’.

A última estatística descritiva a ser considerada aqui é o coeficiente

de correlação amostral. Esta medida de associação linear entre duas variáveis

não depende da unidade de mensuração. O coeficiente de correlação amostral

para k-ésima e k’-ésima variável, é definido por:

( )( )

( ) ( )

' '1'

'2 2

' '' '

1 1

=

= =

− −= =

− −

∑ ∑

n

jk k jk kjkk

kk n nkk k k

jk k jk kj j

X X X Xr

X X X X

SS S

(1.4)

Verifica-se que rkk’=rk’k para todo k e k’. O coeficiente de correlação

amostral é a versão estandardizada da covariância amostral, onde o produto das

raízes das variâncias das amostras fornece a estandardização.

O coeficiente de correlação amostral pode ser considerado como

uma covariância amostral. Suponha que os valores Xjk e Xjk’ sejam substituídos

pelos valores padronizados, ( )−jk k

kk

X XS e ' '

' '

( )−jk k

k k

X XS . Esses valores padronizados

são expressos sem escalas de medidas (adimensionais), pois são centrados em

zero e expressos em unidades de desvio padrão. O coeficiente de correlação

amostral é justamente a covariância amostral das observações estandardizadas.

A correlação amostral (r), em resumo, tem as seguintes

propriedades:

Page 16: multivariada - ufla

Ferreira, D.F. Estatística multivariada 11

1. Os valores de r devem ficar compreendidos entre -1 e 1;

2. Se r = 0, implica em inexistência de associação linear entre as variáveis. Por

outro lado, o sinal de r, indica a direção da associação: se r < 0 há uma

tendência de um dos valores do par ser maior que sua média, quando o outro

for menor do que a sua média, e r > 0 indica que quando um valor do par for

grande o outro também o será, além de ambos valores tender a serem

pequenos juntos;

3. Os valores de rkk’ não se alteram com a alteração da escala de uma das

variáveis.

As estatísticas Skk’ e rkk’, em geral, não necessariamente refletem

todo o conhecimento de associação entre duas variáveis. Associações não

lineares existem, as quais, não podem ser reveladas por estas estatísticas

descritivas. Por outro lado, estas estatísticas são muito sensíveis a observações

discrepantes (outliers).

Além destas, outras estatísticas como a soma de quadrados de

desvios em relação à média (Wkk) e a soma de produtos de desvios (Wkk’), são

muitas vezes de interesse. Essas estão apresentadas a seguir:

Page 17: multivariada - ufla

1. Aspectos da análise multivariada 12

2

1( )

== −∑

n

kk jk kjX XW

' ' '1( )( )

== − −∑

n

kk jk k jk kj

W X X X X

As estatísticas descritivas multivariadas calculadas de n observações

em p variáveis podem ser organizadas em arranjos.

Médias da amostra

1

2

⎡ ⎤⎢ ⎥⎢ ⎥= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦p

XX

X

X

Matriz de covariância amostral

S

S S S

S S S

S S S

p

p

p p pp

=

⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥

11 12 1

21 22 2

1 2

Page 18: multivariada - ufla

Ferreira, D.F. Estatística multivariada 13

Matriz de correlações amostral

R

r r

r r

r r

p

p

p p

=

⎢⎢⎢⎢⎢

⎥⎥⎥⎥⎥

1

1

1

12 1

21 2

1 2

Exemplo 1.2

Considerando os dados introduzidos no exemplo 1.1, encontrar as o

vetor de médias X e as matrizes S e R. Neste exemplo, cada firma de ração,

representa uma das observações multivariadas, com p = 2 variáveis (valor da

venda em reais e número de sacos de rações vendidas).

As médias amostral são:

4

1 j1j 1

1 1X X (80 120 90 110) 1004 4=

= = + + + =∑

4

2 j2j 1

1 1X X (10 12 6 8) 94 4=

= = + + + =∑

1

2

1009

⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥

⎣ ⎦⎣ ⎦

XX

X

A matriz de covariância amostral é:

Page 19: multivariada - ufla

1. Aspectos da análise multivariada 14

S11=[(80-100)2+(120-100)2+(90-100)2+(110-100)2]/3 = 333,333

S22=[(10-9)2+(12-9)2+(6-9)2+(8-9)2]/3 = 6,667

S12=[(80-100)(10-9)+(120-100)(12-9)+(90-100) (6-9)+(110-100)(8-9)]/3 = 20,000

S21=S12=20,000, e

S =⎡

⎣⎢⎤

⎦⎥333 333 20 00020 000 6 667

, ,, ,

A correlação amostral é:

r12

2033 333 6 667

0 424= =, ,

, 3

r21=r12=0,4243

Portanto,

1,0000 0, 4243R

0, 4243 1,0000⎡ ⎤

= ⎢ ⎥⎣ ⎦

Page 20: multivariada - ufla

Ferreira, D.F. Estatística multivariada 15

1.4. Distâncias

A maioria das técnicas multivariadas é baseada no simples conceito

de distância, por mais formidável que isso possa parecer. O conceito de distância

euclidiana deve ser familiar para a maioria dos estudantes. Se for considerado um

ponto P=(x1, x2) no plano cartesiano, a distância deste ponto P da origem O=(0, 0),

definida por d(O,P), é dada pelo teorema de Pitágoras por:

d O P x x( , ) = +12

22 (1.5)

Esta situação é ilustrada na Figura 1.1. Em geral, se o ponto P tem p

coordenadas, de tal forma que P=(x1, x2, ... xp), a distância de P da origem

O=(0, 0, ..., 0), pode ser generalizada por:

d O P x x x p( , ) ...= + + +12

22 2 (1.6)

Page 21: multivariada - ufla

1. Aspectos da análise multivariada 16

X1

X2

P

d(O, P)

Figura 1.1. Distância entre um ponto P=(x1, x2) e a origem O=(0, 0), fornecida pelo teorema de Pitágoras.

Todos os pontos (x1, x2, .., xp) que contém uma distância ao

quadrado, denominada c2, da origem, satisfaz a equação:

d O P x x x cp2

12

22 2 2( , ) ...= + + + = (1.7)

A expressão em (1.7) representa a equação de uma hiperesfera (um

círculo se p = 2), e os pontos eqüidistantes da origem por uma distância d(O, P)

pertencem a essa hiperesfera. A distância de um ponto P a um ponto arbitrário Q,

com coordenadas P=(x1, x2, ... xp) e Q=(y1, y2, ... yp) é dada por:

( ) ( ) ( )d P Q x y x y x yp p( , ) ...= − + − + + −1 12

2 22 2

(1.8)

Page 22: multivariada - ufla

Ferreira, D.F. Estatística multivariada 17

A distância euclidiana é insatisfatória para muitas situações

estatísticas. Isso ocorre devido à contribuição de cada coordenada ter o mesmo

peso para o cálculo da distância. Quando estas coordenadas representam

medidas são provenientes de um processo que sofre flutuações aleatórias de

diferentes magnitudes é muitas vezes desejável ponderar as coordenadas com

grande variabilidade por menores pesos em relação àquelas com baixa

variabilidade. Isto sugere o uso de uma nova medida de distância.

Será apresentada a seguir uma distância que considera as

diferenças de variação e a presença de correlação. Devido a escolha de a

distância depender das variâncias e das covariâncias amostrais, a partir deste

instante, será utilizado o termo “distância estatística” para distinguir de distância

euclidiana.

A princípio, será considerada a construção de uma distância entre

um ponto P, com p coordenadas, da origem. O argumento que pode ser usado

refere-se ao fato de que as coordenadas de P podem variar no espaço produzindo

diferentes posições para os pontos. Para ilustrar, suponha que se tenha n pares

de medidas em duas variáveis (x1 e x2) e que as medidas de x1 variam

independentemente das mensurações em x2. O significado de independente neste

ponto pode ser dado pelo fato de que os valores de x1 não podem ser preditos

com nenhuma acurácia a partir dos valores de x2 e vice-versa. Em adição, é

assumido que as observações de x1 possuem maior variabilidade que as de x2.

Uma ilustração desta situação está apresentada na Figura 1.2.

Page 23: multivariada - ufla

1. Aspectos da análise multivariada 18

-6 -4 -2 0 2 4 6

X2

-6

-5

-4

-3

-2

-1

0

1

2

3

4

5

6

Figura 1.2. Diagrama de dispersão, mostrando a maior variabilidade na direção de

x1 do que na direção de x2.

Observando a Figura 1.2, verifica-se que não é surpreendente

encontrar desvios na direção de x1 que se afastem da origem consideravelmente,

o que não ocorre na direção de x2. Parece ser razoável, então, ponderar x2 com

mais peso do que x1 para um mesmo valor, quando as distâncias da origem forem

calculadas.

Page 24: multivariada - ufla

Ferreira, D.F. Estatística multivariada 19

Um modo de fazer isso é dividir cada coordenada pelo desvio padrão

amostral. Após a divisão, têm-se as coordenadas estandardizadas 1 1 11*x x s= e

2 2 22*x x s= . Após eliminar as diferenças de variabilidade das variáveis

(coordenadas), determina-se a distância usando a fórmula euclidiana padrão:

d O P x xxS

xS

( , ) ( ) ( )* *= + = +12

22 1

2

11

22

22 (1.9)

Usando a equação (1.9) todos os pontos tendo como coordenadas

(x1, x2) e com distância quadrada (c2) da origem devem satisfazer:

12

11

22

22

2xS

xS

c+ = (1.10)

A expressão (1.10) é a equação de uma elipse, cujos maiores e

menores eixos coincidem com os eixos das coordenadas. A Figura 1.3 mostra o

caso geral para p = 2 coordenadas.

Page 25: multivariada - ufla

1. Aspectos da análise multivariada 20

OX1

X2

cS110.5-cS11

0.5

cS220.5

-cS220.5

Figura 1.3. Elipse de uma distância estatística quadrática d2(O,P)= 12

11

22

22

2xS

xS

c+ = .

Exemplo 1.3

Um conjunto de pares (x1, x2) de duas variáveis forneceu 1 2X X 1= = ,

S11=9 e S22=1. Supõe-se que as observações de x1 são independentes de x2. A

distância quadrática de um ponto arbitrário (P) da origem, uma vez que as

variâncias da amostra não são iguais, é dada por:

d O Px x2 1

222

9 1( , ) = +

Page 26: multivariada - ufla

Ferreira, D.F. Estatística multivariada 21

Todos os pontos (x1, x2) que possuem distâncias quadrada da origem igual a 1,

satisfazem a equação:

x x12

22

9 11+ = (1.11)

As coordenadas de alguns pontos com distância quadrática unitária

da origem foram apresentadas na Tabela 1.2.

Tabela 1.2. Coordenadas de alguns pontos com distância quadrática unitária da

origem.

Coordenadas (x1, x2) Distância ao quadrado

( 0, 1)

( 0,-1)

( 3, 0)

(-3, 0)

09

11

2 21+ =

09

11

2 2

1+ =−( )

39

01

2 21+ =

( )−+ =

39

01

2 21

O gráfico da equação (1.11) é uma elipse centrada na origem (0,0),

cujo maior eixo é o da direção de x1 e o menor da direção de x2. A metade do

maior eixo (semi-eixo maior) é c S11 3= e do menor c S22 1= . A elipse de distância

quadrática unitária foi plotada na Figura 1.4.

Page 27: multivariada - ufla

1. Aspectos da análise multivariada 22

-5 -4 -3 -2 -1 0 1 2 3 4 5

-5

-4

-3

-2

-1

0

1

2

3

4

5

x1

x2

Figura 1.4. Elipse de distância unitária quadrática da origem obtida a partir da

equação 1.11.

A expressão (1.9) pode ser generalizada para o cálculo da distância

entre pontos P e Q, cujas coordenadas variam, mutuamente independentemente

uma da outra. O caso mais geral, em que a hipótese de independência não é

satisfeita, será abordado futuramente.

d P Qx yS

x yS

x y

Sp p

pp( , )

( ) ( ) ( )=

−+

−+ +

−1 12

11

2 22

22

2

(1.12)

Page 28: multivariada - ufla

Ferreira, D.F. Estatística multivariada 23

Todos os pontos (P) situados a uma distância quadrática constante

de Q, pertencem a uma hiperelipsóide centrada em Q, cujos maiores e menores

eixos são paralelos aos eixos das coordenadas.

O programa SAS, apresentado a seguir, contém os códigos

necessários para a obtenção das principais estatísticas descritivas multivariadas

apresentadas nesse capítulo. O programa contém códigos matriciais e será

abordado com mais detalhe nos próximos capítulos. Os dados do exemplo 1.1 são

utilizados para a ilustração.

Proc IML; X={ 80 10, 120 12, 90 6, 110 8}; Print X; n=nrow(X);p=ncol(X); Xbar=x`*j(n,1,1)/n; Print Xbar; q=i(n)-(1/n)*j(n,n,1); print q; S=(1/(n-1))*X`*q*X; W=(n-1)*S; print S W; V=diag(S); Vroot=half(V); IVroot=inv(Vroot); R=Ivroot*S*Ivroot; Print V Vroot IVroot; Print R; Quit;

Foi motivado nesse capítulo o estudo das análises multivariadas e

tentou-se fornecer alguns rudimentares, mas importantes, métodos de organizar e

resumir os dados. Em adição, o conceito geral de distância foi apresentado, e será

abordado e generalizado nos próximos capítulos.

Page 29: multivariada - ufla

1. Aspectos da análise multivariada 24

1.5. Exercícios

■ Considere as amostras com 8 observações e 3 variáveis apresentadas a seguir:

x1 3 5 6 4 8 9 6 7

x2 6 11 11 9 15 16 10 12

x3 14 9 9 13 2 2 9 5

a) Construa o gráfico de dispersão dos pontos das variáveis x1 e x2, x1 e x3, x2 e x3.

Comente sobre sua aparência.

b) Calcule: X , S e R e interprete os valores em R.

c) Calcule a distância euclidiana dada em (1.8) de um ponto

P=( x1, x2, x3)=(5, 12, 8) em relação a origem e em relação a X .

d) Calcule as mesmas distâncias do item c, usando (1.12).

Page 30: multivariada - ufla

||[ ]||Álgebra vetorial e matricial

2

2.1. Introdução

É desejável que as p respostas multivariadas sejam representadas

por uma notação concisa. Os dados multivariados podem ser dispostos

convenientemente como um arranjo de números, como foi apresentado no

capítulo 1. Em geral, um arranjo retangular destes números, com n linhas e p

colunas, por exemplo, é chamada de matriz de dimensões n x p. Se por outro lado,

o arranjo consiste em n mensurações em apenas 1 variável, ou ainda, de uma

observação multivariada em p variáveis, esses arranjos são denominados de

vetores.

Com esse arranjo bidimensional, não só, a notação fica mais

concisa, mas os muitos resultados matemáticos de álgebra vetorial e matricial

facilitam a derivação e exposição dos métodos estatísticos multivariados. Neste

material, os elementos de álgebra vetorial e matricial, serão considerados como

conhecidos. Nesse capítulo, no entanto, para os estudantes não familiarizados

com o assunto, será apresentada uma breve revisão.

Page 31: multivariada - ufla

2. Álgebra vetorial e matricial 26

2.2. Elementos de álgebra vetorial

De um ponto de vista geométrico, as observações multivariadas,

podem ser consideradas como pontos no espaço p-dimensional, cujas

coordenadas são dadas por (x1, x2, ..., xp). Esse ponto pode ser visto como o final

de um segmento de reta da origem (0, 0, ..., 0) ao ponto (x1, x2, ..., xp). Tal

segmento de reta é denominado de vetor de posição e pode ser denotado

simplesmente por X . O vetor de posições é apenas um exemplo de vetor, para os

quais pode ser elaborada a álgebra, baseada nos seguintes postulados.

POSTULADOS

1. Para qualquer vetor X dado um número escalar c, a multiplicação do escalar

pelo vetor, resulta em outro vetor Y , definido por:

Y = c X

c será considerado um número real;

2. A adição de dois vetores conduz a um único vetor definido como:

Page 32: multivariada - ufla

Ferreira, D.F. Estatística multivariada 27

Z = X + Y

3. A adição de vetores é:

Comutativa: X + Y = Y + X

Associativa: X + ( )Y Z+ = ( )X Y Z+ +

4. Se 0 é o vetor nulo, então:

X + 0 = X

0 . X = 0

COMPRIMENTO, ÂNGULO E DISTÂNCIA

Inicialmente, é definido produto interno entre dois vetores, que

representa a soma de produtos de pares de coordenadas correspondentes. Para

dois vetores (n x 1) de posição X e Y , o produto interno será o escalar, dado por:

n

i i 1 1 2 2 n ni 1

X.Y x y x y x y x y=

= = + + +∑

Page 33: multivariada - ufla

2. Álgebra vetorial e matricial 28

É fácil verificar que X.Y Y.X= . Por meio, do produto interno é

possível generalizar o teorema de Pitágoras para o espaço euclidiano

n-dimensional:

n2 2 2 2 2 2

i 1 2 ni 1

X X.X x x x x d (P,O)=

= = = + + + =∑ (2.1)

em que P, é o ponto do espaço n-dimensional, definido pelas coordenadas do

vetor X . A expressão (2.1) é o comprimento ao quadrado do vetor X . A

expressão entre módulo | X | indica a norma de X .

Dessa forma o comprimento do vetor é definido por:

X X.X= (2.2)

O ângulo θ entre dois vetores ( X e Y ) pode ser expresso em função

do produto interno e do comprimento dos vetores, obtido através da lei dos

cosenos, por:

( ) X.YCosX.X Y.Y

θ = (2.3)

As distâncias apresentadas no capítulo 1, entre os pontos

coordenados dos vetores X e Y , podem ser expressos agora como o

Page 34: multivariada - ufla

Ferreira, D.F. Estatística multivariada 29

comprimento do vetor diferença das coordenadas de X e Y . A distância entre X

e Y é:

d(X, Y) X Y (X Y).(X Y)= − = − − (2.4)

Além de ser não negativa, essa distância entre os dois vetores é

independente da direção das medidas e satisfaz a desigualdade triangular:

d( X , Y ) ≤ d( X , Z ) + d( Y , Z ) (2.5)

Derivada a partir da desigualdade de Cauchy-Schwars:

a.b ≤ a . b (2.6)

O que implica, no fato, que o valor do co-seno do ângulo entre a e b

não pode exceder a unidade.

ORTOGONALIDADE

Dois vetores não nulos são denominados ortogonais, se o co-seno

do ângulo entre eles for zero. Isto indica que:

Page 35: multivariada - ufla

2. Álgebra vetorial e matricial 30

X.Y = 0 (2.7)

Muitas vezes é desejável (em sistemas de equações lineares)

construir uma base ortonormal de vetores, isto é, cada vetor da base possui

comprimento unitário ( )i iX .X 1= e cada par de vetor da base são ortogonais

( )i jX .X 0, i j= ≠ . Para um conjunto de vetores arbitrários pode-se empregar a

“construção de Gram-Schimidt”. O algoritmo está apresentado a seguir,

considerando o conjunto 1 2 nX , X , ..., X de vetores:

Passo 1: normalize 1X :

11 1 1

1 1

XX ; X .X 0X .X

∗ = ≠

Passo 2: Ortonormalize 2X calculando o produto interno entre *1X e 2X , e

subtraindo de 2X os componentes de *1X :

Ortogonalizando 1X e 2X :

( )* *2 2 2 1 1X X X .X X⊥ = −

Então, normalizando-se 2X⊥ :

Page 36: multivariada - ufla

Ferreira, D.F. Estatística multivariada 31

*2 2 2 2

2 2

1X X ; X .X 0X .X

⊥ ⊥ ⊥

⊥ ⊥= ≠

Passo 3: Calcule o produto interno de 3X com *1X e *

2X , e subtraia de 3X os

componentes de *1X e *

2X ,

( ) ( )* * * *3 3 3 1 1 3 2 2X X X .X X X .X X⊥ = − −

Então, normalizando-se 3X⊥ :

*3 3 3 3

3 3

1X X ; X .X 0X .X

⊥ ⊥ ⊥

⊥ ⊥= ≠

E assim por diante, até o n-ésimo estágio, quando todos os vetores

entrarem na construção. Se o i-ésimo vetor for linearmente dependente dos

vetores anteriores, então iX⊥ será igual ao vetor nulo, iX 0⊥ = , devendo ser

eliminado do conjunto e o processo deve continuar com o vetor i 1X + . O número de

vetores não nulos remanescentes no conjunto, constituem a dimensão do espaço

vetorial original.

Page 37: multivariada - ufla

2. Álgebra vetorial e matricial 32

Exemplo 2.1

Dado o conjunto de vetores, a seguir, utilizar como ilustração a construção de

Gram-Schimidt.

1 1 01 1 0

X1 0 11 0 1

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

Os vetores de X são dados por:

X = [ 1X 2X 3X ]

Passo 1. Normalize 1X :

*1

111X121

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

Passo 2: Ortonormalize 2X :

Produto interno: 2X . *1X = 1

Page 38: multivariada - ufla

Ferreira, D.F. Estatística multivariada 33

ortogonalização: 2

1 1 11 1 11 1X 1.0 1 12 20 1 1

⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − =⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Normalização: *2

1 11 11 1 1X .1 11 2 21 1

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦

Passo 3: Ortonormalização de 3X

Produto interno: *3 1X .X 1= e *

3 2X .X 1= −

ortogonalização:

1 12 21 12 2

3 1 12 21 12 2

00 1 1 000 1 1 01 1X 1. ( 1).11 1 1 02 211 1 1 0

− +⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− +⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − − − = =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −−⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −− ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦

Verifica-se neste passo que 3X é linearmente dependente dos

vetores 1X e 2X , e deve ser eliminado da base vetorial. É fácil verificar que

3 1 2X X X= − . Agrupando os vetores linearmente independentes ortonormalizados

obtém-se a base vetorial de Gram-Schimidt.

Page 39: multivariada - ufla

2. Álgebra vetorial e matricial 34

1 12 21 12 2

2 1 12 21 12 2

X

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥−⎢ ⎥−⎢ ⎥⎣ ⎦

Pode ser observar facilmente que o produto interno dos vetores em

X2, é igual a zero.

Um importante tipo de matriz inversa, denominado de inversa de Moore-

Penrose, é obtido de uma base ortonormal das colunas de uma matriz para a qual

se deseja obter a inversa generalizada de Moore-Penrose. Seja A uma matriz de

dimensão qualquer nxp e seja U a base ortonormal de vetores obtida da

ortonormalização das colunas de A, então, defini-se T por:

T=U’A

Logo, a inversa generalizada de Moore-Penrose (A+) é definida por:

A+ = T’(TT’)-1U’.

2.3. Elementos de álgebra matricial

Na álgebra matricial as relações e operações são definidas através

de operações em arranjos retangulares dos elementos, denominados de matrizes.

Um exemplo de matriz é:

Page 40: multivariada - ufla

Ferreira, D.F. Estatística multivariada 35

11 12 1p

21 22 2p

n x p

n1 n2 np

a a aa a aAa a a

⎡ ⎤⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

O número de linhas de uma matriz é denominado de ordem de linha

e o número de colunas, ordem de colunas. Se o número de linhas é n e o número

de colunas é p, diz-se que a matriz possui ordem nxp. Pode-se representar a

matriz por:

A=[aij] i=1, 2,..., n j=1, 2, ..., p (2.8)

Nas análises multivariadas, muitas vezes, será feito referências a

matriz de dados, a qual consiste de p respostas de n observações ou unidades

experimentais, e terá ordem nxp.

POSTULADOS

1. Igualdade: Duas matrizes necessariamente com o mesmo número de linhas e

colunas são iguais, se e somente se os elementos correspondentes, forem

iguais:

A=B ⇔ aij=bij i=1, 2, ..., n e j=1, 2, ..., p

Page 41: multivariada - ufla

2. Álgebra vetorial e matricial 36

2. Adição: A soma de duas matrizes de mesma ordem é obtida pela soma dos

elementos correspondentes:

A+B = [ aij] + [bij] = [aij + bij]

A adição com matriz nula 0, contendo elementos iguais a zero é:

nAp + n0p = nAp

3. Multiplicação por escalar: o produto de um escalar e uma matriz é obtido pela

multiplicação de cada elemento da matriz pelo número escalar:

cA = c[ aij] = [ caij]

4. Multiplicação de matriz: a multiplicação de matrizes é definida para aquelas em

que a ordem coluna do fator que pré multiplica é igual a ordem linha do fator

que pós multiplica. Tais matrizes são denominadas conformáveis para

multiplicação. O elemento (i, k) da matriz resultante do produto é a soma dos

produtos dos elementos correspondentes, da i-ésima linha do fator que pré

multiplica com os da k-ésima coluna do fator que pós multiplica.

nAq qBp = AB = q

ij jkj 1

a b=

⎡ ⎤⎢ ⎥⎣ ⎦∑ = [ai1b1k + ai2b2k + ... + aiqbqk] = [cik] = C

Page 42: multivariada - ufla

Ferreira, D.F. Estatística multivariada 37

Em geral AB ≠ BA.

A matriz quadrada com unidades na diagonal e zero nas demais

partes é denominada de matriz unitária ou identidade:

1 0 00 1 0

0 0 1

⎡ ⎤⎢ ⎥⎢ ⎥Ι =⎢ ⎥⎢ ⎥⎣ ⎦

Verifica-se que:

nAp pΙp = nAp

nΙn nAp = nAp

A matriz quadrada cujos elementos fora da diagonal principal são

iguais a zero é denominada matriz diagonal:

D = diag[d1, d2, ..., dn] =

1

2

n

d 0 00 d 0

0 0 d

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

Page 43: multivariada - ufla

2. Álgebra vetorial e matricial 38

A pré-multiplicação por uma matriz diagonal, simplesmente re-escala

as linhas do fator que pós multiplica, e a pós-multiplicação re-escala as colunas do

pré-fator.

5. Inversão de matriz: a inversa de uma matriz quadrada A, nxn, é chamada de A-1

e é definida de tal forma que A A-1 = A-1 A = Ι.

A inversa de um produto de matrizes é o produto do inverso dos fatores em

ordem inversa a ordem de multiplicação original:

(AB)-1 = B-1A-1

Pois, B-1A-1AB = B-1B = Ι e AB B-1A-1 = AA-1 = Ι

6. Matriz transposta: uma matriz obtida pela troca de linhas por colunas a partir de

uma matriz específica é denominada de matriz transposta. É denotada por A’.

nAP = [aij], então, pA’n = [aij]’ = [aji]

(A + B)’ = A’ + B’

(AB)’ = B’A’

Page 44: multivariada - ufla

Ferreira, D.F. Estatística multivariada 39

(A-1)’ = (A’)-1

7. Matrizes particionadas: deixe as r linhas de uma matriz A (mxn) ser particionada

das restantes s=m-r linhas, e as p colunas particionadas das remanescentes

q = n - p colunas. Então, A pode ser representada por submatrizes, como a

seguir:

11 12

21 22

A A rA

A A sp q

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Seja B uma matriz particionada de forma similar e sejam A e B tais

que suas partições sejam conformáveis para adição, logo,

11 11 12 12

21 21 22 22

A B A B rA B

A B A B sp q

+ +⎡ ⎤+ = ⎢ ⎥+ +⎣ ⎦

Suponha agora que B seja particionada em p e q linhas e em t e u

colunas. Então, é possível verificar que:

Page 45: multivariada - ufla

2. Álgebra vetorial e matricial 40

11 12 11 12

21 22 21 22

11 11 12 21 11 12 12 22

21 11 22 21 21 12 22 22

A A B Br pAB

A A B Bs qp q t u

A B A B A B A B rA B A B A B A B s

t u

⎡ ⎤ ⎡ ⎤= ⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦

+ +⎡ ⎤= ⎢ ⎥+ +⎣ ⎦

Ainda é possível verificar que:

( ) ( )( ) ( )

1 1 11 1 1 11 1

1 111 1

A A B CA A Bp A B p D CA B D CA Bq C D q CAD CA B D CA B

p q p q

− − −− − − −− −

− −−− −

⎡ ⎤+ −⎡ ⎤ − −= ⎢ ⎥⎢ ⎥−⎣ ⎦ ⎢ ⎥− −⎣ ⎦

Método prático para cálculo de matrizes inversas

As rotinas para computadores usualmente fazem uso da versão

compacta do método de Gauss, denominado de método de Gauss-Jordan

(Householder, 1953, 1964).

Os cálculos do método de Gauss-Jordan são recursivos, sendo que

os elementos da matriz no estágio i+1 são trocados pelos resultados da chamada

operação pivotante dos elementos do estágio i, por:

( ) ( )( ) ( )

( )

i ikj ji 1 i

k k ijj

a aa a k e j

a+

×= − ≠

Page 46: multivariada - ufla

Ferreira, D.F. Estatística multivariada 41

( )( )

( )

iji 1

j ijj

aa j

a+ = ≠

( )( )

( )

ikji 1

kj ijj

aa k j

a+ = − ≠

( )( )

i 1jj i

jj

1aa

+ =

O elemento ( )ijja é chamado de pivô, e sua linha e coluna são

chamados de linha e coluna pivotais. Após n operações pivotantes, a matriz

original é substituída pela sua inversa, garantindo-se que cada linha e coluna seja

pivotada somente uma vez.

Exemplo 2.2

Use o algoritmo de Gauss-jordan para inverter a matriz A (2x2) a seguir:

( )0 4 2A

2 2⎡ ⎤

= ⎢ ⎥⎣ ⎦

Passo 1. Um bom compromisso com a precisão é pivotar a linha e coluna cujo

elemento da diagonal seja o maior de todos os não pivotados. Assim o

Page 47: multivariada - ufla

2. Álgebra vetorial e matricial 42

elemento escolhido para pivô é o elemento a11=4. A matriz após a

primeira ação pivotante é:

( )1 14 2112

1 24 4A

12 2 224 4

⎡ ⎤⎢ ⎥ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥− ×⎢ ⎥ ⎣ ⎦−⎢ ⎥⎣ ⎦

Passo 2. Neste passo, a única coluna ou linha não pivotada é a 2. Portanto o pivô

é a22=1, e a matriz resultante da operação pivotante é:

( )( )1 1 1

2 2 2

12

1 112 24 1 1211 21 1

1 11A1 1 22

− −

⎡ ⎤ − −− ⎡ ⎤ ⎡ ⎤⎢ ⎥= = =⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎣ ⎦⎣ ⎦⎣ ⎦

Ao final da operação pivotante, a matriz resultante, A(2), é a matriz

inversa de A.

Matrizes ortogonais

Classes especiais de matrizes, que serão utilizadas rotineiramente

nas técnicas multivariadas, são denominadas de matrizes ortogonais, sendo

simbolizadas em geral por Q e caracterizada por:

Page 48: multivariada - ufla

Ferreira, D.F. Estatística multivariada 43

QtQ = QQt = Ι ou Qt = Q-1

O nome deriva da propriedade de que se Q tem i-ésima linha tiq ,

então, se QQt = Ι implica que ti iq q 1= e t

i jq q 0= para i≠j, sendo que as linhas

possuem tamanho unitário e são mutuamente ortogonais (perpendiculares). De

acordo com a condição de que QtQ = Ι, as colunas têm a mesma propriedade.

Exemplo 2.3

Dado a matriz Q, a seguir, verifique sua ortogonalidade:

1 12 2

1 12 2

Q⎡ ⎤

= ⎢ ⎥−⎢ ⎥⎣ ⎦

A transposta de Q é dada por:

1 12 2t

1 12 2

Q−⎡ ⎤

= ⎢ ⎥⎢ ⎥⎣ ⎦

então,

1 1 1 12 2 2 2t1 1 1 12 2 2 2

2 0 1 01QQ0 2 0 12

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− ⎣ ⎦ ⎣ ⎦⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

Page 49: multivariada - ufla

2. Álgebra vetorial e matricial 44

e,

1 1 1 12 2 2 2t

1 1 1 12 2 2 2

2 0 1 01Q Q0 2 0 12

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥− ⎣ ⎦ ⎣ ⎦⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

sendo, QtQ = QQt = Ι ou Qt = Q-1, verificou-se que Q é ortogonal.

Determinantes

Uma função escalar importante de uma matriz A quadrada nxn, é o

determinante da mesma. O determinante da matriz A é simbolizado por |A| e é

definido por:

( )

11

ni j

ij ijj 1

A a se n 1

A a A 1 se n 1+

=

= =

= − >∑ (2.9)

em que Aij é a matriz quadrada (n-1)x(n-1) obtida deletando-se a i-ésima linha e a

j-ésima coluna de A, para qualquer escolha arbitrária de i=1, 2, ..., n.

Exemplo 2.4

Para ilustrar a definição (2.9), serão consideradas as seguintes matrizes:

Page 50: multivariada - ufla

Ferreira, D.F. Estatística multivariada 45

4 2 24 1

A [4] B C 2 2 01 2

2 0 2

⎡ ⎤⎡ ⎤ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎢ ⎥⎣ ⎦

A 4= ;

2 3B 4 2 ( 1) 1 1 ( 1) 4.2.1 1 1 1 7= × × − + × × − = − × × = ;

2 3 4

2 3 2 2 3 3

2 3 4

2 0 2 0 2 2C 4 ( 1) 2 ( 1) 2 ( 1)

0 2 2 2 2 0

4 [2 2 ( 1) 0 0 ( 1) ] ( 1) 2 [2 2 ( 1) 0 2 ( 1) ] ( 1)

2 [2 0 ( 1) 2 2 ( 1) ] ( 1) 16 8 8 0

C 0

= × × − + × × − + × × −

= × × × − + × × − × − + × × × − + × × − × − +

+ × × × − + × × − × − = − − =

∴ =

Propriedades dos determinantes

1. tA A= ;

2. Se uma linha ou coluna de A for multiplicada por uma constante k, o

determinante ficará multiplicado pela constante;

3. Se A é multiplicada por uma constante k, o determinante resultante ficará

multiplicado por kn;

Page 51: multivariada - ufla

2. Álgebra vetorial e matricial 46

nkA k A=

4. Se duas linhas ou duas colunas são trocadas de posição, então o determinante

muda de sinal;

5. Se duas linhas ou duas colunas são proporcionais, então o determinante de A

será igual a zero;

6. O determinante obtido deletando a i-ésima linha e j-ésima coluna de A é

denominado menor de A, e denotado por |Aij|. A relação entre |A| e |Aij| foi

apresentada na definição de determinante (2.9);

7. 11 1A AA

−− = = ;

8. |AB| = |A|×|B|.

Determinante e posto (rank)

Se |A|≠0, então, A é denominada de posto completo, ou como é mais

comum dizer, A é não-singular e A-1 existe. Uma condição necessária e suficiente

para a existência da inversa de A é que |A|≠0.

Page 52: multivariada - ufla

Ferreira, D.F. Estatística multivariada 47

Teorema da multiplicação

Seja a matriz A de ordem 2n x 2n, particionada em sub-matrizes

n x n dadas por:

B C nA

D E nn n

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Supõe-se que o determinante de A é não nulo, e se necessário for,

linhas e colunas correspondentes de A devem ser trocadas para assegurar que B

seja não-singular. Como o número de trocas de linhas e colunas é

necessariamente par, o valor de |A| não se altera. Considere matrizes

elementares, com determinante 1, dadas por:

1

0DB−

Ι⎡ ⎤⎢ ⎥− Ι⎣ ⎦

e 1B C

0

−⎡ ⎤Ι −⎢ ⎥Ι⎣ ⎦

Se A for pré e pós-multiplicada, respectivamente, por essas matrizes

o resultado é:

Page 53: multivariada - ufla

2. Álgebra vetorial e matricial 48

1

1

1

1 1

0 B C B CDB D E 0

B C B 0B C0 DB C E 0 E DB C0

− −

Ι ⎡ ⎤Ι −⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥− Ι Ι⎣ ⎦ ⎣ ⎦ ⎣ ⎦

⎡ ⎤Ι −⎡ ⎤ ⎡ ⎤= =⎢ ⎥⎢ ⎥ ⎢ ⎥− + −Ι⎣ ⎦ ⎣ ⎦⎣ ⎦

Então, A foi reduzida para sua forma quase-diagonal ou bloco

diagonal. Seja uma matriz V (2n x 2n) particionada da seguinte forma:

1

2

V 0 nV

0 V nn n

⎡ ⎤= ⎢ ⎥

⎣ ⎦

então, o determinante de v é dado por:

1 2V V V=

Aplicando essa regra a A transformada pela pré e pós-multiplicação por

matrizes elementares, cujo determinante é igual a 1, o que não altera o valor de

|A|, tem-se:

11

B 0A B E DB C0 E DB C

−−= = −−

Observe que se A for quasi-triangular, ou seja, triangular por blocos,

o determinante é o produto dos determinantes de suas sub-matrizes principais:

Page 54: multivariada - ufla

Ferreira, D.F. Estatística multivariada 49

B CB E0 E

=

Agora é possível apresentar e provar o teorema da multiplicação. Se

A e B são matrizes quadradas n x n, então, |AB|=|A|.|B|. Considere para isso a

identidade:

I A A 0 0 AB0 I I B I B

⎡ ⎤ ⎡ ⎤ ⎡ ⎤=⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦

O produto do lado esquerdo da igualdade envolve operações

elementares que não afeta o determinante. Assim, o determinante de ambos os

lados é igualado e o resultado obtido é:

A 0 0 ABI B I B

=− −

Colocando o lado direito na forma quasi-triangular por meio de trocas

nas últimas n colunas o resultado obtido é dado por:

( )nA 0 AB 01I B B I

= −− −

Page 55: multivariada - ufla

2. Álgebra vetorial e matricial 50

Usando o resultado do determinante de uma matriz triangular por

blocos, têm-se:

( )

( ) ( )

( )

n

n n

2n

A B 1 AB I

A B 1 1 AB

A B 1 AB

AB A B

= − −= − −= −

∴ =

Infelizmente, não há teorema simples para a soma de matrizes.

Decorre desse teorema que:

1

1

11

IA A

1AA1

AAA

−−

=

=

= =

Derivadas de vetores e matrizes

As derivadas de funções envolvendo vetores e matrizes são

necessárias em inúmeras aplicações na multivariada e em outras áreas. Apesar

de ser possível escrever essas mesmas funções em uma forma expandida e

tomar as derivadas elemento a elemento pelas regras de diferenciação escalar, é

vantajoso definir regras que retenham vetores e matrizes na notação (Bock, 1975).

Page 56: multivariada - ufla

Ferreira, D.F. Estatística multivariada 51

A seguir são apresentadas as principais regras de diferenciação vetorial e

matricial.

Derivadas de matrizes de funções em relação a variáveis escalares

Seja A uma matriz m x n cujos elementos são funções diferenciáveis

com relação a uma variável escalar x. A derivada de A em relação a x é uma

matriz m x n:

11 1n

m1 mn

a ax xA

xa ax x

∂ ∂⎡ ⎤⎢ ⎥∂ ∂⎢ ⎥∂

= ⎢ ⎥∂ ⎢ ⎥∂ ∂⎢ ⎥

∂ ∂⎣ ⎦

(2.10)

Seja A uma matriz m x n de funções diferenciáveis em x e B outra

matriz p x q cujos elementos, também, são diferenciáveis em x. Para cada caso

abaixo, são adotadas dimensões tais que as operações matriciais sejam

conformáveis.

( ) A BA B ; m p, n qx x x

∂ ∂ ∂+ = + = =∂ ∂ ∂

(2.11)

( ) B AAB A B; n px x x

∂ ∂ ∂= + =

∂ ∂ ∂ (2.12)

Page 57: multivariada - ufla

2. Álgebra vetorial e matricial 52

( )11 1AA A A ; m n, 0Ax x

−− −∂ ∂

= − = ≠∂ ∂

(2.13)

Seja X uma matriz m x n com o elemento xij na i-ésima linha e

j-ésima coluna, então,

ijij

X 1x

∂=

∂ (2.14)

em que 1ij é uma matriz m x n com 1 na i-ésima linha e j-ésima coluna e 0 nas

demais posições. Se X for uma matriz diagonal n x n, logo,

iiii

X 1x

∂=

∂ (2.15)

Derivadas de uma função escalar de matrizes em relação a um vetor ou matriz variável

Seja g uma função escalar qualquer de uma matriz X, que pode ser por

exemplo o determinante, o traço, entre outras, então, a diferenciação de g em

relação a X é:

Page 58: multivariada - ufla

Ferreira, D.F. Estatística multivariada 53

11 1n

m1 mn

g gx x

gX

g gx x

∂ ∂⎛ ⎞⎜ ⎟∂ ∂⎜ ⎟∂ ⎜ ⎟=

∂ ⎜ ⎟∂ ∂⎜ ⎟⎜ ⎟∂ ∂⎝ ⎠

(2.16)

a) o traço

O traço de uma matriz n x n é uma função que aparece com muita

freqüência na estatística multivariada, o qual é a soma dos elementos da diagonal

principal dessa matriz:

( )n

iii 1

tr aA=

= ∑ (2.17)

Para as matrizes A, B e C de ordem m x n, p x q e r x s,

respectivamente, o traço tem as seguintes propriedades:

( ) ( ) ( )tr tr tr , m n p qA B A B= + = = =+ (2.18)

( ) ( )tr tr , m nA A= δ =δ (2.19)

( ) ( )ttr tr , m nAA = = (2.20)

( ) ( )tr tr , m q, n pAB BA= = = (2.21)

Page 59: multivariada - ufla

2. Álgebra vetorial e matricial 54

( ) [ ] ( )tr tr tr , m s, n p, q r(AB)CABC CAB= = = = = (2.22)

Seja C uma matriz r x s de constantes e X uma matriz u x v de

variáveis. As seguintes diretivas de derivação do traço de funções de C e X com

relação aos elementos de X, resultam em matrizes de dimensão u x v:

( )tr C 0, r sX

∂= =

∂ (2.23)

( )tr X I, r sX

∂= =

∂ (2.24)

( ) ttr XC C , r v, s uX

∂= = =

∂ (2.25)

( ) ( )t

ttr X CX X, r v s uC CX

∂= = = =+∂

(2.26)

Essas diretivas de derivação são invariantes as permutações cíclicas

sofridas por transposição ou permutação dos fatores de multiplicação de matrizes.

no entanto, as derivadas com relação a transposta de X resultam em transpostas

das matrizes anteriores de ordem v x u. Em particular:

Page 60: multivariada - ufla

Ferreira, D.F. Estatística multivariada 55

( ) tt

tr XC C , r v, s uX

∂= = =

∂ (2.27)

( ) ( )t

t tt

tr X CX X , r v s uC CX∂

= = = =+∂ (2.28)

Para obter derivadas de funções elementares das matrizes algumas

diretivas também são definidas. Sejam os elementos de A e B funções de X, e

seja C uma matriz de constantes. Então,

( ) ( ) ( )tr tr trA B A B , m n p qX X X

∂ ∂ ∂+ = + = = =∂ ∂ ∂

(2.29)

( ) ( ) ( )trtr trAB AB AB , m q, n pX X X

∂∂ ∂= + = =

∂ ∂ ∂ (2.30)

( ) ( )1 2tr trA A A , m n, 0AX X

− −∂ ∂= − = ≠

∂ ∂ (2.31)

( ) ( )1 1 1tr trA C A CA A , m n r s, 0AX X

− − −∂ ∂= − = = = ≠

∂ ∂ (2.32)

A barra acima das matrizes anteriores em (2.29) a (2.32) indica que

essas são consideradas constantes para fins de diferenciação.

Page 61: multivariada - ufla

2. Álgebra vetorial e matricial 56

b) determinante

( ) ( )tt 1X adj , u v, 0X XX XX−

∂= = = ≠

∂ (2.33)

( ) ( )t t1

adjln X X , u v, 0XXX X−

∂= = = ≠

∂ (2.34)

Restrições da variável de diferenciação

Alguns problemas estão sujeitos a maximização ou minimização com

relação a uma variável que por sua vez está sujeita a restrições. Os casos

especiais são àqueles em que X é simétrica. Logo X=Xt e os elementos fora da

diagonal são sujeitos a:

xij = xji i<j (2.35)

Uma abordagem apropriada para o problema é impor restrições por

meio de multiplicadores de Lagrange. Para aplicar esse método, deve-se

diferenciar com relação a x não restrita a expressão da forma:

( )[ ]t1g tr U X X2

+ −

Page 62: multivariada - ufla

Ferreira, D.F. Estatística multivariada 57

em que g é uma função escalar de X, U a n x n matriz de multiplicadores de

Lagrange. Logo, X deve satisfazer:

( )tg 1 0U UX 2∂

+ =−∂ (2.36)

Como também

( ) ( )t t

tt t1 1g g 0U U U U2 2X X∂ ∂⎛ ⎞ ⎛ ⎞+ = − =− −⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠

(2.37)

Somando essas expressões obtém-se a condição para o extremo

restrito:

tg g 0X X

∂ ∂⎛ ⎞ ⎛ ⎞+ =⎜ ⎟ ⎜ ⎟∂ ∂⎝ ⎠ ⎝ ⎠

(2.38)

Outro caso importante de matriz X restrita é: se X é uma matriz

diagonal n x n e Y uma matriz função de X, então,

11 22 nn

tr(Y) tr(Y) tr(Y)tr(Y) Diagx x xX

∂ ∂ ∂∂ ⎡ ⎤= ⎢ ⎥∂ ∂ ∂∂ ⎣ ⎦

(2.39)

E se X = x Ι, então,

Page 63: multivariada - ufla

2. Álgebra vetorial e matricial 58

tr(Y) tr(Y)X x

∂ ∂=

∂ ∂ (2.40)

Regra da cadeia para funções escalares de matrizes

Seja g uma função escalar de A diferenciável com relação aos

elementos de A, e deixe os elementos de A ser função diferenciável de x. Então,

tg g Atrx A x

∂ ⎛ ⎞∂ ∂= ⎜ ⎟∂ ∂ ∂⎝ ⎠ (2.41)

Por exemplo, para |A|≠0, g=ln|A| de (2.34) tem-se:

( )t t

t1g ln ln A AA Atr tr Ax x A x x

−∂ ∂ ⎛ ⎞ ⎡ ⎤∂ ∂ ∂= = =⎜ ⎟ ⎢ ⎥∂ ∂ ∂ ∂ ∂⎝ ⎠ ⎣ ⎦

(2.42)

derivada de uma função de um vetor com relação a um vetor

Seja um vetor z m x 1, cujos elementos são diferenciáveis pelos

elementos 1 x n do vetor [ ]t1 2 nx x x x= . A derivada de Z em relação a tx é

a matriz m x n:

Page 64: multivariada - ufla

Ferreira, D.F. Estatística multivariada 59

tj ij

z i 1, 2, ..., mzx j 1, 2, ..., nx

∂ =⎡ ⎤∂= ⎢ ⎥∂ =∂ ⎣ ⎦

(2.43)

Por exemplo, de (2.26) tem-se a primeira derivada de tx Ax , sendo A

simétrica,

( )tt tr x Axx Ax 2Axx x

∂∂= =

∂ ∂ (2.44)

De (2.43), a segunda derivada é representada em forma matricial

por:

( )tt

t t t

x Ax xx Ax 2Ax 2Ax x x x

∂ ∂ ∂∂ ∂= = =

∂ ∂ ∂ ∂ (2.45)

Formas quadráticas

Definindo A como uma matriz simétrica não nula (nxn), e o vetor

t1 2 nx [X X X ]= a expressão:

n n 1 nt 2

ii i ij i ji 1 i 1 j i 1

Q x A x a X 2 a X X−

= = = +

= = +∑ ∑ ∑

Page 65: multivariada - ufla

2. Álgebra vetorial e matricial 60

é dita forma quadrática, pois só contém termos quadrados ( )2ix e de produtos

( )i jx x .

Exemplo 2.5

Obtenha a expansão da forma quadrática, dado o vetor x e a matriz A, a seguir:

[ ]1 2

4 1x x x A

1 2⎡ ⎤

= = ⎢ ⎥⎣ ⎦

[ ] [ ]1 11 2 1 2 1 2

2 2

x x4 1Q x x 4x x x 2x

x x1 2⎡ ⎤ ⎡ ⎤⎡ ⎤

= × × = + + ×⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

2 21 1 2 2Q 4x 2x x 2x∴ = + +

Assumindo, para o momento, que p elementos x1, x2, ..., xp, de um

vetor x são realizações de p variáveis aleatórias X1, X2, ..., Xp pode-se

considerá-los como coordenadas de um ponto no espaço p-dimensional. A

distância desse ponto 1 2 p[x x x ] da origem pode e deve, nesse caso, ser

interpretada em termos de unidades de desvio padrão. Desse modo, pode-se

considerar a incerteza inerente (variabilidade) às observações. Pontos com a

mesma incerteza associada são considerados de mesma distância da origem.

Introduzindo agora uma fórmula geral de distância mais apropriada têm-se:

Page 66: multivariada - ufla

Ferreira, D.F. Estatística multivariada 61

( )n n 1 n

2 2ii i ij i j

i 1 i 1 j i 1d a x 2 a x x0,P

= = = +

= +∑ ∑ ∑ (2.46)

e garantindo que d2 > 0 para todo ponto P≠0, e fazendo aij=aji, têm-se:

11 12 1p

121 22 2p2 t

1 p

p

p1 p2 pp

0 d x Ax

a a axa a ax xxa a a

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎡ ⎤< = = ⎢ ⎥⎢ ⎥⎣ ⎦⎢ ⎥⎢ ⎥⎣ ⎦⎢ ⎥

⎣ ⎦

(2.47)

Verifica-se que (2.47) é uma forma quadrática, o que permite que a

interprete como uma distância. A determinação, dos coeficientes da matriz A de

(2.47) será apresentada oportunamente.

Classificação de formas quadráticas

As formas quadráticas podem ser classificadas, quanto aos

resultados que produzem. Nesta seção, o interesse residirá nas formas

quadráticas não negativas e nas matrizes associadas (denominadas positivas

definidas). Uma condição necessária e suficiente para que A seja positiva definida

(pd) é que esta possa ser fatorada por:

Page 67: multivariada - ufla

2. Álgebra vetorial e matricial 62

tn n n n n nA S S=

e que o posto de S seja n, em que S é uma matriz triangular, denominada fator de

Cholesky de A (Bock, 1975). Portanto, se uma matriz admite o fator de Cholesky,

ela é positiva definida.

t t t t t t t

2 2 21 2 n

Q x Ax x (SS )x (S x) (S x) z z

Z Z Z

= = = =

= + + +

Devido a S ter posto coluna completo, não existe x não nulo, tal que

tz S x 0= = . Portanto, a forma quadrática Q é sempre positiva, como foi afirmado.

Se por outro lado, o posto de S for r≤n, então o posto de A será r, e a forma

quadrática Q x 'Ax= ≥ 0, é denominada positiva semidefinida (psd). Isso se deve

ao fato de que para algum vetor x ≠ 0, a igualdade Q = 0, acontece. O algoritmo

para obtenção do fator de Cholesky de uma matriz pd, está apresentado a seguir.

Algoritmo para obtenção do fator de Cholesky

de uma matriz positiva definida

1. Dada uma matriz A (nxn), com elementos aij.

Page 68: multivariada - ufla

Ferreira, D.F. Estatística multivariada 63

2. Obtenção da transposta do fator de Cholesky St, é dada pelo algoritmo abaixo,

sendo que os elementos desta matriz não contemplados pelo método devem

ser considerados iguais a zero:

1a linha: 1j11 11 1j

11

aS a S j 1

S= = >

i-ésima linha:

12i 1

2ii ii ri

r 1

i 1

ij ij ri rjr 1ii

S a

1S aS

i 2 j i

S

S S

=

=

⎛ ⎞= −⎜ ⎟⎝ ⎠

⎛ ⎞= −⎜ ⎟⎝ ⎠

≥ >

3. A obtenção de S-1, inversa de S, com elementos Sij, é dada por:

i 1ii ij rj

rir 1ii ii

ij

1 1S S S S i jS S

para i < j S 0

=

−= = >

=

4. A obtenção da A-1, inversa de A, com elementos aij, em que aij=aji, é dada por:

Page 69: multivariada - ufla

2. Álgebra vetorial e matricial 64

( )n n2ii ri ij ri rj

r i r ia S a S S i j

= =

= = >∑ ∑

Exemplo 2.6

Obtenha o fator de Cholesky (S), sua inversa (S-1) e a matriz inversa (A-1), a partir

da matriz A, apresentada a seguir:

4 2 0A 2 2 1

0 1 2

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

Obtenção de St:

Primeira linha:

11 12 132 0S 4 2; S 1; S 02 2

= = = = = =

Segunda linha:

[ ]1

2222 23

1S 2 1 1 S 1 1 0 11

⎡ ⎤= − = = − × =⎣ ⎦

Terceira linha:

Page 70: multivariada - ufla

Ferreira, D.F. Estatística multivariada 65

( )1

22 233S 2 0 1 1⎡ ⎤= − + =⎣ ⎦

Logo,

t

2 1 0 2 0 0S 0 1 1 e S 1 1 0

0 0 1 0 1 1

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

A matriz S-1 é obtida por:

Linha 1:

11 12 131S ; S S 0 i j2

= = = <

Linha 2:

22 21 121 1 1S 1; S 1 1 ; S 0 pois i j1 2 2

⎛ ⎞= = = − × × = − = <⎜ ⎟⎝ ⎠

linha 3:

33 31 321 1 1 1S 1; S 1 0 1 S 1 (1 1) 11 2 2 2

⎛ ⎞⎛ ⎞−= = = − × × + × = = − × × = −⎜ ⎟⎜ ⎟

⎝ ⎠⎝ ⎠

Page 71: multivariada - ufla

2. Álgebra vetorial e matricial 66

logo,

1

1 0 021S 1 021 1 12

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥−

= ⎢ ⎥⎢ ⎥⎢ ⎥

−⎢ ⎥⎢ ⎥⎣ ⎦

A matriz A-1 é obtida por:

Diagonal principal:

( )

2 2 211

222 2

33 2

1 1 1 3a2 2 2 4

a 1 1 2

a 1 1

⎛ ⎞ ⎛ ⎞ ⎛ ⎞= + − + =⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠

= + − =

= =

Demais elementos:

21

31 32

12 21 13 31 23 32

1 1a 1 ( 1) 1;2 2

1 1a 1 ; a 1 ( 1) 1;2 2

1a a 1; a a ; a a 12

⎛ ⎞= × − + − × = −⎜ ⎟⎝ ⎠

= × = = × − = −

= = − = = = = −

Page 72: multivariada - ufla

Ferreira, D.F. Estatística multivariada 67

Logo,

3 14 2

1

12

1A 1 2 1

1 1

−⎡ ⎤⎢ ⎥= − −⎢ ⎥⎢ ⎥−⎣ ⎦

O fator de Cholesky S e sua inversa têm as seguintes propriedades:

1. SSt = A

2. S-1S = St(S-1) t = Ι

3. S-1A = S t

4. A(S-1) t = S

5. (S-1)A(S-1) t = Ι

6. (S-1) t (S-1) = A-1

Page 73: multivariada - ufla

2. Álgebra vetorial e matricial 68

Maximização de formas quadráticas

Na estatística multivariada e em outras áreas aplicadas, é muitas

vezes necessária a maximização de uma forma quadrática. Devido à forma

quadrática tQ x Ax= poder ser feita arbitrariamente grande tomando-se os valores

dos elementos de x grandes, é necessário maximizar Q condicionada a alguma

restrição no comprimento de x . Uma conveniente alternativa é tomar uma solução

normalizada de x , ou seja, uma solução tal que x tenha comprimento unitário.

Então a maximização da forma quadrática Q pode ser transformada na

maximização da razão:

t

t

x Axx x

λ =

para toda matriz A simétrica real. Para a maximização deve-se tomar a derivada

em relação a x e igualar a zero, resolvendo o sistema obtido, como demonstrado

a seguir.

t tQ x Ax x x2Ax e 2xx x x

∂ ∂ ∂= = =

∂ ∂ ∂

usando a regra do quociente:

Page 74: multivariada - ufla

Ferreira, D.F. Estatística multivariada 69

t t t

t 2 t t

2Ax(x x) 2(x Ax)x 2 x AxA xx (x x) x x x x

⎛ ⎞∂λ −= = − Ι⎜ ⎟∂ ⎝ ⎠

igualando a zero essa derivada e dividindo-a por ( )t2 x x , é obtido o sistema

homogêneo de equações:

t

t

x AxA x 0x x

⎛ ⎞− Ι =⎜ ⎟

⎝ ⎠

Desde que t

t

x Axx x

= λ , então para um ponto estacionário qualquer i,

( )i iA x 0− λ Ι = (2.48)

Para que o sistema de equações em (2.48) não possua apenas a

solução trivial, A-λiΙ não pode ter posto completo. Isto significa que seu

determinante deve ser zero:

|A-λiΙ| = 0 (2.49)

A equação polinomial em λ, resultado da expansão dos termos a

esquerda na equação (2.49) através do uso da definição (2.9), é chamada de

equação característica de A. A i-ésima raiz da equação (λi) é denominada de valor

Page 75: multivariada - ufla

2. Álgebra vetorial e matricial 70

característico de A; ix é denominado vetor característico de A associado a λi.

Outras terminologias podem ser empregadas, tais como, autovalores e

autovetores, ou, valores e vetores próprios, ou ainda, raiz e vetor latente.

Pares de formas quadráticas

É de fundamental importância na análise multivariada o problema de

maximizar razão entre duas formas quadráticas:

t

t

x Ax B 0x Bx

λ = ≠

em que B é uma matriz pd. O máximo é dado da mesma forma que apresentado

anteriormente, a partir da derivada em relação a x , igualando-a a zero, como

apresentado a seguir:

t t

t

x Bx x AxAx Bx (A B)x 0x 2 x Bx

∂λ× = − = − λ =

∂ (2.50)

O sistema homogêneo de equações (2.50) terá solução não trivial

( x ≠ 0 ), se e somente se,

A B 0− λ = (2.51)

Page 76: multivariada - ufla

Ferreira, D.F. Estatística multivariada 71

Os autovalores (λ) de A em relação a B são denominados de valores

próprios, raízes características, e os autovetores de vetores característicos ou

próprios. Desde que B seja pd, é possível fatorá-la através do fator de Cholesky,

por:

tB BB S S=

Então definindo-se tBz S x= e usando as propriedades do fator de

Cholesky tem-se que ( )t1Bx S z−= . Agora, se (2.50) for pré multiplicada por 1

BS− e

( )t1Bx S z−= for substituído na expressão, têm-se:

( )

( )

t1 1 1B B B

t1 1B B

S A S B S z 0

S A S z 0

− − −

− −

⎡ ⎤− λ =⎣ ⎦

⎡ ⎤− λΙ =⎢ ⎥⎣ ⎦

(2.52)

desde que ( )t1 1B BS B S− − = Ι

A solução de (2.52) é a mesma da obtida pela maximização de uma

forma quadrática, apresentada em (2.48), exceto que ( )t1Bx S Z−= deve ser

recuperado, uma vez que Z é obtido. Os autovalores, no entanto, são invariantes

à transformação não-singular realizada.

Page 77: multivariada - ufla

2. Álgebra vetorial e matricial 72

Cálculo prático dos autovalores e autovetores

Será apresentado aqui o método denominado “Power method”

derivado por Hotelling (1936). Esse método é apropriado para problemas em que

somente r autovalores de maior magnitude e os seus respectivos autovetores são

necessários (r≤n). O método é iterativo, dado um vetor inicial arbitrário (0)v . O

vetor do estágio i será representado por (i)v e o da próxima iteração será obtido

por:

(i 1) (i)v Av+ =

Usualmente um vetor de elementos iguais a ±1 é usado como vetor

inicial. Os vetores característicos devem ser normalizados em cada estágio, para

que o critério de convergência seja verificado. Quando uma aproximação desejada

para λ1 e 1x sejam alcançados, o segundo autovalor e autovetor devem ser

encontrados na matriz A2, definida por:

t2 1 1 1A A x x= − λ (2.53)

E assim o processo é repetido até que um número r≤n de pares de

autovalores e autovetores sejam obtidos.

Page 78: multivariada - ufla

Ferreira, D.F. Estatística multivariada 73

Exemplo 2.7

aplicar o “power method” e determinar os autovalores e autovetores da matriz

apresentada a seguir:

4 2A

2 1⎡ ⎤

= ⎢ ⎥⎣ ⎦

1. Determinação de λ1 e 1x

O vetor (0)v será considerado como: (0)v =11

⎡ ⎤⎢ ⎥⎣ ⎦

Na avaliação da convergência, o autovetor em cada estágio será

padronizado através da divisão pelo elemento de maior valor do mesmo.

(i) (1) (0) 4 2 1 6

A2 1 1 3v v ⎡ ⎤ ⎡ ⎤ ⎡ ⎤

= = × =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Normalizando (1)v :

6(1) 63 1

26

1v ⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥

⎣ ⎦⎣ ⎦

Page 79: multivariada - ufla

2. Álgebra vetorial e matricial 74

Para avaliar a convergência, os vetores (0)v e (1)v devem ser comparados. Será

considerado, convergente se todos os elementos de (1)v forem semelhantes aos

elementos correspondentes de (0)v , para uma precisão pré estipulada, ou seja, de

1x10-8. Neste caso, os vetores diferem consideravelmente.

(ii) (2) (1)12

14 2 5v Av

2 1 2.5⎡ ⎤⎡ ⎤ ⎡ ⎤

= = × =⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎣ ⎦

, normalizando

(2)12

1v

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Comparando-se (2)v com (1)v , padronizados, verifica-se que são idênticos,

indicando que o critério de convergência foi alcançado.

O autovetor 1x é obtido pela normalização de (2)v e o primeiro

autovalor λ1, por t1 1 1x A xλ = .

[ ]

(2)

(2)t (2)1

t1 1 1

0,8944V0, 4472V V

0,8944x A x 4, 4721 2, 2361 5

0, 4472

x ⎡ ⎤= = ⎢ ⎥

⎣ ⎦

⎡ ⎤λ = = × =⎢ ⎥

⎣ ⎦

2. determinação de λ2 e 2x

t2 1 1 1A A x x= − λ = [ ]4 2 0,8944 0 0

5 0,8944 0, 44722 1 0, 4472 0 0

⎡ ⎤ ⎡ ⎤ ⎡ ⎤− × × =⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Page 80: multivariada - ufla

Ferreira, D.F. Estatística multivariada 75

Portanto os demais autovalores e autovetores de A são nulos (λ2=0 e

2x 0= ).

Os autovalores da matriz da forma quadrática podem servir para

classificação das mesmas. Demonstra-se que se todos os autovalores da matriz

A, dado tQ x Ax= , forem positivos e maiores que zero a matriz A é positiva

definida e a forma quadrática é positiva. Se A possui autovalores positivos e nulos

a matriz será psd, e a forma quadrática poderá ser nula para um vetor x 0≠ .

Os resultados apresentados até agora, a respeito de formas

quadráticas, são conseqüências da expansão de matrizes simétricas em um

processo denominado de decomposição espectral. A decomposição espectral de

uma matriz A (nxn), simétrica, é dada por:

t t t1 1 1 2 2 2 n n nA e e e e e e= λ + λ + + λ (2.54)

em que λi (i=1, 2, ..., n) são os autovalores de A e ie são os autovetores

normalizados associados.

Exemplo 2.8

Considere a matriz simétrica:

4 2A

2 2⎡ ⎤

= ⎢ ⎥⎣ ⎦

com os autovalores e autovetores normalizados, apresentados a seguir:

Page 81: multivariada - ufla

2. Álgebra vetorial e matricial 76

1 1 2 2

0,8507 0,52575, 2361 e 0,7639 e

0,5257 0,8507−⎡ ⎤ ⎡ ⎤

λ = = λ = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

Obtenha a decomposição espectral de A.

t1 1 1

3,7893 2,3417e e

2,3417 1, 4471⎡ ⎤

λ = ⎢ ⎥⎣ ⎦

t2 2 2

0, 2111 0,3416e e

0,3416 0,5528−⎡ ⎤

λ = ⎢ ⎥−⎣ ⎦

4 2 3,7893 2,3417 0, 2111 0,34162 2 2,3417 1, 4471 0,3416 0,5528

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤= +⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦

A expressão da distância como raiz quadrada de uma forma

quadrática positiva definida permite que se obtenha a interpretação geométrica

baseada nos autovalores e autovetores de uma matriz. Dada uma matriz A, pxp, e

suponha que p=2, os pontos tx =[x1, x2] de distância constante c da origem

satisfazem a:

t 2 2 211 1 22 2 12 1 2x Ax a X a X 2a X X c= + + =

pela decomposição espectral de A, como no exemplo 2.8, tem-se:

Page 82: multivariada - ufla

Ferreira, D.F. Estatística multivariada 77

( ) ( )

t t1 1 1 2 2 2

2 2t t t1 1 2 2

A e e e e

x Ax X e X e

= λ + λ

∴ = λ + λ

Fazendo ti iy x e= , obtém-se: 2 2 2

1 1 2 2c y y= λ + λ que é uma elipse, pois λi>0. Verifica-

se que 12

1 1x c e−= λ satisfaz ( )12

2t t 21 1 1 1x Ax c e e c−= λ λ = e 1

22 2x c e−= λ fornece a

apropriada distância na direção de 2e . Portanto, os pontos de distância c

pertencem a uma elipse cujos eixos são dados pelos autovetores de A com

tamanhos proporcionais ao recíproco da raiz quadrada dos autovalores. A

constante de proporcionalidade é c. A situação é ilustrada na Figura 2.1. Se p>2

os pontos pertencem a uma hiperelipsóide de distância c constante da origem,

cujos eixos são dados pelos autovetores de A. O semi eixo na direção i tem

comprimento de i

c

λ.

x 1

x 2

e1

e2

-0,5 cλ 1

cλ 2-0,5

Figura 2.1. Pontos de distância c constante da origem (λ1 < λ2).

Page 83: multivariada - ufla

2. Álgebra vetorial e matricial 78

Matriz raiz quadrada

A partir da decomposição espectral, é possível definir uma categoria

de matriz, em função dos autovalores e autovetores, denominada de matriz raiz

quadrada.

Sendo A (nxn), uma matriz com decomposição espectral dada por

nt

i i ii 1

A e e=

= λ∑ , pode-se construir uma matriz P, cujas colunas são os autovetores

normalizados de A, tal que, [ ]1 2 nP e e e= , e uma matriz Λ diagonal, como os

autovalores de A, tal que, Λ=diag[λi]. É fácil verificar que:

t

n1 1 t t

i ii 1 i

A P P

1A P P e e− −

=

= Λ

⎛ ⎞= Λ = ⎜ ⎟λ⎝ ⎠

∑ (2.55)

Definindo, Λ1/2 como uma matriz diagonal com iλ como elemento

da i-ésima diagonal, então, a matriz a seguir é definida como matriz raiz quadrada

de A e é simbolizada por A1/2.

1 12 2

nt t

i i ii 1

A e e P P=

= λ = Λ∑ (2.56)

Page 84: multivariada - ufla

Ferreira, D.F. Estatística multivariada 79

As suas propriedades são:

1. (A1/2)t= A1/2 (A1/2 é simétrica)

2. A1/2A1/2=A

3. ( )1 12 2

i

n1 t t1i i

i 1A e e P P

− −

λ=

= = Λ∑

4. A1/2A-1/2=A-1/2A1/2=Ι e A-1/2A-1/2=A-1

em que A-1/2 = (A1/2)-1

Exemplo 2.9

Obtenha a matriz raiz quadrada e a inversa da matriz utilizada no exemplo (2.8),

usando as equações (2.55) e (2.56):

4 2A

2 2⎡ ⎤

= ⎢ ⎥⎣ ⎦

com autovalores e autovetores normalizados, apresentados a seguir:

Page 85: multivariada - ufla

2. Álgebra vetorial e matricial 80

1 1 2 2

0,8507 0,52575, 2361 e 0,7639 e

0,5257 0,8507−⎡ ⎤ ⎡ ⎤

λ = = λ = =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

As matrizes P e Λ foram obtidas pelos autovalores e autovetores, e

estão apresentadas a seguir:

0,8507 0,5257 5, 2361 0P

0,5257 0,8507 0 0,7639−⎡ ⎤ ⎡ ⎤

= Λ =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

1 1 15,2361 2 21 1 t

1 10,7639 2

00,8507 0,5257 0,8507 0,5257A P P

00,5257 0,8507 0,5257 0,8507 1− − − −⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤

= Λ = × × =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦

1 12 2 tA P P

5, 2361 00,8507 0,5257 0,8507 0,5257 1,8975 0,63240,5257 0,8507 0,5257 0,8507 0,6324 1, 26490 0,7639

= Λ =

⎡ ⎤−⎡ ⎤ ⎡ ⎤ ⎡ ⎤= × × =⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎢ ⎥⎣ ⎦

A seguir, um programa SAS é apresentado contendo os principais

comandos para a realização das várias operações matriciais e vetoriais descritas

nesse capítulo.

Page 86: multivariada - ufla

Ferreira, D.F. Estatística multivariada 81

/* Capitulo 2 de multivariada - principais operações matriciais descritas */ /* por meio do proc iml. Rotinas de inversão, multiplicação, transposição */ options nodate nonumber ps=1000 ls=76; proc iml; /* elementos de algebra vetorial*/ x1={1,1,1,1}; x2={1,1,0,0}; x3={0,0,1,1}; print x1 x2 x3; y=4*x1; z=x1+x2; print y z; yz=y` * z; yy=y`*y; /*distancia quadratica*/ dy=sqrt(yy); /* distancia da origem*/ zz=z`*z; dz=sqrt(zz); costeta=yz/(dy*dz); print yz yy zz dy dz costeta; /* elementos de algebra matricial*/ x=x1||x2||x3;/* concatenando vetores para obter uma matriz*/ xpx=x`*x; xx=xpx#xpx; /* produto de xpx elemento a elemento por xpx*/ print x xpx xx; /*calculo da base ortonormal de Gramshimidt - a matriz p contém as colunas ortonormalizadas de X*/ Call Gsorth(p, t, lindep, X); print lindep p t; /* calculo de autovalores e autovetores */ pu=eigvec(xpx); /* pu matriz de autovetores */ au=eigval(xpx); /* au vetor de autovalores */ print pu; print au; a={4 2,2 2}; /* matriz A*/ ainv=inv(a); /* inversa de A*/ deta=det(a); /* determinante de A*/ print a ainv deta; c={4 2 2,2 2 0, 2 0 2}; detc=det(c); print c detc; /* fator de Cholesky A=S`S em que S e uma matriz triangular superior */ /* S e a transposta do fator de Cholesky */ Sc=root(c); /* matriz c e singular, porem o SAS calcula assim mesmo o fator de Cholesky */ /* pode-se observar que a ultima linha, da matriz Sc e nula devido a isso*/ Sa=root(a); b={4 2 0,2 2 1,0 1 2}; print b; sb=root(b); print Sc Sa sb; /*maximização de pares de formas quadráticas */ /* resolver (D - lG)e=0 */ D={4 2,2 2}; G={7 1,1 4}; print D G; Sg=root(G); /* transposta do fator de Cholesky de G */ Sginv=inv(Sg); /* inversa da transposta do fator de Cholesky de G */

Page 87: multivariada - ufla

2. Álgebra vetorial e matricial 82

print Sg Sginv; II=Sginv`*G*Sginv; /* mostrar que é igual a identidade */ print ii; H=Sginv`*D*Sginv; /* operar D, e em seguida extrair auto valores e vetores */ print H; /* D transformada */ zh=eigvec(H); /* zh matriz de autovetores */ auh=eigval(H); /* auh vetor de autovalores */ xh=Sginv*zh; /* matriz de autovetores recuperados */ teste=xh`*g*xh; print teste;/*mostrar que resulta na identidade*/ print xh; print auh; /* obtencao de matriz raiz quadrada - exemplificar com a matriz D */ aud=eigval(D); /* autovalores de D*/ lamb=diag(aud); /* diagonalizando aud e resultado em lamb */ print lamb; lambS=root(lamb); /* achando a raiz quadrada de lamb */ avd=eigvec(D); /* autovetores de D em avd */ Droot=avd*lambS*avd`; /* usando a definição para encontrar a matriz raiz quadrada de D */ print Droot; DD=avd*lamb*avd`; /* checando propriedades */ print DD; /* deve ser igual a D */ quit;

2.4. Exercícios

2.1. Sejam os vetores x ’=[3, 2, 4] e y '=[-1, 2, 2]

(a) plote os dois vetores

(b) encontre (i) o comprimento de x , (ii) o ângulo entre x e y , e (iii) a distância

entre x e y .

(c) plote os vetores x x.1− e y y.1− ( x 3= e y = 1).

Page 88: multivariada - ufla

Ferreira, D.F. Estatística multivariada 83

2.2. Dada a matriz

1 1 0 01 1 0 0

X 1 0 1 01 0 1 01 0 0 1

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(a) Ortonormalize as colunas de X, usando a construção de Gram-Schimidt.

(b) Determine o vetor (coluna de x) linearmente dependente.

(c) Determine o posto coluna de X, a partir da construção de Gram-Schimidt

realizada em (a).

2.3. Dadas as matrizes

4 2 2 6 4 2A 2 2 0 B 4 4 0

2 0 4 2 0 6

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

(a) Obtenha a inversa de A e de B, usando o algoritmo de Gauss-Jordan.

(b) Verifique usando o processo de Gauss-Jordan que (AB)-1=B-1A-1.

2.4. Verifique se a matriz

Page 89: multivariada - ufla

2. Álgebra vetorial e matricial 84

0,8507 0,5257P

0,5257 0,8507−⎡ ⎤

= ⎢ ⎥⎣ ⎦

é uma matriz ortogonal.

2.5. Seja

8 1A

1 2−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

(a) Calcule o determinante de A.

(b) Com base em (a) a matriz A pode ser considerada positiva definida? Porque?

(c) Obtenha o fator de Cholesky, e confirme a resposta dada em (b).

(d) Determine os autovalores e autovetores de A.

(e) Obtenha a decomposição espectral de A.

(f) Encontre A-1.

Page 90: multivariada - ufla

Ferreira, D.F. Estatística multivariada 85

(g) Encontre os autovalores e autovetores de A-1. Verifique que relação tem como

os valores encontrados em (d).

2.6. Considere as matrizes

4 4,001 4 4,001A B

4,001 4,002 4,001 4,002001⎡ ⎤ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

As matrizes são idênticas, exceto por pequenas diferenças no

elemento, a22 e b22 devida a arredondamentos. Mostre que A-1 = -3B-1 (pequenas

mudanças, talvez devido a arredondamentos, podem causar substanciais

diferenças na inversa).

2.7. Verifique se a forma quadrática

2 21 1 2 2Q 2x 2x x 4x= − +

é positiva definida.

Sugestão: Verificar se tQ x Ax= é positiva, pode ser feita verificando se A é pd.

2.8. Dada as matrizes

Page 91: multivariada - ufla

2. Álgebra vetorial e matricial 86

4 1 2 1A B

1 2 1 1−⎡ ⎤ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

(a) determine os autovalores e autovetores que maximizam a razão

t

t

x Ax B 0x Bx

λ = ≠

Obs. O que é equivalente a resolver o sistema determinantal dado por (2.51)

A B 0− λ = .

(b) Determine a matriz raiz quadrada de A e de B.

2.9. Dada a matriz de covariância amostral (S)

25 2S

2 4−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

(a) Determine R, dada D1/2, definida por:

Page 92: multivariada - ufla

Ferreira, D.F. Estatística multivariada 87

12

11

22

pp

S 0 0

0 S 0D

0 0 S

⎡ ⎤⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

Sendo ( ) ( )1 12 2

1 1R D S D

− −=

(b) Verifique a relação

( ) ( )1 12 2S D R D=

Page 93: multivariada - ufla

2. Álgebra vetorial e matricial 88

Page 94: multivariada - ufla

||[ 3 ]||Amostragem multivariada

3.1. Introdução

Com os conceitos de álgebra vetorial introduzidos no capítulo 2,

pode-se aprofundar na interpretação geométrica das estatísticas descritivas X , S

e R. A maioria das explicações usam a representação das colunas de X, como p

pontos no espaço n dimensional. Será introduzida neste instante a pressuposição

de que as observações constituem uma amostra aleatória. De uma forma

simplificada, amostra aleatória significa (i) que as medidas tomadas em diferentes

itens (unidades amostrais ou experimentais) são não relacionadas uma com as

outras, e (ii) que a distribuição conjunta das p variáveis permanece a mesma para

todos os itens. Essa estrutura de amostra aleatória é que justifica uma escolha

particular de distância e dita a geometria para a representação n dimensional dos

dados. Finalmente, quando os dados podem ser tratados como uma amostra

aleatória à inferência estatística terá por base um sólido fundamento.

Page 95: multivariada - ufla

3. Amostragem multivariada 90

3.2. Geometria amostral

Uma observação multivariada é uma coleção de medidas em p

variáveis tomadas na mesma unidade amostral ou experimental. No capítulo 1,

item 1.3, as n observações obtidas foram dispostas em um arranjo (Matriz) X por,

11 12 1 1

21 22 2 2

1 2

1 2

k p

k p

j j jk jp

n n nk np

x x x xx x x x

Xx x x x

x x x x

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

em que cada linha de X representa uma observação multivariada. Desde que o

conjunto todo de mensurações é muitas vezes uma particular realização de

variáveis aleatórias, diz-se que os dados representam uma amostra de tamanho n

de uma população p variada.

Os dados podem ser plotados por um gráfico com p coordenadas. As

colunas de X representam n pontos no espaço p dimensional. Esse tipo de gráfico

fornece informações de locação dos pontos e de variabilidade. Se os pontos

pertencem a uma esfera, o vetor de médias amostrais, X , é o centro de balanço

ou de massa. Se a variabilidade ocorre em mais de uma direção, pode-se detectar

pela matriz de covariância, S. Uma medida numérica única de variabilidade é

fornecida pelo determinante da matriz de covariância.

Page 96: multivariada - ufla

Ferreira, D.F. Estatística multivariada 91

Exemplo 3.1

Calcule o vetor média X para a matriz X apresentada a seguir. Plote os n = 3

pontos no espaço p=2 (bidimensional) e localize X no diagrama resultante.

2 1X 3 0

2 2

⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥−⎣ ⎦

A média amostral é dada por:

( ) ( )( )

2 3 2 3 1X

11 0 2 3

⎡ ⎤+ − + −⎡ ⎤ −⎡ ⎤⎣ ⎦= =⎢ ⎥ ⎢ ⎥+ + ⎣ ⎦⎢ ⎥⎣ ⎦

O primeiro ponto é dado por [ ]t1X 2 1= , o segundo por [ ]t

2X 3 0= − , e

o terceiro por [ ]t3X 2 2= − . A Figura 3.1 mostra os pontos juntamente com X ,

centro de massa ou de balanço, obtidos a partir da matriz X.

Page 97: multivariada - ufla

3. Amostragem multivariada 92

-4 -3 -2 -1 0 1 2 3 4

-3

-2

-1

0

1

2

3

x3

x1

x2

x_

1

2

Figura 3.1. Diagrama com n=3 pontos no espaço bidimensional (p=2) mostrando o

centro de massa, X .

Uma representação alternativa é obtida através da consideração de p

pontos no espaço n dimensional. Os elementos das linhas de X são utilizados

como coordenadas.

Page 98: multivariada - ufla

Ferreira, D.F. Estatística multivariada 93

11 12 1 1

21 22 2 2

1 2

1 2

1 2

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

⎡ ⎤= ⎣ ⎦

k p

k p

j j jk jp

n n nk np

k p

x x x xx x x x

Xx x x x

x x x x

y y y y

As coordenadas do k-ésimo ponto [ ]tk 1k 2k nky x x x= é

determinada pela n-upla de todas as medidas da k-ésima variável. É conveniente

representar tky como vetor ao invés de pontos.

Exemplo 3.2

Plote os dados da matriz X, com p=2 vetores no espaço tridimensional (n=3)

2 13 03 2

X⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥−⎣ ⎦

[ ]t1y 2 3 2= − − e [ ]t

2y 1 0 2=

Page 99: multivariada - ufla

3. Amostragem multivariada 94

1

2

3

0

Y

Y 2

1

Figura 3.2. Diagrama da matriz de dados X como p=2 vetores no espaço

tridimensional.

Muita das expressões algébricas que serão encontradas na análise

multivariada, podem ser relacionadas às noções geométricas de ângulos,

comprimento (norma) e volumes. Isto é importante, pois representações

geométricas facilitam a compreensão e conduz a novas visões. Infelizmente, o ser

humano está limitado a visualizar objetos no espaço tridimensional, e as

representações da matriz X não serão úteis se n>3. No entanto, os

relacionamentos geométricos e os conceitos estatísticos associados, descritos

para o espaço tridimensional ou bidimensional, permanecem válidos para

dimensões maiores.

Page 100: multivariada - ufla

Ferreira, D.F. Estatística multivariada 95

É possível, em função do exposto, prover uma interpretação

geométrica ao processo de encontrar a média amostral. O vetor 1 (nx1) será

definido por t1 =[1 1 … 1]. O vetor 1 forma um ângulo igual com cada um dos

eixos coordenados, de tal forma que ( )1 n 1 tenha comprimento unitário e

mesmo ângulo de direção. Considerando o vetor [ ]tk 1k 2k nky x x x= , cuja

projeção em ( )1 n 1 é:

( )n

jkj 1t t

k k k

X1 1 1y 1 1 1 y 1 1 X 1

n nn n=⎛ ⎞ = = =⎜ ⎟

⎝ ⎠

Pois, a projeção geral de X em Y é dada por:

( )tX YProj X em Y Y

Y=

Dessa forma ( )tk k

1X y 1n

= corresponde a um múltiplo de 1, obtido a

partir da projeção de tky em um vetor 1 , de acordo com o esquema a seguir.

Page 101: multivariada - ufla

3. Amostragem multivariada 96

ky k k ke y X 1= −

1 kX 1

em que, k ky X 1− é perpendicular a kX 1 . Observe, também, que k k ke y X 1= − é

definido como desvio da k-ésima variável em relação a sua média amostral, e

consiste nos elementos apresentados a seguir:

1k k

2k kk k k

nk k

x Xx X

e y X 1

x X

⎡ ⎤−⎢ ⎥−⎢ ⎥= − =⎢ ⎥⎢ ⎥

−⎢ ⎥⎣ ⎦

A decomposição de iy , nos vetores média e desvio da média está

apresentada esquematicamente na Figura 3.3 para p=2 e n=3.

Page 102: multivariada - ufla

Ferreira, D.F. Estatística multivariada 97

1

Y 1

Y 2

e2

e1

_x11

x21_

x2

x1

x3

Figura 3.3. Decomposição de ky em componentes de média kX 1 e componentes

de desvio k k ke y X 1= − .

Exemplo 3.3

Faça a decomposição de ky em componentes de média kX 1 e componentes de

desvio k k ke y X 1= − , k=1, 2, para os dados do exemplo 3.2.

Page 103: multivariada - ufla

3. Amostragem multivariada 98

2 13 03 2

X⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥−⎣ ⎦

[ ] [ ]t t1 2y 2 3 2 y 1 0 2= − − =

1 22 ( 3) ( 2) 1 0 2X 1 X 1

3 3+ − + − + +

= = − = =

1

1 1X 1 1 1 1

1 1

−⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= − = −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

2

1 1X 1 1 1 1

1 1

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

1 1 1

2 1 3e y X 1 3 1 2

2 1 1

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − = − − − = −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− − −⎣ ⎦ ⎣ ⎦ ⎣ ⎦

2 2 2

1 1 0e y X 1 0 1 1

1 1 1

⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − = − = −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

Observa-se que: 1X 1 e 1e , 2X 1 e 2e , são perpendiculares.

( ) ( ) [ ]t11 1 11

3X 1 y X 1 1 1 1 2 3 2 1 0

1

⎡ ⎤⎢ ⎥− = − − − × − = − + + =⎢ ⎥⎢ ⎥−⎣ ⎦

A decomposição é:

Page 104: multivariada - ufla

Ferreira, D.F. Estatística multivariada 99

1

2 1 33 1 22 1 1

y−⎡ ⎤ ⎡ ⎤ ⎡ ⎤

⎢ ⎥ ⎢ ⎥ ⎢ ⎥= − = − + −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦ ⎣ ⎦

; e 2

1 1 00 1 12 1 1

y⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = + −⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦

.

Os vetores de resíduos podem ser plotados a partir da origem, como

apresentado na Figura 3.4, para os resíduos do exemplo 3.3.

Figura 3.4. Vetores de desvios ie do exemplo 3.3.

Considere o comprimento ao quadrado dos vetores de desvios,

obtidos por (2.2):

| ke |2= ke . ke = 2

1( )

=

−∑n

jk kjx X (3.1)

Observa-se por (3.1) que o comprimento ao quadrado dos vetores de

desvios é proporcional à variância da i-ésima variável. Equivalentemente, o

X1X2

X3

e2

e1

Page 105: multivariada - ufla

3. Amostragem multivariada 100

comprimento é proporcional ao desvio padrão. Vetores longos representam

maiores variabilidades que os vetores mais curtos.

Para dois vetores desvios ke e e :

( )( )1=

= − −∑n

tk jk k j

j

e e x X x X (3.2)

De (2.3) e denotando o ângulo θik como o ângulo formado pelos

vetores ke e e , tem-se:

( )tk

k t tk k

e eCose e e e

θ =×

(3.3)

Usando (3.1) e (3.2) é fácil verificar que (3.3) é:

( ) kk k

kk

Sr CosS S

= θ = (3.4)

O coseno do ângulo formado entre dois vetores desvios é igual ao

coeficiente de correlação amostral. Portanto, se os dois vetores de desvios

possuem a mesma orientação, o coeficiente de correlação será próximo de 1. Se

os dois vetores estão próximos de serem perpendiculares, a correlação amostral

será próxima de zero. Se os dois vetores forem orientados em direções opostas, o

coeficiente de correlação amostral será próximo de -1. Os conceitos de

Page 106: multivariada - ufla

Ferreira, D.F. Estatística multivariada 101

comprimento e ângulos permitem que se façam interpretações das estatísticas

amostrais geometricamente, e auxiliam na compreensão dos seus significados.

3.3. Amostras aleatórias e esperanças do vetor de média e da matriz de covariância amostral.

Com a finalidade de estudar a variabilidade amostral de estatísticas

como X e S com a finalidade de se fazer inferências, é necessário fazer

pressuposições a respeito das variáveis cujos valores observados constituem um

conjunto de dados X.

Supondo que os dados não foram ainda observados, mas

pretende-se obter n mensurações em p variáveis. Antes de serem mensurados,

os valores não podem em geral ser preditos exatamente. Conseqüentemente,

estes são tratados como variáveis aleatórias. Neste contexto, os elementos (j, k)

da matriz de dados representam realizações de uma variável aleatória, Xjk. Cada

conjunto de medidas jX em p variáveis é um vetor aleatório.

11 12 1 1 1

21 22 2 2 2

1 2

1 2

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥

= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥

⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

tk p

tk p

tj j jk jp j

tn n nk np n

x x x x Xx x x x X

Xx x x x X

x x x x X

(3.5)

Page 107: multivariada - ufla

3. Amostragem multivariada 102

Uma amostra aleatória pode ser definida por: “Se o vetor coluna

1X , 2X , ..., nX em (3.5), representa independentes observações com distribuição

conjunta com densidade f( x )=f(x1, x2, ..., xp), então 1X , 2X , ..., nX é uma amostra

aleatória. Se a função conjunta de densidade é igual ao produto das marginais

f( x 1) . f( x 2) . ..., . f( x n), sendo f( x j)=f(xj1, xj2, ..., xjp), então, 1X , 2X , ..., nX é uma

amostra aleatória.”

Algumas conclusões podem ser obtidas da distribuição de X e S

sem pressuposições sobre a forma da distribuição conjunta das variáveis. Dessa

forma, considere 1X , 2X , ..., nX como sendo uma amostra aleatória de uma

distribuição conjunta com vetor média µ e matriz de covariância Σ. Então, X é um

estimador não viciado de µ e sua matriz de covariância é 1n Σ . Isto é,

E( X ) = µ (vetor média populacional)

Cov( X ) = 1n Σ (Matriz de covariância populacional dividida pelo tamanho da

amostra).

PROVA:

X =( X 1+ X 2+...+ X n)/n

Page 108: multivariada - ufla

Ferreira, D.F. Estatística multivariada 103

( )

( ) ( ) ( )

( )

1 1 11 2 nn n n

1 1 11 2 nn n n

j

E(X) E X X X

E X E X E X

1 1nE X nn n

E(X)

= + + +

= + + +

⎡ ⎤= = × ×µ⎣ ⎦

∴ = µ

Para provar o valor da covariância, pode-se observar que:

( X -µ ) ( X -µ ) t = ( ) ( ) ( )( )tn n n n t

j j2j 1 1 j 1 1

1 1 1X X X Xn n n= = = =

⎛ ⎞ ⎛ ⎞−µ × −µ = −µ −µ⎜ ⎟ ⎜ ⎟⎝ ⎠⎝ ⎠

∑ ∑ ∑∑

Então,

( )Cov X = ( )( ) ( )( )n nt t

j2j 1 1

1E X X E X Xn = =

−µ −µ = −µ −µ∑∑

Sendo j≠ e considerando que ( )( )t

jE X X−µ −µ é igual a zero,

devido a covariância entre os elementos independentes jX e X ser nula, então,

( )Cov X ( )( )n t

j j2j 1

1 E X Xn =

= −µ −µ∑

Page 109: multivariada - ufla

3. Amostragem multivariada 104

Desde que Σ= ( )( )t

j jE X X−µ −µ é a covariância populacional comum

dos componentes jX , têm-se:

( ) ( )( ) ( )n t

j j2 2j 1

2

1 1Cov X E X Xn n

1 1(n )n n

=

= −µ −µ = Σ + Σ + + Σ =

= Σ = Σ

3.4. Variância Generalizada

Com uma única variável, a variância da amostra é usada para

descrever a variação nas mensurações desta variável. Quando p variáveis são

observadas em cada unidade da amostra ou do experimento, a variação é descrita

pela matriz de variância e covariância amostral.

S

S S SS S S

S S S

p

p

p p pp

=

⎢⎢⎢⎢

⎥⎥⎥⎥

11 12 1

21 22 2

1 2

A matriz de covariância amostral contém p variâncias e ½p(p-1)

covariâncias, potencialmente diferentes. Algumas vezes, no entanto, deseja-se

expressar a variação por um único valor numérico. Uma escolha deste valor é o

determinante de S, o qual reduz à variância amostral usual para o caso de uma

Page 110: multivariada - ufla

Ferreira, D.F. Estatística multivariada 105

única variável (p=1). Este determinante é denominado de variância amostral

generalizada.

Variância amostral Generalizada=|S| (3.6)

Exemplo 3.4

O peso de espiga PE (X1), e o número de espigas NE (X2), foi avaliado em 28

variedades de milho em Sete Lagoas, MG. A matriz de covariância amostral S,

obtida dos dados é:

S=2 905 9 0969 096 90 817, ,, ,

⎣⎢

⎦⎥

A variância generalizada neste caso é:

Variância amostral Generalizada = |S| = 2,905x90,817 - 9,0962 = 181,0862

A variância amostral generalizada se constitui numa forma de

escrever toda a informação de todas as variâncias e covariâncias como um único

valor numérico. Obviamente, quando p>1 é possível que algumas informações

amostrais sejam perdidas no processo. A interpretação geométrica, no entanto,

poderá mostrar a força e as fraquezas desta estatística descritiva.

Page 111: multivariada - ufla

3. Amostragem multivariada 106

Considerando-se o volume (área) gerado no plano definido por dois

vetores de desvios 1 1 1e Y X 1= − e 2 2 2e Y X 1= − . Seja Le1 e Le2 os comprimentos

dos vetores 1e e 2e , respectivamente. Da geometria têm-se:

1e

h= Le1Sen(θ)

Le2 2e

A área do trapezóide é Le1 x Sen(θ) x Le2, podendo ser expressa por:

Área= ( )e eL L1 221− cos θ

Mas,

n2

e1 j1 1 11j 1

L (X X ) (n 1)S=

= − = −∑

n2

e2 j2 2 22j 1

L (X X ) (n 1)S=

= − = −∑

Cos(θ)=r12

Portanto,

θ

Page 112: multivariada - ufla

Ferreira, D.F. Estatística multivariada 107

Área = ( )211 22 12(n 1) S S 1 r− − (3.7)

Por outro lado,

SS SS S

S S S rS S r S

S S S S r S S r

= =

= − = −

11 21

12 22

11 11 22 12

11 22 12 22

11 22 11 22 122

11 22 1221( )

(3.8)

Se (3.7) e (3.8) forem comparados, pode-se observar que:

|S|=(Área)2/(n-1)2

Esta expressão pode ser generalizada para p vetores desvios por

indução:

Variância amostral Generalizada = |S| = (Volume)2.(n-1)-p (3.9)

A equação (3.9) mostra que a variância amostral é proporcional ao

quadrado do volume gerado pelos p vetores desvios. Na Figura 3.5 (a) e (b)

mostra-se regiões trapezoidais geradas com p=3 vetores resíduos

correspondentes a “grandes” e “pequenas” variâncias amostrais generalizadas,

respectivamente.

Page 113: multivariada - ufla

3. Amostragem multivariada 108

(a) (b)

e3 e2

e2 e1 e3 e1

Figura 3.5. (a) grande variância amostral generalizada, e (b) pequena variância

amostral generalizada, para p=3.

Para um tamanho amostral fixo, é óbvio que |S| cresce com o

aumento do comprimento dos vetores de desvios ie (ou iin S( )−1 ). Em adição, o

volume aumentará para um comprimento fixado, se os vetores residuais forem

movidos até possuírem ângulos retos. Por outro lado se um ou mais dos vetores

residuais aproximar do hiperplano formado por outros vetores residuais, o volume

diminuirá tendendo a zero.

Apesar de a variância amostral generalizada possuir algumas

interpretações geométricas formidáveis como as ilustradas na Figura 3.5, ela sofre

Page 114: multivariada - ufla

Ferreira, D.F. Estatística multivariada 109

alguns problemas como estatística amostral capaz de sumariar a informação

contida na matriz S. Para ilustrar estas deficiências, considere as matrizes de

covariâncias e os coeficientes de correlações apresentados a seguir.

12 12 12

10 8 10 8 6 0S S S

8 10 8 10 0 6

8 8 0r 0,8 r 0,8 r 0,010 10 10 10 6 6

| S | 36 | S | 36 | S | 36

−⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦ ⎣ ⎦

−= = = = − = =

= = =

Apesar das três matrizes possuírem a mesma variância amostral

generalizada (|S|=36), elas possuem estruturas de correlações distintas. Portanto,

diferentes estruturas de correlações não são detectadas pela variância amostral

generalizada. As situações em que p>2 podem ser ainda mais obscuras.

Muitas vezes é desejável mais informações do que um simples valor

como |S| pode oferecer como resumo de S. Pode-se mostrar que |S| pode ser

expresso como produto dos autovalores de S (|S|=λ1.λ2....λp). A elipsóide centrada

na média é baseada em S-1, possui eixos de comprimento proporcionais a raiz

quadrada de λi’s de S, que reflete a variabilidade no sentido do i-ésimo autovalor.

Esta elipsóide é apresentada a seguir.

( ) ( )1 2X X 'S X X c−− − = (3.10)

Page 115: multivariada - ufla

3. Amostragem multivariada 110

Demonstra-se que o volume desta hiperelipsóide é proporcional à

raiz quadrada de |S|. Desta forma, os autovalores, fornecem informações da

variabilidade em todas as direções da representação no espaço p-dimensional dos

dados. Portanto, é mais útil apresentar seus valores individuais do que seu

produto. Este tópico será abordado com mais detalhe quando se discutir sobre os

componentes principais.

A variância amostral generalizada será zero se um ou mais vetores

residuais pertencerem a um (hiper) plano formado por uma combinação linear dos

outros, ou seja, quando as linhas da matriz de desvios, forem linearmente

dependentes.

Exemplo 3.5

Mostre que |S|=0 para

3 3 61 3 42 0 2

X⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

O vetor média é:

[ ]tX 2 2 4=

Os vetores dos desvios são:

Page 116: multivariada - ufla

Ferreira, D.F. Estatística multivariada 111

[ ]1 2 3

1 1 21 1 1 0

0 2 2

⎡ ⎤⎢ ⎥− = = −⎢ ⎥⎢ ⎥− −⎣ ⎦

tX X e e e

Verifica-se que t t t3 1 2e e e= + , ou seja:

[2 0 -2] = [1 -1 0] +[1 1 -2] = [2 0 -2] c.q.d.

Isto significa que um dos vetores resíduos, pertence ao plano gerado

pelos outros dois. Desta forma o volume tridimensional é zero (degenerescência).

Este caso é ilustrado na Figura 3.6 e demonstrado numericamente através da

obtenção de |S|.

S =

⎢⎢⎢

⎥⎥⎥

1 0 10 3 31 3 4

Pela definição (2.9), têm-se:

| | ( ) ( ) ( )

. . .( ).

S = × × − + × × − + × × − =

= + + − = − =

13 33 4

1 00 13 4

1 10 13 3

1

131 0 1 3 1 3 3 0

2 3 4

Page 117: multivariada - ufla

3. Amostragem multivariada 112

e1

e2e3

1 2

3

Figura 3.6 Caso em que |S|=0 (degenerescência) para o volume tridimensional.

Em qualquer análise estatística o resultado |S|=0 indica que existem

variáveis redundantes, ou seja, que possuem a mesma informação, e que estas

podem ser removidas do estudo. A matriz de covariância reduzida, será de posto

completo e a variância generalizada diferente de zero. A questão de quais

variáveis devem ser removidas no caso de degenerescência não é fácil de

responder e será abordado nos estudos de componentes principais. No entanto,

quando há possibilidade de escolha, o pesquisador deve reter as medidas de uma

variável (presumidamente) causal ao invés de uma característica secundária.

Page 118: multivariada - ufla

Ferreira, D.F. Estatística multivariada 113

3.5.Variância generalizada de variáveis padronizadas

A variância amostral generalizada é influenciada pela diferença de

variabilidade das mensurações das variáveis individuais, ou seja, caso a variância

amostral de uma determinada variável (Sii) seja grande ou pequena em relação às

demais. O vetor residual correspondente i i ie Y x 1= − será muito longo ou muito

curto, do ponto de vista geométrico e terá um papel importante na determinação

do volume. É muitas vezes necessário, em função do exposto, padronizar os

vetores residuais, de tal forma que eles tenham o mesmo comprimento.

A padronização destes vetores residuais é equivalente a transformar

as variáveis originais xjk pelos seus valores ( )−jk k kkx x S . A matriz de

covariância amostral das variáveis padronizadas será então igual a R, ou seja,

igual a matriz de correlação das variáveis originais. Dessa forma pode-se definir:

Variância generalizada amostral das variáveis padronizadas=|R| (3.11)

Os vetores resíduos resultantes, cujos valores são dados por

ejk= ( )−jk k kkx x S , possuem todos os comprimentos iguais a n −1. A variância

generalizada amostral das variáveis padronizadas será grande se estes vetores

forem perpendiculares e será pequena se dois ou mais deles tiverem próximas da

mesma direção. Em (3.4) foi visto que o co-seno do ângulo θik entre os vetores

residuais ie e ke , com i≠k, é igual ao coeficiente de correlação amostral rik. Dessa

Page 119: multivariada - ufla

3. Amostragem multivariada 114

forma, o |R| será grande quando todos os rik forem próximos de zero e será

pequeno quando um ou mais dos rik for próximo de -1 ou de +1.

Utilizando os mesmos argumentos que conduziram a (3.9) pode-se

verificar que:

|R|=(n-1)-p(volume)2 (3.12)

O volume gerado pelos vetores desvios de p=3 variáveis

padronizadas está ilustrado na Figura 3.7. Estes vetores desvios padronizados

são correspondentes aos vetores desvios da Figura 3.5, cuja comparação revela

que a influência do vetor 2e (com grande variabilidade na direção de x2) no volume

quadrado de |S| é maior do que sua influência no volume quadrado de |R|.

e2 e1

e3

e1

2

e2 e3

(a) (b)

Figura 3.7. Volume gerado por três variáveis padronizadas: (a) grande variância e

(b) pequena variância generalizada.

As quantidades |S| e |R| são relacionadas por:

Page 120: multivariada - ufla

Ferreira, D.F. Estatística multivariada 115

|S| = (S11 S22 ... Spp) |R| (3.13)

Exemplo 3.6

É ilustrada através deste exemplo a relação (3.13) entre |S| e |R| para p=3

caracteres de milho (x1: diâmetro do colmo; x2: número de folhas; e x3:

comprimento de folhas). A matriz R e S obtidas são:

S e R=

⎢⎢⎢

⎥⎥⎥

=

⎢⎢⎢

⎥⎥⎥

4 935 0 552 2 9210 552 0 686 19322 921 1932 17 993

100 0 30 0 310 30 100 0 550 31 0 55 100

, , ,, , ,, , ,

, , ,, , ,, , ,

Usando-se a definição de determinante (2.9), tem-se:

|S|=37,3878

|R|=0,6137

Usando (3.13) e os resultados obtidos:

|S| = (S11 S22 ... Spp) |R|

37,3878 = (4,935 x 0,686 x 17,993) x 0,6137

Page 121: multivariada - ufla

3. Amostragem multivariada 116

(verificado, apesar da pequena diferença devido às

aproximações nos cálculos)

3.6. Outra generalização da variância

Uma outra medida capaz de sintetizar a informação contida na matriz

de covariância que é utilizada em componentes principais é definida pela soma

dos elementos da diagonal da matriz de covariância S e é denominada de

variância amostral total. Portanto,

Variância amostral total = Traço de S= Tr(S) =S11+S22+...+Spp (3.14)

Exemplo 3.7

Calcular a variância amostral total da matriz S do exemplo (3.6)

Tr(S)= S11+S22+S33=4,935+0,686+17,993=23,614

Geometricamente a variância amostral total representa a soma dos

comprimentos ao quadrado dos vetores residuais ie (i=1, 2, ...,p) dividido por n-1.

Ela não considera as orientações dos vetores residuais, sendo portanto limitada

37,3878≈37,3828

Page 122: multivariada - ufla

Ferreira, D.F. Estatística multivariada 117

para ser utilizada com variáveis padronizadas, pois seu valor será sempre o

mesmo para distintos conjuntos de dados desde que o número de variáveis destes

seja igual.

3.7. Exercícios

3.7.1. Plote os n=4 pontos no diagrama bidimensional e localize X no diagrama

resultante.

1 11 11 11 1

X

⎡ ⎤⎢ ⎥− −⎢ ⎥=⎢ ⎥−⎢ ⎥−⎣ ⎦

3.7.2. Encontre o ângulo entre os vetores 1y e 2y do exemplo 3.1. Calcule o

co-seno do mesmo e discuta sobre o significado deste resultado.

3.7.3. Obtenha a decomposição dos vetores 1y e 2y do exemplo 3.1 em

componente de média e componente de desvio. Comprove a

ortogonalidade dos componentes de média com os vetores de desvios ou

residuais.

Page 123: multivariada - ufla

3. Amostragem multivariada 118

3.7.4. Calcule usando (3.3) o coseno do ângulo entre os vetores residuais 1e e 2e

obtidos em 3.3. Calcule o coeficiente de correlação usando (1.4) entre as

variáveis 1 e 2, e compare os resultados obtidos.

3.7.5. Obtenha as matrizes de covariância amostral para o conjunto de dados do

exercício 3.7.1, e calcule as variâncias amostrais generalizadas das

variáveis originais e padronizadas. Calcule também a variância amostral

total.

3.7.6. Qual é a área do trapezóide gerado pelos p=2 vetores desvios, do exercício

3.7.1.

Page 124: multivariada - ufla

Distribuição normal multivariada4

4.1. Introdução

A generalização da densidade normal univariada para duas ou mais

dimensões desempenha um papel fundamental na análise multivariada. De fato, a

maioria das técnicas multivariadas parte do pressuposto de que os dados foram

gerados de uma distribuição normal multivariada. Apesar dos dados originais não

serem quase nunca “exatamente” normal multivariados, a densidade normal se

constitui muitas vezes numa aproximação adequada e útil da verdadeira

distribuição populacional.

A distribuição normal, além da sua atratividade pela sua facilidade de

tratamento matemático, possui duas razões práticas que justificam a sua utilidade.

A primeira, diz que a distribuição normal é a mais adequada para modelos

populacionais em várias situações; e a segunda refere-se ao fato da distribuição

amostral de muitas estatísticas multivariadas ser aproximadamente normal,

independentemente da forma da distribuição da população original, devido ao

efeito do limite central.

Page 125: multivariada - ufla

4. Distribuição normal multivariada 120

4.2. Pressuposições das análises multivariada

É importante compreender que as análises estatísticas de modelos

com erros aditivos baseiam-se na pressuposição de normalidade. A distribuição

normal requerida refere-se, não a variação dos dados, mas a variação residual,

dos erros existentes entre as observações e o modelo ajustado. A variação

sistemática dos dados deve-se presumidamente aos efeitos fixos dos modelos e o

restante da variação aleatória é devida a pequenas influências independentes, as

quais produzem resíduos com distribuição normal (Bock, 1975).

Um segundo ponto, muitas vezes negligenciado nas discussões das

pressuposições sobre a distribuição, refere-se ao fato de que as afirmações

probabilísticas dos testes de significância e dos intervalos de confiança, dizem

respeito a estatísticas tais como médias amostrais ou diferenças entre médias, e

não a distribuição das observações individuais. É conhecido que a distribuição

destas estatísticas torna-se tipicamente normal quando a amostra aumenta de

tamanho. Este resultado se deve ao teorema do limite central.

Do ponto de vista prático existem consideráveis vantagens de se

trabalhar com grandes amostras. Nestes casos, a violação da pressuposição de

que a população seja normal é menos crítica para os testes estatísticos e

intervalos de confiança e a precisão da estimação de parâmetros desconhecidos é

melhor.

Page 126: multivariada - ufla

Ferreira, D.F. Estatística multivariada 121

4.3. Densidade normal multivariada e suas propriedades

A densidade normal multivariada é uma generalização da densidade

normal univariada. Para a distribuição normal univariada com média µ e variância

2σ , a função de densidade de probabilidade é bem conhecida e é dada por:

( )

] [2

2x1

22

1f (x) e x ;2

−µ−

σ= ∈ −∞ + ∞πσ

(4.1)

O gráfico da função (4.1) tem forma de sino e está apresentado na

Figura 4.1. As probabilidades são áreas sob a curva entre dois valores da variável

X, limitada pela abscissa. É bem conhecido o fato de que as áreas entre ±1 desvio

padrão da média e ±2 desvios padrões da média são respectivamente 68,3% e

95,4%, como ilustrado na Figura 4.1.

Page 127: multivariada - ufla

4. Distribuição normal multivariada 122

µ

0,6830,954

µ−σ µ+σ µ+2σµ−2σ

Figura 4.1. Densidade normal univariada com média µ e variância 2σ ,

destacando-se as áreas entre µ ± σ e 2µ ± σ .

O expoente da função de densidade normal univariada:

( ) ( )( ) ( )2

122

xx x

−− µ= − µ σ − µ

σ (4.2)

mede a distância quadrada de x em relação à µ em unidade de desvio padrão.

Esta distância pode ser generalizada para o caso multivariado, com

um vetor X de observações (p x 1), dada por,

Page 128: multivariada - ufla

Ferreira, D.F. Estatística multivariada 123

( ) ( ) ( )t 1X X−− µ Σ − µ (4.3)

Nesta expressão (4.3) o vetor µ (px1) representa o valor esperado

do vetor X e a matriz Σ (pxp) representa a sua covariância. Então, (4.3)

representa a distância generalizada de X para µ .

Substituindo a expressão (4.3) na função de densidade (4.1), a

constante univariada de normalização 22πσ deve ser trocada de modo a fazer

com que o volume sob a superfície da função de densidade multivariada obtida,

seja igual a unidade para qualquer p. Pode-se demonstrar (Anderson, 1984) que

esta constante é ( )p 1

222 −−π Σ , sendo a densidade dada por:

( )( )

( ) ( )t 11p22

1 1f X exp X X22

−⎡ ⎤= − − µ Σ − µ⎢ ⎥⎣ ⎦π Σ (4.4)

Propriedades da distribuição normal multivariada

Seja um vetor X tendo distribuição normal multivariada, então:

1. Combinações lineares dos componentes de X serão normalmente distribuídos:

seja a combinação linear ta X =a1X1+a2X2+...+ apXp, então, ta X terá

distribuição N( ta µ , ta Σ a );

Page 129: multivariada - ufla

4. Distribuição normal multivariada 124

2. Todos os subconjuntos de X tem distribuição normal (multivariada). Pelos

resultados da propriedade 1, fazendo alguns ai’s iguais a zero, isto se torna

evidente;

i) Fazendo ta X =[ ]

1

21

p

XX

1 0 0 X

X

⎡ ⎤⎢ ⎥⎢ ⎥ =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

a propriedade 2 se torna evidente. Assim,

X1 ∼ N( ta µ = 1µ , ta Σ a = 11σ ). De uma forma mais geral pode-se afirmar que todo

componente Xi tem distribuição N( iµ , iiσ ).

ii) A distribuição de várias combinações lineares é:

( )11 1 1p p

q p p 1 q

q1 1 qp p

a X ... a XA X ~ N A ; A A '

a X ... a X

⎡ ⎤+⎢ ⎥= µ Σ⎢ ⎥⎢ ⎥+⎣ ⎦

iii) Todos os subconjuntos de X tem distribuição normal (multivariada)

Tomando-se uma partição: q 1 1p 1

(p q) 1 2

X XXX X−

⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎣ ⎦⎣ ⎦ e suas correspondentes

partições no vetor de média e de covariância, dadas por:

q 1 1p 1

(p q) 1 2−

⎡ ⎤ ⎡ ⎤µ µµ = =⎢ ⎥ ⎢ ⎥

µ µ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ e q q q ( p q )

( p q ) q ( p q ) ( p q )

11 12

21 22

− − −

Σ Σ⎡ ⎤Σ = ⎢ ⎥

Σ Σ⎢ ⎥⎣ ⎦

Page 130: multivariada - ufla

Ferreira, D.F. Estatística multivariada 125

Logo,

( )1 q 1 11X ~ N ;µ Σ

Prova: Basta fazer qAp=[qIq | q0(p-q)] e aplicar (ii).

3. Se os componentes de covariância forem zero entre dois subconjuntos de X ,

implica em dizer que eles são independentemente distribuídos. Esta

propriedade só é valida se X tiver distribuição normal multivariada; e

4. A distribuição condicional de componentes de X é normal (multivariada).

Dada a partição q 1 1p 1

(p q) 1 2

X XXX X−

⎡ ⎤ ⎡ ⎤= =⎢ ⎥ ⎢ ⎥

⎢ ⎥ ⎣ ⎦⎣ ⎦, logo a distribuição condicional de

1 2 2X / X x= é normal e têm média e covariância dados por:

( )1c 1 12 22 2 2x−µ = µ + Σ Σ − µ e 1

c 11 12 22 21−Σ = Σ − Σ Σ Σ

4.4. Distribuição normal bivariada

Sejam X1 e X2 duas variáveis com parâmetros E(X1)=µ1, E(X2)=µ2,

Var(X1)=σ11, Var(X2)=σ22 e 1212

11 221 2ρ

σσ σ

= = Corr X X( , ). A matriz de covariância é

Page 131: multivariada - ufla

4. Distribuição normal multivariada 126

11 12

21 22

σ σ⎡ ⎤Σ = ⎢ ⎥σ σ⎣ ⎦

Cuja inversa é,

22 1212

21 1111 22 12

1− −⎡ ⎤Σ = ⎢ ⎥−− ⎣ ⎦

σ σσ σσ σ σ

Fazendo 12 12 11 22=σ ρ σ σ , obtém-se

( )12

2 211 22 11 22 121Σ = − = −σ σ σ σ σ ρ , e a distância generalizada de (4.3) será:

[ ]

⎥⎥

⎢⎢

⎟⎟⎠

⎞⎜⎜⎝

σ

µ−⎟⎟⎠

⎞⎜⎜⎝

σ

µ−ρ−⎟

⎟⎠

⎞⎜⎜⎝

σ

µ−+⎟

⎟⎠

⎞⎜⎜⎝

σ

µ−ρ−

=

=⎥⎦

⎤⎢⎣

⎡µ−µ−

⎥⎥⎦

⎢⎢⎣

σσσρ−σσρ−σµ−µ−

ρ−σσ

22

22

11

1112

2

22

22

2

11

11212

22

11

11221112

2211122222112

122211

XX2XX1

1

XX

XX)1(

1

(4.5)

Desde que, |Σ|=σ11 σ22 - (σ12)2 = σ11 σ22 (1- 212ρ ), podem ser

substituídos Σ-1 e |Σ| em (4.4) para se ter a expressão da densidade normal

bivariada, apresentada a seguir.

Page 132: multivariada - ufla

Ferreira, D.F. Estatística multivariada 127

( )

( )

1 22

11 22 12

2 2

1 1 2 2 1 1 2 2122

12 11 22 11 22

1f(x ,x )2 1

X X X X1exp 22 1

=π σ σ −ρ

⎧ ⎫⎡ ⎤⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞−µ −µ −µ −µ−⎪ ⎪⎢ ⎥+ − ρ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎨ ⎬⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎢ ⎥−ρ σ σ σ σ⎪ ⎪⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎣ ⎦⎩ ⎭

(4.6)

Se X1 e X2 não são correlacionadas, 12ρ =0, a densidade conjunta

pode ser escrita como produto das densidades normais univariadas, ambas com a

forma de (4.1), ou seja, f(x1,x2)= f(x1) f(x2), além do que X1 e X2 são ditas

independentes, como comentado na propriedade número 3 da seção 4.3. Duas

distribuições normais bivariadas com variâncias iguais são mostradas nas Figuras

4.2. e 4.3. A Figura 4.2 mostra o caso em que X1 e X2 são independentes ( 12ρ =0)

e a Figura 4.3 o caso de 12ρ =0.8. Observa-se que a presença de correlação faz

com que as probabilidades se concentrem ao longo de uma linha.

Page 133: multivariada - ufla

4. Distribuição normal multivariada 128

Figura 4.2. Distribuição normal bivariada com 11 22σ σ= e 12ρ =0.

Figura 4.3. Distribuição normal bivariada com 11 22σ σ= e 12ρ =0.8.

Page 134: multivariada - ufla

Ferreira, D.F. Estatística multivariada 129

Da análise da expressão (4.4), relativa a densidade de p-variáveis

normais, fica claro que alguns valores padrões de X fornecem alturas constantes

para as densidades elipsóides. Isto significa que a densidade normal é constante

em superfícies cujas distâncias quadráticas ( ) ( ) ( )t 1X X−− µ Σ − µ são constantes.

Esses padrões são chamados de contornos ou curvas de nível.

Contornos={todo X tal que ( ) ( ) ( )t 1X X−− µ Σ − µ =c2 } (4.7)

A expressão (4.7) é uma superfície de uma elipsóide centrada em µ ,

cujos eixos possuem direção dos autovetores de Σ-1 e seus comprimentos são

proporcionais ao recíproco da raiz quadrada dos seus autovalores. Demonstra-se

que se λi e ie são os autovalores e autovetores, respectivamente, de Σ, então a

elipsóide ( ) ( ) ( )t 1X X−− µ Σ − µ =c2 é centrada em µ e tem eixos na direção de

iic e± λ (i=1, 2, ..., p).

Considerando como ilustração a densidade normal bivariada com

11 22σ σ= , os eixos da elipsóide dados por (4.7) são fornecidos pelos autovalores e

autovetores de Σ. Portanto, para obtê-los, a equação |Σ-λI|=0 deve ser resolvida.

( )

( )( )

211 12 211 12

12 11

11 12 11 12

0

0

−= − − =

= − − − + =

ii

i

i i

σ λ σσ λ σ

σ σ λ

λ σ σ λ σ σ

Page 135: multivariada - ufla

4. Distribuição normal multivariada 130

Conseqüentemente os autovalores são:

1 11 12 2 11 12λ σ σ λ σ σ= + = −e

Os autovetores são determinados por:

Σ ie =λi ie

Para i=1, tem-se:

11 12

12 11

1

211 12

1

2

σ σσ σ

σ σ⎡

⎣⎢

⎦⎥

⎣⎢

⎦⎥= +

⎣⎢

⎦⎥

ee

ee

( )

ou,

11 1 12 2 11 12 1

12 1 11 2 11 12 2

σ σ σ σσ σ σ σ

e e ee e e

+ = ++ = +

( )( )

Essas equações levam ao resultado de que e1=e2, e após

normalização, o primeiro autovetor é:

1

12

12

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

e

Page 136: multivariada - ufla

Ferreira, D.F. Estatística multivariada 131

De forma similar foi obtido o segundo autovetor, o qual é:

1

12

12

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥−⎢ ⎥⎣ ⎦

e

Se a covariância é positiva, 1 11 12λ σ σ= + é o maior autovalor e seu

autovetor associado se posiciona ao longo de uma linha de 450 através do ponto

[ ]1 2=tµ µ µ , para qualquer 12 0σ > . Os eixos são fornecidos por i ic e± λ (i=1, 2)

e estão representados na Figura 4.4.

2 cv σ σ 11 12 -

cv σ σ 11 12 +

Figura 4.4. Curva de nível de densidade constante para a distribuição normal

bivariada com 11 22σ σ= e 12 0σ > .

Anderson (1984) demonstra que a escolha de c2= p2χ α( ), em que

p2χ α( ) é o percentil (100α) superior da distribuição de qui-quadrado com p graus de

Page 137: multivariada - ufla

4. Distribuição normal multivariada 132

liberdade, leva aos contornos que contém (1-α)x100% de probabilidade. Para a

distribuição normal multivariada (p variada), a elipsóide dos valores de X

satisfazendo,

( ) ( ) ( )t 1X X−− µ Σ − µ ≤ p2χ α( ) (4.8)

tem probabilidade 1-α.

Os contornos contendo 95% e 99% de probabilidade sob a

densidade normal bivariada das Figuras 4.2 e 4.3, estão representados nas

Figuras 4.5 e 4.6.

X10

X 2

0

95%

99%

µ 2

µ1

Figura 4.5. Curvas de níveis de 95% e 99% de probabilidade para a distribuição

normal bivariada apresentada na Figura 4.2, 11 22σ σ= e 12ρ =0.

Page 138: multivariada - ufla

Ferreira, D.F. Estatística multivariada 133

95%

99%

Figura 4.6. Curvas de níveis de 95% e 99% de probabilidade para a distribuição

normal bivariada apresentada na Figura 4.3, 11 22σ σ= e 12ρ =0,8.

A densidade (4.4) possui máximo quando X = µ . Portanto, µ é o

ponto de máxima densidade ou moda, bem como o valor esperado de X , ou

média.

4.5. Distribuição amostral de X e S

Se a pressuposição de que as linhas de

Page 139: multivariada - ufla

4. Distribuição normal multivariada 134

11 12 1p

21 22 2p

n p

n1 n2 np

x x xx x xXx x x

×

⎡ ⎤⎢ ⎥⎢ ⎥

= ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

se constituem numa amostra aleatória de uma população normal com média µ e

covariância Σ for verdadeira, então este fato é suficiente para completamente

definir a distribuição amostral de X e de S. São apresentadas a seguir estas

distribuições amostrais, fazendo-se um paralelo com a distribuição amostral

univariada que já é familiar e bem conhecida.

No caso univariado (p = 1), sabe-se que X possui distribuição normal

com média µ (média populacional) e variância

2

O resultado para o caso multivariado (p≥2) é similar a este, no

sentido que X possui distribuição normal com média µ e matriz de covariância

(1/n)Σ.

Para a variância amostral, caso univariado, sabe-se que a

distribuição de 2 2(n 1)S− σ possui distribuição de qui-quadrado com n - 1 graus de

liberdade. Para o caso multivariado, a distribuição da matriz de covariância é

Page 140: multivariada - ufla

Ferreira, D.F. Estatística multivariada 135

chamada de distribuição de Wishart, após sua descoberta, com (n – 1) graus de

liberdade. Os resultados a seguir resumem detalhes destas distribuições:

Devido a Σ não ser conhecida, a distribuição de X não pode ser

usada diretamente para se fazer inferência sobre µ . Felizmente, S fornece

informação independente sobre Σ e a distribuição de S não depende de µ . Isto

permite que se construam estatísticas para fazer inferência sobre µ , como será

abordado no capítulo 5.

Densidade da distribuição de Wishart

Seja S uma matriz positiva definida, com n>p, então se pode definir,

[ ]

1(n p 2)/2 tr(S )/2

n 1 p(n 1)/2p(n 1)/2 p(p 1)/4 1

2i 1

S ew (S/ )

2 (n i)

−− − − Σ

−−− −

=

Σ =π Σ Γ −∏

(4.9)

Sendo 1X , 2X , ..., nX uma amostra aleatória de tamanho n de uma população

normal p-variada com média µ e matriz de covariância Σ. Então,

1. X possui distribuição normal com média µ e matriz de covariância (1/n)Σ.

2. (n-1)S possui distribuição de uma matriz aleatória de Wishart com n-1 gl.

3. X e S são independentes.

Page 141: multivariada - ufla

4. Distribuição normal multivariada 136

em que, Γ(.) representa a função gama.

Retornando ao caso da distribuição das médias amostrais, o

resultado 4.1, sintetiza um importante teorema em estatística.

Como já foi comentado quando n é grande, S converge em

probabilidade para Σ, consequentemente, a substituição de Σ por S causa efeitos

apenas negligíveis nos cálculos de probabilidades. Desta forma, utilizando a

expressão (4.8), pode-se obter o importante resultado, apresentado a seguir.

Resultado 4.1. (teorema do limite central) Sendo 1X , 2X , ..., nX uma amostra

aleatória de n independentes observações de uma população qualquer com média

µ e matriz de covariância Σ, finita e não singular. Então,

( )n X − µ possui distribuição aproximadamente normal Np(0 , Σ) para grandes

amostras. Aqui n deve ser também bem maior do que p (número de variáveis).

Resultado 4.2. (teorema do limite central) Sendo 1X , 2X , ..., nX uma amostra

aleatória de n independentes observações de uma população qualquer com média

µ e matriz de covariância Σ, finita e não singular. Então,

( )n X − µ possui distribuição aproximadamente normal Np(0 , Σ )

e

( ) ( )t 1n X X−− µ Σ − µ se distribui aproximadamente como p2χ para n - p grande.

Page 142: multivariada - ufla

Ferreira, D.F. Estatística multivariada 137

Para a distribuição normal univariada, se µ e σ são conhecidos, as

probabilidades sob a curva para a distribuição de X , podem ser obtidos das

tabelas da distribuição normal, ou da integral da função apresentada em (4.1) nos

intervalos apropriados, com µ=0 e σ=1, sendo

Xz

n

− µ=

σ (4.10)

Alternativamente, pode-se obter a aproximação de Hasting (1955)

citado por Bock (1975), com erro máximo de 10-6, dada por

Φ( )zG se z

G se z≅

≤− >

⎧⎨⎩

01 0

(4.11)

em que,

Sendo que Φ( )z representa a probabilidade acumulada sob a curva

da distribuição normal de -∞ a z;

G a a a a a z= + + + +( ) ( )1 22

33

44

55η η η η η φ ;

Page 143: multivariada - ufla

4. Distribuição normal multivariada 138

η =+

11 0 2316418, | |z

;

φ π( ) ( )z ez

= − −2 12

22 ;

a1=0,319381530

a2=-0,356563782

a3=1,781477937

a4=-1,821255978

a5=1,330274429

4.6. Distribuições amostral derivada da distribuição normal multivariada

Teoria da Distribuição das grandes amostras e distribuição exata

Na análise dos dados freqüentemente são utilizadas funções das

observações chamadas estatísticas, as quais servem como estimadores dos

parâmetros ou como critério para os testes de hipóteses. A importância de tais

Page 144: multivariada - ufla

Ferreira, D.F. Estatística multivariada 139

estatísticas muitas vezes depende do conhecimento da (1) distribuição assumida

para as observações, (2) do método de amostragem, e (3) da natureza da função

das observações. Há dois tipos de teoria amostral avaliada para derivar a

distribuição amostral. A teoria das grandes amostras, a qual fornece a distribuição

aproximada à medida que o tamanho amostral cresce indefinidamente, e a teoria

das pequenas amostras ou teoria exata, a qual é válida para qualquer tamanho

amostral.

As distribuições derivadas assumindo o tamanho amostral

indefinidamente grande são chamadas de distribuições assintóticas ou “limitante”.

A teoria assintótica é especialmente simples, como conseqüência do teorema do

limite central que demonstra que muitas estatísticas têm distribuição normal como

limite. Para tais estatísticas é necessário somente obter a média e a variância para

ter a distribuição assintótica.

A distribuição amostral sem considerar os argumentos da teoria

assintótica, geralmente depende do tamanho da amostra e pode ser não-normal

para pequenas amostras, mesmo se a forma limite for normal. Se este for o caso,

algum indicativo de qual tamanho amostral é necessário para uma dada acurácia

na teoria assintótica é extremamente útil para trabalhos práticos. Como exemplo,

pode citar que a distribuição de F, de razões de variâncias, com ν1 graus de

liberdade do numerador e ν2 do denominador, se aproxima de qui-quadrado

dividido por ν1 quando o valor de ν2 cresce sem limite.

lim ( , )( )

2

11 2

2

υυ υ

χ

υ→∞=F

Page 145: multivariada - ufla

4. Distribuição normal multivariada 140

Comparando as tabelas de F e qui-quadrado dividido por ν1, pode-se

concluir que ao nível de 0,05, com erro de duas unidades na segunda casa

decimal, quando ν2 for maior que 40, haverá boa concordância. Semelhantemente,

considerando o valor nominal de significância de 0,01, verifica-se que a

concordância com a mesma precisão se dá quando o valor de ν2 excede 100.

Distribuição da soma de quadrados de n desvios normais aleatórios

Seja Z um vetor ν x 1 de ν observações normais N(0,1) padronizadas.

A estatística

( ) ' ...ν υχ212

22 2= = + + +Z Z z z z (4.12)

é distribuída como uma variável qui-quadrado com ν graus de liberdade. Foi obtida

em 1876 por Helmert e independentemente em 1900 por Karl Pearson. A função

de distribuição de qui-quadrado pode ser expressa pela função gama incompleta.

P t e dtt( / )( )

( )2

2

1

0

122

2 2χ χ υ υ

υ

υ

χ

≤ = ∫ − −

Γ (4.13)

Page 146: multivariada - ufla

Ferreira, D.F. Estatística multivariada 141

A função de distribuição (4.13) pode ser aproximada para aplicações

em computadores pela série convergente apresentada a seguir.

( )n2

n 0

eP( / )n 1

−χ ∞

−υ=

χ≤χ υ =

χ Γ υ+ +χ ∑ (4.14)

quando 12

12

13χ υ< max( , ), e caso contrário pela expansão assintótica:

2 12

1 ( 1)( 2)P( / ) e 1 ...υ− −χ ⎡ ⎤υ− υ− υ−≤χ υ ≈χ + + +⎢ ⎥χ χ⎣ ⎦

χ (4.15)

Os valores de Γ( )a podem ser obtidos pela fórmula de Stirling:

a a 1/2 1/22 3 4

1 1 139 571(a) (a 1)! e a (2 ) 112a 288a 51840a 2488320a

− − ⎡ ⎤Γ = − ≈ π + + − −⎢ ⎥⎣ ⎦ (4.16)

A forma recursiva Γ( )a +1 =aΓ( )a e Γ( )2 =Γ( )1 pode ser usada quando

“a” for pequeno. Sabe-se que a média da distribuição de qui-quadrado, E( 2χ ), é ν

e que sua variância é 2ν. Para ν>30, as probabilidades podem ser obtidas usando

a aproximação normal assintótica usando 2 2 12χ υ− − como um desvio normal

unitário.

Page 147: multivariada - ufla

4. Distribuição normal multivariada 142

Razão entre independentes χ2 (F de Fisher)

Sejam 12χ e 2

2χ , dois 2χ independentes com ν1 e ν2 graus de liberdade,

respectivamente. Então,

F = 12

1

22

2

χ υχ υ

possui distribuição de uma variável F com ν1 e ν2 graus de liberdade. A

distribuição de F foi derivada por R. A. Fisher (1924). A função de distribuição de F

pode ser aproximada pela série convergente da função beta incompleta:

⎥⎦

⎤⎢⎣

⎡∑

++++

+−

=∞

=

+

0n

1nba

x x)1n,ba(B)1n,1a(B1

)b,a(aB)x1(x)b,a(I (4.17)

em que, B a ba ba b

( , )( ) ( )( )

=+

Γ ΓΓ

Então,

P F Ix( , , ) ( , )1 22 11

2 2υ υυ υ

= −

em que, xF

=+

2

2 1

υυ υ

Page 148: multivariada - ufla

Ferreira, D.F. Estatística multivariada 143

4.7. Verificando a normalidade

A pressuposição de que cada vetor de observação jX veio de uma

distribuição normal multivariada será requerida nas técnicas estatísticas que serão

abordadas nos capítulos subsequentes. Por outro lado, nas situações em que a

amostra é grande e as técnicas dependem apenas do comportamento de X , ou

distâncias envolvendo X da forma ( ) ( )t 1n X S X−− µ − µ , a pressuposição de

normalidade das observações individuais jX é menos crucial. Isto devido à

aproximação da distribuição normal assintótica das principais estatísticas. No

entanto, melhor será a qualidade da inferência quanto mais próxima à população

parental se assemelhar da forma da distribuição normal multivariada. É imperativo

que existam procedimentos para detectar os casos em que os dados exibam

desvios de moderados a extremos em relação ao esperado sob normalidade

multivariada.

Baseado na distribuição normal sabe-se que todas as combinações

lineares de variáveis normais são normais e que contornos da densidade normal

são elipsóides. Devido às dificuldades de avaliação de um teste conjunto em todas

as dimensões, os testes para checar a normalidade serão concentrados em uma

ou duas dimensões. Obviamente se paga um preço por estas simplificações, como

não revelar algumas características que só podem ser observadas em dimensões

maiores. É possível, por exemplo, construir uma distribuição não normal bivariada

Page 149: multivariada - ufla

4. Distribuição normal multivariada 144

com marginais normais. No entanto, muitos tipos de não normalidade são

revelados em geral nas distribuições marginais, e para aplicações práticas será

suficiente checar a normalidade em uma ou duas dimensões.

Verificando a validade da normalidade por meio da distribuição marginal

Textos elementares muitas vezes recomendam que a normalidade

univariada seja investigada, examinando o histograma de freqüência amostral para

avaliar discrepâncias entre as freqüências observadas e esperadas pelo ajuste da

distribuição normal. Usualmente, sugere-se também que as discrepâncias sejam

submetidas ao teste de aderência de qui-quadrado. Um 2χ significativo (P<0,05) é

tido como evidência contra a normalidade da população.

Apesar de este método ter a virtude da simplicidade de computação

e ser livre do tipo de desvios da normalidade que esteja sendo testado (curtose,

assimetria, etc.), tem a desvantagem, quando aplicados a dados contínuos, de

depender da arbitrariedade da escolha dos intervalos de agrupamento dos dados.

Essa escolha determina a resolução do histograma e o número de termos a ser

somado para obter a estatística de 2χ . Uma escolha errada pode conduzir a

resultados não consistentes. Se a escolha de a amplitude dos intervalos for muito

estreita, o histograma pode ser irregular e a acurácia do 2χ pode ser grandemente

afetada devido aos pequenos valores esperados. Se os intervalos são largos,

desvios de normalidade podem ser obscurecidos tanto no histograma quanto no

teste de 2χ .

Page 150: multivariada - ufla

Ferreira, D.F. Estatística multivariada 145

Uma melhor aproximação, evitando todas essas dificuldades, é

conseguida fazendo uso de métodos que não requerem agrupamento de escores.

Felizmente, excelentes procedimentos gráficos e computacionais existem para

este propósito.

a) Distribuição de proporções

A distribuição normal univariada possui probabilidade de 0,683 para

o intervalo [ ]µ σ µ σi ii i ii− +; e probabilidade de 0,954 para o intervalo

[ ]µ σ µ σi ii i ii− +2 2; (Figura 4.1). Consequentemente, para grandes amostras de

tamanho n, é esperado que a proporção de Pi1 observações contidas no intervalo

[ ]X s X si ii i ii− +; seja de cerca de 0,683, e de forma semelhante, espera-se

que a proporção Pi2 de observações em [ ]X s X si ii i ii− +2 2; seja de cerca de

0,954. Usando a aproximação normal da distribuição de Pi , então se

| , |, , ,

iP n n1 0 683 30 683 0 317 1 396

− >×

=

| , |, , ,

iP n n2 0 954 30 954 0 046 0 628

− >×

=

Page 151: multivariada - ufla

4. Distribuição normal multivariada 146

devem indicar desvios da distribuição normal para i-ésima característica (Johnson

& Wichern, 1988).

b) Processos gráficos

Os gráficos são em geral úteis para avaliar desvios da normalidade.

Dois processos gráficos serão considerados neste capítulo.

i) Q-Q plot

Esses gráficos são obtidos da distribuição marginal das observações

de cada variável. Consiste em plotar em um plano cartesiano os percentis

amostrais versus os percentis esperados pelo ajuste de uma distribuição normal.

Se os pontos pertencem a uma linha reta a pressuposição de normalidade deve

ser aceita.

Sejam x1, x2, ..., xn as n observações de uma variável X. Sejam x(1),

x(2), ..., x(n) essas observações ordenadas crescentemente, ou seja, x(1) é a menor

observação e x(n) é a maior. Quando os x(j) são distintos, exatamente j

observações são menores ou iguais a x(j) (isto é teoricamente verdadeiro quando

as observações são do tipo contínuo, o que em geral será assumido). A proporção

amostral j/n é aproximada por (j-½)/n, onde ½ é usado para correção de

descontinuidade.

Os percentis esperados sob normalidade são dados por (q(j)):

Page 152: multivariada - ufla

Ferreira, D.F. Estatística multivariada 147

( )21

/ 22 12

jqzj e dz

n−

π−∞

−= ∫ (4.18)

Os percentis q(j) podem ser obtidos, como se percebe por (4.18), pela

inversão da função de distribuição de probabilidade da normal, em rotinas

apropriadas em computadores ou através de tabelas da distribuição normal.

(Tabela A.1).

Os percentis q(j) e x(j) são plotados em um sistema cartesiano com q(j)

na abscissa e x(j) na ordenada. Desvios da normalidade podem ser observados

pela inspeção deste tipo de gráfico, cujos pontos, quando da normalidade devem

pertencer a uma linha reta de mínimos quadrados. No exemplo 4.1 ilustram-se os

cálculos necessários para obtenção dos Q-Q plots.

Exemplo 4.1

Seja uma amostra (n=10) obtida de uma população normal N(3; 4) apresentada a

seguir. Neste caso, a observação 4 constitui-se um “outlier”, propositadamente

gerado.

{3,74; 2,91; 4,79; 8,65; 2,06; 4,59; 4,02; 0,46; 1,79; 3,30}

Dessa forma para se obter o Q-Q plot é necessário os seguintes

passos:

Page 153: multivariada - ufla

4. Distribuição normal multivariada 148

1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de

probabilidade acumulada (j-½)/n.

j x(j) (j-½)/n q(j)

1 2 3 4 5 6 7 8 9 10*

0,46 1,79 2,06 2,91 3,30 3,74 4,02 4,59 4,79 8,65

0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95

-1,645 -1,036 -0,675 -0,385 -0,126 0,126 0,385 0,675 1,036 1,645

2) calcular os percentis da distribuição normal padrão.

Ex. Para a observação 1 tem-se: (1)

21 1/ 22 2 1

2

1 0,0510

qzj e dz

n−

π−∞

− −= = = ∫

Portanto, q(1) = -1,645, e assim sucessivamente.

3) plotar (q(1), x(1)), (q(2), x(2)), ..., (q(n), x(n)) e examinar os resultados

Page 154: multivariada - ufla

Ferreira, D.F. Estatística multivariada 149

Q-Q Plot

Q(j)

-2 -1 0 1 2

X (j)

0

2

4

6

8

10

Outlier

Figura 4.7. Q-Q plot para os dados do exemplo 4.1, destacando a presença de um

outlier.

Observa-se que os pontos amostrais se situam praticamente em uma

linha reta de mínimos quadrados, com exceção da presença de um outlier,

destacado na Figura 4.6. O procedimento adequado seria de eliminar esta

Page 155: multivariada - ufla

4. Distribuição normal multivariada 150

observação e refazer a análise para os dados amostrais remanescentes, o que é

deixado a cargo do leitor.

Este processo gráfico, embora bastante poderoso para se verificar

desvios da normalidade não constitui num teste formal deste propósito. Para

contornar esta limitação, Johnson & Wichern (1988) apresentam um teste

complementar a este processo gráfico, o qual mede o ajuste dos pontos do Q-Q

Plot a linha reta de mínimos quadrados por meio de uma medida de um

coeficiente de correlação apresentada a seguir.

( ) ( )

( ) ( )

( ) ( )1

2 2

( ) ( )1 1

n

j jj

Qn n

j jj j

x x q qr

x x q q

=

= =

− −=

− −

∑ ∑ (4.19)

Um poderoso teste de normalidade pode ser construído tomando-se

por base este coeficiente de correlação (4.19). Formalmente rejeita-se a hipótese

de normalidade se o valor calculado for menor que os valores críticos para um

determinado nível de significância (Tabela 4.1).

Page 156: multivariada - ufla

Ferreira, D.F. Estatística multivariada 151

Tabela 4.1. Valores críticos para o teste para normalidade baseado no coeficiente

de correlação Q-Q plot.

Tamanho amostral Nível de significância (α)

n 0,01 0,05 0,10

5 10 15 20 25 30 40 50 60 75 100 150 200 300

0,8299 0,8801 0,9126 0,9269 0,9410 0,9479 0,9599 0,9671 0,9720 0,9771 0,9822 0,9879 0,9905 0,9935

0,8788 0,9198 0,9389 0,9508 0,9591 0,9652 0,9726 0,9768 0,9801 0,9838 0,9873 0,9913 0,9931 0,9953

0,9032 0,9351 0,9503 0,9604 0,9665 0,9715 0,9771 0,9809 0,9836 0,9866 0,9895 0,9928 0,9942 0,9960

Fonte: Johnson & Wichern (1998)

Exemplo 4.1 (continuação)

Calculando a correlação amostral, através de (4.19), obteve-se:

18,77109 0,952344,15849 8,798094Qr = =

Como, o valor tabelado ao nível de 5% de probabilidade (0,918) é

inferior ao valor calculado (0,9523), então, não existe razão para duvidar da

hipótese de normalidade.

Page 157: multivariada - ufla

4. Distribuição normal multivariada 152

ii) Gráfico das probabilidades acumuladas

Um segundo processo gráfico, bastante utilizado, refere-se aos

gráficos em que são plotados as probabilidades amostrais acumuladas versus

probabilidades acumuladas da distribuição normal (Bock, 1975). O algoritmo é:

1) ordenar a amostra: x(1), x(2), ..., x(n) e obter os seus valores correspondentes de

probabilidade acumulada pj = (j-½)/n, amostrais.

2) Calcular a média amostral e o desvio padrão viesado

2

12

1

n

jnj

jj

n

XX

nS

n

=

=

⎛ ⎞⎜ ⎟⎝ ⎠−

=

∑∑

(4.20)

3) Obter as probabilidades normais acumuladas utilizando (4.11) ou tabelas da

distribuição normal, através de:

jj

n

X XZ

S−

=

Pj=Φ(Zj)

Page 158: multivariada - ufla

Ferreira, D.F. Estatística multivariada 153

4) Plotar Pj (abcissa) contra pj (na ordenada)

Exemplo 4.2

Com os dados do exemplo 4.1, o algoritmo apresentado no item (ii) foi executado,

resultando nos seguintes valores:

j x(j) pj = (j-½)/n Pj

1 2 3 4 5 6 7 8 9 10*

0,46 1,79 2,06 2,91 3,30 3,74 4,02 4,59 4,79 8,65

0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95

0,066 0,189 0,227 0,367 0,436 0,520 0,575 0,677 0,709 0,992

Na Figura 4.8 estão plotados os pontos Pj (abcissa) contra pj (na

ordenada).

0.0 0.2 0.4 0.6 0.8 1.00.0

0.2

0.4

0.6

0.8

1.0

p j

Pj

Figura 4.8. Gráfico normal acumulado da amostra simulada no exemplo 4.1.

Page 159: multivariada - ufla

4. Distribuição normal multivariada 154

Se a população for normal, os pontos tendem a cair em uma linha

definida pela reta Pj=pj. Uma vez que o gráfico apresenta efeitos cumulativos, os

pontos não são independentes e ainda pode-se afirmar que sucessivos pontos

não tenderão a se situar aleatoriamente em ambos os lados da linha. Em outras

palavras, um grupo de pontos sucessivos poderá estar de um lado da reta ou de

outro, sem ser um indicativo de desvio da normalidade. Alguma familiaridade com

este tipo de gráfico indicará a forma da distribuição e os desvios da normalidade

que possam ocorrer.

De maneira geral, as situações mais comuns devem se enquadrar

nos seguintes tipos de gráficos. Distribuições assimétricas à esquerda tenderão a

ter seus pontos de extremos no lado superior da reta, e os pontos intermediários

no lado inferior da mesma. Para distribuições assimétricas à direita, o oposto deve

ocorrer, ou seja, pontos extremos no lado inferior da reta e pontos intermediários

no lado superior.

Os achatamentos da distribuição, conhecidos por curtose, também

podem ser detectados. Nas distribuições leptocúrticas, os pontos de menor

densidade acumulada se concentram no lado inferior da reta, vindo a cruzá-la no

centro. Os pontos de maior densidade se concentram no lado superior da reta, a

partir do centro. Nas distribuições platicúrticas, o oposto se dá, ou seja, pontos de

menor densidade acumulada se concentram no lado superior, e os pontos de

maior densidade no lado inferior da reta, vindo a cruzá-la no centro. Distribuições

bimodais possuem gráficos que representam os casos extremos da distribuição

platicúrtica.

Page 160: multivariada - ufla

Ferreira, D.F. Estatística multivariada 155

c) Uso dos momentos

Os momentos não centrados para a média, podem ser calculados a

partir dos dados amostrais, fazendo 1/n como densidade para cada ponto

amostral. Desta forma, pode-se definir, o r-ésimo momento amostral não centrado

para média por:

~mn

xr jr

j

n= ∑

=

11

(4.21)

Pode-se então, definir a média amostral, e o segundo, terceiro e

quarto momentos centrados na média, em função dos momentos não centrados

por:

Média: 1 0µ = (4.22)

Variância: ~ ~ ~µ 2 2 12= −m m (4.23)

Assimetria ~ ~ ~ ~ ~µ3 3 1 2 133 2= − +m m m m (4.24)

Curtose 2 44 4 1 3 1 2 1m 4m m 6m m 3mµ = − + − (4.25)

Page 161: multivariada - ufla

4. Distribuição normal multivariada 156

Os valores amostrais de o coeficiente de assimetria e curtose são,

respectivamente:

b13

2 2

=~

~ ~µ

µ µ (4.26)

b24

22=

~~µµ

(4.27)

O coeficiente de assimetria populacional, para a distribuição normal,

é 1 0β = e o coeficiente de curtose é β2=3. Se 1 0β < , então, a distribuição é

assimétrica à esquerda, caso contrário, 1 0β > , a distribuição é assimétrica à

direita. Distribuições com β2<3 são platicúrticas (menos pontudas com caudas

mais baixas do que a normal), e aquelas com β2>3 são leptocúrticas (mais

pontudas e com caudas mais altas do que a normal).

Exemplo 4.3

Utilizando os dados do exemplo 4.1 calcular os momentos e os coeficientes de

assimetria e curtose amostrais.

Page 162: multivariada - ufla

Ferreira, D.F. Estatística multivariada 157

x x2 x3 x4

0,46 1,79 2,06 2,91 3,30 3,74 4,02 4,59 4,79 8,65

36,31

0,2116 3,2041 4,2436 8,4681 10,8900 13,9876 16,1604 21,0681 22,9441 74,8225 176,0001

0,0973 5,7353 8,7418 24,6422 35,9370 52,3136 64,9648 96,7026 109,9022 647,2146 1046,2520

0,0448 10,2663 18,0081 71,7087 118,5921 195,6530 261,1585 443,8648 526,4317 5598,4070 7244,1350

Têm-se:

~m 1=36,31/10=3,631

~m 2=176,0001/10=17,6000

~m 3=1046,2520/10=104,6252

~m 4=7244,135/10=724,4135

~µ1 = 3,631

~µ2 = 17,6 - (3,631)2 = 4,4158

~µ3 = 104,6252 - 3 x 3,631 x 17,6 + 2 x (3,631)3 = 8,6518

~µ4 = 724,4135 - 4 x 3,631 x 104,6252 + 6 x (3,631)2 x 17,6 - 3 x (3,631)4 = 75,6182

Page 163: multivariada - ufla

4. Distribuição normal multivariada 158

b1 = 8,6518/(4,4158 x 4,41581/2 ) = 0,9324

b2 = 75,6182/(4,4158)2 = 3,8780

c.1) Uso do coeficiente de assimetria

Para se avaliar o grau de assimetria da distribuição, um teste

baseado no coeficiente de assimetria (4.26), pode ser realizado. Níveis críticos

para a estatística b1 , podem ser encontrados em Pearson e Hartley (1966) para

n>24, e em D’Agostino e Tietjen (1973) para n variando de 5 a 35. A assimetria

será à esquerda se b1 for negativo, e à direita se b1 for positivo,

significativamente. Em grandes amostras, os valores críticos de b1 podem ser

obtidos com boa aproximação usando como desvio da normal padrão a estatística:

1 1( 1)( 3)

6( 2)+ +

=−

n nZ bn

(4.28)

c.2) Uso do coeficiente de curtose

Valores críticos para o coeficiente de curtose (4.27), podem ser

encontrados em Pearson e Hartley (1966) para n>49 e D’Agostino e Tietjen (1971)

Page 164: multivariada - ufla

Ferreira, D.F. Estatística multivariada 159

para n variando de 7 a 50. Em grandes amostras, os valores críticos para o teste

de achatamento da curva, podem ser aproximados usando como desvio normal a

seguinte estatística:

2

2 2(n 1) (n 3)(n 5)6Z b 3

n 1 24n(n 2)(n 3)+ + +⎛ ⎞= − +⎜ ⎟+ − −⎝ ⎠

(4.29)

Valores de b2 maiores que 3 indicam que a distribuição é mais

pontuda com caldas mais altas do que a normal; valores menores que 3 indicam

uma distribuição achatada no centro e com caudas mais baixas do que a

distribuição normal.

Exemplo 4.3 (continuação)

Os valores de Z1 e Z2, para o teste de assimetria e curtose foram:

Z1=1,609 com P(Z>|Z1|)=0,1074

Z2=1,886 com P(Z>|Z2|)=0,0592

Desta forma, ao nível de 5% de probabilidade se aceita a hipótese de

simetria e de não achatamento da curva, demonstrando não se ter desvio da

normalidade.

Page 165: multivariada - ufla

4. Distribuição normal multivariada 160

Verificando a normalidade multivariada

Em geral se deseja verificar a normalidade para dimensões

superiores a 1, ou seja, para a distribuição p-variada, p≥2. Mesmo que seja

suficiente, como já comentado anteriormente, avaliar apenas as distribuições

univariadas e bivariadas o procedimento apresentado nessa seção é válido para

qualquer p. O caso bivariado será enfocado nesta seção, devido às facilidades de

cálculos para fins didáticos.

Pelo resultado 4.2, dado vetor X com distribuição normal p-variada,

tem-se que,

( ) ( )t 1 2px x (1 )−−µ Σ −µ ≤χ −α

Através deste resultado, pode-se então, generalizar o processo

gráfico conhecido como Q-Q plot. Dada uma amostra bivariada com n

observações, o algoritmo seguinte pode ser usado para generalizar o processo

gráfico mencionado. É importante salientar que este processo não é limitado

apenas ao espaço bidimensional.

O algoritmo será apresentado, utilizando os dados do exemplo 1.1,

com X1 representando a quantidade de reais pela venda de ração, e X2 sendo o

número de sacos de rações vendidos, por n = 4 firmas de Minas Gerais.

Page 166: multivariada - ufla

Ferreira, D.F. Estatística multivariada 161

Exemplo 4.4

1) Calcular a distância quadrada generalizada amostral d(j) de cada observação

em relação à média amostral, dada por:

2 1j j jd (x x) 'S (x x)−= − − , j=1, 2, ..., n

Os valores da média e da matriz de covariância amostrais foram

apresentados no exemplo 1.2, e são:

100X

9⎡ ⎤

= ⎢ ⎥⎣ ⎦

e ⎥⎦

⎤⎢⎣

⎡=

667,6000,20000,20333,333

S

A matriz inversa de S é:

⎥⎦

⎤⎢⎣

⎡−

−=−

1829,00110,00110,00037,0

S 1

A distância generalizada para primeira observação é:

[ ]21

0,0037 0,0110 80 100d 80 100 10 9 2,0853

0,0110 0,1829 10 9− −⎡ ⎤ ⎡ ⎤

= − − =⎢ ⎥ ⎢ ⎥− −⎣ ⎦ ⎣ ⎦

E assim sucessivamente, para as demais observações:

Page 167: multivariada - ufla

4. Distribuição normal multivariada 162

22d = 1,7926; 2

3d = 1,3536 e 24d = 0,7683.

2) ordenar as distâncias quadráticas amostrais do menor para o maior

d (1)2 ≤d ( )2

2 ≤...≤d n( )2 .

3) Obter os valores correspondentes, percentis, de probabilidade acumulada

q(j)=χ p2((j-½)/n), da distribuição de qui-quadrado. Estes percentis dependem da

inversa da função de distribuição de qui-quadrado, e podem ser obtidos em vários

softwares estatísticos.

J d j( )2 (j-½)/n q(j)

1 2 3 4

0,7683 1,3536 1,7926 2,0853

0,125 0,375 0,625 0,875

0,2671 0,9400 2,2479 4,1589

4) Plotar (d j( )2 ; q(j)) e examinar os resultados

Page 168: multivariada - ufla

Ferreira, D.F. Estatística multivariada 163

0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

0

1

2

3

4

q (j)

d(j)2

Figura 4.9. Q-Q plot para os dados do exemplo 1.1, destacando a possibilidade de

utilização deste processo para os casos de dimensões superiores ou

iguais a 2.

Pela Figura 4.9, verifica-se que não existem razões para duvidar de

que a distribuição do número de sacos de rações vendidos e o montante de

dinheiro arrecadado pelas firmas de rações em Minas Gerais, não seja normal

bivariada, apesar do pequeno tamanho de amostras.

Verificando a normalidade multivariada por meio da curtose e assimetria de Mardia

Os coeficientes de assimetria e curtose de uma distribuição

multivariada qualquer são definidos por:

Page 169: multivariada - ufla

4. Distribuição normal multivariada 164

( ) ( ){ }3t 11,p E X Y−β = − µ Σ − µ (4.30)

em que a variável X é independente de Y , mas tem a mesma distribuição com

média µ e covariância Σ ; e

( ) ( ){ }2t 12,p E X X−β = − µ Σ − µ (4.31)

Essas esperanças para a distribuição normal multivariada são:

0p,1 =β e )2p(pp,2 +=β

Para uma amostra de tamanho n, os estimadores de 1,pβ e 2,pβ são:

n n3

1,p ij2i 1 j 1

1ˆ gn = =

β = ∑∑

n n2 4

2,p i i ii 1 i 1

1 1ˆ g dn n= =

β = =∑ ∑

em que,

( ) ( )t 1i j i n jg X X S X X−= − − e iii gd =

Page 170: multivariada - ufla

Ferreira, D.F. Estatística multivariada 165

Os estimadores 1,pβ (quadrado do coeficiente de assimetria quando

p=1) e 2,pβ (igual ao coeficiente de curtose univariado quando p=1) são não-

negativos. Sob distribuição normal multivariada espera-se que a E( ( )1,pˆE β ) seja

zero. O estimador 2,pβ é muitas vezes usado para avaliar observações que estão a

grandes distâncias da média amostral.

Mardia (1970) mostra que para grandes amostras,

1,p1

ˆnk

=

segue a distribuição de χ2 com p(p+1)(p+2)/6 graus de liberdade, e

{ }2 ,p

2 1 / 2

ˆ p(p 2)k

8p(p 2)n

β − +=

+⎡ ⎤⎢ ⎥⎣ ⎦

segue a distribuição normal padrão. Para pequenos valores de n, as tabelas de

valores críticos para testar a hipótese multivariada de normalidade são fornecidas

por Mardia (1974).

Exemplo 4.5

Usando o exemplo das rações testar a normalidade multivariada pelo teste dos

desvios de assimetria e curtose. Os valores amostrais são:

Page 171: multivariada - ufla

4. Distribuição normal multivariada 166

Obs Reais Vendas 1 2 3 4

80120

90110

10 12

6 8

As estatísticas amostrais são:

100X

9⎡ ⎤

= ⎢ ⎥⎣ ⎦

⎥⎦

⎤⎢⎣

⎡=

51515250

Sn ⎥⎦

⎤⎢⎣

⎡−

−=−

243902,0014634,0014634,0004878,0

S 1n ou ⎥

⎤⎢⎣

⎡−

−=−

25015155

10251S 1

n

Os desvios de cada observação da média amostral ( iε ):

1. [ ]t1 20 1ε = − 2. [ ]t

2 20 3ε = 3. [ ]t3 10 3ε = − − 4. [ ]t

4 10 1ε = −

i) Teste baseado no coeficiente de assimetria

É necessário calcular os valores de gij para todos os pares de i e j,

obtidos da seguinte forma:

Para i=1 e j=1, [ ] 7805,2120

S120g 1n11 =⎥

⎤⎢⎣

⎡−−= −

Para i=1 e j=2, [ ] 11 2 n

20g 20 1 S 0,6341

3− ⎡ ⎤

= − = −⎢ ⎥⎣ ⎦

Page 172: multivariada - ufla

Ferreira, D.F. Estatística multivariada 167

Para as demais combinações, têm-se: g1 3=-0,4878, g1 4=-1,6585,

g2 2=2,3902, g2 3=-1,8537, g2 4=0,0976, g3 3=1,8049, g3 4=0,5366 e g4 4=1,0244.

Logo,

( )3 3 3

11,,22

2,7805 2( 0,6341) 1,0244ˆ16

+ − + +β = =1,2766

então,

8511,062766,14

6

ˆnk 2,1

1 =×

=

Como k1 ∼ 2χ com p(p+1)(p+2)/6=4 graus de liberdade, e sabendo

que 488,924;05,0 =χ , então H0 não deve ser falseada, ou seja, não existe razões

para suspeitar da violação da simetria da distribuição multivariada.

ii) Teste baseado no coeficiente de curtose

Inicialmente, estima-se o coeficiente de curtose da seguinte forma:

( ) 4378,447513,170244,18049,13902,27805,2

41g

n1ˆ 2222n

1i

2iip,2

==+++=∑=β=

Page 173: multivariada - ufla

4. Distribuição normal multivariada 168

em seguida, estima-se o valor estimado da normal (0, 1):

2 12

4, 4378 2(2 2) 3,5621k 0,890548 2 4

4

− + −= = = −

× ×⎛ ⎞⎜ ⎟⎝ ⎠

Não existem razões para duvidar de que a distribuição multivariada

tenha algum desvio de curtose, uma vez que 96,1zk 025,02 =< .

iii) Programa SAS para o teste de normalidade

A seguir são apresentados um programa SAS usando o Proc Calis

para o teste da curtose e um programa em IML, para ambos parâmetros. O

programa fornece as estatísticas amostrais e os valores das significâncias

observadas.

Data FR; Input Reais Vendas; cards; 80 10 120 12 90 6 110 8 ; Proc Calis data=FR Kurtosis; Title1 j=1 "Uso do Calis para testar a normalidade"; Title2 "pela Curtose de Mardia"; Lineqs Reais=e1, vendas=e2; std e1=eps1, e2=eps2; Cov e1=eps1, e2=eps2; Run;

Proc IML; use FR; read next 4 into X; /* lendo n observacoes dentro de X */ n=nrow(X);p=ncol(X); dfchi=p*(p+1)*(p+2)/6; /*definindo GL para B1,p */ q=i(n) - (1/n)*j(n,n,1); /* criando q=I-1/nJ, auxiliar */ S=(1/n)*x`*q*x; /* matriz de covariancias viesada */ S_inv=inv(S); /* inversa de S */ print s s_inv; g=q*x*s_inv*x`*q; /* matriz com gij */ print g; beta1=(sum(g#g#g))/(n*n); /*produto elem. a elem. E sua soma/n^2 */ beta2=trace(g#g)/n; /* idem com tomada do traco/n */ print beta1 beta2; k1=n*beta1/6; /* definindo k1 e k2, transformacoes de b1,p e b2,p */ k2=(beta2-p*(p+2))/sqrt(8*p*(p+2)/n); pvalskew=1-probchi(k1,dfchi); /* calculo dos p_values respectivos */ pvalkurt=2*(1-probnorm(abs(k2))); print k1 pvalskew; print k2 pvalkurt; Quit; /* abandonando IML */

Page 174: multivariada - ufla

Ferreira, D.F. Estatística multivariada 169

Finalmente é apresentado a seguir um programa SAS para orientar

os leitores na simulação de dados com distribuição normal multivariada com média

e covariância especificada. O exemplo apresentado gera uma distribuição normal

trivariada.

Proc IML; n=100;p=3; SIG={8 4 1, 4 10 3, 1 3 18}; st=Root(sig); mu={1, 10, 8}; x=j(n,p,0); zi=j(p,1,0); do i=1 to n; do ii=1 to p; zi[ii]=rannor(0); end; xi=st`*zi+mu; do ii=1 to p; x[I,ii]=xi[ii]; end; end; print x; create dtnorm from x; append from x; quit; proc print data=dtnorm; run;quit;

Page 175: multivariada - ufla

4. Distribuição normal multivariada 170

4.8. Exercícios

4.8.1. Com os dados do exemplo 4.4, tendo como hipótese que os mesmos

seguem a distribuição normal bivariada, utilize o resultado 4.2, ao nível de

50%, de que as distâncias generalizadas seguem a distribuição

qui-quadrado. Utilizando então a distribuição de proporções, item (a),

verifique a normalidade bivariada dos dados, contando a proporção

observada (Pi) de distâncias que pertencem a elipse, e comparando com a

estatística abaixo.

| , |, , ,

iP n n− >

×=0 5 3

0 5 0 5 1 5

4.8.2. Utilizando os dados deste exemplo (1.1), realize todos os testes univariados,

propostos, neste capítulo, para ambas variáveis.

4.8.3. Utilizando os dados climáticos, obtidos por Diniz (1996), na fazenda

Cooparaíso-EPAMIG, Jacuí, MG, de agosto de 1994 a janeiro de 1995,

teste a pressuposição de normalidade tridimensional dos mesmos. Utilize

para isso, o processo gráfico apresentado, e o teste do exercício número

4.8.1 e o teste baseado nos desvios de assimetria e curtose de Mardia.

Page 176: multivariada - ufla

Ferreira, D.F. Estatística multivariada 171

Temperatura Umidade Relativa (%) Precipitação (mm)

22,7 23,7 24,3 24,4 24,5 25,2 25,5 24,7 24,3 24,7 24,9

64,1 56,1 54,9 58,2 62,8 70,3 75,2 81,4 79,3 74,6 78,0

7,9 1,5 0,0 0,0 8,7 22,5 57,0 75,7 123,2 124,4 148,0

4.8.4. Utilize os dados de uma amostra de 24 cochonilhas, fêmeas adultas, de

Quadraspidiotus perniciosus (Comst.), por ramo de pessegueiro, na região

de Jacuí-MG, e teste a pressuposição de normalidade dos dados, utilizando

os procedimentos apresentados univariados na seção 4.7.

0,8 1,0 0,6 0,6 0,2 0,8 2,5 1,5 0,3 1,7 1,9 2,5 1,1 5,0 0,9 1,7 2,6 4,5

1,8 1,0 0,5 0,4 1,8 0,7

Page 177: multivariada - ufla

||[ ]||Inferências sobre o vetor média

5

5.1. Introdução

Este capítulo é o primeiro deste material a apresentar inferências,

utilizando as técnicas, os conceitos e os resultados apresentados nos capítulos

prévios. Este capítulo, por estar intimamente relacionado à inferência estatística,

ou seja, é voltado para obtenção de conclusões válidas para a população com

base nas informações amostrais. As inferências realizadas neste capítulo são

relativas a vetor populacional de médias e nos seus componentes. Umas das

mensagens centrais da análise multivariada, que deverá ser abordada neste e nos

próximos capítulos, é que p variáveis correlacionadas devem ser analisadas

simultaneamente.

5.2. Inferências sobre média de uma população normal

Nesta seção serão abordados os testes de significância e a obtenção

de intervalos de confiança (IC) para a média de uma população normal.

Page 178: multivariada - ufla

5. Inferências sobre o vetor média 172

Inicialmente será abordado o problema de verificar se um determinado valor 0µ é

um possível valor (plausível) para a verdadeira média populacional desconhecida.

Do ponto de vista dos testes de hipóteses este problema pode ser abordado

através do teste:

0 0 1 0H : vs H :µ = µ µ ≠ µ

aqui, H0 é a hipótese nula e H1 é a hipótese (bilateral) alternativa. Considerando o

caso univariado, e se X1, X2, ..., Xn representam uma amostra aleatória extraída de

uma população normal, o teste estatístico apropriado para esta hipótese, quando p

é igual a 1, é:

( )0Xt S

n

−µ= , em que, X

nXj

j

n= ∑

=

11

e Sn

X Xjj

n2 2

1

11

=−

−∑=

( ) .

O teste em questão segue a distribuição de t-student com n-1 graus

de liberdade. A hipótese H0 será rejeitada se o valor observado de |t| exceder um

valor crítico especificado da distribuição de t-student com n-1 graus de liberdade

(GL).

Analogamente, considerando agora a distância quadrada da média

amostral X para o valor a ser testado, pode-se rejeitar H0 a um nível de

significância α, se

Page 179: multivariada - ufla

Ferreira, D.F. Estatística multivariada 173

2 2 1 20 0 n 1t n(X )(S ) (X ) t ( 2)−

−= −µ −µ ≥ α (5.1)

em que, 21( / 2)nt − α representa o quantil quadrático superior 100(α/2) da distribuição

de t-student com n-1 GL.

Se H0 não é rejeitada, então se conclui que µ0 é um valor plausível

para representar a média populacional normal. No entanto, uma pergunta natural

pode surgir: existem outros valores de µ que são consistentes com os dados? A

resposta é sim. De fato, existe um conjunto de valores plausíveis que serviriam

como média para a população normal estudada. Da bem conhecida

correspondência entre a região de aceitação dos testes de hipóteses e o intervalo

de confiança para µ tem-se:

0n 1

X t ( /2)Sn

−µ< α (não rejeitar H0) é equivalente a:

( ) ( )n 1 0 n 1S SX t / 2 X t / 2n n− −− α ≤ µ ≤ + α (5.2)

Antes de a amostra ser retirada, o intervalo de confiança de

100(1-α)% de (5.2) é um intervalo aleatório, pois seus limites dependem das

variáveis aleatórias X e S. A probabilidade do intervalo conter µ é 100(1-α)% e

Page 180: multivariada - ufla

5. Inferências sobre o vetor média 174

entre um grande número independentes de tais intervalos, 100(1-α)% deles

conterão µ.

É considerada agora a generalização do caso univariado para o

multivariado. O problema de determinar se um dado vetor 0µ (p x 1) é um valor

plausível da média de uma distribuição normal multivariada. Uma generalização da

distância quadrada apresentada em (5.1) é:

( ) ( )t2 10 0T n X S X−= −µ −µ (5.3)

em que,

n

jj 1

1X Xn =

= ∑ , ( )( )n t

j jj 1

1S X X X Xn 1 =

= − −− ∑ e

01

020

0p

⎡ ⎤µ⎢ ⎥µ⎢ ⎥µ = ⎢ ⎥⎢ ⎥µ⎢ ⎥⎣ ⎦

A estatística T2 é chamada de chamada de T2 de Hotelling, em honra

a Harold Hotelling (Bock, 1975), um pioneiro da estatística multivariada, que pela

primeira vez obteve a sua distribuição. Felizmente, tabelas especiais dos pontos

percentuais para a distribuição T2 não são necessárias na realização dos testes de

hipóteses, devido à estatística:

T2 ser distribuída como ,( 1)

p n pn pFn p −

−−

(5.4)

Page 181: multivariada - ufla

Ferreira, D.F. Estatística multivariada 175

em que, Fp,n-p representa uma variável com distribuição F com p e n-p GL.

De uma forma geral a distribuição de T2 considerando ν graus de

liberdade e dimensão p é dada por:

2p, 1 p

pT F1 pν+ −ν

= ×ν + −

(5.5)

Desta forma para se testar a hipótese 0 0H :µ = µ versus 1 0H :µ ≠ µ ,

no valor nominal α de significância, deve-se rejeitar H0 em favor de H1 se

( ) ( )t2 10 0 p,n p

(n 1)pT n X S X F ( )n p

−−

−= −µ −µ > α

− (5.6)

Infelizmente, é raro, nas situações multivariadas, o pesquisador se

satisfazer com o teste da hipótese 0 0H :µ = µ , em que todos os componentes do

vetor média são especificados sob a hipótese de nulidade. Em geral é preferível

encontrar regiões de valores de µ que são plausíveis para serem o vetor de média

populacional na luz dos dados observados.

Exemplo 5.1

A matriz X, apresentada a seguir, representa uma amostra de n=3 observações

retiradas de uma distribuição normal bivariada.

Page 182: multivariada - ufla

5. Inferências sobre o vetor média 176

11 2X 10 4

9 3

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

Teste a hipótese de que t0µ =[9 2] seja um valor plausível para representar a média

populacional.

A estatísticas amostrais são:

10X

3⎡ ⎤

= ⎢ ⎥⎣ ⎦

e 1,0 0,50,5 1,0

S−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

Então,

1 4 21S2 43

− ⎡ ⎤= ⎢ ⎥

⎣ ⎦

E o valor de T2 será obtido da seguinte forma:

[ ]2 4 2 10 91T 3 10 9 3 2 122 4 3 23

−⎡ ⎤ ⎡ ⎤= − − =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

O valor de F2,1 ao nível de 5% é 199,5, então, H0 será rejeitada se o

valor observado de T2 superar

Page 183: multivariada - ufla

Ferreira, D.F. Estatística multivariada 177

2,1( 1) 4199,5 798,0

1n pFn p−

= =−

.

Como neste caso, o valor de T2 observado (12,0) foi inferior ao valor

crítico (798,0), então, H0 não deve ser rejeitada. É importante salientar neste

ponto, que a hipótese H0 será rejeitada se um ou mais dos componentes do vetor

média amostral, ou alguma combinação de médias, diferir muito do valor hipotético

t0µ = [9 2]. Neste estágio, não se tem idéia de quais os valores hipotéticos não são

suportados pelos dados.

5.3. Região de confiança e Comparações simultâneas de componentes de média

Será inicialmente, generalizado o conceito univariado de intervalo de

confiança para o multivariado de região de confiança, R(X). A região de confiança

conterá 100(1-α)% se antes de a amostra ser selecionada,

P[R(X) cobrir o verdadeiro ] 1θ = −α (5.7)

em que θ , representa um vetor de parâmetros desconhecidos (Krzanowski, 1993).

No caso, a região de confiança para µ de uma distribuição normal p variada, será

todos os valores de µ tais que:

Page 184: multivariada - ufla

5. Inferências sobre o vetor média 178

( ) ( )t 1p,n p

(n 1)pP n X S X F ( )n p

−−

⎡ ⎤−−µ −µ ≤ α⎢ ⎥−⎣ ⎦

(5.8)

Para determinar se um dado valor 0µ é um valor plausível de µ ,

basta calcular a distância quadrada generalizada t 1n(X ) S (X )−−µ −µ e comparar

com ,( 1) ( ) /( )p n pn pF n p−− α − . Se a distância quadrada for maior que

,( 1) ( ) /( )p n pn pF n p−− α − , então µ 0 não pertence à região de confiança. Isto é

equivalente a testar a hipótese H0: µ=µ 0 contra a H1: µ≠µ 0, a qual possibilita

afirmar que a região de confiança constitui-se em todos os valores de µ 0 cujo

teste T2 não rejeitaria a hipótese nula a favor da alternativa, em um nível de

significância α.

Para p≥4 não se pode fazer o gráfico da região de confiança para µ .

Pode se, no entanto, calcular os eixos da elipsóide de confiança e seus tamanhos

relativos, os quais são determinados pelos autovalores λi e autovetores ie de S.

Os tamanhos dos semi-eixos de

( ) ( )t 1 2p,n p

p(n 1)n X S X c F ( )n p

−−

−−µ −µ ≤ = α

são determinados por

Page 185: multivariada - ufla

Ferreira, D.F. Estatística multivariada 179

,[ ( 1) ( )]/[ ( )]ii p n p

cp n F n n p

n −

λ= λ − α − unidades ao longo de ie .

Começando do centro, determinado por X , os eixos da elipsóide

são:

i p,n p i[p(n 1)F ( )] /[n(n p)] e−± λ − α −

Exemplo 5.2

A partir dos dados do exemplo 5.1, obter a região de confiança de 95%, e verificar

se o ponto t0µ =(13, 4) pertence a mesma.

10X

3⎡ ⎤

= ⎢ ⎥⎣ ⎦

, 1,0 0,50,5 1,0

S−⎡ ⎤

= ⎢ ⎥−⎣ ⎦ e 1 4 21

2 43S− ⎡ ⎤

= ⎢ ⎥⎣ ⎦

Os autovalores e autovetores de S, são:

[ ]t1 11,5 e 0,707107 0,707107λ = = −

[ ]t2 20,5 e 0,707107 0,707107λ = =

Page 186: multivariada - ufla

5. Inferências sobre o vetor média 180

A elipse de confiança 95% para µ consiste de todos os valores

(µ1, µ2) que satisfazem:

11 2

2

104 21 2 (2)3[10 , 3 ] 199,532 43 1−µ⎡ ⎤⎡ ⎤

−µ −µ ≤ ×⎢ ⎥⎢ ⎥ −µ⎣ ⎦ ⎣ ⎦

ou, 2 21 1 2 24(10 ) 4(10 )(3 ) 4(3 ) 798−µ + − µ −µ + − µ ≤

Para verificar se o ponto t0µ =(13, 4) pertence a elipse, calcula-se:

2 24(10 13) 4(10 13)(3 4) 4(3 4) 52 798,0− + − − + − = ≤

o que permite que se conclua que o ponto testado está na região de confiança. O

gráfico da elipse obtida pode ser visualizado na Figura 5.1. com a análise gráfica,

pode-se confirmar que o ponto em questão pertence à região de confiança.

Page 187: multivariada - ufla

Ferreira, D.F. Estatística multivariada 181

Figura 5.1. Elipse de 95% de confiança para o vetor populacional de médias,

obtido a partir dos dados do exemplo 5.1.

Exemplo 5.3

Para exemplificar a região tridimensional para a média populacional, os dados de

produção comercial (t/ha), produção de tubérculos graúdos (t/ha) e peso médio de

tubérculos graúdos (g) de 15 clones de batata selecionados em Maria da Fé e

Lavras (Momenté, 1994), foram utilizados e encontram-se no quadro a seguir.

Obter a região de 95% de confiança para o vetor média populacional.

Verificar se o ponto t0 (16,89 8,76 109, 23)µ = pertence a região de confiança (ponto

referente a cultivar Achat). Traçar a região de confiança.

x1

x2

Page 188: multivariada - ufla

5. Inferências sobre o vetor média 182

Clones Produção comercial

Produção de tubérculos graúdos

Peso médio de tubérculos graúdos

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

47,82 42,40 41,82 40,77 40,27 39,84 38,36 38,15 37,55 36,19 36,15 35,17 34,90 34,57 34,15

40,40 26,96 27,33 21,81 33,06 22,31 32,81 26,02 21,69 25,65 23,46 25,29 22,92 16,25 21,75

146,30 94,58 143,66 127,29 115,17 99,32 150,13 131,17 152,04 154,83 95,43 105,97 113,59 86,39 119,50

Fonte: Momenté, 1994

O vetor de médias e a matriz de covariância amostrais são:

38,541X 25,854

122,358

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

13,8195 15,8284 24,725015,8284 34,8769 63,021524,7250 63,0215 540,1553

S⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

Os autovalores e autovetores de S são:

t1 1549, 208 e (0,049 0,123 0,991)λ = =

t2 234,460 e (0,500 0,856 0,131)λ = = −

t3 35,185 e (0,865 0,502 0,019)λ = = −

Page 189: multivariada - ufla

Ferreira, D.F. Estatística multivariada 183

A região de confiança fica determinada por:

t 1 2p,n p

p(n 1)n(X ) S (X ) c F ( )n p

−−

−−µ −µ ≤ = α

[ ]1

1 2 3 2

3

0,15149 Sim. 38,54115 38,541 25,854 122,358 0,07124 0,06983 25,854

0,00138 0,00489 0,002358 122,3583 14 3, 49 12, 215

12

−µ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥−µ −µ −µ − −µ ≤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥− −µ⎣ ⎦ ⎣ ⎦

×× =

Para verificar se o ponto t0 (16,89 8,76 109, 23)µ = pertence à região

de confiança, basta substituir os valores de µ1 por 16,89, de µ2 por 8,76 e o de µ3

por 109,23. O valor encontrado de 563,4964 é superior a 12,215, o que indica que

a média da Cultivar Achat, não pertence à região de 95% de confiança para média

das 15 famílias clonais estudadas.

Utilizando o programa Maple, através da seguinte macro, foi traçado

o gráfico, elipsóide de confiança (Figura 5.2), da região de 95% de confiança para

µ . Pode-se visualizar também que o ponto em questão não pertence a elipsóide

de confiança.

21 1 2 1 3

2 22 2 3 3

2,27(38,541 ) 2,14(38,541 )(25,854 ) 0,04(38,541 )(122,358 )

1,05(25,854 ) 0,15(25,854 )(122,358 ) 0,04(122,358 ) 12,215

= − µ − − µ − µ + − µ − µ +

+ − µ − −µ − µ + − µ ≤

Page 190: multivariada - ufla

5. Inferências sobre o vetor média 184

Figura 5.2. Elipsóide de 95% de confiança para o vetor de médias populacional,

obtida a partir dos dados do exemplo 5.3.

Intervalos de confiança simultâneos

Enquanto a região de confiança fornece corretamente o conjunto de

valores plausíveis para a média de uma população normal, qualquer resumo de

conclusões, em geral, inclui intervalos de confiança sobre médias individuais.

Assim, adota-se que todos os intervalos de confiança sejam verdadeiros

simultaneamente com uma alta probabilidade específica. Isto garante com alta

x3

x1 x2

Page 191: multivariada - ufla

Ferreira, D.F. Estatística multivariada 185

probabilidade que qualquer afirmação não seja incorreta, o que conduz ao termo

intervalo de confiança simultâneo (Johnson e Wichern, 1998).

Considerando uma combinação linear das médias amostrais,

t1 2 p1 2 pX X X X= + + +

cuja distribuição amostral possui estimador da covariância dado por:

tSn

Dessa forma poderia se pensar em se obter intervalos de confiança

de 95% baseados na distribuição de t-student,

tt

n 1S

X t ( / 2)n−± α (5.9)

O intervalo da expressão (5.9) pode ser interpretado como intervalos

sobre componentes do vetor de média, assim, por exemplo, fazendo-se

t [1 0 .... 0]= , a expressão (5.9) se torna o intervalo clássico para a média de uma

população normal univariada. Neste caso tem-se uma série de inferências sobre

os componentes de µ , cada um associado com o coeficiente de confiança de 1-α,

através de diferentes escolhas de . No entanto o coeficiente de confiança para

Page 192: multivariada - ufla

5. Inferências sobre o vetor média 186

todos os intervalos tomados simultaneamente não é 1-α. Para corrigir esta

imperfeição demonstra-se (Johnson e Wichern, 1988; Anderson, 1984) que para

garantir o coeficiente nominal de confiança simultâneo de 1-α para a cobertura de

os valores paramétricos é necessário recorrer à distribuição de T2. Este resultado

está apresentado a seguir:

t tp,n p

p(n 1)X F ( ) Sn(n p) −

−± α

− (5.10)

Método de Bonferroni para Comparações múltiplas

Muitas vezes um pequeno número de intervalos de confiança é

requerido. Nestas situações pode-se ter uma melhor opção do que as

comparações simultâneas, proposta em (5.10), obtendo intervalos de confiança

mais curtos (mais precisos) do que o intervalo simultâneo de T2. Esta alternativa

de intervalo é conhecida por método de Bonferroni.

A seguir será apresentado o método para obtenções de intervalo de

confiança para os componentes de média. Se as m=p médias forem consideradas,

então, o método de Bonferroni é:

iii n 1 2m

SX t ( ) i 1,2,...,p mn

α−± = = (5.11)

Page 193: multivariada - ufla

Ferreira, D.F. Estatística multivariada 187

Exemplo 5.4

Utilizando os dados do exemplo 5.2, obter os intervalos clássicos de t-student, T2 e

Bonferroni, para os componentes individuais do vetor de média, e compará-los

entre si, quanto ao comprimento.

O vetor de médias e a matriz de covariância amostral são:

10X

3⎡ ⎤

= ⎢ ⎥⎣ ⎦

e 1,0 0,50,5 1,0

S−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

1. Intervalo T2

■ 1

11(0,95) 1 p,n p

p(n 1) SIC X F ( )n p nµ −−

= ± α−

1 (0,95)

2(3 1) 110 199,53 2 3

ICµ

−= ±

1 (0,95) 10 16,31 [ 6,31; 26,31]ICµ = ± = −

■ 2 (0,95)

2(3 1) 13 199,53 2 3

ICµ

−= ±

2 (0,95) 3 16,31 [ 13,31;19,31]ICµ = ± = −

Page 194: multivariada - ufla

5. Inferências sobre o vetor média 188

Observa-se que os limites dos intervalos de confiança múltiplos

representam os limites da elipse de confiança de 95% (Figura 5.1), projetados nos

respectivos eixos.

2. Intervalo de Bonferroni

Neste caso, m=p=2, portanto α/2m=0,0125. O valor de t-student

correspondente, com n-1=2 GL é 6,21. Então,

■ 1 (0,95)

110 6,213

ICµ = ±

1 (0,95) [6,41;13,59]ICµ =

■ 2 (0,95)

13 6,213

ICµ = ±

2 (0,95) [ 0,59; 6,59]ICµ = −

Observa-se nesta situação que os intervalos são bem mais estreitos

que o seu correspondente em 1.

Page 195: multivariada - ufla

Ferreira, D.F. Estatística multivariada 189

3. Intervalo t de Student

Neste caso α/2=0,025 e o valor de t-student correspondente com 2

GL é 4,30. Então,

■ 1 (0,95)

110 4,303

ICµ = ±

1 (0,95) [7,52;12,48]ICµ =

■ 2 (0,95)

13 4,303

ICµ = ±

2 (0,95) [0,52; 5,48]ICµ =

Apesar de estes últimos intervalos individualmente garantir com 95%

de probabilidade que as médias populacionais estão contidas nos mesmos, não há

garantia de que simultaneamente eles contenham as médias populacionais no

mesmo valor nominal do coeficiente de confiança, diga-se 95%. Na melhor das

hipóteses, variáveis não correlacionadas, o valor real do coeficiente de confiança é

(1-α)p=0,952=0,9025.

Page 196: multivariada - ufla

5. Inferências sobre o vetor média 190

5.4. Inferências sobre proporções de grandes amostras

Freqüentemente, algumas características de interesse na população

estão na forma de atributos. Cada indivíduo nesta população pode ser descrito em

termos dos atributos que possui, os quais são codificados, pela sua presença e

ausência. Na população, com q característica, a proporção de elementos que

possui os atributos 1, 2, ..., q é p1, p2, ..., pq. Considerando q atributos mutuamente

exclusivos e características exaustivas, então, pq=1-(p1+p2+...+pq-1).

Numa grande amostra de tamanho n, pelo teorema do limite central,

p possui distribuição aproximadamente normal, com

1

2

q

pp

ˆE(p)

p

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

e

1 1 1 2 1 q

2 1 2 2 2 q

q 1 q 2 q q

p (1 p ) p p p pp p p (1 p ) p p1 1ˆCov(p)

n np p p p p (1 p )

− − −⎡ ⎤⎢ ⎥− − −⎢ ⎥= = Σ⎢ ⎥⎢ ⎥− − −⎢ ⎥⎣ ⎦

.

Para grandes amostras, a aproximação continua válida se um

estimador de ( )ˆCov p , (1/n) Σ , for utilizado.

Uma vez que cada elemento da população está associado a apenas

um atributo, então, pq=1-(p1+p2+...+pq-1), o que trás como conseqüência que o

posto de Σ é igual a q-1, portanto sua inversa não existe. Apesar disso, pode-se

desenvolver intervalos de confiança simultâneos aproximados de 100(1-α)%, para

qualquer combinação tp .

Page 197: multivariada - ufla

Ferreira, D.F. Estatística multivariada 191

Para uma amostra de tamanho n, considerando q categorias da

distribuição multinomial, o intervalo aproximado de confiança simultâneo de

100(1-α)%, para qualquer combinação t1 1 2 2 q qp p p ... p= + + + , é dado por:

tt 2

q 1

ˆp ( )

n−

Σ± χ α (5.12)

garantindo que n-1-q seja grande. Segundo Johnson e Wichern (1988), o valor

grande de n-q-1, significa que ˆknp deve estar em torno de 20 para cada categoria

k=1, 2, ..., q.

Exemplo 5.5

Numa amostra de n=35 cochonilhas, obtida na região de Jacuí, MG, em fevereiro

de 1995, em plantas de pessegueiro tratadas, Diniz (1996) obteve os seguintes

resultados:

Fêmeas adultas Ninfa móvel Ninfa fêmea Ninfa macho Total 5 11 15 4 35

Obter os intervalos de confiança simultâneos de 95% usando a aproximação de

grandes amostras para proporções de insetos em cada categoria.

O vetor de proporções e a matriz de covariância amostral são:

Page 198: multivariada - ufla

5. Inferências sobre o vetor média 192

0,14290,3143

p0, 42860,1142

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

e

0,1225 .0,0449 0,2155ˆ0,0612 0,1347 0,24490,0163 0,0359 0,0489 0,1012

Sim⎡ ⎤⎢ ⎥−⎢ ⎥Σ =⎢ ⎥− −⎢ ⎥− − −⎣ ⎦

O valor de 23 (0,05)χ é 7,815, e os intervalos são:

10,1225: 0,1429 7,815 0,1429 0,1654 [ 0,0225; 0,3083]

35p ± = ± = −

20,2155: 0,3143 7,815 [0,0949; 0,5337]

35p ± =

30,2449: 0,4286 7,815 [0,1948; 0,6624]

35p ± =

40,1012: 0,1142 7,815 [ 0,0361; 0,2645]

35p ± = −

5.5. Comparações pareadas

Em muitas situações experimentais deseja-se testar o efeito ou

eficácia de um tratamento. Para isso, medidas são tomadas nas unidades

experimentais antes e após a aplicação do tratamento. Uma outra situação em

que esta comparação pode ser de interesse é quando na mesma unidade

Page 199: multivariada - ufla

Ferreira, D.F. Estatística multivariada 193

amostral ou experimental dois tratamentos são aplicados. Estas respostas são

denominadas medidas pareadas, e podem ser analisadas calculando-se suas

diferenças, eliminando a influência da variação entre as unidades experimentais

ou amostrais.

Será, inicialmente, abordado o caso univariado e, em seguida, a sua

respectiva generalização para o caso multivariado. Denotando X1j a resposta do

tratamento 1 (ou resposta antes do tratamento) e X2j a resposta do tratamento 2

(ou resposta após o tratamento) para a j-ésima unidade amostral ou experimental,

em que (X1j, X2j) são medidas tomadas na mesma unidade amostral ou

experimental, então as n diferenças:

Dj = X2j - X1j , j=1, 2, ..., n (5.13)

devem refletir somente o efeito diferencial entre os tratamentos.

Assumindo que as diferenças Dj são observações independentes de

uma distribuição normal N(δ, 2Dσ ), a variável

D

Dt Sn

−δ= (5.14)

segue a distribuição de t-student com n-1 graus de liberdade, em que:

Page 200: multivariada - ufla

5. Inferências sobre o vetor média 194

( )

2n

jn n n2 j 12 2j j jD

j 1 j 1 j 1

D1 1 1D D e D D Dn n 1 n 1 nS =

= = =

⎡ ⎤⎛ ⎞⎢ ⎥⎜ ⎟⎢ ⎥⎝ ⎠= = − = −⎢ ⎥− − ⎢ ⎥⎢ ⎥⎣ ⎦

∑∑ ∑ ∑ (5.15)

Conseqüentemente, para um coeficiente de confiança de 1-α, o teste

para a hipótese:

0

1

: 0 ( ): 0

H efeito nulo de tratamentoH

δ =δ ≠

pode ser realizado comparando-se | t | com tn-1(α/2), o quantil 100(α/2) superior da

distribuição de t-student com n-1 graus de liberdade.

O intervalo de confiança de 100(1-α)% para o efeito do tratamento

(ou diferença de efeitos dos tratamentos) é dado pela maneira usual e

apresentado a seguir.

Dn 1

SD t ( / 2)n−± α (5.16)

Para extensão multivariada dos procedimentos adotados no caso

univariado, a seguinte notação é utilizada, pois existe a necessidade de distinguir

entre os índices para os dois tratamentos (1o índice), a resposta da j-ésima

unidade experimental ou amostral (2o índice) e as p variáveis (3o índice). Neste

caso, X1jk representa a resposta do tratamento 1 (ou medida antes de se aplicar o

Page 201: multivariada - ufla

Ferreira, D.F. Estatística multivariada 195

tratamento) na k-ésima variável tomada na j-ésima unidade e, X2jk representa a

resposta do tratamento 2 (ou medida após se aplicar o tratamento) na k-ésima

variável tomada na j-ésima unidade, sendo que j=1, 2, ..., n; k=1, 2, ..., p.

As diferenças têm a mesma notação com exceção do primeiro índice,

do efeito do tratamento, que deve desaparecer. Isto se deve ao fato de as

diferenças refletirem o efeito diferencial dos tratamentos. Assim, Djk representa a

diferença entre os tratamentos na j-ésima unidade amostral ou experimental obtida

na k-ésima variável. Fazendo tj j1 j2 jpD D D D⎡ ⎤= ⎣ ⎦ e assumindo que é

distribuído normal e independentemente, Np( D,δ Σ ), a estatística T2 se aplica para

se realizar inferências sobre o vetor média das diferenças. Os seguintes

resultados podem ser obtidos, a partir das pressuposições assumidas.

Dadas as diferenças observadas tj j1 j2 jpD D D D⎡ ⎤= ⎣ ⎦ ,

j=1, 2, ..., n, um teste de a hipótese o 0 1 0H : vs H :δ = δ δ ≠ δ deve rejeitar H0 se o

valor observado

( ) ( )t2 10 d 0 p,n p

p(n 1)T n D S D F ( )(n p)

−−

−= − δ − δ > α

− (5.17)

em que,

n

jj 1

1D Dn =

= ∑ e ( )( )n t

D j jj 1

1S D D D Dn 1 =

= − −− ∑

Page 202: multivariada - ufla

5. Inferências sobre o vetor média 196

A região de confiança de 100(1-α)% para δ consiste em todos os

valores de δ tais que

2 t 1D p,n p

p(n 1)T n(D ) S (D ) F ( )(n p)

−−

−= − δ − δ ≤ α

− (5.18)

Os intervalos de confiança simultâneos 100(1-α)% para as diferenças

de médias individuais δi são dados por:

i

D(ii)i p,n p

Sp(n 1)IC (1 ) : D F ( )(n p) nδ −

−−α ± α

− (5.19)

em que, iD é o i-ésimo elemento de D e D(ii)S é i-ésimo elemento da diagonal de

SD.

Para n-p grande, [(n-1)p/(n-p)]Fp,n-p(α) ≅ 2 ( )pχ α , e a normalidade não

precisa ser assumida.

O intervalo simultâneo de Bonferroni 100(1-α)% para as médias

individuais das diferenças δi é:

i

D(ii)i n 1

SIC (1 ) : D t

2p nδ −

⎛ ⎞α−α ± ⎜ ⎟

⎝ ⎠ (5.20)

Page 203: multivariada - ufla

Ferreira, D.F. Estatística multivariada 197

Exemplo 5.6

Em uma amostra de n=4 fazendas em Marechal Cândido Rondon foram

mensuradas a produção leiteira diária média por animal (X1) e a renda total diária

da produtividade de leite (X2) antes da aplicação do plano governamental “panela

cheia” e após a aplicação. Testar a hipótese de que o plano foi ineficiente em

aumentar a média dos dois índices zootécnicos. Os dados da amostra são:

Antes Após X1j1 X1j2 X2j2 X2j2 10 11 9 8

80 80 60 60

13 15 16 19

90 92 88 90

A hipótese a ser testada é:

0

0H : 0

0⎡ ⎤

δ = = ⎢ ⎥⎣ ⎦

As diferenças foram obtidas e são dadas por:

Dj1 Dj2

3 4 7 11

10 12 28 30

As estimativas amostrais são:

Page 204: multivariada - ufla

5. Inferências sobre o vetor média 198

6, 25D

20,00⎡ ⎤

= ⎢ ⎥⎣ ⎦

e D

12,9167 34,6667S

34,6667 109,3333⎡ ⎤

= ⎢ ⎥⎣ ⎦

O valor da estatística T2 pode ser computado por:

[ ]2 0,5195 0,1647 6, 25T 4 6, 25 20 14,6515

0,1647 0,0614 20,00−⎡ ⎤ ⎡ ⎤

= =⎢ ⎥ ⎢ ⎥−⎣ ⎦ ⎣ ⎦

O valor crítico é:

p,n p 2,4 2p(n 1) 2 (4 1)F (5%) F (5%) 3 19 57(n p) (4 2)− −

− × −= = × =

− −

Como T2=14,6515<57, então, H0 não pode ser falseada para o valor

nominal de 5% de significância.

Os intervalos de confiança simultâneos são:

[ ]1 1 2,4 2

2(4 1) 12,9167IC (0,95) : D F (0,05) 6,25 13,57 7,32;19,82(4 2) 4δ −

−± = ± = −

[ ]2 2 2,4 2

2(4 1) 109,3333IC (0,95) : D F (0,05) 20 39, 47 19, 47; 59, 47(4 2) 4δ −

−± = ± = −

Page 205: multivariada - ufla

Ferreira, D.F. Estatística multivariada 199

5.6. Comparações de vetores médias de duas populações

O teste T2 para testar a igualdade de vetores média de duas

populações pode ser desenvolvido por analogia ao procedimento univariado. Este

teste T2 é apropriado para comparar a resposta média de um grupo experimental

(população 1) com a resposta média “independente” de outro grupo experimental

(população 2). Se possível, as unidades experimentais devem ser sorteadas para

cada conjunto de observações de ambas as populações, o que abrandará o efeito

da variabilidade entre unidades na comparação entre tratamentos. Apesar disto,

este tipo de comparação, é em geral, menos preciso do que o caso de

comparações pareadas.

Considerando uma amostra aleatória de tamanho n1 da população 1

e uma amostra n2 da população 2. As observações das p variáveis podem ser

organizadas como:

Amostra Estatísticas amostrais (População 1) 11X , 12X , ...,

11nX

(População 2) 21X , 22X , ...,

22nX

1n

1 1jj 11

1X Xn =

= ∑ ( )( )1n t

1 1j 1 1jj 11

1S X X X Xn 1 =

= − −− ∑

2n

2 2 jj 12

1X Xn =

= ∑ ( )( )2n

2 2 j 2 2 j 2j 12

t1S X X X Xn 1 =

= − −− ∑

Subscritos 1 e 2, denotam a população.

Page 206: multivariada - ufla

5. Inferências sobre o vetor média 200

Deseja-se realizar inferência a respeito da diferença de médias

populacionais ( 1 2µ −µ ), para verificar se esta diferença é nula, o que equivale a

afirmar que não existe efeito dos tratamentos. De forma equivalente, pode-se fazer

tal inferência, testando a hipótese de igualdade dos vetores médias populacionais

( 0 1 2H :µ = µ ). Algumas pressuposições devem ser obedecidas para a validade dos

testes e da inferência realizada. Entre as pressuposições destaca-se a

necessidade de que sejam realizadas amostras aleatórias, de tamanho n1 e n2, de

ambas as populações (população 1 com média 1µ e covariância 1Σ , e população 2

com média 2µ e covariância 2Σ ); além disso, supõe-se que as observações da

amostra 1 são independentemente obtidas em relação aquelas da amostra 2.

Ainda é necessário assumir que ambas as populações sejam normais que a matriz

de covariância amostral seja a mesma ( 1 2Σ = Σ = Σ ).

As matrizes de covariância S1 e S2 são estimadores de 1Σ e de 2Σ ,

respectivamente. Conseqüentemente, pode-se combinar as informações de

ambas as amostras para estimar a variância comum Σ da seguinte forma:

1 1 2 2

1 2

( 1) ( 1)2p

n S n SSn n

− + −=

+ − (5.21)

Para se testar a hipótese 0 1 2 0H :µ −µ = δ , considera-se os seguintes

resultados:

Page 207: multivariada - ufla

Ferreira, D.F. Estatística multivariada 201

( ) 1 21 2E X X− = µ −µ (5.22)

( )1 21 2

1 1Cov X Xn n

⎛ ⎞− = + Σ⎜ ⎟

⎝ ⎠ (5.23)

Devido ao resultado (5.21), em que Sp é um estimador de Σ, então,

1 2

1 1pS

n n⎛ ⎞

+⎜ ⎟⎝ ⎠

é um estimador de ( )1 2Cov X X− .

Demonstra-se que o teste da razão de verossimilhança para a

hipótese,

0 1 2 0H :µ −µ = δ

é dado pela distância quadrada T2. Rejeita-se H0 se

1 2

1

2 t 1 21 2 0 p 1 2 0 p,n n p 1

1 2 1 2

(n n 2)p1 1T [X X ] S [X X ] F ( )n n (n n p 1)

+ − −

⎡ ⎤⎛ ⎞ + −= − − δ + − − δ > α⎢ ⎥⎜ ⎟ + − −⎝ ⎠⎣ ⎦

Page 208: multivariada - ufla

5. Inferências sobre o vetor média 202

Exemplo 5.7

Os dados a seguir referem-se à produtividade e altura de plantas de duas

variedades de milho (A e B). Determinar a região de 95% de confiança para

diferença 1 2µ −µ .

A B Produtividade Altura da planta Produtividade Altura da planta

5,7 8,9 6,2 5,8 6,8 6,2

2,10 1,90 1,98 1,92 2,00 2,01

4,4 7,5 5,4 4,6 5,9

1,80 1,75 1,78 1,89 1,90

As estatísticas amostrais são:

1

6,57X

1,99⎡ ⎤

= ⎢ ⎥⎣ ⎦

, 1

1,4587 0,05140,0514 0,0051

S−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

2

5,56X

1,82⎡ ⎤

= ⎢ ⎥⎣ ⎦

, 2

1,5430 0,03660,0366 0,0045

S−⎡ ⎤

= ⎢ ⎥−⎣ ⎦

A matriz de variância e covariância amostral combinada é:

1,4962 0,04480,0448 0,0048pS

−⎡ ⎤= ⎢ ⎥−⎣ ⎦

Page 209: multivariada - ufla

Ferreira, D.F. Estatística multivariada 203

Os autovalores e autovetores de Sp são:

[ ]t1 11, 4975 e 0,9995 0,0300λ = = −

[ ]t2 20,0035 e 0,0300 0,9995λ = =

O valor de F2,8(0,05)=4,459. A região de confiança é dada por:

1 2

1

2 t 1 21 2 0 p 1 2 0 p,n n p 1

1 2 1 2

(n n 2)p1 1T [X X ] S [X X ] F ( )n n (n n p 1)

+ − −

⎡ ⎤⎛ ⎞ + −= − −δ + − − δ ≤ α⎢ ⎥⎜ ⎟ + − −⎝ ⎠⎣ ⎦

em que, 1 11 210

2 12 22

δ µ −µ⎡ ⎤ ⎡ ⎤δ = =⎢ ⎥ ⎢ ⎥δ µ −µ⎣ ⎦ ⎣ ⎦

Desta forma com os valores amostrais, tem-se:

[ ] 11 2

2

1,010,9276 8,6575301,01 0,17 10,03280,178,6575 289,136411

− δ⎡ ⎤⎡ ⎤− δ − δ × × ≤⎢ ⎥⎢ ⎥ − δ⎣ ⎦ ⎣ ⎦

Esta equação foi implementada no programa Maple, para se obter a

elipse de 95% de confiança, apresentada na Figura 5, cujos comandos estão

apresentados a seguir:

Page 210: multivariada - ufla

5. Inferências sobre o vetor média 204

Figura 5.3. Elipse de 95% de confiança para diferença do vetor média de ambas

as variedades de milho.

Verifica-se pela Figura 5.3 que a origem t0 =[0, 0], não pertence a

região de confiança, indicando que as duas variedades diferem quanto ao vetor

média.

11 21µ − µ

12 22µ − µ

Page 211: multivariada - ufla

Ferreira, D.F. Estatística multivariada 205

Intervalos de confiança simultâneos

Para desenvolver intervalos de confiança simultâneos para um

componente de 1 2µ −µ , adota-se o vetor tal que a combinação t ( 1 2µ −µ ), será

abrangida com probabilidade 1-α, para qualquer escolha de , por

( )1 2

t t1 21 2 p,n n p 1 p

1 2 1 2

(n n 2)p 1 1X X F ( ) Sn n p 1 n n+ − −

⎛ ⎞+ −− ± α +⎜ ⎟+ − − ⎝ ⎠

(5.24)

Método de Bonferroni para comparações múltiplas

O intervalo de confiança simultâneo de 100(1-α)% de Bonferroni para

as p diferenças entre duas médias populacionais é dado por:

1 21i 2i1i 2i n n 2 ii

1 2

1 1: (X X ) t S2p n n+ −

⎛ ⎞⎛ ⎞αµ −µ − ± +⎜ ⎟⎜ ⎟

⎝ ⎠ ⎝ ⎠ (5.25)

Comparações entre vetores médias quando 1 2Σ ≠ Σ

Quando 1 2Σ ≠ Σ , a distribuição das estatísticas dependem de uma

medida de distância que não são independentes das covariâncias populacionais

desconhecidas. Por serem desconhecidas as covariâncias populacionais, o teste

Page 212: multivariada - ufla

5. Inferências sobre o vetor média 206

de Bartlett pode ser usado para testar H0: 1 2Σ ≠ Σ . No entanto, este teste é

fortemente afetado se a pressuposição de normalidade for violada. O teste em

questão não pode diferenciar entre a ausência de normalidade e a

heterogeneidade das covariâncias. Quando ambos n1-p e n2-p são grandes,

pode-se evitar as complicações da desigualdade de variâncias, utilizando a

elipsóide de 100(1-α)% de confiança aproximada, dada por (5.26). O problema de

covariâncias heterogêneas, quando as amostras são provenientes de populações

normais é conhecido como problema de Behrens-Fisher multivariado.

1t 2

1 2 0 1 2 1 2 0 p1 2

1 1[X X ] S S [X X ] ( )n n

−⎡ ⎤

− − δ + − −δ ≤ χ α⎢ ⎥⎣ ⎦

(5.26)

O intervalo de confiança simultâneo aproximado é dado por:

( )t 2 t1 2 p 1 2

1 2

1 1X X ( ) S Sn n

⎛ ⎞− ± χ α +⎜ ⎟

⎝ ⎠ (5.27)

Sete soluções para o problema multivariado de Behrens-Fisher foram

estudadas por Christensen e Rencher (1997) por meio de simulação Monte Carlo,

comparando as taxas de erro tipo I e o poder destas soluções. Algumas dessas

soluções estudadas por estes autores são apresentadas a seguir.

Page 213: multivariada - ufla

Ferreira, D.F. Estatística multivariada 207

a) Aproximação de Bennett

A primeira dessas alternativas é àquela estudada por Bennett (1951),

a qual assume que n2≥n1, o que não é limitante. Para contornar o problema, caso

essa condição não seja atendida, basta trocar os nomes das amostras, isto é, a

amostra 1 passa ser a amostra 2 e vice-versa. Inicialmente é necessário calcular

os vetores j 1Z , j 1, 2, , n= da seguinte forma.

1 2n n1

j 1j 2 j 2 j 2kj 1 k 12 21 2

n 1 1Z X X X Xn nn n = =

= − + −∑ ∑ (5.28)

Em seguida calcula-se a média ( Z ) e a covariância (SZ) a partir das n1

observações amostrais p-variadas obtidas na expressão (5.28). A estatística

2 t 11 ZT n Z S Z−= (5.29)

possui distribuição T2 de Hotelling com dimensão p e ν=n1-1 graus de liberdade,

que pode ser dada pela expressão geral (5.5).

b) Aproximação de James

A aproximação de James (1954) envolve uma correção do valor de 2χ

quando se utiliza a estatística T*2, definida por:

Page 214: multivariada - ufla

5. Inferências sobre o vetor média 208

12 t 2

1 2 1 2 1 2 p1 2

1 1T [X X ] S S [X X ] ~n n

∗ ⎡ ⎤= − + − χ⎢ ⎥

⎣ ⎦ (5.30)

James (1954) propõe valores críticos ajustados ao invés de utilizar a

distribuição aproximada de qui-quadrado diretamente. Os valores críticos

propostos por James (1954) são dados em (5.31).

( )2 2p p( ) A B ( )χ α × + χ α (5.31)

em que 2p ( )χ α é o quantil superior α da distribuição de qui-quadrado e A e B são

dados em (5.32) e (5.33).

22

1 ie

i 1 i i

S1 1A 1 tr S2p n 1 n

=

⎧ ⎫⎡ ⎤⎛ ⎞⎪ ⎪= + ⎨ ⎬⎢ ⎥⎜ ⎟− ⎝ ⎠⎣ ⎦⎪ ⎪⎩ ⎭∑ (5.32)

2221 1i i

e ei 1 i i i

1 1 S SB tr 2 S tr S2p(p 2) n 1 n n

− −

=

⎧ ⎫⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞⎪ ⎪⎢ ⎥= +⎨ ⎬⎢ ⎥⎜ ⎟ ⎜ ⎟+ − ⎢ ⎥⎝ ⎠ ⎝ ⎠⎣ ⎦⎪ ⎪⎣ ⎦⎩ ⎭∑ (5.33)

em que:

1 2e

1 2

S SSn n

= + (5.34)

Page 215: multivariada - ufla

Ferreira, D.F. Estatística multivariada 209

c) Aproximação de Yao

A aproximação de Yao (1965) é uma extensão da aproximação de

Welch para os graus de liberdade. A estatística (T*2) apresentada em (5.30) é

aproximada por uma T2 de Hotelling com dimensão p e graus de liberdade ν dados

por (5.35).

( )( ) ( )

22 t 1 1i1 2 e e 1 222 i 1 i i

S1 1 1 X X S S X Xn 1 nT

− −

∗=

⎧ ⎫⎡ ⎤⎪ ⎪= − −⎨ ⎬⎢ ⎥ν − ⎣ ⎦⎪ ⎪⎩ ⎭∑ (5.35)

d) Aproximação de Johansen

A aproximação de Johansen (1980) usa a estatística T*2 de (5.30)

dividida por uma constante C para que a estatística resultante tenha distribuição

aproximada pela distribuição F com ν1=p e ν2=ν graus de liberdade. Assim, os

valores necessários para calcular a estatística Fc de Johansen (1980) são:

2

cTFC

= (5.36)

2D 6DC pp(p 1) 2

+= −

− + (5.37)

Page 216: multivariada - ufla

5. Inferências sobre o vetor média 210

( ) ( ){ }2 221 1i i

i 1 i

1D tr I V V tr I V V2(n 1)

− −

=

⎡ ⎤ ⎡ ⎤= − + −⎣ ⎦⎢ ⎥⎣ ⎦−∑ (5.38)

p(p 2)3D+

ν = (5.39)

com Vi=(Si/ni)-1 para i=1 ou 2 e V=V1+V2.

e) Aproximação de Nel e Van der Merwe

A aproximação de Nel e Van der Merwe (1986) usa a estatística T*2

de (5.30), a qual é aproximada pela T2 de Hotelling com dimensão p e graus de

liberdade ν, em que:

( ) ( ) 22e e

2 22 2

1 1 2 2

1 1 1 2 2 2

tr S tr S

1 S S 1 S Str tr tr trn 1 n n n 1 n n

+ ⎡ ⎤⎣ ⎦ν =⎧ ⎫ ⎧ ⎫⎡ ⎤ ⎡ ⎤⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞⎪ ⎪ ⎪ ⎪+ + +⎨ ⎬ ⎨ ⎬⎢ ⎥ ⎢ ⎥⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟− −⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎣ ⎦ ⎣ ⎦⎪ ⎪ ⎪ ⎪⎩ ⎭ ⎩ ⎭

(5.40)

É conveniente chamar a atenção para o fato de que nas expressões

anteriormente apresentadas aparece um termo como: tr(A)2. Esse termo significa

que é necessário calcular tr(A*A). Em outras ocasiões os termos eram [tr(A)]2, o

que significa que o traço da matriz A deve ser calculado e o seu quadrado é a

resposta almejada.

Page 217: multivariada - ufla

Ferreira, D.F. Estatística multivariada 211

f) Aproximação de Kim

A aproximação de Kim (1992) é a mais elaborada de todas e também

se refere a uma extensão da aproximação dos graus de liberdade de Welch, como

acontece com o procedimento de Yao (1965). O procedimento de Kim requer a

maximização de um par de formas quadráticas dado por:

t 1

1

t 2

2

Sq qnd Sq qn

=

A maximização desse par de formas quadráticas resulta na solução

do sistema de equações homogêneas dado por (5.41).

1 2k k

1 2

S Sd q 0n n⎡ ⎤

− =⎢ ⎥⎣ ⎦

(5.41)

A solução desse sistema pode ser obtida conforme descrito no

capítulo 2. O autovalores dk e os autovetores kq (k=1, 2, ..., p) são utilizados para

definir a matriz D=diag(d1, d2, ..., dp) e 1 2 pQ q q q⎡ ⎤= ⎣ ⎦ . A partir dessas

matrizes definem-se as seguintes quantidades:

( )t1 2w Q X X= − (5.42)

Page 218: multivariada - ufla

5. Inferências sobre o vetor média 212

1p 2p

kk 1

r d=

⎛ ⎞= ⎜ ⎟⎝ ⎠∏ (5.43)

( )k

k 2

k

d 1

d r

+=

+ (5.44)

p2k

k 1p

kk 1

c =

=

=∑

∑ (5.45)

2p

kk 1

p2k

k 1

f =

=

⎛ ⎞⎜ ⎟⎝ ⎠=∑

∑ (5.46)

O próximo passo é calcular a estatística do teste que tem uma

aproximação F dada na expressão (5.48) com ν1=f e ν2=ν-p+1 graus de liberdade.

O valor ν é definido em (5.49).

( ) ( )1 1t 1/ 2 1/ 2G w D rI D rI w− −

= + + (5.47)

c( p 1)GF

cfν − +

(5.48)

Page 219: multivariada - ufla

Ferreira, D.F. Estatística multivariada 213

2 2t 2 t 2

t 1 t 11 2

1 1 w D(D I) w 1 w (D I) wn 1 w (D I) w n 1 w (D I) w

− −

− −

⎡ ⎤ ⎡ ⎤+ += +⎢ ⎥ ⎢ ⎥ν − + − +⎣ ⎦ ⎣ ⎦

(5.49)

Teste de Bartlett para igualdade de matrizes de covariâncias

O teste da razão de verossimilhança para igualdade de matrizes de

covariâncias de populações Wishart foi apresentado por Bartlett (1947). Este autor

demonstrou que sob a hipótese

o 1 2 kH :Σ = Σ = = Σ = Σ

a estatística da expressão (5.50) tem distribuição assintótica de qui-quadrado com

ν=(k-1)p(p+1)/2 graus de liberdade. Em que, k é o número de grupos ou

subpopulações amostradas, p é a dimensão das matrizes.

( )

2k2c

j 1 j

k

j j pj 1

1 1 2p 3p 11n 1 n k 6(p 1)(k 1)

n 1 ln S (n k) ln S

=

=

⎡ ⎤⎛ ⎞⎛ ⎞ ⎛ ⎞+ −⎢ ⎥χ = − − −⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟− − + −⎢ ⎥⎝ ⎠⎝ ⎠⎝ ⎠⎣ ⎦

⎡ ⎤⎡ ⎤× − − −⎢ ⎥⎣ ⎦⎣ ⎦

(5.50)

Page 220: multivariada - ufla

5. Inferências sobre o vetor média 214

em que: Sj é o estimador não viesado da covariância da sub-população j, baseado

em nj observações multivariadas de dimensão p; k

jj 1

n n=

=∑ ; j=1, 2, ..., k, e

( )k

j jj 1

p

n 1 SS

n k=

−=

Exemplo 5.8. Testar a hipótese de igualdade das covariâncias de 2 populações.

Uma amostra de 11 observações foi obtida da primeira população e outra de 15 da

segunda. Duas variáveis foram mensuradas, sendo as estimativas amostrais

apresentadas a seguir (Fonte: Bock, 1975).

1

0,51964 0, 44700S

0, 44700 0, 47600⎡ ⎤

= ⎢ ⎥⎣ ⎦

com n1=11 e 2

0,85143 0,73786S

0,73786 1,54828⎡ ⎤

= ⎢ ⎥⎣ ⎦

com n2=15

O valor de n=11+15=26 e de k=2 (populações). A hipótese a ser

testada é:

o 1 2H :Σ = Σ = Σ

Os demais valores necessários para a realização do teste de

hipótese são:

1ln S 3,0692181= − ; 2ln S 0, 2564228= − ; e pln S 0,9031351= −

Page 221: multivariada - ufla

Ferreira, D.F. Estatística multivariada 215

Logo,

( ) ( )( ) ( )

22c

1 1 1 2 2 3 2 1110 14 24 6 3 1

10 3,0692181 14 0, 2564228 24 0,9031351

11, 43

⎡ ⎤⎛ ⎞× + × −⎛ ⎞χ = − − + − ×⎢ ⎥⎜ ⎟⎜ ⎟ × ×⎝ ⎠⎝ ⎠⎣ ⎦

⎡ ⎤× × − + × − − × − =⎣ ⎦

=

Os graus de liberdade são ν=1x2x3/2=3 e os valores críticos 5% e

1% da distribuição de qui-quadrado são 23 (0,05) 7,8147χ = e 2

3 (0,01) 11,3448χ = .

Como o valor calculado (11,43) é superior aos valores críticos, rejeita-se H0 com

P<0,01. Portanto, existem evidências de que as covariâncias das duas populações

não sejam iguais.

5.7. Exercício

5.7.1. A matriz X, apresentada a seguir, representa uma amostra de n=4

observações retiradas de uma distribuição normal bivariada.

Page 222: multivariada - ufla

5. Inferências sobre o vetor média 216

11 210 4

9 310 6

X

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

a) Teste a hipótese de que µ ´0 = [9 2] seja um valor plausível para representar a

média populacional.

b) Obtenha a região de 95% de confiança e esboce graficamente a mesma,

destacando o valor hipotético nessa região.

5.7.2. Com os dados do exercício 5.7.1, determine os intervalos de confiança

simultâneo para os componentes de média individual por:

a) T2 de Hotelling

b) Procedimento de Bonferroni

c) Teste de t de student univariado.

5.7.3. Com os dados do exemplo 5.3, utilizando as duas primeiras variáveis, teste

a pressuposição de normalidade univariada (marginal) e bivariada,

utilizando os procedimentos apresentados no capítulo 4.

Page 223: multivariada - ufla

Ferreira, D.F. Estatística multivariada 217

5.7.4. Utilizando os dados do exemplo 5.5, faça o IC simultâneo para proporções

de 90% de confiança.

5.7.5. Os dados abaixo se referem ao peso e ao teor de proteína, medidos em 6

animais antes e após um período de dieta balanceada. Teste a hipótese de

que não houve efeito da dieta. Determinar a região de confiança e o esboço

da região de confiança, o intervalo de confiança simultâneo e de Bonferroni,

no nível de 5% de probabilidade.

Antes Após Peso Teor de proteína

(%) Peso Teor de proteína

(%) 250 300 350 320 400 320

10 12 13 15 9 11

280 320 360 380 410 350

12 16 13 18 15 12

Page 224: multivariada - ufla

5. Inferências sobre o vetor média 218

5.7.6. Com os dados do exemplo 5.7, reapresentados a seguir, obter os intervalos

de confiança de 95% simultâneos e de Bonferroni, para as diferenças de

médias marginais. Compare os resultados com a Figura 5.3, e obtenha

conclusões de interesse.

A B Produtividade Altura da planta Produtividade Altura da planta

5,7 8,9 6,2 5,8 6,8 6,2

2,10 1,90 1,98 1,92 2,00 2,01

4,4 7,5 5,4 4,6 5,9

1,80 1,75 1,78 1,89 1,90

Page 225: multivariada - ufla

||[ ]||Análise de variância multivariada

6

6.1. Introdução

Com o desenvolvimento da estatística no século XX a possibilidade

de condução e análise de experimentos propiciou grande sucesso às pesquisas,

principalmente pela habilidade de lidar com variações não controláveis. O primeiro

a representar os resultados experimentais por um modelo foi W. S. Gosset

(Student, 1908).

As terminologias dos delineamentos experimentais,

independentemente da área de aplicação, se tornaram iguais aos dos

experimentos em agricultura. Portanto, unidades experimentais são denominadas

de parcelas e o valor da variável aleatória como resposta. Experimentos com

apenas uma classificação dos tratamentos são denominados de delineamentos

inteiramente casualizados ou de classificação simples. Experimentos em que

vários tipos de tratamentos são aplicados ao material experimental

simultaneamente são denominados de fatoriais. Outra classe de experimentos é

gerada pelos arranjos hierarquizados dos materiais.

Page 226: multivariada - ufla

6. Análise de variância multivariada 220

O presente capítulo tem por objetivo apresentar a extensão

multivariada dos métodos univariados de análise de variância. As idéias básicas

desse capítulo podem ser estendidas a todos os tipos de delineamentos e arranjos

das estruturas de tratamentos, embora sejam apresentas na situação mais

simples, a do delineamento de classificação simples.

6.2. Delineamento de classificação simples

O caso mais simples dos delineamentos experimentais é o de

classificação simples ou delineamento inteiramente casualizado. O arranjo

experimental consiste em g tratamentos, possivelmente incluindo a(s)

testemunha(s), para os quais as unidades experimentais são aleatorizadas.

As amostras aleatórias de cada tratamento são representadas por:

Tratamento 1: 11X , 12X , ..., 11nX

Tratamento 2: 21X , 22X , ..., 22nX

Tratamento g: g1X , g2X , ..., ggnX

Page 227: multivariada - ufla

Ferreira, D.F. Estatística multivariada 221

A análise de variância multivariada (MANAVA) é usada para

investigar se os vetores de médias de tratamento são os mesmos, e se não, qual

componente de média difere significativamente. Algumas pressuposições da

estrutura dos dados devem ser obedecidas para validade da inferência estatística:

(a) ii1 i2 i nX ,X , ,X deve ser uma amostra aleatória de tamanho ni do tratamento i,

com média iµ , i=1, 2, ..., g. As amostras dos tratamentos devem ser

independentes; (b) todos os tratamentos possuem covariância comum Σ; e

(c) cada tratamento tem distribuição normal multivariada.

O modelo de análise de variância multivariada está apresentado a

seguir. Neste modelo cada componente é um vetor de p componentes.

i j i i j iX e i 1, 2, , g e j 1, 2, , n= µ+ τ + = = (6.1)

em que, i je é independentemente e identicamente distribuído e Np(0, Σ) para todo i

e j; µ é o vetor média geral e iτ representa o vetor de efeitos do i-ésimo

tratamento. Pode-se adotar a restrição paramétrica g

i ii 1

n 0=

τ =∑ .

Os erros do vetor i jX são correlacionados, no entanto a matriz de

covariância Σ é a mesma para todos os tratamentos.

O vetor de observações pode ser decomposto em:

Page 228: multivariada - ufla

6. Análise de variância multivariada 222

i j .. i j.. i. i.X X (X X ) (X X )

Observação Estimativa da Estimativa do resíduomédia geral efeito do tratamento

= + − + −

(6.2)

Analogamente, demonstra-se que a soma de quadrados e produtos

totais possui a seguinte decomposição:

Soma de quadrados e produtos (SQP) = SQP tratamentos + SQP resíduo

total corrigido

( )( )

( )( ) ( )( )

i

i

ng t

i j i j.. ..i 1 j 1

ng g tti i. .. i. .. i j i ji. i.

i 1 i 1 j 1

X X X X

n X X X X X X X X

= =

= = =

− − =

= − − + − −

∑∑

∑ ∑∑

(6.3)

A soma de quadrados e produtos do resíduo pode ser expressa por:

( )( )ing t

i j i j 1 1 2 2 g gi. i.i 1 j 1

E X X X X (n 1)S (n 1)S ... (n 1)S= =

= − − = − + − + + −∑∑ (6.4)

em que Si é a matriz de covariância amostral do i-ésimo tratamento.

O teste da hipótese de inexistência de efeitos de tratamentos,

0 1 2 gH : 0τ = τ = = τ = (6.5)

Page 229: multivariada - ufla

Ferreira, D.F. Estatística multivariada 223

é realizado considerando as magnitudes das somas de quadrados e produtos de

tratamento e resíduo pela variância generalizada.

O esquema de análise de variância multivariada (MANAVA) está

apresentado na Tabela 6.1. A fonte de variação total é particionada em causas de

variação devido a tratamento e ao erro experimental ou resíduo.

Tabela 6.1. Tabela de MANAVA para testar a hipótese de igualdade do vetor de

efeito dos tratamentos em um delineamento de classificação simples.

FV GL Matriz de SQP

Tratamento g-1 ( )( )g t

i i. i... ..i 1

B n X X X X=

= − −∑

Resíduo g

ii 1

n g=

υ = −∑ ( )( )ing t

i j i ji. i.i 1 j 1

E X X X X= =

= − −∑∑

Total corrigido g

ii 1

n 1=

−∑ ( )( )ing t

i j i j.. ..i 1 j 1

B E X X X X= =

+ = − −∑∑

Os critérios para o teste da hipótese apresentada em (6.5), envolvem

variâncias generalizadas e autovalores e autovetores da maximização de duas

formas quadráticas dadas em (2.15 e 2.16).

De maneira geral, supondo que H seja a matriz de SQP relativa aos

efeitos dos tratamentos que se deseja testar a igualdade, para o exemplo H=B,

então a solução da equação determinantal dada por:

Page 230: multivariada - ufla

6. Análise de variância multivariada 224

( )k kH E e 0−λ =

fornece as estimativas dos autovalores e autovetores, necessários aos testes de

hipótese (6.5), os quais estão apresentados na Tabela 6.2. Quatro critérios

existem para o teste desta hipótese. Muitos autores recomendam utilizar o critério

de Wilks como referência, por se tratar de um teste baseado na razão de

verossimilhança. Outros recomendam que a hipótese nula deva ser rejeitada se

pelo menos três dos quatro critérios forem significativos em um nível nominal de

significância previamente adotado. Esses critérios podem ser aproximados pela

distribuição F. Essas aproximações, também, se encontram apresentadas na

Tabela 6.2.

Page 231: multivariada - ufla

Ferreira, D.F. Estatística multivariada 225

Tabela 6.2. Estatísticas multivariadas e suas equivalência aproximada com a

distribuição F.

Critério Estatística Aproximação F GL de F

Wilks

k k

|E| 1|H E| 1

Λ= =+ +λ∏ F

rt fpq

t

t

=−⎛

⎜⎜

⎟⎟

−⎛⎝⎜

⎞⎠⎟

1 21

1

Λ

Λ

v1=pq

v2=rt-2f

Traço de Pillai 1 k

k

V tr[H(H E) ]1

− λ= + =

+λ∑ FV

s Vn sm s

=−

⎛⎝⎜

⎞⎠⎟

+ ++ +

⎛⎝⎜

⎞⎠⎟

2 12 1

v1=s(2m+s+1)

v2=s(2n+s+1)

Traço de Hotelling Lawley

1kU tr(HE )−= = λ∑

2

2(sn 1)UFs (2m s 1)

+=

+ +

v1=s(2m+s+1)

v2=2(sn+1)

Raíz máxima

de Roy θ λ= 1 ( d q)F

dθ ν− +

= v1=d

v2= d qν − +

p: número de variáveis = posto(H+E); q: GL de tratamento (ou do contraste); ν: GL do erro; S=min(p,q); r=ν- (p-q+1)/2;f=(pq-2)/4; d=max(p,q); m=(|p-q|-1)/2; n=(ν-p-1)/2; e

tp q

p qSe p q

cc

=−

+ −+ − >

⎨⎪

⎩⎪

2 2

2 22 24

55 0

1

Obs. Critério de Wilks possui aproximação exata de F se min(p,q)≤2

Page 232: multivariada - ufla

6. Análise de variância multivariada 226

Exemplo 6.1

Num experimento envolvendo 4 variedades de feijão, avaliou-se na seca, a

produtividade (P) em kg/ha e número de grão por vagem (NGV), utilizando 5

repetições. Os resultados obtidos foram:

Cultivar

A B C D

P NGV P NGV P NGV P NGV

1082 1070 1180 1050 1080

4,66 4,50 4,30 4,70 4,60

1163 1100 1200 1190 1170

5,52 5,30 5,42 5,62 5,70

1544 1500 1550 1600 1540

5,18 5,10 5,20 5,30 5,12

1644 1600 1680 1700 1704

5,45 5,18 5,18 5,40 5,50

5462 22,76 5823 27,56 7734 25,90 8328 26,71

Teste a hipótese de igualdade do vetor média de tratamentos.

Os vetores de médias amostrais de tratamento são:

1.

1092, 400X

4,552⎡ ⎤

= ⎢ ⎥⎣ ⎦

2.

1164,600X

5,512⎡ ⎤

= ⎢ ⎥⎣ ⎦

3.

1546,800X

5,180⎡ ⎤

= ⎢ ⎥⎣ ⎦

4.

1665,600X

5,342⎡ ⎤

= ⎢ ⎥⎣ ⎦

E a média geral:

..

1367,35000X

5,1465⎡ ⎤

= ⎢ ⎥⎣ ⎦

Page 233: multivariada - ufla

Ferreira, D.F. Estatística multivariada 227

A matriz B é obtida por:

[ ] [ ]{ }

[ ] [ ]{ }

B =⎡

⎣⎢

⎦⎥ −

⎣⎢

⎦⎥

⎧⎨⎩

⎫⎬⎭

− + +

+⎡

⎣⎢

⎦⎥ −

⎣⎢

⎦⎥

⎧⎨⎩

⎫⎬⎭

51092 400

4 5521367 3500

5 5121092 400 4 552 1367 3500 5 1465

51665 600

5 3421367 3500

5 5121665 600 5 512 1367 3500 5 1465

,,

,,

, , , ,

,,

,,

, , , ,

Obviamente, quando os cálculos não são realizados no computador,

é mais fácil de se obter as matrizes de somas de quadrados e produtos, pelas

expressões apresentadas a seguir. Para isso, considere que Xi j k representa o

valor observado do i-ésimo tratamento, na j-ésima unidade experimental e na

k-ésima variável. Então,

2 2gi.k ..k

kk gi 1 i

ii 1

X XSQBn n=

=

= −∑∑

(6.6)

representa a soma de quadrados de tratamento para o i-ésimo componente, e

gi.k i. .. ..k

k gi 1 i

ii 1

X X X XSPBn n=

=

= −∑∑

(6.7)

representa a soma de produtos de tratamento entre as variáveis k e , com

k≠ =1, 2, ..., p.

Page 234: multivariada - ufla

6. Análise de variância multivariada 228

Para o total as SQ e SP são:

i2ng

2 ..kkk gijk

i 1 j 1i

i 1

SQTn

XX= =

=

= −∑∑∑

(6.8)

ing..k ..

k gijk iji 1 j 1

ii 1

SPTn

X XX X= =

=

= −∑∑∑

(6.9)

Para o resíduo basta obter a diferença:

E = T - B (6.10)

No exemplo, as matrizes B, E e T são:

B =⎡

⎣⎢

⎦⎥

1189302 1500 768 3605768 3605 2 6318

, ,, ,

T=⎡

⎣⎢

⎦⎥

1218360 5500 778 2645778 2645 2 9517

, ,, ,

E T B= − =⎡

⎣⎢

⎦⎥

29058 4000 9 90409 9040 0 3199, ,, ,

O quadro de MANAVA está apresentado a seguir:

Page 235: multivariada - ufla

Ferreira, D.F. Estatística multivariada 229

FV GL SQ&P

Tratamento 3 1189302,1500 768,3605

B768,3605 2,6318

⎡ ⎤= ⎢ ⎥⎣ ⎦

Erro 16 29058, 4000 9, 9040E

9, 9040 0, 3199⎡ ⎤

= ⎢ ⎥⎣ ⎦

Total Corrigido 19 1218360,5500 778, 2645T

778, 2645 2,9517⎡ ⎤

= ⎢ ⎥⎣ ⎦

Para o teste da hipótese 0 1 2 gH : 0τ = τ = = τ = , a razão entre o par

de formas quadráticas t tk k k ke Be e e Ee , deve ser maximizada. Isto equivale a

resolver o sistema de equação,

( )k kB E e 0−λ =

Para o exemplo, os autovalores e autovetores são:

[ ]t1 141,3463 e 0,0058 0,1952λ = =

[ ]t2 26,6781 e 0,0012 1,7667λ = = −

Alguém desavisado poderia pensar que o valor do segundo elemento

do segundo autovetor (1,7667) fosse algum tipo de erro de digitação, por se tratar

de um valor superior a 1. No entanto, isto é perfeitamente possível, pois os

Page 236: multivariada - ufla

6. Análise de variância multivariada 230

autovetores, no caso da maximização da razão entre duas formas quadráticas,

são normalizados da seguinte forma: t tk k ke Ee 1e e Ee 0 (k )= = ≠ , o que pode ser

facilmente verificado.

Todos os critérios utilizados rejeitaram a hipótese de igualdade dos

vetores efeitos tratamento (P<0,01), como pode ser visto no quadro seguinte.

Critério Estatística F G.L. Pr>F

Wilks Λ=0,0030756 85,16 v1=6 e v2=30 0,0001

Traço de Pillai V=1,846145 64,00 v1=6 e v2=32 0,0001

Traço de Hotelling

Lawley

U=48,0244

112,06

v1=6 e v2=28

0,0001

Raíz máxima de

Roy θ=41,3463 220,51 v1=3 e v2=16 0,0001

p=2; q=3; v=16; s=2; r=16; f=1; d=3; m=0; n=6,5; e t=2

6.3. Intervalos de confiança simultâneos para o efeito de tratamentos

Quando a hipótese de efeitos iguais para tratamentos é rejeitada,

aqueles efeitos que levaram a rejeição são de interesse. Para comparações

simultâneas duas a duas, a aproximação de Bonferroni pode ser usada para

construir intervalos de confiança simultâneos para os componentes da diferença

h iτ − τ (diferenças de efeitos dos tratamentos h e i, respectivamente). Esses

intervalos são mais curtos que os obtidos para todos os contrastes, e requerem

apenas valores críticos da estatística univariada t.

Page 237: multivariada - ufla

Ferreira, D.F. Estatística multivariada 231

Fazendo ikτ o k-ésimo componente de iτ . Desde que iτ pode ser

estimado por i i. ..ˆ X Xτ = − , então,

i.k ..kikˆ X Xτ = − (6.11)

Devido a (6.11) corresponder a diferença entre duas médias

amostrais independentes, o teste de t de duas amostras é válido, modificando-se

adequadamente o nível de significância. A estimativa da variância do contraste

entre duas médias de tratamentos é dada por,

^kk

h.k i.k

h i

E1 1Var(X X )n n

⎛ ⎞− = +⎜ ⎟ υ⎝ ⎠

(6.12)

A divisão de Ekk pelos seus respectivos graus de liberdade (υ), é

devido ao fato de que, o elemento em questão (Ekk) refere-se a uma soma de

quadrados. Desta forma, desde que p variáveis são consideradas e g(g-1)/2

comparações duas a duas serão realizadas, então o intervalo de confiança

protegido por Bonferroni para diferença de efeitos de tratamento é dado por:

kkh.k i.k

h i

E1 1X Xpg(g 1) n nt υ

⎛ ⎞⎛ ⎞α− ± +⎜ ⎟⎜ ⎟− υ⎝ ⎠ ⎝ ⎠

(6.13)

para todos os k = 1, 2, ..., p e todas as diferenças h i 1, 2, ..., g< = .

Page 238: multivariada - ufla

6. Análise de variância multivariada 232

6.4. Exercício

6.7.1. Repetir a análise de variância do exemplo 6.1 utilizando o “proc GLM” do

SAS e solicitar a realização dos seguintes contrastes: i) A e B vs C e D; ii) A

vs B e iii) C vs D.

Page 239: multivariada - ufla

||[ ]||Componentes principais

7

7.1. Introdução

A análise de componentes principais está relacionada com a

explicação da estrutura de covariância por meio de poucas combinações lineares

das variáveis originais em estudo. Os objetivos dessa análise são: i) redução da

dimensão original; e ii) facilitação da interpretação das análises realizadas. Em

geral, a explicação de toda a variabilidade do sistema determinado por p variáveis

só pode ser efetuada por p componentes principais. No entanto, uma grande parte

dessa variabilidade pode ser explicada por um número r menor de componentes,

r≤p. Os componentes principais são uma técnica de análise intermediária e,

portanto não se constituem em um método final e conclusivo. Esse tipo de análise

se presta fundamentalmente como um passo intermediário em grandes

investigações científicas.

Essa técnica pode ser aplicada, ainda, na análise de regressão

múltipla, principalmente, nos casos de colinearidade ou de multicolinearidade;

aplica-se também à análise de agrupamento e como estimadores de fatores nas

técnicas multivariadas denominadas de análises fatoriais. Muitas outras aplicações

Page 240: multivariada - ufla

7. Componentes principais 234

de componentes principais são encontradas nas literaturas aplicadas. A técnica

AMMI (additive multiplicative interaction model) considera modelos lineares com

interação entre dois fatores e aplica como base para seus procedimentos a análise

de componentes principais.

7.2. Componentes principais populacionais

Algebricamente os componentes principais representam

combinações lineares de p variáveis aleatórias X1, X2, …, Xp. Geometricamente,

essas combinações lineares representam a seleção de novos eixos coordenados,

os quais são obtidos por rotações do sistema de eixos original, representados por

X1, X2, …, Xp. Os novos eixos representam as direções de máxima variabilidade.

Como pode ser demonstrado, os componentes principais dependem

somente da matriz de covariância Σ (ou da matriz de correlação ρ) e de

X1, X2, …, Xp. Seu desenvolvimento não requer pressuposições de normalidade

multivariada, mas possuem interpretações úteis em termos da constante elipsóide

de densidade, se a normalidade existir. A princípio, serão definidos os conceitos

de componentes principais populacionais. Posteriormente, naturalmente esses

conceitos serão estendidos para a situação amostral.

Seja o vetor aleatório t1 2 pX X X X⎡ ⎤= ⎣ ⎦ amostrado de uma

população com covariância Σ, cujos autovalores são λ1≥λ2≥…≥λp≥0, então, os

Page 241: multivariada - ufla

Ferreira, D.F. Estatística multivariada 235

componentes principais (Y1, Y2,…,Yp) são as combinações lineares dadas por

(7.1)

t1 11 11 1 12 2 1p p

t2 2 21 1 22 2 2p p

tp p p1 1 p2 2 pp p

Y e X e X e X ... e X

Y e X e X e X ... e X

Y e X e X e X ... e X

= = + + +

= = + + +

= = + + +

(7.1)

É fácil verificar que:

( ) ( )t t ti i i i i iVar(Y ) Var e X e Var X e e e= = = Σ (7.2)

( )t t ti k i k i kCov(Y ,Y ) Cov e X,e X e e= = Σ (7.3)

Dessa forma, pode-se definir o i-ésimo componente principal (Yi) por

(7.4), assumindo que o vetor X possui covariância Σ, com pares de autovalores e

autovetores ( )i i,e , i 1, 2, ..., pλ = , em que λ1≥λ2≥…≥λp≥0.

ti i i1 1 i2 2 ip pY e X e X e X ... e X i 1,2,...,p= = + + + = (7.4)

No capítulo 2, verificou-se que a maximização de uma forma

quadrática resultava na solução dada pelo conjunto de todos os pares de

autovalores e autovetores da matriz núcleo. Os autovetores da solução eram

Page 242: multivariada - ufla

7. Componentes principais 236

restritos ao comprimento unitário. Seja a forma quadrática dada por t

t

e ee eΣ

λ = , então

o seu máximo é obtido pela resolução da equação (7.5).

( )i iI e 0Σ − λ = (7.5)

É fácil perceber que dessa equação surge a seguinte e óbvia

relação, obtida no ponto máximo, dada por: i i ie eΣ = λ . Portanto, a variância e a

covariância de Yi, especificadas em (7.2) e em (7.3) são dadas por:

t t ti i i i i i i i i iVar(Y ) e e e e e e= Σ = λ = λ = λ (7.6)

t t ti k i k i k k k i kCov(Y ,Y ) e e e e e e 0 i k= Σ = λ = λ = ≠ (7.7)

Utilizando algumas propriedades matriciais estudadas no capítulo 2,

pode-se demonstrar que:

p p

i ii 1 i 1

11 22 pp 1 2 p

Var(X ) Var(Y )

... ...

= =

=

σ + σ + + σ = λ + λ + + λ

∑ ∑

A variação total existente nas variáveis Xi, i=1, 2,...,p é igual à

variação existente nos p componentes principais. Para demonstrar isso, seja Σ a

Page 243: multivariada - ufla

Ferreira, D.F. Estatística multivariada 237

matriz de covariância entre as p variáveis X, cujos pares de autovalores e

autovetores são dados por (λi, ie ). O componente principal Yi é definido por

ti iY e X= , o qual possui variância igual a λi.

Da decomposição espectral de Σ=PΛP’ e sabendo que PPt=PtP=I

verifica-se que:

( )ttr( ) tr P PΣ = Λ

Uma propriedade do traço de uma matriz é: tr(AB)=tr(BA). Fazendo

A=P e B=ΛPt, então,

( ) ( ) ( )p p

t tii i

i 1 i 1tr( ) tr P P tr P P tr

= =Σ = σ = Λ = Λ = Λ = λ∑ ∑

E, portanto, a porcentagem da variação total explicada pelo k-ésimo

componente principal é dada por (7.8).

kk p

ii 1

%VarExp(Y ) 100

=

λ= ×

λ∑ (7.8)

Em muitas situações em que se aplicam os componentes principais

se uma porcentagem de 70% ou mais for atribuída aos primeiros r componentes

principais, então, esses podem substituir as p variáveis originais sem perda de

Page 244: multivariada - ufla

7. Componentes principais 238

uma quantidade demasiada de informações. A determinação dessa porcentagem

da variação explicada pelos primeiros r componentes deve ser feita pelo

pesquisador interessado e que possui maior conhecimento da área estudada. A

determinação do número r de componentes para que uma determinada

porcentagem fixada da informação seja contemplada por eles é um dos problemas

que dificulta o emprego dessa metodologia.

Os componentes do autovetor ti i1 i2 ipe e e e⎡ ⎤= ⎣ ⎦ podem informar

sobre a importância das variáveis para o i-ésimo componente principal, por meio

de suas magnitudes. No entanto, esses componentes são influenciados pela

escala das variáveis. Para contornar tal problema, os pesquisadores podem

utilizar uma importante medida de associação, a qual não depende da magnitude

das mensurações (escala) das variáveis originais, que é o coeficiente de

correlação entre Yi e Xk. Esse coeficiente de correlação está apresentado em (7.9)

.

i k

ik iY ,X

kk

e, i,k 1,2,...,p

λρ = =

σ (7.9)

Demonstração: Para demonstrar (7.9), primeiro é apresentada a definição do

coeficiente de correlação. Posteriormente, foi avaliado cada termo dessa

expressão individualmente.

( )( ) ( )i k

i kY ,X

i k

Cov Y ,X

Var Y Var Xρ =

Page 245: multivariada - ufla

Ferreira, D.F. Estatística multivariada 239

Mas,

( ) ( ) ( )t t ti k i k iCov Y ,X Cov e X,X Cov e X, X= =

com, [ ]t 0 ...1... 0= , vetor composto de valores 0 e com 1 na k-ésima posição.

Logo,

( ) ( )t t t ti k i i iCov Y ,X Cov e X, X e e= = Σ = Σ

Como i i ie eΣ = λ , então,

( ) t t ti k i i i i i i ikCov Y ,X e e e e= Σ = λ = λ = λ

Da mesma forma as variâncias de Yi e Xk são:

( ) ( )t t ti i i i i i i iVar Y Var e X e e e e= = Σ = λ = λ

e,

k kkVar(X ) = σ

Assim, a prova fica completa, conforme descrito a seguir:

Page 246: multivariada - ufla

7. Componentes principais 240

( )( ) ( )i k

i k i iki ikY ,X

i kk kki k

Cov Y ,X eeVar Y Var X

λλρ = = =

λ σ σ

Exemplo 7.1

Sejam as variáveis aleatórias X1, X2 e X3 com covariância dada por:

4 1 01 4 00 0 2

⎡ ⎤⎢ ⎥Σ = ⎢ ⎥⎢ ⎥⎣ ⎦

Obter os componentes principais, a correlação das variáveis originais com os

componentes e verificar a veracidade da afirmativa a seguir de forma numérica:

p p

i ii 1 i 1

11 22 pp 1 2 p

Var(X ) Var(Y )

... ...

= =

=

σ + σ + + σ = λ + λ + + λ

∑ ∑

Aplicando-se o power method, determinaram-se os pares de

autovalores e autovetores de Σ, os quais são:

[ ]t1 15 e 0,7071 0,7071 0λ = = , [ ]t

2 23 e 0,7071 0,7071 0λ = = − e [ ]t3 32 e 0 0 1λ = =

Os componentes principais são:

Page 247: multivariada - ufla

Ferreira, D.F. Estatística multivariada 241

t1 1 1 2Y e X 0,7071X 0,7071X= = +

t2 2 1 2Y e X 0,7071X 0,7071X= = −

t3 3 3Y e X X= =

A variável X3 é individualmente um de os componentes principais por

não ser correlacionada com nenhuma das outras duas variáveis. As variâncias de

os componentes principais são:

1 1Var(Y ) 5= λ = , 2 2Var(Y ) 3= λ = e 3 3Var(Y ) 2= λ =

Pode-se mostrar, a título de ilustração, que:

1 1 2 1 2 1 22 2 2 2 2 2Var(Y ) Var X X Var X Var X 2Cov X , X

2 2 2 2 2 2⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞

= + = + +⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠

=

( ) ( ) ( )1 2 1 21 1 2 2Var X Var X 2 Cov X ,X2 2 2 2

= + + = 11 14 4 1 52 2

+ + = = λ

Verifica-se, também, que:

11 22 33 1 2 3σ + σ + σ = λ + λ + λ

4+4+2=5+3+2

10=10 c.q.m.

Page 248: multivariada - ufla

7. Componentes principais 242

A porcentagem da variação explicada por cada componente é

apresentada na tabela seguinte.

Componente Var(Yi)=λi % da variação explicada % variação acumulada Y1 5 50 50 Y2 3 30 80 Y3 2 20 100

Os coeficientes de correlação entre os componentes e as variáveis

originais são:

Componente X1 X2 X3 Y1 0,7906 0,7906 0,0000 Y2 0,6124 -0,6124 0,0000 Y3 0,0000 0,0000 1,0000

Para ilustrar um dos cálculos usando a expressão (7.9), apresenta-se

a seguir a correlação entre Y1 e X1.

1 1

11 1Y ,X

11

2 5e 2 0,79064

×λρ = = =

σ.

Para o componente principal mais importante (Y1), concluiu-se que

X1 e X2 são igualmente importantes.

Os componentes principais podem ser obtidos pela padronização das

variáveis originais por:

Page 249: multivariada - ufla

Ferreira, D.F. Estatística multivariada 243

i ii

ii

XZ −µ=

σ (7.10)

Em notação matricial tem-se:

( )1/ 2Z V X−= −µ (7.11)

em V-1/2 é uma matriz diagonal com os elementos da diagonal dados ii1 σ . É

fácil verificar que:

( )E Z 0= e ( ) 1/ 2 1/ 2Cov Z V V− −= Σ = ρ

Então, os componentes principais de Z são dados pelos autovalores

e autovetores de ρ, matriz de correlação de X . Os autovalores e autovetores de Σ

são, em geral, diferentes daqueles derivados de ρ.

Sejam as variáveis padronizadas Z1, Z2, ...., Zp disposta no vetor Z

com ( )Cov Z = ρ , então, os componentes principais são dados por:

( )t t 1/ 2i i iY e Z e V X−= = −µ , i=1, 2, ..., p (7.12)

Da mesma forma, verifica-se que:

Page 250: multivariada - ufla

7. Componentes principais 244

p p

i ii 1 i 1p

ii 1

Var(Y ) Var(Z ) p

p

= =

=

= =

λ =

∑ ∑

∑ (7.13)

Também se verifica que:

i kY ,Z ik ieρ = λ (7.14)

Sendo que em todos esses casos (λi, ie ) são os autovalores e

autovetores de ρ, com λ1≥λ2≥...≥λp. As demonstrações de (7.12), (7.13) e (7.14)

podem ser realizadas da mesma forma que as demonstrações anteriores,

substituindo Σ por ρ.

Para algumas matrizes de covariância, com estruturas especiais,

existem simples formas de se expressar os componentes principais. Serão

tratados alguns desses casos, conforme apresentado em Johnson e Wichern,

(1998) e em Morrison (1976). Para uma matriz Σ diagonal,

11

22

pp

0 00 0

0 0

σ⎡ ⎤⎢ ⎥σ⎢ ⎥Σ =⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦

(7.15)

Os autovalores e autovetores são dados por:

Page 251: multivariada - ufla

Ferreira, D.F. Estatística multivariada 245

λi=σii e [ ]tie 0 0 1 0 0= com 1 na i-ésima posição e 0 nas demais.

A demonstração disso pode ser facilmente realizada, uma vez que

das equações de maximização de formas quadráticas verifica-se que : i i ie eΣ = λ .

Assumindo-se as definições anteriores para os autovalores e autovetores verifica-

se que:

i i i

i ii i

11

22ii

pp

e ee e

0 0

0 00 0

0 01 10 0

0 0

0 0

Σ = λ= Σ = σ

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥σ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥σ ⎢ ⎥ ⎢ ⎥⎢ ⎥= = σ⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥σ ⎢ ⎥ ⎢ ⎥⎢ ⎥⎣ ⎦⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

Dessa forma, pode-se concluir que (σii, ie ), com ie definido

anteriormente, são os pares de autovalores e autovetores de Σ. Desde que os

componentes principais são dados pelas combinações lineares tie X =Xi, então, os

componentes principais são as próprias variáveis originais não correlacionadas,

cujos autovalores são as próprias variâncias originais das respectivas variáveis

aleatórias. Do ponto de vista de extração de componentes principais nada pode

ser ganho, uma vez que os eixos originais já estão no sentido de maior

variabilidade. Dessa forma não há necessidade para fazer rotação dos eixos

Page 252: multivariada - ufla

7. Componentes principais 246

originais. A estandardização não altera a situação, uma vez que ρ=I, e o par

autovalor e componente principal é dado por (1, Zi), em que Zi é a i-ésima variável

padronizada.

Outro tipo de matriz de covariância com determinado padrão é

apresentado a seguir, o qual descreve muitas vezes o comportamento de

entidades biológicas, desempenha um papel importante na teoria dos

componentes principais.

2 2 2

2 2 2

2 2 2

⎡ ⎤σ ρσ ρσ⎢ ⎥ρσ σ ρσ⎢ ⎥Σ =⎢ ⎥⎢ ⎥ρσ ρσ σ⎢ ⎥⎣ ⎦

(7.16)

A matriz de correlação correspondente é dada por:

11

1

ρ ρ⎡ ⎤⎢ ⎥ρ ρ⎢ ⎥ρ =⎢ ⎥⎢ ⎥ρ ρ⎣ ⎦

(7.17)

que implica em uma estrutura de igualdade de correlação entre as p variáveis

estudadas.

Morrison (1976) demonstra que os componentes principais de (7.16)

são dados por dois grupos. O primeiro grupo com o primeiro componente e o

segundo com os demais componentes principais. O primeiro componente principal

de (7.16) é definido pelo par autovalor e autovetor apresentado a seguir.

Page 253: multivariada - ufla

Ferreira, D.F. Estatística multivariada 247

[ ]21 1 (p 1)λ = σ + − ρ (7.18)

t1

1 1 1e , ,...,p p p

⎡ ⎤= ⎢ ⎥⎢ ⎥⎣ ⎦

(7.19)

Para a matriz de correlação definida em (7.17), pode-se demonstrar

que 7.18 e 7.19 permanecem válidos, sendo necessário apenas fazer σ2=1. A

proporção da explicação do primeiro componente principal é dada por

[ ]100 1 (p 1) / p+ − ρ (%) do total do conjunto de variáveis. Se ρ é próximo a 1 o

primeiro componente principal terá uma elevada explicação da variação total.

Os demais (p-1) componentes principais possuem valores

característicos iguais, dados por:

( )2i 1 ; i 2, 3, , pλ = σ −ρ = (7.20)

e seus respectivos autovetores são iguais a:

Page 254: multivariada - ufla

7. Componentes principais 248

t2

t3

ti

tp

1 1e , ,0,...,01 2 1 21 1 2e , , ,0,...,0

2 3 2 3 2 3

1 1 (i 1)e ,..., , ,0,...,0(i 1) i (i 1) i (i 1) i

1 1 (p 1)e ,..., ,(p 1) p (p 1) p (p 1) p

⎧ −⎡ ⎤=⎪ ⎢ ⎥× ×⎣ ⎦⎪⎪ −⎡ ⎤=⎪ ⎢ ⎥× × ×⎣ ⎦⎪⎪⎪⎨ ⎡ ⎤− −⎪ = ⎢ ⎥⎪ − × − × − ×⎢ ⎥⎣ ⎦⎪⎪⎪ ⎡ ⎤− −⎪ = ⎢ ⎥⎪ − × − × − ×⎢ ⎥⎣ ⎦⎩

(7.21)

Finalmente é tratada a situação em que o vetor X é uma variável

aleatória da distribuição normal multivariada, ou seja, ( )pX N ,µ Σ∼ . Nesse caso os

componentes principais têm uma atrativa interpretação. Foi demonstrado no

capítulo 4 que a densidade de X é constante na elipsóide centrada em µ ,

( ) ( )t 1 2 2pX X c ( )−−µ Σ −µ = = χ α

cujos eixos são dados por 2p i i( ) e , i 1, 2, ..., p± χ α λ = , em que (λi, ie ) são os pares

de autovalor-autovetor de Σ. É possível verificar, fazendo 0µ = por conveniência

de algumas demonstrações que se seguem, que:

( ) ( ) ( )2 2 22 t 1 t t tp 1 2 p

1 2 p

1 1 1( ) X X e X e X ... e X−χ α = Σ = + + +λ λ λ

Page 255: multivariada - ufla

Ferreira, D.F. Estatística multivariada 249

em que tie X, i 1, 2, ..., p= são os componentes principais de X . Fazendo

ti iY e X, i 1, 2, ..., p= = tem-se

2 t 1 2 2 2p 1 2 p

1 2 p

1 1 1( ) X X Y Y ... Y−χ α = Σ = + + +λ λ λ

Essa última equação define uma elipsóide com os eixos coordenados

Y1, Y2, ..., Yp dispostos nas direções de 1 2 pe , e , ..., e , respectivamente. Como λ1 é o

maior autovalor, o maior eixo tem a direção definida por 1e , os eixos

remanescentes têm a direção definida por 2 pe , ..., e .

Foi assumido que 0µ = . No entanto, é pouco provável que isso

aconteça em uma situação real. Todavia, as interpretações definidas

anteriormente são válidas da mesma forma, apenas sendo necessário definir o

i-ésimo componente principal centrado na média, por:

( )ti iY e X , i 1, 2, ..., p= −µ = (7.22)

o qual tem média zero e direção definida por ie . Na Figura 7.1 ilustram-se os

componentes principais bivariados com densidade fixa de 95%. A rotação dos

eixos X1 e X2 nos novos eixos Y1 e Y2 são a essência dos componentes principais.

Page 256: multivariada - ufla

7. Componentes principais 250

Figura 7.1. A elipse de 95% de densidade constante e os componentes principais

Y1 e Y2 para a distribuição normal bivariada com média 0µ = .

7.3. Componentes principais amostrais

Seja 1 2 nX , X , , X uma amostra aleatória retirada de uma população

p-variada qualquer com média µ e covariância Σ. O vetor de médias amostrais é

X , a matriz de covariância amostral é S e a matriz de correlação amostral é R. O

objetivo dessa seção é apresentar os conceitos de componentes principais para a

estrutura de covariância amostral.

As combinações lineares das variáveis mensuradas que maximizam

a variação total da amostra e que são mutuamente ortogonais são chamadas de

componentes principais amostrais. Seja a forma quadrática

Y2

Y1

Page 257: multivariada - ufla

Ferreira, D.F. Estatística multivariada 251

t tˆ ˆ ˆQ Var(Y) Var(e X) e Se= = =

O máximo de Q não existe, pois quanto maior for o comprimento de

e maior será o valor de Q. É conveniente tomar-se o máximo de Q restrito ao

comprimento unitário de e . Dessa forma, o máximo tem que ser obtido da forma

quadrática restrita seguinte.

t

t

e See e

λ =

O máximo é obtido tomando-se a derivada em relação a e e

igualando-se a derivada a zero. O sistema obtido é resolvido em relação a e e as

soluções obtidas referem-se ao máximo.

t t t

t 2 t

t

t

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ2Se(e e) 2(e Se)e 2 e Se ˆS e 0ˆ ˆ ˆ ˆ ˆ ˆe (e e) e 'e e e

ˆ ˆe Se ˆS e 0ˆ ˆe e

⎛ ⎞∂λ −= = − Ι =⎜ ⎟∂ ⎝ ⎠

⎛ ⎞− Ι =⎜ ⎟

⎝ ⎠

A equação resultante é dada por:

( )ˆ ˆS e 0−λΙ = (7.23)

Page 258: multivariada - ufla

7. Componentes principais 252

A solução de (7.23) conduz aos pares de autovalores e autovetores

( )i iˆ ˆ; eλ de S, que correspondem a variância amostral e combinação linear que

definem os componentes principais amostrais, para i=1, 2, ..., p.

Portanto, o i-ésimo componente principal amostral é:

ti i i1 1 i2 2 ip p

ˆ ˆ ˆ ˆ ˆY e X e X e X ... e X , i 1, 2, ..., p= = + + + = (7.24)

em que 1 2 pˆ ˆ ˆ... 0λ ≥ λ ≥ ≥ λ ≥ são os autovalores amostrais de S correspondentes.

O estimador da variância amostral dos componentes principais é:

( )k kˆˆ ˆVar Y , k 1, 2,..., p= λ = (7.25)

e a covariância entre dois componentes principais (i e k) é:

( )i kˆ ˆˆCov Y , Y 0, i k 1, 2,..., p= ≠ = (7.26)

Pela mesma razão apresentada para os componentes principais

populacionais, verifica-se que a variação total explicada pelos componentes

principais amostrais é igual a p p

i iii 1 i 1

ˆ S= =λ =∑ ∑ . A partir da decomposição espectral de

S, dada por tˆ ˆ ˆS P P= Λ e da propriedade que tr(AB)=Tr(BA) demonstra-se que:

Page 259: multivariada - ufla

Ferreira, D.F. Estatística multivariada 253

( ) ( ) ( )p n

t tii i

i 1 i 1

ˆˆ ˆ ˆ ˆ ˆ ˆ ˆtr(S) S tr P P tr P P tr= =

= = Λ = Λ = Λ = λ∑ ∑

Dessa forma, a explicação do k-ésimo componente principal amostral

da variação total do sistema é:

kk p

ii 1

ˆˆ%VarExp(Y ) 100ˆ

=

λ= ×

λ∑ (7.27)

A correlação amostral entre iY e Xk é definida por:

i k

ik iY ,X

kk

ˆer , i,k 1,2,...,p

= = (7.28)

Os componentes principais podem ser definidos por componentes

principais amostrais centrados na média amostral X , da seguinte forma:

( ) ( ) ( ) ( )ti i i1 1 1 i2 2 2 ip p p

ˆ ˆ ˆ ˆ ˆY e X X e X X e X X ... e X X , i 1, 2, ..., p= − = − + − + + − = (7.29)

Se o vetor X for substituído em (7.29) por jX (vetor de observações

amostrais), pode-se obter os escores dos componentes principais. Esses escores

são plotados, muitas vezes, com o intuito de agrupar objetos ou itens, simplificar a

representação para uma ou duas dimensões, entre outras aplicações.

Page 260: multivariada - ufla

7. Componentes principais 254

Os componentes principais, em geral, não são invariantes com

relação a transformações nas escalas. A mudança de escala mais usual é aquela

que transforma as escalas das variáveis para uma outra escala sem dimensão,

cuja média é igual a zero e a variância é igual a 1. A padronização é obtida por:

( )1/ 2j jZ D X X , j 1,2,..., n−= − = (7.30)

em que D-1/2= ( )11 22 ppDiag 1/ S ,1/ S ,...,1/ S . O estimador de a covariância de Z é

dado por:

1/ 2 1/ 2 1/ 2 1/ 2ˆ ˆCov(Z) D Cov(X)D D SD R− − − −= = = (7.31)

Os componentes principais obtidos de R são definidos pelos pares

de autovalores e autovetores de R ( )i iˆ ˆ; eλ . Assim, o i-ésimo componente principal

amostral obtido da matriz de correlação amostral é dado por:

ti i i1 1 i2 2 ip p

ˆ ˆ ˆ ˆ ˆY e Z e Z e Z ... e Z , i 1, 2, ..., p= = + + + = (7.32)

A variação total explicada pelo k-ésimo componente principal é dada

por:

kk

ˆˆ%VarExp(Y ) 100pλ

= × (7.33)

Page 261: multivariada - ufla

Ferreira, D.F. Estatística multivariada 255

A correlação amostral entre iY e Zk é definida por:

i k

ˆ ik iY ,Zˆˆr e , i,k 1,2,...,p= λ = (7.34)

Pequenos valores para os últimos autovalores, tanto de S como de

R, indicam, em geral, a presença de dependência linear no conjunto de dados.

Neste contexto pelo menos uma variável é redundante e pode ser eliminada do

conjunto de variáveis originais.

Existe sempre a questão importante de o número de componentes a

ser retido. Não existe uma resposta definitiva para essa questão. Os aspectos que

devem ser considerados incluem a quantidade da variação amostral explicada, o

tamanho relativo dos autovalores e a interpretação subjetiva dos componentes.

Uma ferramenta visual importante para auxiliar a determinação de o número

suficiente de componentes a ser retido é o “scree plot”. O termo “scree” refere-se

ao acumulo de rochas nas bases de um penhasco, portanto os “scree plots” serão

considerados “gráficos de cotovelos”. Na Figura 7.2 observa-se que um cotovelo é

formado aproximadamente na posição i=4. Isso significa que os componentes

acima de 3λ possuem aproximadamente a mesma magnitude e são relativamente

pequenos. Isso indica que os três primeiros, talvez os quatros primeiros

componentes são suficientes para resumir a variação amostral total.

Page 262: multivariada - ufla

7. Componentes principais 256

1 2 3 4 5 6

0

2

4

6

8

10λi

componente principal

Figura 7.2. “Scree plot” de um exemplo com p=6 componentes principais para

ilustrar o processo de determinação de o número apropriado de

componentes a ser retido.

7.4. Gráficos dos componentes principais

Os gráficos provenientes dos componentes principais podem ser

reveladores de diversos aspectos presentes nos dados de interesse do

pesquisador. Em muitas áreas os pesquisadores utilizam os primeiros e mais

importantes componentes para agrupar objetos e itens de acordo com a

representação em duas ou no máximo três dimensões retidas. Os gráficos dos

componentes principais podem revelar observações suspeitas, como também

^

Page 263: multivariada - ufla

Ferreira, D.F. Estatística multivariada 257

permitir uma avaliação da suposição de normalidade. Por se tratarem de

combinações lineares de p variáveis, supostamente normais, é possível assumir a

normalidade para os componentes principais. O teste de normalidade pode ser

feito em apenas alguns poucos componentes, o que pode simplificar a

complexidades das análises necessárias e reduzir o número de testes a ser

realizado.

Os valores amostrais dos componentes principais obtidos a partir de

os dados amostrais originais são chamados de escores. A equação (7.35)

refere-se a definição do escore do k-ésimo componente principal, para a j-ésima

observação amostral.

tjk k j k1 j1 k2 j2 kp jp

ˆ ˆ ˆ ˆ ˆY e X e X e X ... e X , k 1, 2, ..., p; j 1, 2,..., n= = + + + = = (7.35)

De uma forma geral, os escores dos p componentes principais,

representados pelo vetor tj j1 j2 jp

ˆ ˆ ˆ ˆY Y Y ... Y⎡ ⎤= ⎣ ⎦ para a j-ésima observação amostral

tj j1 j2 jpX X X ... X⎡ ⎤= ⎣ ⎦ , são dados por:

t1t2t

j j j

tp

e

eˆ ˆY P X X

e

⎡ ⎤⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(7.36)

Page 264: multivariada - ufla

7. Componentes principais 258

Para o agrupamento de objetos e também para avaliar desvios de

normalidade obtêm-se gráficos dos primeiros componentes retidos em um

diagrama contendo pares de componentes. Também, é possível obter os

Q-Q plots para cada componente, conforme descrição realizada no capítulo 4.

Desvios de normalidade podem ser verificados e o teste da correlação Q-Q plot

pode ser realizado.

Para a verificação de observações suspeitas os gráficos dos últimos

componentes principais tomados dois a dois são utilizados. Esse tipo de gráfico

pode ajudar a identificar observações suspeitas. Também, com esse intuito os Q-

Q plots desses componentes, de menor importância para a variação total, são

utilizados.

Da equação (7.36) e relembrando que P é uma matriz ortogonal,

pois t tˆ ˆ ˆ ˆPP P P= = Ι , portanto ( ) 1tˆ ˆP P−= , pode-se demonstrar que:

j j 1 2 p j

j j1 1 j2 2 jp p

ˆ ˆ ˆˆ ˆ ˆX PY e e e Y

ˆ ˆ ˆˆ ˆ ˆX Y e Y e Y e

⎡ ⎤= = ⎣ ⎦

= + + +

(7.37)

Essa é uma importante equação que mostra que a observação

amostral multivariada jX pode ser recuperada dos escores dos componentes

principais correspondentes. Constitui-se, portanto, em uma proeminente forma de

identificar com elevada precisão as observações suspeitas. Para isso um número

q de componentes principais q≤p é retido para ajustar as n observações amostrais

Page 265: multivariada - ufla

Ferreira, D.F. Estatística multivariada 259

multivariadas. Dessa forma, uma medida da qualidade desse ajuste é obtida

avaliando quanto j1 1 j2 2 jq qˆ ˆ ˆˆ ˆ ˆY e Y e Y e+ + + difere de jX , tendo como desvio o valor

dado por jq 1 q 1 jq 2 q 2 jp pˆ ˆ ˆˆ ˆ ˆY e Y e Y e+ + + ++ + + . Essa medida é feita tomando-se o

quadrado desse desvio, o qual refere-se ao seu comprimento quadrático, ou seja,

por 2 2 2j q 1 j q 2 j p

ˆ ˆ ˆY Y Y+ ++ + + . As observações consideradas suspeitas são aquelas que

possuem pelo menos uma das coordenadas de j q 1 j q 2 j pˆ ˆ ˆY , Y , , Y+ + que contribui

para o comprimento quadrático total com grande valor.

7.5. Inferências para grandes amostras

Foram apresentados os conceitos fundamentais dos componentes

principais. A essência dos componentes principais está na obtenção dos

autovalores e autovetores da matriz de covariância (correlação). Os autovetores

determinam a rotação a ser realizada nos eixos coordenados originais nos

sentidos de maior variabilidade e os autovalores determinam as variâncias desses

novos eixos coordenados. As decisões com relação aos componentes principais

devem ser tomadas com base nos pares de autovalores-autovetores, ( )i iˆ ˆ; eλ ,

estimados na amostra. Esses autovalores e autovetores são diferentes dos

respectivos valores populacionais devido às variações amostrais. Derivações à

respeito das distribuições amostrais de iλ e de ie são apresentadas em Anderson

Page 266: multivariada - ufla

7. Componentes principais 260

(1963). Os resultados relativos aos resultados de grandes amostras são

apresentados a seguir, de uma forma resumida.

Suponha que 1 2 nX , X , , X seja uma amostra aleatória retirada de

uma população p-variada qualquer com média µ e covariância Σ. O vetor de

médias amostrais é X , a matriz de covariância amostral é S e a matriz de

correlação amostral é R. Suponha que Σ possui autovalores (desconhecidos)

distintos e positivos, quais sejam, 1 2 p 0λ > λ > > λ > com correspondentes

autovetores (desconhecidos) 1 2 pe , e , , e . O estimador amostral de Σ é S, sendo

que os estimadores de λi e ie são 1 2 pˆ ˆ ˆ 0λ > λ > > λ > e 1 2 pˆ ˆ ˆe , e , , e .

Girshik (1939), Lawley (1956) e Anderson (1963) demonstraram que

os resultados doravante apresentados se verificam para grandes amostras. Dessa

forma, os resultados proporcionados referem-se a teoria de distribuições de

grandes amostras para os autovalores t1 2 p

ˆ ˆ ˆ ˆ⎡ ⎤λ = λ λ λ⎣ ⎦ e para os autovetores

1 2 pˆ ˆ ˆe , e , , e de S. Fazendo Λ uma matriz diagonal dos autovalores 1 2 p, , ,λ λ λ de

Σ, então,

1. ( )ˆn λ −λ tem distribuição aproximadamente ( )2pN 0, 2Λ .

2. Seja

( )

ptk

i i k k2k 1 k ik i

E e e=≠

⎡ ⎤λ= λ ⎢ ⎥

λ −λ⎢ ⎥⎣ ⎦∑ (7.38)

então, ( ) ( )i i p 1 iˆn e e N 0, E−− ∼ .

Page 267: multivariada - ufla

Ferreira, D.F. Estatística multivariada 261

3. Cada iλ tem distribuição independente dos elementos do vetor característico

associado ie .

4. A covariância do r-ésimo elemento de ie e o s-ésimo elemento de je (i≠j) é:

( )( )

i j is jrir js 2

i j

e eˆ ˆCov e ,e (i j)

n

λ λ= ≠

λ −λ (7.39)

Os resultados 1 a 4 são referentes às propriedades distribucionais de

grandes amostras e válidas para o caso de p distintas raízes características.

Entretanto, Anderson (1963) aponta que o resultado 2 requer somente que λi seja

distinto dos demais p-1 valores característicos, os quais podem ter qualquer

multiplicidade. Esses resultados podem ser utilizados para construir testes de

hipóteses e intervalos de confiança para os autovalores e autovetores

populacionais.

O resultado 1 implica, em grande amostras, que os iλ ’s são

independentemente distribuídos com distribuição aproximadamente ( )2i iN , 2 / nλ λ .

As inferências podem ser derivadas desse resultado. O intervalo de confiança

para λi pode ser obtido a partir da afirmativa probabilística:

Page 268: multivariada - ufla

7. Componentes principais 262

( )i i

i

ˆP Z / 2 1

2n

⎡ ⎤⎢ ⎥λ −λ⎢ ⎥≤ α = −α⎢ ⎥λ⎢ ⎥⎣ ⎦

(7.40)

O intervalo de confiança resultante é dado por:

( ) ( )

i

i iˆ ˆ

IC (1 ) : ;2 21 Z / 2 1 Z / 2n n

λ

⎡ ⎤⎢ ⎥λ λ⎢ ⎥−α⎢ ⎥+ α − α⎢ ⎥⎣ ⎦

(7.41)

Obviamente os valores de α e de n devem ser apropriados para que

o limite superior de (7.41) seja válido. Caso o limite superior não seja válido e n for

suficientemente grande, é possível obter o intervalo alternativo substituindo a

variância paramétrica de iλ pelo seu estimador. Assim,

( ) ( )i i i i i

2 2ˆ ˆ ˆ ˆIC (1 ) : Z / 2 ; Z / 2n nλ

⎡ ⎤−α λ − α λ λ + α λ⎢ ⎥

⎣ ⎦ (7.42)

Testes de hipóteses de o tipo o i 0H :λ = λ podem ser realizados

calculando-se o escore normal padrão:

i 0c

0

ˆZ

2n

λ −λ=λ

(7.43)

Page 269: multivariada - ufla

Ferreira, D.F. Estatística multivariada 263

Uma inferência importante e mais geral sobre a estrutura de

dependência é apresentada por Anderson (1963). O teste de hipótese de que os r

autovalores intermediários de Σ sejam iguais é apresentado. A hipótese de

interesse é:

0 q 1 q 2 q rH : + + +λ = λ = = λ (7.44)

Aos q maiores e aos (p-q-r) menores autovalores não são impostas

restrições quanto aos seus valores ou multiplicidades. A hipótese alternativa é

especificada da seguinte forma: H1: pelo menos um dos r autovalores difere dos

demais intermediários. O teste de razão de verossimilhança conduz a estatística

( )q r

jq rj q 12

c jj q 1

ˆˆ(n 1) ln (n 1)r ln

r

+

+= +

= +

⎛ ⎞λ⎜ ⎟⎜ ⎟χ = − − λ + −⎜ ⎟⎜ ⎟⎝ ⎠

∑∑ (7.45)

que tem distribuição aproximadamente de qui-quadrado sob H0 com ν=r(r+1)/2 - 1

graus de liberdade para grandes amostras.

Um caso especial importante deste teste de hipótese ocorre quando

q+r=p ou quando a variação das últimas r dimensões é esférica.

Outro importante teste refere-se aos autovetores. A hipótese de que

o i-ésimo autovetor populacional de Σ é igual a um vetor de constantes com norma

1 é apresentada a seguir.

Page 270: multivariada - ufla

7. Componentes principais 264

0 i 0H : e e= (7.46)

O teste da hipótese nula (7.46) é realizado com base no resultado 2

dessa seção e na matriz de covariância Ei definida em (7.38) devidamente

substituída pelo seu estimador iE , o qual é obtido pela substituição de iλ e ie

pelos seus estimadores iλ e ie . Assim, Anderson (1963) demonstra que o teste

estatístico dado por:

( ) ( )t2 t 1 t gc i 0 0 0 0 i 0 i i 0

i

1ˆ ˆˆ ˆn e S e e Se 2 n e e E e eˆ−⎛ ⎞

χ = λ + − = − −⎜ ⎟λ⎝ ⎠

(7.47)

tem distribuição assintótica de qui-quadrado com p-1 graus de liberdade se H0 for

verdadeira. Em que giE é uma inversa generalizada de iE .

Demonstração: A matriz Ei do resultado 2 pode ser rescrita na forma matricial

como se segue. Para isso, serão definidas as seguintes matrizes:

Page 271: multivariada - ufla

Ferreira, D.F. Estatística multivariada 265

( )

( )

( )

12

1 i

22

2 ii

p2

p i

0 0

0 0

0 0

λ⎡ ⎤⎢ ⎥λ − λ⎢ ⎥⎢ ⎥λ⎢ ⎥

λ − λ⎢ ⎥Λ =⎢ ⎥⎢ ⎥⎢ ⎥λ⎢ ⎥⎢ ⎥λ − λ⎣ ⎦

uma matriz (p-1)x(p-1) originária da

eliminação da i-ésima linha e i-ésima coluna de uma matriz ( )

j2

j i

Diag⎛ ⎞λ⎜ ⎟⎜ ⎟λ −λ⎝ ⎠

, pxp.

i 1 2 pP e e e p (p 1),⎡ ⎤= × −⎣ ⎦ sendo je os autovetores de Σ, com j≠i e dimensão

px(p-1).

Assim, pode-se definir Ei por:

( )p

jt ti i i i i i j j2

j 1 i jj i

E P P e e=≠

⎡ ⎤λ⎢ ⎥= λ Λ = λ⎢ ⎥λ −λ⎣ ⎦

e sua inversa generalizada, devido a Ei ter posto (dimensão) p-1, por:

( )2p

i jg 1 t ti i i i j j

j 1i i jj i

1 1E P P e e−

=≠

⎡ ⎤λ −λ⎢ ⎥= Λ =⎢ ⎥λ λ λ⎣ ⎦

No capítulo 4 foi visto que sob normalidade ou para grandes

amostras a forma quadrática

( ) ( )t g 2i 0 i i 0 p 1n e e E n e e −− − χ∼

Page 272: multivariada - ufla

7. Componentes principais 266

Os graus de liberdade são iguais a (p-1) e não a p devido a Ei ter

posto incompleto (p-1). Devido aos autovetores de giE e o autovetor ie serem

ortogonais, a forma quadrática anterior pode ser simplificada por:

( ) ( ) ( )2pt i jg t g t t

i 0 i i 0 0 i 0 0 j j 0j 1i jj i

nn e e E e e ne E e e e e e=≠

⎡ ⎤λ −λ⎢ ⎥− − = =

λ ⎢ λ ⎥⎣ ⎦

∑ =

( )2 2p p p pj i j it t t t t 2 t

0 j j 0 0 j j j i j j i j j 0j 1 j 1 j 1 j 1i j i jj i j i j i j i

2n n 1e e e e e e e 2 e e e e e= = = =≠ ≠ ≠ ≠

⎧ ⎫⎡ ⎤λ − λ λ + λ ⎡ ⎤⎪ ⎪⎡ ⎤ ⎡ ⎤⎢ ⎥= = λ − λ + λ ⎢ ⎥⎨ ⎬⎣ ⎦ ⎣ ⎦λ λ λ λ⎢ ⎥ ⎢ ⎥⎪ ⎪⎣ ⎦⎣ ⎦ ⎩ ⎭∑ ∑ ∑ ∑ =

Como p

tj j j

j 1e e

=

⎡ ⎤λ = Σ⎣ ⎦∑ , além disso, somando e subtraindo ti i ie eλ ao

termo da expressão p

tj j j

j 1j i

e e=≠

⎡ ⎤λ⎣ ⎦∑ , tem-se que:

pt t t t

j j j i i i i i i i i ij 1j i

e e e e e e e e=≠

⎡ ⎤λ + λ −λ = Σ −λ⎣ ⎦∑

Utilizando o mesmo raciocínio para p

1 tj j

j 1 j

1 e e−

=

⎡ ⎤Σ = ⎢ ⎥

λ⎢ ⎥⎣ ⎦∑ somando e

subtraindo ao termo p

tj j

j 1 jj i

1 e e=≠

⎡ ⎤⎢ ⎥λ⎢ ⎥⎣ ⎦

∑ a quantidade dada por ti i

i

1 e eλ

, tem-se:

pt t t 1 t

j j i i i i i ij 1 j i i ij i

1 1 1 1e e e e e e e e−

=≠

⎡ ⎤+ − = Σ −⎢ ⎥

λ λ λ λ⎢ ⎥⎣ ⎦∑

Page 273: multivariada - ufla

Ferreira, D.F. Estatística multivariada 267

Finalmente, o termo p

tj j

j 1j i

e e=≠

⎡ ⎤⎣ ⎦∑ é equivalente a seguinte expressão,

lembrando que os autovetores têm norma 1 e são ortogonais e ainda aplicando-se

o mesmo tipo de artifício:

pt t

j j i ij 1j i

e e I e e=≠

⎡ ⎤ = −⎣ ⎦∑

Assim, retornando ao desenvolvimento anterior da aproximação de

qui-quadrado tem-se:

( )

p p pt t t 2 t0 j j j i j j i j j 0

j 1 j 1 j 1i jj i j i j i

t t t 2 1 t0 i i i i i i i i i 0

i i

t t t t0 0 0 i i 0 0

ii i

n 1e e e 2 e e e e e

n 1e e e 2 I e e e e e

e e e e e e e Ien

= = =≠ ≠ ≠

⎧ ⎫⎡ ⎤⎪ ⎪⎡ ⎤ ⎡ ⎤λ − λ + λ =⎢ ⎥⎨ ⎬⎣ ⎦ ⎣ ⎦λ λ⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭

⎡ ⎤⎡ ⎤= Σ − λ − λ − + λ Σ − =⎢ ⎥⎢ ⎥λ λ⎣ ⎦⎣ ⎦

Σ= − λ −

λ λ

∑ ∑ ∑

t t t 1 t t2 20 0 i i 0 0 0 0 i i 0

i i i ii i i i i

e e e e e e e e e e2 2

−⎡ ⎤Σλ + λ + λ − λ =⎢ ⎥λ λ λ λ ×λ⎣ ⎦

tt t t t t t 1 t t0 00 i i 0 0 0 0 i i 0 i 0 0 0 i i 0

i

tt 10 0

i 0 0i

e en e e e e 2e e 2e e e e e e e e e e

e en e e 2

⎡ ⎤Σ= − − + + λ Σ − =⎢ ⎥λ⎣ ⎦

⎡ ⎤Σ= + λ Σ −⎢ ⎥λ⎣ ⎦

Page 274: multivariada - ufla

7. Componentes principais 268

Substituindo nessa última expressão Σ pelo estimador S, a

distribuição ainda continua aproximadamente de qui-quadrado para grandes

amostras. Dessa forma, a prova fica completa.

Um outro importante teste de interesse é o da hipótese de mesma

estrutura de correlação, ou seja, i k ii kkCov(X , X )= σ σ ρ ou i kCorr(X , X )=ρ , para

todo i≠k. Nesse caso, os autovalores de Σ não são todos distintos e os resultados

anteriores não se aplicam. Embora as distribuições amostrais dos componentes

principais obtidos da matriz R sejam difíceis de derivar, esse caso especial conduz

a resultados tratáveis (Morrison, 1976).

Lawley (1963) propôs um teste para essa hipótese que é alternativo

e equivalente àquele baseado na razão de verossimilhança, para a estrutura de

eqüicorrelação da matriz de correlação populacional ρ (pxp). Para isso basta

aplicar o teste da hipótese de igualdade de todas as p(p-1)/2 correlações (ρij). A

hipótese de interesse é dada por:

0 0 0 0

11

H : vs H :

1

ρ ρ⎡ ⎤⎢ ⎥ρ ρ⎢ ⎥ρ = ρ = ρ ≠ ρ⎢ ⎥⎢ ⎥ρ ρ⎣ ⎦

(7.48)

Essa hipótese pode ser escrita na forma equivalente 0 ijH :ρ = ρ para

todos os subscritos i≠j. O procedimento de Lawley (1963) requer as seguintes

quantidades:

Page 275: multivariada - ufla

Ferreira, D.F. Estatística multivariada 269

p

k iki 1i k

1r r ; k 1, 2, ..., pp 1 =

= =−∑ (7.49)

p 1 p

iki 1 k i 1

2r rp(p 1)

= = +=

−∑ ∑ (7.50)

2 2

2

(p 1) 1 (1 r )ˆ

p (p 2)(1 r )

⎡ ⎤− − −⎣ ⎦γ =− − −

(7.51)

Verifica-se facilmente que kr de (7.49) é a média dos elementos fora

da diagonal para as k colunas de R e r de (7.50) é a média de todos os

elementos fora da diagonal principal de R. Lawley (1963) mostrou que quando n

tende para infinito o teste estatístico:

( ) ( )p 1 p p 222

c ik k2i 1 k i 1 k 1

n 1 ˆr r r r(1 r )

= = + =

− ⎡ ⎤χ = − − γ −⎢ ⎥− ⎣ ⎦∑ ∑ ∑ (7.52)

tem distribuição de qui-quadrado com ν=(p+1)(p-2)/2 graus de liberdade.

Finalmente, o teste, denominado de teste de esfericidade, é

apresentado. A hipótese de interesse é dada por:

20 0H : IΣ = Σ = σ (7.53)

Page 276: multivariada - ufla

7. Componentes principais 270

Para o teste dessa hipótese, suponha uma amostra aleatória da

distribuição normal p-variada com média µ e covariância Σ, dada por

1 2 nX , X , , X . A seguir é apresentado o teste de razão de verossimilhanças para

testar a hipótese de interesse. A função de verossimilhança sob a hipótese

0 :H Σ = Σ é dada por:

( ) ( ) ( ) ( ) ( )/ 2 / 2 1

11

1, exp22

n n tnp nj jj

jj

X X XXL f − − −

==

⎧ ⎫µ Σ − µ − µ= = − Σπ Σ ⎨ ⎬

⎩ ⎭∑∏

A função suporte é determinada pelo logaritmo natural (neperiano) da

função de verossimilhança. O máximo de L deve ser obtido, no entanto, o máximo

da função suporte com relação a µ e Σ coincidem. A função suporte é dada por:

( ) ( ) ( ) ( ) ( )1

1 1

1, ln ln ln22 2 2

= =

⎡ ⎤µ Σ − µ − µ= = − − − Σπ Σ⎢ ⎥⎣ ⎦∏ ∑n n t

j j jj j

np nXX X XfS

Para obter o máximo dessa função, é necessário derivar em relação

aos parâmetros µ e Σ . Igualar as derivadas a zero e achar a solução do sistema

de equações formado. Esses resultados estão apresentados na seqüência.

a) Derivada de ( ), XS µ Σ em relação a µ

Page 277: multivariada - ufla

Ferreira, D.F. Estatística multivariada 271

( ) ( )1

1

, n

jj

XSX−

=

µ Σ∂− µ= Σ

∂µ ∑

Igualando a zero e resolvendo a equação formada obtém-se:

( )1

1

1

ˆ 0

ˆ

ˆ

n

jj

n

jj

n

jj

X

n X

XX

n

=

=

=

− µ =

µ =

µ = =

b) Derivada de ( ), XS µ Σ em relação a Σ

( )( ) 1 11

, 12 2

tn

XS n n S− −−µ Σ∂

= − + Σ ΣΣ∂Σ

Igualando a zero e resolvendo a equação para Σ , substituindo-se o

valor de µ encontrado em (a), tem-se as seguintes passagens.

Page 278: multivariada - ufla

7. Componentes principais 272

( )

( )

( )

1 11

1 1 1

,0

1 ˆ ˆˆ 02 2

1 ˆ ˆ ˆ2 2

tn

n

XS

n n S

nn S

− −−

− − −

µ Σ∂=

∂Σ

− + Σ Σ =Σ

Σ Σ = Σ

1 1 1ˆ ˆ ˆnS

− − −Σ Σ = Σ

Pré e pós multiplicando ambos os lados dessa última equação por Σ

obtém-se:

1 1 1

1 1

ˆ ˆ ˆ ˆ ˆ ˆ ˆ

1 1ˆ ( )( )

n

n nt

n j j jj j

S

S X X X X Wn n

− − −

= =

ΣΣ Σ Σ = ΣΣ Σ

Σ = = − − =∑ ∑

Substituindo as soluções obtidas em L obtém-se o seu máximo da

seguinte forma:

( ) ( ) ( ) ( )

( ) ( )( )

( ) ( )( )

/ 2/ 2 1

1

/ 2 1/ 2

1

/ 2 1/ 2

1

1ˆˆ exp, 22

1exp22

1exp22

n tnnpn j j n j j

j

n tnnpn j j j jn

j

n tnnpn j j j jn

j

L S X X S X X

S X X X XS tr

S X X X XS tr

−− −

=

− −−

=

− −−

=

⎧ ⎫= − − −µ Σ π ⎨ ⎬

⎩ ⎭⎧ ⎫⎡ ⎤⎪ ⎪− −= −π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭⎧ ⎫⎡ ⎤⎪ ⎪− −= −π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭

Page 279: multivariada - ufla

Ferreira, D.F. Estatística multivariada 273

( ) / 2/ 2 11exp22

−− −⎧ ⎫= − ⎡ ⎤π ⎨ ⎬⎣ ⎦⎩ ⎭nnp

n n nS tr S nS

( ) [ ]/ 2/ 2 exp22

−− ⎧ ⎫= −π Ι⎨ ⎬⎩ ⎭

nnpn

nS tr

( ) / 2/ 2 exp22

−− ⎧ ⎫= −π ⎨ ⎬⎩ ⎭

nnpn

npS

Sob 20 0H : IΣ = Σ = σ a verossimilhança e a função suporte são

dadas por:

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

/ 2/ 2 10 0 0

1

/ 2/ 2 22

1

1, exp22

1exp22

n tnnpj j

j

n tnpnpj j

j

X X XL

X X

−− −

=

−−

=

⎧ ⎫µ Σ − µ −µ= Σ − Σπ ⎨ ⎬

⎩ ⎭⎧ ⎫

− µ − µ= −π ⎨ ⎬σ σ⎩ ⎭

e

( ) ( ) ( ) ( ) ( )2 22

1

1, ln ln22 2 2

n tj j

j

np np X XXS=

− µ − µµ σ = − − −π σ σ ∑

Para obter o máximo dessa função, é necessário derivar em relação

aos parâmetros µ e 2σ . Em seguida deve se igualar às derivadas a zero e achar a

solução do sistema de equações formado.

Page 280: multivariada - ufla

7. Componentes principais 274

c) Derivada de ( )2, XS µ σ em relação a µ

( ) ( )2

21

, 12

n

jj

XSX

=

µ σ∂− µ=

∂µ σ ∑

Igualando a zero e resolvendo a equação formada obtém-se:

( )1

1

1

ˆ 0

ˆ

ˆ

n

jj

n

jj

n

jj

X

n X

XX

n

=

=

=

− µ =

µ =

µ = =

Essa solução é a mesma do caso anterior.

d) Derivada de ( )2, XS µ σ em relação a 0Σ

( )( )

2

22 2 2 1

, 1 ( ) ( )2 2

nt

j jj

XS np X X=

µ σ∂= − + −µ − µ

∂σ σ σ∑

Igualando a zero e resolvendo a equação para 2σ , substituindo-se o

valor de µ encontrado em (a), tem-se os seguintes resultados.

Page 281: multivariada - ufla

Ferreira, D.F. Estatística multivariada 275

( )

( )

( )

2

2

22 2 1

2 22 1

,0

1 ( ) ( ) 0ˆ2 2 ˆ

1 ( ) ( )ˆ22 ˆ

nt

j jj

nt

j jj

XS

np X X X X

nptr X X X X

=

=

µ σ∂=

∂σ

− + − − =σ σ

⎡ ⎤ = −− −⎣ ⎦ σσ

( )2 22 1

1 ( )( )ˆˆ

nt

j jj

nptr X X X X=

⎧ ⎫⎡ ⎤ =− −⎨ ⎬⎣ ⎦ σσ ⎩ ⎭

Pré e pós multiplicando ambos os lados dessa última equação por

2σ , e simplificando algumas Expressões obtém-se:

( )( )

( ) ( )( )

2 22 22

2

2

1ˆ ˆˆˆ

ˆ

n

n n

n

nptr nS

np pn tr S tr S

tr Sp

σ = σσσ

= =σ

σ =

Substituindo as soluções obtidas em ( )0, XL µ Σ obtém-se o seu

máximo da seguinte forma:

Page 282: multivariada - ufla

7. Componentes principais 276

( ) ( ) ( )( ) ( ) ( )

( ) ( )( ) ( )

( ) ( )

/ 2/ 2

01

/ 2/ 2

/ 2/ 2

ˆˆ exp, 22

exp22

exp22

np n tnp nj j j j

jn

npnp n

nn

npnp n

tr S pL X X X Xtr Sp

tr S p tr nStr Sp

tr S npp

=

⎧ ⎫⎡ ⎤ ⎪ ⎪= − − −µ Σ π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦ ⎩ ⎭

⎧ ⎫⎡ ⎤ ⎪ ⎪= −π ⎨ ⎬⎢ ⎥⎪ ⎪⎣ ⎦ ⎩ ⎭

⎡ ⎤ ⎧ ⎫= −π ⎨ ⎬⎢ ⎥⎩ ⎭⎣ ⎦

Para testar a hipótese 20 0H : IΣ = Σ = σ obtém-se a razão do máximo

de as duas funções de verossimilhança. Então, baseando-se no resultado de que

o logaritmo natural multiplicado por -2 tem distribuição aproximada de

qui-quadrado, pode-se efetuar um teste para essa hipótese. Assim, seja:

( )( )

( ) ( )

( ) ( )

/ 2/ 2

/ 20

1 / 2/ 2/ 2

exp2ˆˆ , 2ˆˆ , exp2 2

npnp n

nn

npnnp

nn

tr S npL Sp

npL tr SSp

−−

−−

⎡ ⎤ ⎧ ⎫−π ⎨ ⎬⎢ ⎥µ Σ ⎩ ⎭⎣ ⎦Λ = = =⎧ ⎫µ Σ ⎡ ⎤−π ⎨ ⎬ ⎢ ⎥⎩ ⎭ ⎣ ⎦

Ou ainda, se for considerado que Sn for substituído por S, não há

alteração dos resultados obtidos, e se for considerado também que ˆiλ é o i-ésimo

autovalor de S, então Λ1 pode ser expresso por:

[ ]

np / 2 np / 2p pp pin / 2 ii 1 i 1

1 np / 2 np / 2 pp

ii i 1i 1

ˆ ˆS

tr(S) / p ˆˆ / p/ p

= =

==

⎛ ⎞ ⎛ ⎞λ⎜ ⎟ λ⎜ ⎟⎜ ⎟⎝ ⎠ ⎜ ⎟Λ = = =

⎜ ⎟⎛ ⎞ λλ ⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠

∏ ∏

∑∑ (7.54)

Page 283: multivariada - ufla

Ferreira, D.F. Estatística multivariada 277

Um teste estatístico pode ser obtido, conforme mencionado

anteriormente por:

( ) ( )[ ] ( ){ }

( ) ( )

21

2

1 1

2ln 2 ln ln ln2 2

ˆˆ2 ln ln ln2 2

c

p p

ïïi i

n nptr pS S

n npp ν

= =

⎡ ⎤χ = − = − =Λ − + −⎢ ⎥⎣ ⎦⎧ ⎫⎡ ⎤⎛ ⎞⎪ ⎪= − − + − χλλ⎨ ⎬⎢ ⎥⎜ ⎟

⎝ ⎠⎪ ⎪⎣ ⎦⎩ ⎭∑ ∑ ∼

(7.55)

A distribuição aproximada de qui-quadrado possui ν graus de

liberdade, que referem-se a diferença entre o número de parâmetros do modelo

completo e o número de parâmetros do modelo sob a hipótese nula. Como são

estimadas p médias, p variâncias e p(p-1)/2 covariâncias no modelo completo e p

médias e σ2 no modelo sob a hipótese nula, os graus de liberdade são dados por:

( 1) ( 1) 2 ( 2)( 1)12 2 2

p p p p p pp p+ + − + −ν = + − − = =

Bartlett (1954) sugere uma correção no teste anterior para uma

melhor performance, sendo que para grandes amostras a estatística dada por:

( )2

2c 1

(2p p 2)2 1 ln6pn

⎡ ⎤+ +χ = − − Λ⎢ ⎥

⎣ ⎦ (7.56)

tem distribuição aproximadamente de qui-quadrado com ν=(p+2)(p-1)/2 graus de

liberdade sob H0 dada em (7.53).

Page 284: multivariada - ufla

7. Componentes principais 278

O teste (7.56) da hipótese nula (7.53) é denominado de teste de

esfericidade, porque os contornos da densidade são esferas quando 2IΣ = σ .

Um teste mais geral do que o teste (7.56) para a hipótese de que

todas as variáveis sejam independentes é dado pelo teste de razão de

verossimilhança. Seja a hipótese

11

220 ii 0

pp

0 00 0

H : ;

0 0

>

σ⎡ ⎤⎢ ⎥σ⎢ ⎥Σ = σ⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦

(7.57)

A seguinte estatística deve ser calculada inicialmente:

n / 2

n / 22 n / 2p

iii 1

SR

S=

Λ = =⎛ ⎞⎜ ⎟⎝ ⎠∏

(7.58)

Para grandes amostras, sob H0, o teste estatístico:

( )2c 2

(2p 11)2 1 ln6n+⎡ ⎤χ = − − Λ⎢ ⎥⎣ ⎦

(7.59)

tem distribuição aproximadamente de qui-quadrado com ν=p(p-1)/2 graus de

liberdade sob H0 dada em (7.57). Essa aproximação é devida a Bartlett (1954) em

Page 285: multivariada - ufla

Ferreira, D.F. Estatística multivariada 279

substituição a aproximação usual -2ln(Λ2). O resultado (7.59) melhora a

aproximação qui-quadrado usual.

Lawley (1940) mostra que o teste (7.59) pode ser aproximado por:

p 1 p

2 2c ik

i 1 k i 1

(2p 11)n r6

= = +

+⎡ ⎤χ ≅ −⎢ ⎥⎣ ⎦∑ ∑ (7.60)

Essa expressão representa uma melhor aproximação de (7.59) para

pequenas correlações e para grandes amostras é pouco provável que conduza a

diferentes resultados dos obtidos pela fórmula determinantal exata (7.59),

Morrison (1976).

É apresentado a seguir um programa SAS no procedimento de

matrizes IML para a realização de todas as inferências propostas nessa seção.

Um exemplo é apresentado, com comentários, para que o usuário possa

reproduzir os testes e os procedimentos de estimação propostos.

options ps=5000 ls=75 nodate nonumber;; proc iml; S={4.9810 3.8063 4.7740, 3.8063 3.0680 3.7183, 4.7740 3.7183 4.8264}; p=ncol(S);n=24;alpha=0.05; print 'Valor de p tamanho da amostra e alpha'; print p n alpha; print 'Matriz de covariancias amostral: S'; print S; Ls=diag(eigval(s)); Ps=eigvec(S); print 'Matriz de autovalores de S'; print Ls; print 'Matriz de autovetores de S'; print Ps; D=diag(S); D_12=inv(root(D)); *print D_12;

Page 286: multivariada - ufla

7. Componentes principais 280

Rs=D_12*S*D_12; print 'Matriz de correlacoes amostrais R'; print Rs; Lr=diag(eigval(Rs)); print 'Matriz de autovalores de R'; print Lr; Pr=eigvec(Rs); print 'Matriz de autovetores de R'; print Pr; /*intervalo de confianca para autovalores de S - equacao 7.41*/ za2=probit(1-alpha/2); print 'Intervalos de confianca para os autovalores de S, sendo 1-alpha=' alpha; print 'Autovalor Li Ls'; do i=1 to p; lin=ls[i,i]/(1+za2*(2/n)**0.5); lsu=ls[i,i]/(1-za2*(2/n)**0.5); print i lin lsu; end; /*Testar a hipotese de que o maior autovalor de S e igual a l0=12.35 -equacao 7.42 */ /* este teste eh motivado pelo fato de l1=sig2(1+(p-1)rho), com sig2=4.2 e rho=0.97 */ l0=12.35; Zc=(ls[1,1]-l0)/(l0*(n/2))**0.5; przc=2*(1-probnorm(abs(zc))); print 'Teste de H0: l1=12.35 (igual correlacao). Esse valor eh apenas um exemplo'; print 'Valor de Zc valor de prob>|zc|'; print 'Se [prob>|zc|]>valor de alpha Ho nao deve ser rejeitada'; print Zc przc; /* teste 7.43 igualdade de r autovalores intermediarios*/ /* neste exemplo sera testado Ho: l2 = l3 */ /*q=1, r=2, p=3 -teste 7.44 */ aux1=0;aux2=0;q=1;r=2; do i=q+1 to q+r; aux1=aux1+log(ls[i,i]); aux2=aux2+ls[i,i]/r; end; qui2c=-(n-1)*aux1+(n-1)*r*log(aux2); print 'Valores dos somatorios auxiliares para teste H0: l2 = l3'; print 'aux1 = soma ln(lj) e aux2 = media dos lj intermediarios'; print aux1 aux2; v=r*(r+1)/2-1; prqui2c=1-probchi(qui2c,v); print 'Teste da hipotese de que Ho: l2 = l3 '; print 'Qui-quadrado GL Pr>qui-Quadr'; print qui2c v prqui2c; /* teste para a hipotese de igualdade de um autovetor a um vetor de constantes*/ /* Para ilustrar sera testado que e1=[1/3^0.5 1/3^0.5 1/3^0.5], ou seja, igual*/ /* estrutura de correlacao da matriz Sigma que originou a S */ e0=j(p,1,1/3**0.5); E1=j(p,p,0); do i=1 to p; ek=Ps[,i]; if i^=1 then do; E1=E1+(ls[i,i]/(ls[i,i]-ls[1,1])**2)*ek*t(ek);

Page 287: multivariada - ufla

Ferreira, D.F. Estatística multivariada 281

end; end; E1=ls[1,1]*E1; Le=eigval(e1); *print E1 le; ei1=Ps[,1]; print e0 ei1; qui2c=n*(ls[1,1]*e0`*inv(S)*e0+e0`*S*e0/ls[1,1]-2); qui2c2=n*t(Ps[,1]-e0)*ginv(E1)*(Ps[,1]-e0); v=p-1; prqui2c=1-probchi(qui2c,v); print 'Teste da hipotes e1=e0=t([1/3^0.5 1/3^0.5 1/3^0.5])'; print 'Qui-quadrado1 qui-quad2 GL Pr>qui-Quadr'; print qui2c qui2c2 v prqui2c; /*teste da H0:phoij=pho - igual estrutura de correlacao */ rbar=(sum(Rs)-trace(Rs))/(p*(p-1)); rk=j(p,1,0); do i=1 to p; rk[i]=(sum(Rs[,i])-1)/(p-1); end; gama=(p-1)**2*(1-(1-rbar)**2)/(p-(p-2)*(1-rbar)**2); aux1=(Rs-j(p,p,rbar))#(Rs-j(p,p,rbar)); aux2=(sum(aux1)-trace(aux1))/2; aux3=(rk-j(p,1,rbar))#(rk-j(p,1,rbar)); aux4=sum(aux3); qui2c=(n-1)/(1-rbar)**2*(aux2-gama*aux4); v=(p+1)*(p-2)/2; if qui2c<=0 then qui2c=1e-14; prqui2=1-probchi(qui2c,v); print 'Teste da hipotes phij=pho: igual estrutura de correlacao'; print 'Qui-quadrado GL Pr>qui-Quadr'; print qui2c v prqui2; print 'Valores utilizados no teste-para simples conferencia'; print 'media geral dos rij, vetor de medias de cada coluna de R e gama chapeu'; print rbar rk gama; /*teste de esfericidade-H0: Sigma=Sig^2*I*/ Lamb1=((det(S)**(1/p))/(trace(S)/p)); qui2c=-2*(n*p/2)*log(lamb1)*(1-(2*p**2+p+2)/(6*p*n)); v=(p+2)*(p-1)/2; prqui2=1-probchi(qui2c,v); print 'Teste de esfericidade - H0: Sigma=Sig^2*I'; print 'Qui-quadrado GL Pr>qui-Quadr Lambida 1^(2/(np))'; print qui2c v prqui2 lamb1; /*teste de independencia de variaveis mais geral - H0: Sigma = Diag(sig11 sig22 ... sigpp)*/ Lamb2=det(Rs); qui2c=-2*(n/2)*log(lamb2)*(1-(2*p+11)/(6*n)); v=p*(p-1)/2; prqui2=1-probchi(qui2c,v); print 'Teste de independencia - H0: Sigma = Diag(sig11 sig22 ... sigpp)'; print 'Qui-quadrado GL Pr>qui-Quadr Lambida 2^2/n'; print qui2c v prqui2 lamb2; /*teste de independencia de variaveis - uso da aproximacao de Lawley- pior*/ aux1=Rs#Rs; aux2=(sum(aux1)-trace(aux1))/2; qui2c=aux2*(n-(2*p+11)/6); v=p*(p-1)/2;

Page 288: multivariada - ufla

7. Componentes principais 282

prqui2=1-probchi(qui2c,v); print 'Teste de independencia aproximado de Lawley (1940)'; print 'para a hipotese H0: Sigma = Diag(sig11 sig22 ... sigpp)'; print 'Qui-quadrado GL Pr>qui-Quadr Soma de rij^2=aux2'; print 'Obs. para grandes valores de rij essa eh uma pessima aproximacao'; print qui2c v prqui2 aux2; quit;

7.6. Exercícios

7.6.1. Extrair os componentes principais da matriz S obtida das mensurações de

três variáveis em carapaças de tartarugas. As variáveis X1, X2, e X3 são

referentes ao comprimento, largura e altura transformadas por logaritmo

natural, respectivamente. Uma amostra de 24 fêmeas foi realizada. A matriz

S é apresentada a seguir, juntamente com o vetor de médias das variáveis

transformadas. Obter os componentes principais de S e interpretá-los,

quando for possível. Obter a matriz R e os respectivos componentes

principais. Obter em ambos os casos: a) a porcentagem de informação

explicada por cada componente; b) a correlação entre as variáveis originais

transformadas e os componentes principais. Observando o primeiro

componente principal de R com mais profundidade, o que pode ser afirmado

sobre a matriz R (sem a realização de teste).

2,1282,0081,710

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

X e 4,9810 3,8063 4,7740

S 3,8063 3,0680 3,71834,7740 3,7183 4,8264

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

Page 289: multivariada - ufla

Ferreira, D.F. Estatística multivariada 283

7.6.2. Com os dados do exercício 7.6.1, determine os intervalos de 95% de

confiança assintótico para os 3 autovalores de Σ (3x3).

7.6.3. Com os dados do exercício 7.6.1 teste a hipótese de que o primeiro

autovetor de ρ seja igual a t1e 1 3 1 3 1 3⎡ ⎤= ⎣ ⎦ . Qual é sua conclusão

com relação à decisão tomada?

7.6.4. Com os dados do exercício 7.6.1 reproduza a matriz S a partir do primeiro

componente principal e a matriz de resíduos.

7.6.5. Teste a hipótese de que os r=2 últimos valores característicos de Σ, sejam

iguais, utilizando os dados do exemplo 7.6.1.

7.6.6. Teste a hipótese de independência geral entre 3 variáveis, para as quais

uma amostra de n=50 observações apresentou a seguinte matriz de

covariância.

24,9811 0,0796 0,0574S 0,0796 5, 2762 0,0020

0,0574 0,0020 3,0655

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

7.6.7. Os dados a seguir referem a uma amostra de 30 elementos em uma

população normal trivariada. Obtenha os componentes principais e verifique

a normalidade por meio dos dois primeiros componentes. Faça os Q-Q plots

e os gráficos de dispersão dos escores do componente 1 vs 2. Utilize o

último componente para verificar a possibilidade de observações suspeitas.

Caso alguma observação suspeita seja observada, elimine-a da amostra e

refaça o exercício.

Page 290: multivariada - ufla

7. Componentes principais 284

U.A. X1 X2 X3 1 12,80 29,56 45,19 2 14,12 26,54 49,29 3 19,09 33,26 49,79 4 15,98 31,00 51,73 5 16,00 28,94 50,30 6 16,51 31,67 48,06 7 14,05 30,11 55,15 8 14,34 26,47 46,84 9 16,87 29,00 52,16 10 21,93 38,00 39,24 11 15,21 30,68 54,02 12 15,54 27,37 51,52 13 17,71 30,20 51,66 14 14,42 29,99 52,50 15 13,38 31,61 52,33 16 13,91 29,59 44,19 17 15,53 29,30 53,71 18 16,40 28,96 46,56 19 18,35 30,15 52,18 20 13,59 27,70 52,33 21 19,08 31,26 48,59 22 13,95 29,94 54,73 23 16,11 34,52 52,69 24 17,10 29,39 52,03 25 18,81 31,48 49,79 26 15,27 29,54 43,11 27 14,80 31,88 48,08 28 17,39 28,88 50,69 29 18,02 34,02 49,58 30 9,52 25,23 45,89

Page 291: multivariada - ufla

||[ ]||Análise de agrupamento

8

8.1. Introdução

As análises rudimentares e exploratórias de dados como os

procedimentos gráficos auxiliam, em geral, o entendimento da complexa natureza

da análise multivariada. No presente capítulo são discutidas algumas técnicas

gráficas adicionais para agrupar objetos (itens ou variáveis) e também apresentar

os algoritmos que devem ser usados para efetivamente realizá-los. Encontrar nos

dados uma estrutura natural de agrupamento é uma importante técnica

exploratória. A análise de agrupamento deve ser distinguida da análise

discriminante, pelo fato desta última ser aplicada a um número de grupos já

conhecidos, tendo por objetivo a discriminação de um novo indivíduo a um destes

grupos. A análise de agrupamento por sua vez não considera o número de grupos

e é realizada com base na similaridade ou dissimilaridade (distâncias).

Objetivo dessa análise é agrupar objetos semelhantes segundo suas

características (variáveis). Todavia, não existem impedimentos para realizar o

agrupamento de variáveis semelhantes segundo as realizações obtidas pelos

objetos amostrados. Um outro problema para o qual uma resposta é necessária

Page 292: multivariada - ufla

8. Análise de agrupamento 286

consiste em verificar se um indivíduo A é mais parecido com B do que com C.

Quando o número de variáveis envolvidas é pequeno, a inspeção visual poderá

responder. Assim, por exemplo, na Figura 8.1 observa-se uma situação em que A

é mais parecido com C do que com B. Intuitivamente para fazer tal inferência

usou-se o conceito de distância euclidiana, o qual definiu a idéia de parecença.

1.0 1.5 2.0 2.5 3.0 3.5 4.0

10

12

14

16

18

20

AC

B

Variá

vel 2

Variável 1

Figura 8.1. Dispersão entre três indivíduos mensurados com relação a duas

variáveis quantitativas contínuas.

8.2. Medidas de parecença (similaridade e dissimilaridade)

Como foi visto no exemplo da Figura 8.1, é necessário especificar

um coeficiente de parecença que indique a proximidade entre os indivíduos. É

importante considerar, em todos os casos semelhantes a este, a natureza da

Page 293: multivariada - ufla

Ferreira, D.F. Estatística multivariada 287

variável (discreta, contínua, binária) e a escala de medida (nominal, ordinal, real

ou razão).

No capítulo 1 foi discutida a noção de distância e apresentada a

distância euclidiana entre dois objetos no espaço p-dimensional. Sejam

t1 11 12 1pX X X X⎡ ⎤= ⎣ ⎦ e t

2 21 22 2pX X X X⎡ ⎤= ⎣ ⎦ observações entre dois objetos

(indivíduos). Então, a distância euclidiana entre eles é dada por:

( ) ( ) ( ) ( )22 2 t11 21 12 22 1p 2p 1 2 1 21 2d X X X X ... X X (X X ) (X X )X ,X = − + − + + − = − − (8.1)

Uma importante distância estatística entre estes dois objetos é

conhecida como distância de Mahalanobis, dada por:

( ) t 11 2 1 21 2d (X X ) S (X X )X ,X −= − − (8.2)

em que, S-1 é a inversa da matriz de variância e covariância amostral. Outra

medida de distância é a métrica de Minkowski, a qual depende de funções

modulares.

( )1 mp

m1i i2i1 2

i 1

d X XX ,X=

⎡ ⎤= −⎢ ⎥⎣ ⎦∑ (8.3)

Page 294: multivariada - ufla

8. Análise de agrupamento 288

Para m=1 a equação (8.3) é conhecida por “métrica do quarteirão”

(métrica city-block) e para m = 2 representa a distância euclidiana e, em geral,

variações de m causam trocas nos pesos dados a pequenas e a grandes

diferenças.

Sempre que possível é conveniente usar distâncias verdadeiras, ou

seja, aquelas que obedecem à desigualdade triangular para o agrupamento de

objetos, embora alguns algoritmos de agrupamento não exigem o atendimento

dessa pressuposição.

De uma maneira geral, sejam Xhj as observações do h-ésimo objeto

na j-ésima variável e Xij as observações do i-ésimo objeto na j-ésima variável, e

sejam Zhj e Zij estes valores padronizados, então, podem ser definidas as

distâncias apresentadas a seguir. Sendo que h, i = 1, 2, ..., n e j = 1, 2, ..., p.

Distância euclidiana média,

( )2

1,

p

hj ijj

h i

X Xd

p=

−=∑

(8.4)

Distância euclidiana padronizada,

( ) ( )2

pthj ij 1

h,i h i h ij 1 jj

X Xd X X D X X

S−

=

⎛ ⎞−⎜ ⎟= = − −⎜ ⎟⎝ ⎠

∑ (8.5)

Page 295: multivariada - ufla

Ferreira, D.F. Estatística multivariada 289

em que, D é uma matriz diagonal tendo o j-ésimo componente igual a variância Sjj,

ou seja,

11

22

0 00 0

0 0 pp

SS

D

S

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

De modo análogo pode-se definir a distância euclidiana padronizada

média,

( ) ( )

2p

hj ijt 1j 1 jj h i h i

h,i

X XS X X D X X

dp p

−=

⎛ ⎞−⎜ ⎟⎜ ⎟ − −⎝ ⎠= =

∑ (8.6)

Outros tipos de definições de distâncias podem ser encontrados na

literatura (Bussab, Miazaki e Andrade, 1990). Um exemplo é o coeficiente de

Gower, o qual é baseado na proporção da variação em relação a maior

discrepância possível.

, 101 ( ) (1)

1log 1p

hj ijh i

j n j j

X Xd

p X X=

⎧ ⎫⎡ ⎤−⎪ ⎪= − − ⎢ ⎥⎨ ⎬−⎢ ⎥⎪ ⎪⎣ ⎦⎩ ⎭

∑ (8.7)

Page 296: multivariada - ufla

8. Análise de agrupamento 290

em que ( )n jX e (1) jX são os valores máximos e mínimos, respectivamente, em

uma amostra de n objetos para a j-ésima variável.

Muitas vezes os objetos não podem ser mensurados em variáveis

quantitativas. Essas variáveis podem ser transformadas em dicotômicas (binárias),

determinado um ponto de corte de interesse prático. Assim, por exemplo, se a

altura (Y) de n indivíduos é mensurada e o interesse é determinar àqueles com

altura superiores a 1,80m, então, defini-se a variável binária (X) da seguinte forma:

se Yi > 1,80m então Xi = 1 caso contrário, se Yi ≤ 1,80m, então Xi = 0. Da mesma

forma, variáveis qualitativas podem ser transformadas em variáveis binárias

tomando-se como valor 1 a presença de uma determinada realização e o valor 0

para as demais. Assim, por exemplo, se na amostra ocorresse um indivíduo com

cor de olhos pretos determinaria o valor 1 e a ocorrência de outro com outra cor de

olhos determinaria o valor 0. De uma maneira geral, a presença e ausência de

uma característica devem ser representadas por uma variável binária, a qual

assume valor 1 se a característica estiver presente e o valor zero se estiver

ausente. A ocorrência de dados binários é bastante comum em genética

molecular. Nesse caso, os indivíduos são genotipados para a presença ou

ausência de um determinado marcador molecular, marcador de DNA.

Como exemplos consideram-se duas linhagens de milho as quais

foram estereotipadas através de marcadores moleculares denominados RAPD. O

melhorista nesse caso estava interessado na similaridade genética dessas

linhagens. Cinco bandas (marcadores diferentes) foram utilizadas. Os resultados

Page 297: multivariada - ufla

Ferreira, D.F. Estatística multivariada 291

para presença e para a ausência dessas bandas foram obtidos e estão

apresentados a seguir.

Bandas Linhagens 1 2 3 4 5

A 1 0 0 1 1 B 1 1 0 1 0

Existem, neste exemplo, duas concordâncias, uma com 1-1 e outra

com 2-2 e duas discordâncias, quais sejam, 0-1 e 1-0. Representando o escore (1

ou 0) da j-ésima variável binária no h-ésimo objeto por Xhj e da mesma forma Xij

representa o escore do i-ésimo objeto na j-ésima variável, j=1, 2, ..., p.

Conseqüentemente, a diferença ao quadrado entre os dois indivíduos ou objetos

para uma determinada variável resultará apenas no valor 0 ou no valor 1. Isso

pode ser observado facilmente pelos seguintes argumentos.

( )20 1 0

1

hj ij hj ij

hj ij

hj ij

se X X ou se X XX X

se X X

= = = =⎧⎪− = ⎨⎪ ≠⎩

(8.8)

Dessa forma, a distância euclidiana quadrática representa a

contagem do número de pares não coincidentes. Grandes distâncias

correspondem a muitos pares não coincidentes e, portanto, a objetos dissimilares.

Para o exemplo em questão, tem-se:

2, 2A Bd =

Page 298: multivariada - ufla

8. Análise de agrupamento 292

A equação (8.4) pode ser usada muitas vezes como base para

distância, no entanto, algumas vezes possui algumas limitações por considerar

que os pares (1-1) e (0-0) possuem o mesmo peso, o que em determinadas

situações reais (1-1) representa uma forte evidência de similaridade, mas o (0-0)

não. Muitos coeficientes existem na literatura, dando diferentes tratamentos a este

problema. Cabe ao leitor decidir em qual situação o seu problema se enquadra e

escolher a medida de parecença mais apropriada. Para introduzir estas medidas

de parecença são apresentados os resultados de coincidências e divergências dos

objetos h e i em uma tabela de contingência.

Item i

1 0

Totais

1

Item h

a b a + b

0 c d c + d

Totais a + c b + d p = a + b +c + d

Nesta Tabela pode-se observar que “a” representa a freqüência de

coincidências (1-1), “b” a freqüência de (1-0), e assim sucessivamente. No

exemplo tratado a = 2, b = c = d = 1.

Na Tabela 8.1 apresentam-se alguns dos coeficientes de

semelhança (similaridade) em termos das freqüências descritas anteriormente,

considerando variáveis binárias. Os valores para o exemplo, a variação de cada

Page 299: multivariada - ufla

Ferreira, D.F. Estatística multivariada 293

uma, o nome comum na literatura e explicação racional para as mesmas foram

apresentados.

Na Tabela 8.1, estão apresentados os coeficientes de similaridades,

no entanto, deve ser ressaltado que a única exceção é a distância binária de

Sokal. Muitas vezes as medidas de dissimilaridade podem ser transformadas em

medidas de similaridade pela relação apresentada em Johnson e Wichern (1988).

,,

11h i

h i

Sd

=+

(8.9)

Outra forma de se obter coeficientes de similaridades a partir da

distância euclidiana, calculada com variáveis padronizadas, pode ser obtida pelo

coeficiente de Cattel (Bussab, Miazaki, Andrade, 1990).

2,

,2,

223223

h i

h i

h i

p dS

p d

⎛ ⎞− −⎜ ⎟⎝ ⎠=⎛ ⎞− +⎜ ⎟⎝ ⎠

(8.10)

Uma outra expressão apresentada é atribuída a Cattel e Coulter

(Bussab, Miazaki, Andrade, 1990), também derivada considerando distâncias

euclidianas padronizadas é dada por:

2,

, 2,

22

h ih i

h i

p dS

p d−

=+

(8.11)

Page 300: multivariada - ufla

8. Análise de agrupamento 294

No entanto, nem sempre é possível construir distâncias a partir de

similaridades. Isso só pode ser feito se a matriz de similaridades for não negativa

definida. Com a condição de que Si,i = 1, máximo das similaridades, e que a matriz

de similaridades seja não negativa definida, então a expressão (8.12) tem as

propriedades de distância.

( ),, 12 h ih i Sd −= (8.12)

Page 301: multivariada - ufla

Ferreira, D.F. Estatística multivariada 295

Tabela 8.1. Alguns coeficientes de parecença para variáveis dicotômicas.

Nome Expressão Explicação Variação Ex. Coincidência simples

a dp+

Pesos iguais para 1-1 e 0-0 0-1 0,60

Sokal e Sneath

22

( )( )

a da d b c

++ + +

Peso duplo para 1-1 e 0-0 0-1 0,75

Rogers e Tanimoto

a da b c d

++ + +2( )

Duplo peso para pares não coincidentes

0-1 0,43

Russel e Rao ap

Nenhum 0-0 no numerador 0-1 0,40

Jaccard aa b c+ +

As coincidências 0-0 são tratadas como irrelevantes

0-1 0,50

Sorenson 22

aa b c+ +

0-0 é irrelevante e duplo peso para 1-1.

0-1 0,66

- aa b c+ +2( )

0-0 é irrelevante e duplo peso para não coincidência.

0-1 0,33

- ab c+

Razão entre coincidências e não coincidências - Exceto 0-0

0-(p-1) 1,00

Dist. Binária de Sokal

b cp+

Única medida de dissimilaridade. 0-1 0,63

Ochiai aa b a c( )( )+ +

Concordâncias positivas sobre adaptação da média geométrica de discordâncias

0-1 0,67

Baroni-Urbani-Buser a ad

a b c ad+

+ + +

Concordâncias positivas e a média geom. de concordância positivas e negativas

0-1 0,63

Haman ( ) ( )a d b cp

+ − +

Proporção de coincidências menos a proporção de discordâncias

-1 - +1 0,20

Yule ad bcad bc

−+

Proporção de ad menos a de bc -1 - +1 0,33

φ ad bca b a c b d c d

+ + + +( )( )( )( )

Produto de momento de correlação aplicado a variáveis binárias

-1 - +1 0,17

Ochiai II

( )( )( )( )ad

a b a c b d c d+ + + +

Proporção de coincidências em relação à média geom. total modificada

0 -1 0,33

Page 302: multivariada - ufla

8. Análise de agrupamento 296

Em algumas aplicações é necessário agrupar variáveis ao invés de

objetos. As medidas de similaridades para agrupar variáveis usadas na prática são

baseadas nos coeficientes de correlação amostral. Em algumas aplicações de

agrupamento, as correlações negativas são trocadas pelos seus valores

absolutos. Quando, as variáveis são binárias esta correlação está apresentada na

Tabela 8.1 (φ). Este coeficiente de correlação está associado à estatística de qui-

quadrado, para testar a independência de duas variáveis categóricas por

( 2 2 nφ = χ , n = a + b + c + d, χ2 com 1 grau de liberdade). Para n fixo, uma grande

similaridade (ou correlação) é consistente com a falta de independência entre as

variáveis. Uma outra importante observação que pode ser feita é que para

agrupamento de variáveis os coeficientes de similaridade e de distâncias podem

ser usadas, apenas tomando-se o cuidado de substituir p (número de variáveis)

por n (número de objetos).

8.3. Agrupamentos

Muitos algoritmos existem para formar os agrupamentos, devido a

existência de vários critérios existentes para conceituar os grupos que nem

sempre são aceitos universalmente. Uma outra razão para isso, é que raramente

pode-se examinar todas as possibilidades de agrupamento, mesmos com os mais

rápidos e possantes computadores.

Page 303: multivariada - ufla

Ferreira, D.F. Estatística multivariada 297

São apresentadas neste material algumas das técnicas de

agrupamentos denominadas hierárquicas e outra do grupo das não hierárquicas.

8.3.1. Agrupamentos hierárquicos

Os agrupamentos hierárquicos são realizados por sucessivas fusões

ou por sucessivas divisões. Os métodos hierárquicos aglomerativos iniciam com

tantos grupos quanto aos objetos, ou seja, cada objeto forma um agrupamento.

Inicialmente, os objetos mais similares são agrupados e fundidos formando um

único grupo. Eventualmente o processo é repetido, e com o decréscimo da

similaridade, todos os subgrupos são fundidos, formando um único grupo com

todos os objetos.

Os métodos hierárquicos divisivos trabalham na direção oposta. Um

único subgrupo inicial existe com todos os objetos e estes são subdivididos em

dois subgrupos de tal forma que exista o máximo de semelhança entre os objetos

dos mesmos subgrupos e a máxima dissimilaridade entre elementos de subgrupos

distintos. Estes subgrupos são posteriormente subdivididos em outros subgrupos

dissimilares. O processo é repetido até que haja tantos subgrupos quantos

objetos.

Os resultados finais destes agrupamentos podem ser apresentados

por gráficos denominados dendrogramas. Os dendrogramas apresentam os

Page 304: multivariada - ufla

8. Análise de agrupamento 298

elementos e os respectivos pontos de fusão ou divisão dos grupos formados em

cada estágio.

Os esforços deste capítulo serão concentrados nos métodos

hierárquicos aglomerativos (“Linkage Methods”). Serão discutidos os métodos de

ligação simples (mínima distância ou vizinho mais próximo), ligação completa

(máxima distância ou vizinho mais distante) e ligação média (distância média). As

idéias para estes três processos estão, esquematicamente, apresentados na

Figura 8.2.

.1

.2 .3

.4

.5

d24

(a)d15

(b).1

.2 .3

.4

.5

.1

.2 .3

.4

.5

(c)(d13+d14+d15+d23+d24+d25)/6

Figura 8.2. Distâncias entre os grupos para os métodos da (a) ligação simples, (b)

ligação completa e (c) ligação média.

Page 305: multivariada - ufla

Ferreira, D.F. Estatística multivariada 299

A seguir está apresentado um algoritmo geral para os agrupamentos

hierárquicos aglomerativos com n objetos (itens ou variáveis).

1. Iniciar com n grupos, cada um com um único elemento e com uma matriz

simétrica n x n de dissimilaridades (distâncias) D={dhi}.

2. Buscar na matriz D o par de grupos mais similar (menor distância) e fazer a

distância entre os grupos mais similares U e V igual a duv.

3. Fundir os grupos U e V e nomeá-lo por (UV). Recalcular e rearranjar as

distâncias na matriz D (a) eliminando as linhas e colunas correspondentes a U

e V e (b) acrescentando uma linha e coluna com as distâncias entre o grupo

(UV) e os demais grupos.

4. Repetir os passos 2 e 3 num total de (n-1) vezes (todos os objetos estarão em

único grupo). Anotar a identidade dos grupos que vão sendo fundidos e os

respectivos níveis (distâncias) nas quais isto ocorre.

(a) Ligação simples (vizinho mais próximo)

Para exemplificar é considerado um exemplo, no qual destacam-se 4

objetos (A, B, C, D), e para o qual a matriz de distâncias entre os objetos é

apresentada a seguir.

03 07 9 08 6 5 0

A B C DAB

DCD

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

Page 306: multivariada - ufla

8. Análise de agrupamento 300

Para ilustrar o método da ligação simples, os objetos menos

distantes devem, inicialmente, ser fundidos. Então, ( ), ,min 3h i A Bd d= = . O próximo

passo é fundir A com B formando o grupo (AB) e em seguida calcular as

distâncias deste grupo e os objetos remanescentes. As distâncias dos vizinhos

mais próximos são,

( ), min{ , } min{7, 9} 7AB C AC BCd d d= = =

( ), min{ , } min{8, 6} 6AB D AD BDd d d= = =

A nova matriz D para o próximo passo é:

07 06 5 0

AB C DAB

D CD

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

A menor distância é entre D e C, com dDC=5, os quais foram fundidos

formando o subgrupo DC, no nível 5. Recalculando as distâncias têm-se,

( ),( ) ( ) ( )min{ , } min{6, 7} 6DC AB D AB C ABd d d= = =

A nova matriz D fica,

06 0

DC ABDC

DAB

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Page 307: multivariada - ufla

Ferreira, D.F. Estatística multivariada 301

Conseqüentemente o grupo DC é fundido com AB na distância 6. Na

Figura 8.3, foi apresentado o dendrograma, com os resultados alcançados.

Figura 8.3. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo método da

ligação simples (vizinho mais próximo).

(b) Ligação completa (vizinho mais distante)

O método da ligação completa é realizado da mesma forma que o do

vizinho mais próximo, com exceção de que a distância entre grupos é tomada

como a “máxima” distância entre dois elementos de cada grupo. Para ilustrar, será

usado o mesmo exemplo. Assim, considerando a mesma matriz de dissimilaridade

D do exemplo anterior. Inicialmente são fundidos os dois objetos menos distantes.

Então, como ( ), ,min 3= =h i A Bd d , os objetos A e B devem ser fundidos formando o

grupo (AB) e em seguida deve-se calcular as distâncias deste grupo e os objetos

remanescentes. As distâncias entre os grupos são consideradas com sendo a

distância entre os vizinhos mais distantes, dadas por:

Dendrograma

Single Linkage

Matriz de dissmilaridade

Distância de ligação

D

C

B

A

2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5

Page 308: multivariada - ufla

8. Análise de agrupamento 302

( ), max{ , } max{7, 9} 9AB C AC BCd d d= = =

( ), max{ , } max{8, 6} 8AB D AD BDd d d= = =

A nova matriz D para o próximo passo é:

09 08 5 0

AB C DAB

D CD

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

A menor distância é entre D e C, com dDC=5, os quais foram fundidos

formando o subgrupo DC, no nível 5. Recalculando as distâncias entre os grupos

tem-se,

( ),( ) ( ) ( )max{ , } max{8, 9} 9DC AB D AB C ABd d d= = =

A nova matriz D fica,

09 0

DC ABDC

DAB

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Conseqüentemente, o grupo DC é fundido com AB na distância 9.

Na Figura 8.4, foi apresentado o dendrograma, com os resultados alcançados.

Page 309: multivariada - ufla

Ferreira, D.F. Estatística multivariada 303

Figura 8.4. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo método da

ligação completa (vizinho mais distante).

Comparando-se os resultados alcançados e apresentados nas

Figuras 8.3 e 8.4, pode-se notar que os dendrogramas para o método do vizinho

mais próximo e do vizinho mais distante não diferem na alocação dos objetos e

sim na magnitude da fusão dos grupos CD com AB, para esse exemplo em

particular.

(c) Ligação média (método do centróide)

O método da ligação média é realizado da mesma forma que o do

vizinho mais próximo e mais distante, com exceção de que a distância entre

grupos é tomada como a média da distância entre dois elementos de cada grupo.

Para ilustrar, é usado o mesmo exemplo. Da mesma forma, são fundidos os

Dendrograma

Complete Linkage

Matriz de dissimilaridades

Distância de ligação

D

C

B

A

2 3 4 5 6 7 8 9 10

Page 310: multivariada - ufla

8. Análise de agrupamento 304

objetos menos distantes. Então, como ( ), ,min 3= =h i A Bd d , os objetos A e B devem

ser fundidos, formando o grupo (AB) e em seguida deve-se calcular as distâncias

deste grupo e os objetos remanescentes. As distâncias entre grupos são

baseadas na média das distâncias entre todos os elementos de um grupo com

relação aos elementos de outro grupo.

( ), ( ) / 2 (7 9) / 2 8AB C AC BCd d d= + = + =

( ), ( ) / 2 (8 6) / 2 7= + = + =AB D AD BDd d d

A nova matriz D para o próximo passo é:

08 07 5 0

AB C DAB

D CD

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

A menor distância é entre D e C, com dDC=5, os quais foram fundidos

formando o subgrupo DC, no nível 5. Recalculando as distâncias têm-se,

( ),( ) ( ) ( )( ) (7 8) / 2 7,5DC AB D AB C ABd d d= + = + =

A nova matriz D fica,

07,5 0

DC ABDC

DAB

⎡ ⎤= ⎢ ⎥

⎣ ⎦

Page 311: multivariada - ufla

Ferreira, D.F. Estatística multivariada 305

Conseqüentemente o grupo DC é fundido com AB na distância 7,5.

Na Figura 8.5, foi apresentado o dendrograma, com os resultados alcançados.

Figura 8.5. Dendrograma para agrupar 4 objetos (A, B, C e D) pelo método da

ligação média (centróide).

8.3.2. Agrupamentos não hierárquicos

Os agrupamentos não hierárquicos procuram a partição de n objetos

em k grupos. Os métodos exigem a pré-fixação de critérios que produzam

medidas sobre a qualidade da partição produzida. Um dos mais populares

métodos é o das k-médias.

Dendrograma

Unweighted pair-group average

Matriz de dissimilaridade

Distância de ligação

D

C

B

A

2 3 4 5 6 7 8

Page 312: multivariada - ufla

8. Análise de agrupamento 306

O algoritmo das k-médias, de uma forma bastante simplificada, é

dividido em três passos:

1. Particionar os itens em k grupos iniciais arbitrariamente;

2. Percorrer a lista de itens e calcular as distâncias de cada um deles para o

centróide (médias) dos grupos. Fazer a realocação do item para o grupo em

que ele apresentar mínima distância, obviamente se não for o grupo ao qual

este pertença. Recalcular os centróides dos grupos que ganharam e perderam

o item.

3. Repetir o passo 2 até que nenhuma alteração seja feita.

Exemplo 8.1

Utilizando 4 itens (A, B, C e D) e 2 variáveis (X1 e X2) dividir em k=2

grupos, pelo método das k-médias.

Observação Objeto x1 x2

A B C D

2 5 1 8

0 2 4 4

i) particionar os itens arbitrariamente em 2 grupos, como por exemplo AD e BC.

Calcular a média de cada grupo.

Centróide Objeto

1X 2X AD BC

(2+8)/2=5 (1+5)/2=3

(0+4)/2=2 (2+4)/2=3

Page 313: multivariada - ufla

Ferreira, D.F. Estatística multivariada 307

ii) Neste passo a distância de cada item será computada em relação ao centróide

de cada grupo e se necessário, os objetos serão realocados para o grupo mais

próximo.

2 2 2( )

2 2 2( )

(2 5) (0 2) 13

(2 3) (0 3) 10

A AD

A BC

dd

= − + − =

= − + − =

Neste caso há necessidade de realocação de A para o grupo BC,

sendo que os centróides dos grupos devem ser recalculados.

Centróide Objeto

1X 2X D

ABC 8

2,667 4 2

Recalculando as distâncias dos objetos para o centróide dos grupos

e checando a possibilidade de realocação, tem-se:

2

,

2

,( )

52

4,44A D

A ABC

dd

=

=

2

,

2

,( )

13

5,44B D

B ABC

dd

=

=

2

,

2

,( )

49

6,77C D

C ABC

dd

=

=

Item (distância quadrática p/ centróide) Grupo A B C D

D ABC

52,0 4,4

13,0 5,4

49,0 6,8

0,0 32,4

Page 314: multivariada - ufla

8. Análise de agrupamento 308

Nenhuma realocação deve ser realizada, pois os objetos têm menor

distância para os respectivos grupos aos quais eles pertencem. Para realizar uma

checagem da estabilidade de a partição alcançada é recomendável executar

novamente o algoritmo com uma nova partição inicial.

8.4. Exercícios

Agrupar os 4 objetos cuja matriz de dissimilaridades está

apresentada a seguir, utilizando todos os métodos apresentados nesse material.

A B C DA 0B 9 0

DC 25 36 0D 49 100 16 0

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎣ ⎦

Page 315: multivariada - ufla

||[ ]||Análise de fatores

9

9.1. Introdução

A técnica dos componentes principais consiste em uma

transformação ortogonal dos eixos coordenados do sistema multivariado buscando

as orientações de maior variabilidade. Para o estudo de dependências estruturais

multinormais, as técnicas de explicação das covariâncias das respostas são

preferidas. Apesar de as técnicas dos componentes principais poder ser usada

para essa finalidade, esta não deve ser preferida por ser apenas uma

transformação e não um resultado de um modelo fundamental da estrutura de

covariância. Esse método possui alguns inconvenientes, tais como não ser

invariante quanto às mudanças de escalas e não possuir um critério adequado

para determinar quando uma proporção suficiente da variação total foi explicada

pelos componentes retidos.

Nesse capítulo apresenta-se a técnica de análise de fatores com o

propósito essencial de descrever, se possível, as relações de covariância entre

diversas variáveis em função de poucas, não observáveis, quantidades aleatórias

denominadas de fatores. Sob o modelo de fatores cada variável resposta é

Page 316: multivariada - ufla

9. Análise de fatores 310

representada por uma função linear de uma pequena quantidade de fatores

comuns, não observáveis, e de uma simples variável latente específica. Os fatores

comuns geram as covariâncias entre as variáveis observadas e os termos

específicos contribuem somente para as variâncias de suas respostas

relacionadas. Os coeficientes dos fatores comuns não são restritos a condição de

ortogonalidade, o que confere generalidade, apesar de se exigir normalidade dos

dados e a determinação, a priori, do número de fatores.

Nesse capítulo são apresentados o modelo de fatores ortogonais, os

métodos de estimação dos parâmetros desse modelo e brevemente o problema

de rotação dos fatores. É considerado um método de estimação que não exige

normalidade. Métodos de estimação de os escores dos fatores são, também,

abordados, o que ao contrário dos componentes principais não é uma tarefa

simples.

9.2. Modelo de fatores ortogonais

Supondo que o sistema multivariado consiste de p resposta descritas

pelas p variáveis observáveis aleatórias X1, X2, ..., Xp. Assumindo que o vetor de

observações multivariadas p 1X possui média µ e covariância Σ, então, o modelo

de fatores pressupõe que o vetor p 1X é linearmente dependente de algumas

poucas variáveis não observáveis F1, F2, ..., Fm chamadas de fatores comuns, e p

Page 317: multivariada - ufla

Ferreira, D.F. Estatística multivariada 311

fontes de variações adicionais ε1, ε2, ..., εp chamadas de erro ou de fatores

específicos. O modelo de fatores pode ser especificado por:

1 1 11 1 12 2 1m m 1

2 2 21 1 22 2 2m m 2

p p p1 1 p2 2 pm m p

X F F ... FX F F ... F

X F F ... F

−µ = + + + + ε−µ = + + + + ε

−µ = + + + + ε

(9.1)

ou em notação matricial por:

(p 1) (p m) (m 1) (p 1)

X L F× × × ×

−µ = + ε (9.2)

em que ij é denominado de carga da i-ésima variável para o j-ésimo fator, então

a matriz L é chamada matriz de cargas fatoriais. O i-esimo fator específico εi é

associado somente com a i-ésima variável resposta Xi. Os p desvios X1-µ1, X2-µ2,

..., Xp-µp são representados por p + m variáveis aleatórias F1, F2, ..., Fm, ε1, ε2, ...,

εp, as quais são não observáveis. Esse fato distingue o modelo de fatores do

modelo de regressão multivariada, pois este último possui variáveis independentes

(ocupadas em (9.2) por F) que são observáveis.

Devido ao grande número de quantidades não observáveis e

também com a finalidade de tornar útil o modelo de fatores, algumas

pressuposições sobre os vetores F e ε são impostas. Assim é assumido que F

tem distribuição com média 0 e que os elementos de F são independentemente

Page 318: multivariada - ufla

9. Análise de fatores 312

distribuídos, ou seja, F possui covariância Ι . Da mesma forma é assumido que ε

possui média zero e os seus elementos são independentemente distribuídos, ou

seja, Cov( ε )=Ψ diagonal (p x p). Sendo assim, definem-se:

E(F) 0= (9.3)

tCov(F) E(FF )= = Ι (9.4)

E( ) 0ε = (9.5)

1

2t

p

0 00 0

Cov( ) E( )

0 0

ψ⎡ ⎤⎢ ⎥ψ⎢ ⎥ε = εε = Ψ =⎢ ⎥⎢ ⎥ψ⎢ ⎥⎣ ⎦

(9.6)

Finalmente, é assumido que F e ε são independentes, portanto,

( )t

(p m)Cov( ,F) E F 0

×ε = ε = (9.7)

O modelo (9.2) e essas pressuposições definem o modelo de fatores

ortogonal. Dessa forma a estrutura de covariância de X pode ser dada por:

tCov(X) E(X )(X )= Σ = −µ −µ

Page 319: multivariada - ufla

Ferreira, D.F. Estatística multivariada 313

Substituindo X −µ pelas definições dadas no modelo (9.2), verifica-

se que:

( )( ) ( )( ) ( ) ( )( )( ) ( )

t t t t

t t t t

X X LF LF LF LF

LF LF LF LF

− µ −µ = + ε + ε = + ε + ε =

= + ε + ε + εε

Então,

( ) ( )

( ) ( ) ( )

t

t t t t

t t t t t t

Cov(X) E(X )(X )

E LF LF LF LF

LE(FF )L E F L L E F E

= Σ = − µ − µ =

⎡ ⎤= + ε + ε + εε⎣ ⎦

= + ε + ε + εε

De acordo com as condições (9.4), (9.6) e (9.7), tem-se:

tCov(X) LL= Σ = + Ψ (9.8)

Também podem ser obtidas as covariâncias entre os componentes

de X e F a partir das suposições assumidas e apresentadas anteriormente.

Assim,

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

t t t t

t t t t

Cov X, F E X F E LF F E LFF F

E LFF E F LE FF E F L 0 L

⎡ ⎤ ⎡ ⎤= − µ = + ε = + ε =⎣ ⎦⎣ ⎦

= + ε = + ε = Ι + =

Page 320: multivariada - ufla

9. Análise de fatores 314

Logo,

( ) ( )i j ijCov X, F L ou Cov X , F= = (9.9)

Da relação (9.8) verifica-se que:

m2 2 2 2

i ii ij i i1 i2 im ij 1

m

i k ik ij kj i1 k1 i2 k2 im kmj 1

Var(X ) ...

Cov(X , X ) ...

=

=

= σ = +ψ = + + + +ψ

= σ = = + + +

(9.10)

A porção da i-ésima variável explicada por m fatores comuns é

chamada de comunalidade e a porção de σii devida aos fatores específicos é

denominada de variância específica. Denotando a i-ésima comunalidade por 2ih é

fácil observar de (9.10) que:

2 2 2 2i i1 i2 imh ...= + + + (9.11)

Assim,

2ii i ih i 1, 2, ..., pσ = +ψ = (9.12)

Page 321: multivariada - ufla

Ferreira, D.F. Estatística multivariada 315

Quando m = p a matriz Σ pode ser reproduzida exatamente por tLL ,

de tal forma que Ψ=0. A utilidade da análise de fatores, no entanto, ocorre quando

m é bem menor do que p. Dessa forma, o número de parâmetros na análise de

fatores, p(m+1), é bem menor do que aqueles p(p+1)/2 parâmetros de Σ. Por

exemplo, para p=20 existem 20×21/2=210 parâmetros em Σ. Se m=2 fatores são

utilizados, então, o modelo de fatores possui p(m+1)=20(2+1)=60 parâmetros

( ij ie ψ ).

O grande problema da análise de fatores é a dificuldade ou a

impossibilidade de fatorar a matriz Σ em LL t +Ψ, quando m é bem menor do que p.

Algumas vezes, quando são obtidas soluções, estas são, em geral, inconsistentes

com as interpretações estatísticas. A análise de fatores tem como propósito a

determinação dos elementos da matriz de cargas fatoriais L e dos elementos de

Ψ, obedecendo a restrição (9.12).

Quando m > 1, várias soluções existem para o modelo de fatores,

todas consistentes com as interpretações estatísticas. Essa ambigüidade é a base

para uma importante característica da análise de fatores que é a rotação fatorial.

Para demonstrar essa propriedade, seja T uma matriz ortogonal m x m, ou seja,

TT t =T t T=I. A expressão (9.2) pode ser reescrita por:

t * *X LF LTT F L F−µ = + ε = + ε = + ε (9.13)

em que: *L LT= e * tF T F= .

Page 322: multivariada - ufla

9. Análise de fatores 316

Como * t tE(F ) T E(F) T 0 0= = = e * t tCov(F ) T 'Cov(F)T T T T T= = Ι = = Ι ,

então, é impossível distinguir as cargas de L das de L*, ou seja, os fatores

* tF e F T F= possuem as mesmas propriedades, uma vez que geram a mesma

matriz de covariância Σ, mesmo que as cargas fatoriais de L e de L* sejam, em

geral, diferentes. Assim,

t t t * *tLL LTT L L LΣ = + Ψ = + Ψ = + Ψ (9.14)

A escolha da matriz T é direcionada por um critério de facilitação da

interpretação dos fatores gerados, uma vez que as propriedades estatísticas não

são alteradas.

9.3. Estimação das cargas fatoriais

Nas situações reais, os parâmetros do modelo de fatores são

desconhecidos e devem ser estimados das observações amostrais. A análise de

fatores é justificável quando Σ difere de uma matriz diagonal, ou quando matriz ρ

de correlações difere da identidade. Para uma amostra 1 2 nX , X , ..., X de tamanho n

em p variáveis correlacionadas a matriz S é um estimador de Σ, bem como R é de

ρ. Com base em uma estimativa de Σ é possível realizar o teste de hipótese de

igualdade de Σ a uma matriz diagonal, conforme descrição realizada no capítulo 7.

Page 323: multivariada - ufla

Ferreira, D.F. Estatística multivariada 317

Se a hipótese não for rejeitada, os fatores específicos possuem papel dominante,

sendo que a análise de fatores é determinar alguns poucos fatores comuns. Nesse

caso, a análise de fatores não terá grande utilidade.

Se a hipótese de a estrutura de Σ ser igual a uma matriz diagonal for

rejeitada, então, o modelo de fatores será útil e o problema inicial será o de

estimar as cargas fatoriais ij e as variâncias específicas ψi. Nessa seção são

considerados dois métodos de estimação para os parâmetros do modelo de

fatores: o método dos componentes principais e o método da máxima

verossimilhança apresentado por Lawley (1940, 1942 e 1943). Qualquer que seja

o método aplicado, as soluções podem sofrer rotações com a finalidade de

simplificar as interpretações dos fatores. É prudente, também, tentar mais de uma

solução.

9.3.1. Método dos componentes principais

A decomposição espectral vista nos capítulos 2 e 7, representa um

importante método de fatoração de Σ. Sejam as matrizes 1 2 pP e e ... e⎡ ⎤= ⎣ ⎦ e

1 2 pDiag( , , ..., )Λ = λ λ λ compostas dos autovetores e autovalores de Σ, com

1 2 p...λ ≥ λ ≥ ≥ λ , então:

t 1/ 2 1/ 2 t tP P P P LLΣ = Λ = Λ Λ = (9.15)

Page 324: multivariada - ufla

9. Análise de fatores 318

em que, 1/ 2L P= Λ é uma matriz p x p de cargas fatoriais.

A equação (9.15) reflete um ajuste da estrutura de covariância por

um modelo de fatores tendo tantos fatores quanto variáveis (m = p) e variâncias

específicas ψi nulas para todo i = 1, 2, ..., p. Nesse modelo as cargas fatoriais do j-

ésimo fator representam os coeficientes do j-ésimo componente principal

(autovetor) multiplicado pelo fator de escala jλ . Embora a relação (9.15) seja

exata, esta não é útil por utilizar tantos fatores quanto variáveis e por não deixar

variação alguma para os fatores específicos.

Uma solução para o problema é considerar um número m, de fatores

comuns, menor do que o de variáveis p. Com esse critério p-m autovalores e os

respectivos autovetores são desconsiderados. Esses autovalores são àqueles (p-

m) menores. Dessa forma a contribuição de t t tm 1 m 1 m 1 m 2 m 2 m 2 p p pe e e e ... e e+ + + + + +λ + λ + + λ

para Σ é negligenciada. Desprezando essa contribuição, a seguinte aproximação

de Σ pode ser obtida:

1 1

t2 21 1 2 2 m m

m m

e

ee e ... e LL

e

⎡ ⎤λ⎢ ⎥⎢ ⎥λ⎡ ⎤Σ ≅ λ λ λ =⎢ ⎥⎣ ⎦⎢ ⎥⎢ ⎥λ⎢ ⎥⎣ ⎦

(9.16)

em que L é uma matriz p x m. A representação (9.16), no entanto, não considera a

contribuição dos fatores específicos. A contribuição desses fatores pode ser

estimada tomando-se a diagonal de Σ - tLL , sendo tLL definida em (9.16).

Page 325: multivariada - ufla

Ferreira, D.F. Estatística multivariada 319

Dessa forma a matriz Σ pode ser aproximada por:

t

mt 2

i ii ijj 1

LL

Diag( LL ) ou para i=1, 2, ..., p.=

Σ ≅ + Ψ

Ψ = Σ − ψ = σ −∑

(9.17)

É comum trabalhar com a representação das variáveis em uma

escala padronizada. Nessa situação a variável Zi possui média 0 e variância 1. A

padronização pode ser realizada por:

( )

1 11

112 1/ 2

p pp

pp

XZZ

Z V XX

Z

⎡ ⎤−µ⎢ ⎥⎡ ⎤

σ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = −µ =⎢ ⎥⎢ ⎥

−µ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ σ⎢ ⎥⎣ ⎦

(9.18)

em que:

11

1/ 222

pp

1 0 0

10 0V

10 0

⎡ ⎤⎢ ⎥σ⎢ ⎥⎢ ⎥⎢ ⎥

σ= ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦

Page 326: multivariada - ufla

9. Análise de fatores 320

A matriz de covariância de Z é dada por ρ. O processo de obtenção

dos parâmetros do modelo de fatores é o mesmo descrito nas equações de (9.17),

considerando Σ=ρ e 1/ 2L P= Λ , sendo P a matriz p x m com as colunas compostas

pelos m primeiros autovetores de ρ e Λ1/2 uma matriz m x m com diagonal igual a

iλ . Como ii 1σ = , é fácil perceber que m

2i ij

j 1

1=

ψ = −∑ . A padronização evita que

uma variável com elevada variação influencie indevidamente a determinação das

cargas fatoriais.

A representação apresentada em (9.17), quando Σ ou ρ são

substituídos pelos seus estimadores S ou R, é conhecida como solução dos

componentes principais para a análise de fatores. O nome se origina do fato de os

fatores serem derivados dos primeiros componentes principais amostrais. O

resumo dos principais resultados desse método de estimação é doravante

apresentado.

A análise de fatores por componentes principais obtidos da

covariância amostral S é especificada em função dos pares de autovalores e

autovetores ( )i iˆ ˆ, eλ , i = 1, 2, ..., p, em que 1 2 p

ˆ ˆ ˆ...λ ≥ λ ≥ ≥ λ . Seja m < p, o número

de fatores comuns. A matriz das cargas fatoriais estimadas ( )ijˆ é dada por:

1/ 21 1 2 2 m m 1 1

ˆ ˆ ˆ ˆ ˆˆ ˆ ˆL e e ... e P⎡ ⎤= λ λ λ = Λ⎢ ⎥⎣ ⎦ (9.19)

Page 327: multivariada - ufla

Ferreira, D.F. Estatística multivariada 321

em que 1P é uma matriz p x m dos autovetores amostrais de S e 1Λ é uma matriz

diagonal m x m dos autovalores amostrais de S.

Os estimadores das variâncias específicas são dados pela matriz

diagonal resultante da seguinte operação matricial.

( )1

2 t

p

0 00 0

Diag S LL

0 0

ψ⎡ ⎤⎢ ⎥ψ⎢ ⎥Ψ = = −⎢ ⎥⎢ ⎥ψ⎢ ⎥⎣ ⎦

(9.20)

De (9.20) verifica-se que:

m

2 2i ii ij ii i

j 1

S S h=

ψ = − = −∑ (9.21)

Sendo que o estimador da comunalidade é dado por:

2 2 2 2i i1 i2 imh ...= + + + (9.22)

A análise de fatores por componentes principais da matriz R, por sua

vez, é obtida substituindo S por R nas equações de (9.19) a (9.22). Na solução

dos componentes principais as estimativas das cargas fatoriais não se alteram

com o aumento do número m de fatores.

Page 328: multivariada - ufla

9. Análise de fatores 322

É fácil perceber por meio das definições apresentadas que a matriz

S não é fielmente reproduzida pela solução de componentes principais. A diagonal

de S é exatamente reproduzida pelo modelo de fatores, mas os elementos fora da

diagonal principal não são. Assim,

tS LL≅ + Ψ (9.23)

Se o número de fatores não é especificado por considerações a

priori, como por teoria ou por trabalhos anteriores de outros pesquisadores, a

escolha de m para uma decomposição de maior acurácia de S pode ser baseada

nos autovalores estimados, da mesma forma que o número de componentes

principais a serem retidos é determinado. Analiticamente, Johnson e Wichern

(1998) demonstram que a soma de quadrados dos elementos da matriz de

resíduos tS LL− −Ψ é menor ou igual a p

2i

i m 1

ˆ= +

λ∑ . Assim, um pequeno valor da soma

de quadrados dos últimos (p-m) autovalores negligenciados implica em uma

pequena soma de quadrados do erro da aproximação realizada por m

componentes. O ideal é obter uma elevada contribuição dos primeiros fatores para

a variação total amostral. Assim, verifica-se que:

p

2 2 2 2 tij 1j 2 j pj j j j j j

i 1

ˆ ˆ ˆˆ ˆ... e e=

= + + + = λ λ = λ∑ (9.24)

Page 329: multivariada - ufla

Ferreira, D.F. Estatística multivariada 323

Logo, a porcentagem da variação total devida ao j-ésimo fator é dada

por:

j

j

ˆ100 para fatores de S

Tr(S)%VarExp

ˆ100 para fatores de R

p

⎧ λ×⎪

⎪⎪= ⎨⎪λ⎪ ×⎪⎩

(9.25)

O critério (9.25) é usado como um artifício heurístico para determinar

o valor apropriado de m. O número de fatores comuns retidos deve aumentar até

que uma fração “adequada” da variação amostral tenha sido contemplada.

Exemplo 9.1. Em 24 tartarugas fêmeas foram mensuradas p = 3 variáveis X1, X2 e

X3, quais sejam, comprimento, largura e altura de carapaças transformadas por

logaritmo. A matriz de covariâncias amostrais é apresentada a seguir. Obter a

análise de fatores com m = 1 e m = 2 usando o método dos componentes

principais.

4,9810 3,8063 4,7740S 3,8063 3,0680 3,7183

4,7740 3,7183 4,8264

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

Inicialmente foi testada a hipótese:

Page 330: multivariada - ufla

9. Análise de fatores 324

11

220 ii 0

pp

0 00 0

H : ;

0 0

>

σ⎡ ⎤⎢ ⎥σ⎢ ⎥Σ = σ⎢ ⎥⎢ ⎥σ⎢ ⎥⎣ ⎦

O valor de qui-quadrado obtido foi de 2c 127,9805χ = com ν=3 graus

de liberdade. Como ( )2Pr 127,9805 0,00000054χ > = rejeita-se H0 de independência

entre todas as variáveis. Portanto, a análise de fatores deve ser eficiente.

A solução para m = 1 é apresentada a seguir. A solução de 1 fator

explica 98,2% da variação total e pode ser julgada satisfatória. A soma de

quadrados dos dois últimos autovalores, dada por 2 22 3

ˆ ˆ 0,0291λ + λ = , foi considerada

muito pequena e indica que a soma de quadrados dos elementos da matriz de

resíduos não deve ultrapassar esse valor. Os resultados obtidos são:

Variáveis

Cargas fatoriais F1

Comunalidades 2ih

Variâncias específicas

iψ X1 2,2165 4,9129 0,0681 X2 1,7277 2,9849 0,0831 X3 2,1770 4,7394 0,0870

% explicação 98,1500

A matriz de resíduos é dada por:

Page 331: multivariada - ufla

Ferreira, D.F. Estatística multivariada 325

[ ]

tS LL

4,9810 3,8063 4,77403,8063 3,0680 3,71834,7740 3,7183 4,8264

2, 2165 0,0681 0 01,7277 2, 2165 1,7277 2,1770 0 0,0831 02,1770 0 0 0,0870

0 0,0228 0,05150,0228 0 0,04290,0515 0,

− − Ψ =

⎡ ⎤⎢ ⎥= −⎢ ⎥⎢ ⎥⎣ ⎦

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥− −⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

− −= − −

− − 0429 0

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

A soma de quadrados dos elementos dessa matriz de resíduos é de

apenas 0,01003, que é menor do que 0,0291 conforme já era esperado.

Para m = 2 a solução é dada por:

Cargas fatoriais Variáveis F1 F2

Comunalidades 2ih

Variâncias específicas

iψ X1 2,2165 0,1630 4,9394 0,0418 X2 1,7277 0,1608 3,0108 0,0575 X3 2,1770 -0,2935 4,8255 0,0003

% explicação acumulada

98,15

99,23

A soma de quadrados de resíduos para esse caso (m = 2) é igual a

0,0049, a qual é limitada por 0,0099. Uma vez que os ganhos foram muito

pequenos, o modelo de 1 fator pode ser julgado adequado. O fator 1 pode ser

interpretado como um fator de volume.

Page 332: multivariada - ufla

9. Análise de fatores 326

Uma aproximação modificada do método dos componentes

principais é denominada solução fatorial principal. O procedimento é válido tanto

para R quanto para S. A descrição que é realizada a seguir utiliza a matriz R. No

modelo de fatores tLLρ = + Ψ é perfeitamente especificado: os m fatores comuns

reconstituirão perfeitamente os elementos fora da diagonal principal de ρ, bem

como os elementos da diagonal com a participação da variância específica:

2i i1 h= +ψ .

Supondo que a contribuição dos fatores específicos seja removida

da reconstituição de ρ, então, a matriz resultante é ρ - Ψ = tLL . Suponha, também,

que estimativas iniciais *iψ tenham sido obtidas por um meio qualquer, então, é

possível definir a matriz de correlação amostral reduzida (Rr) eliminando o efeito

dos fatores específicos por *rR R= −Ψ . Esse processo é equivalente a substituir a

diagonal de R por *2 *i ih 1= −ψ . A matriz Rr é definida por:

*21 12 1p

*221 2 2p*

r

*2p1 p2 p

h r rr h r

R R

r r h

⎡ ⎤⎢ ⎥⎢ ⎥= −Ψ = ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(9.26)

Teoricamente, desconsiderando a variação amostral, é possível

estabelecer que a matriz Rr pode ser recomposta pelos m fatores comuns. Dessa

forma, Rr é fatorada em:

Page 333: multivariada - ufla

Ferreira, D.F. Estatística multivariada 327

* *tr r rR L L≅ (9.27)

em que *rL é a matriz dos estimadores das cargas fatoriais *

ij .

O método fatorial principal de análise de fatores utiliza os

estimadores:

* * * * * * *r 1 1 2 2 m m

m* *2i ij

j 1

ˆ ˆ ˆˆ ˆ ˆL e e e

1=

⎧ ⎡ ⎤= λ λ λ⎪ ⎢ ⎥⎣ ⎦⎪⎪⎨⎪⎪ψ = −⎪⎩

(9.28)

em que ( )* *i í

ˆ ˆ; eλ , i = 1, 2, ..., m são os (maiores) pares de autovalor-autovetor

obtidos de Rr.

As comunalidades devem ser re-estimadas por:

m

*2 *2i ij

j 1

h=

= ∑ (9.29)

O método, então, é aplicado iterativamente, considerando as

comunalidades estimadas em (9.29) para recalcular a matriz Rr em (9.26). Os

autovalores e autovetores dessa nova matriz Rr são obtidos e as estimativas das

cargas fatoriais e variâncias específicas utilizando (9.28) são novamente obtidas.

Novas comunalidades, também, são obtidas utilizando (9.29) e o processo é

repetido em novos estágios sucessivos, até que não haja alterações nas

Page 334: multivariada - ufla

9. Análise de fatores 328

estimativas das cargas fatoriais e das variâncias específicas para uma dada

precisão.

Um problema que pode surgir nesse procedimento é o aparecimento

de autovalores de Rr negativos. Recomenda-se utilizar o número de fatores

comuns igual ao posto da matriz reduzida (Rr). Uma das causas dos autovalores

negativos é devida aos valores iniciais das variâncias específicas utilizadas.

Algumas alternativas existem para a escolha desses valores iniciais. A mais

popular é utilizar * iii 1 rψ = , em que rii é o elemento da i-ésima diagonal da matriz

R-1. As comunalidades iniciais são, então, dadas por:

*2 *i i ii

1h 1 1r

= −ψ = − (9.30)

que é igual ao coeficiente de determinação parcial múltiplo entre a i-ésima variável

(Xi) e as (p-1) demais variáveis. Essa relação é útil, pois permite que *2ih seja

obtida pelo coeficiente de determinação múltiplo, mesmo quando R não tiver posto

completo. Usando S, a variância específica inicial é função de Sii, o elemento da i-

ésima posição da diagonal de S-1, da seguinte forma:

*2 iii ii

mh S 1 S2p

⎛ ⎞= − −⎜ ⎟

⎝ ⎠ (9.31)

Page 335: multivariada - ufla

Ferreira, D.F. Estatística multivariada 329

9.3.2. Método da máxima verossimilhança

Se os fatores comuns F e os fatores específicos ε possuem

distribuição normal, estimativas de máxima verossimilhança podem ser obtidas.

Do modelo de fatores e da consideração de que as variáveis F e ε possuem

distribuição normal pode concluir que j j jX LF−µ = + ε também é normalmente

distribuído e portanto a função de verossimilhança é:

( )( ) ( )( )

( ) ( )

n / 2np / 2

n tt1j j

j 1

(n 1) / 2(n 1)p / 2 1n

t1/ 2p / 2 1

L( , ) (2 )

1exp tr X X X X n X X2

1(2 ) exp tr S2

n(2 ) exp tr X X2

−−

=

− −− − −

−− −

µ Σ = π Σ

⎧ ⎫⎡ ⎤⎛ ⎞⎪ ⎪⎛ ⎞× − Σ − − + − µ − µ =⎢ ⎥⎨ ⎬⎜ ⎟⎜ ⎟⎝ ⎠ ⎢ ⎥⎝ ⎠⎪ ⎪⎣ ⎦⎩ ⎭

⎧ ⎫⎛ ⎞ ⎡ ⎤= π Σ − Σ⎨ ⎬⎜ ⎟ ⎣ ⎦⎝ ⎠⎩ ⎭⎧ ⎫⎛ ⎞ ⎡ ⎤× π Σ − − µ Σ −µ⎨ ⎜ ⎟ ⎢ ⎥⎣ ⎦⎝ ⎠⎩

⎬⎭

(9.32)

a qual depende de L e Ψ por meio de tLLΣ = +Ψ .

Devido à multiplicidade de escolhas para L dadas por

transformações ortogonais é imperativo impor uma restrição de unicidade

computacional por:

t 1L L−Ψ = ∆ uma matriz diagonal (9.33)

Page 336: multivariada - ufla

9. Análise de fatores 330

Os estimadores de máxima verossimilhança L e Ψ devem ser

obtidos por maximização numérica de (9.32). A maximização de (9.32) sujeita a

condição de unicidade (9.33) deve satisfazer:

( )( ) ( )1/ 2 1/ 2 1/ 2 1/ 2n

ˆ ˆ ˆ ˆ ˆ ˆ ˆS L L− − − −Ψ Ψ Ψ = Ψ Ι + ∆ (9.34)

Lawley (1940, 1942, 1943) mostra que o estimador ∆ é dado por:

t 1ˆ ˆ ˆ ˆL L−∆ = Ψ (9.35)

Assim, a equação (9.34) pode ser rescrita de outra forma,

procedendo as seguintes operações:

( ) ( )

( )

1/ 2 1/ 2 1/ 2 1/ 2 t 1n

1/ 2 1/ 2 1/ 2 1/ 2 1/ 2 t 1n

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L L L L

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L L LL L

− − − − −

− − − − − −

Ψ Ψ Ψ = Ψ Ι + Ψ

Ψ Ψ Ψ −Ψ = Ψ Ψ

( )1/ 2 1/ 2 1/ 2 1/ 2 t 1n

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L LL L− − − − −Ψ Ψ − Ι Ψ = Ψ Ψ

Logo,

( )1/ 2 1/ 2 1/ 2 1/ 2 t 1n

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆS L LL L− − − − −⎡ ⎤Ψ −Ψ Ψ Ψ = Ψ Ψ⎣ ⎦ (9.36)

Page 337: multivariada - ufla

Ferreira, D.F. Estatística multivariada 331

Como t 1ˆ ˆ ˆL L−Ψ é uma matriz diagonal para garantir que os elementos

de L sejam únicos, então, os autovalores de ( ) 1n

ˆ ˆS −−Ψ Ψ , e portanto

( )1/ 2 1/ 2n

ˆ ˆ ˆS− −Ψ −Ψ Ψ , são iguais aos valores correspondentes a diagonal de ∆ .

Dessa forma, a i-ésima coluna de 1/ 2ˆ L−Ψ é o vetor característico correspondente

ao i-ésimo autovalor de ( )1/ 2 1/ 2n

ˆ ˆ ˆS− −Ψ −Ψ Ψ . O cálculo desses vetores não é um

processo direto, uma vez que os elementos de Ψ são também desconhecidos, os

quais devem ser obtidos da relação tˆ ˆ ˆDiag(S LL )Ψ = − . Sendo assim, o processo de

estimação deve ser executado iterativamente estimando-se os vetores

característicos correspondentes a valores iniciais de os elementos de Ψ , e então,

utilizá-los para obter novas estimativas mais precisas das variâncias específicas

sucessivamente.

Para o modelo com m fatores os vetores característicos

correspondentes aos m maiores autovalores de Sn podem ser utilizados como

valores iniciais do processo iterativo. Os elementos desses vetores devem ser re-

escalonados para que as somas de seus quadrados sejam iguais aos respectivos

autovalores. O processo iterativo é descrito a seguir:

1. Calcular as m raízes características ( )10 20 m0ˆ ˆ ˆ, ,...,λ λ λ de Sn e os vetores

característicos correspondentes ( )10 20 m0ˆ ˆ ˆe ,e ,..., e , de tal sorte que seus

elementos sejam re-escalonados para que tenham norma quadrática igual

Page 338: multivariada - ufla

9. Análise de fatores 332

a i0λ , na matriz 0P apresentada a seguir, com i = 1, 2, ..., m. Seja a matriz

0Q (p x m) definida por [ ]0 10 20 m0ˆ ˆ ˆ ˆQ e e ... e= , sem re-escalonar. Dessa forma,

é possível definir as matrizes 0Λ (m x m) e 0P (p x m) por:

10

200

m0

ˆ 0 0ˆ0 0ˆ

ˆ0 0

⎡ ⎤λ⎢ ⎥

λ⎢ ⎥Λ = ⎢ ⎥⎢ ⎥⎢ ⎥λ⎣ ⎦

e

1/ 20 0 0

ˆˆ ˆP Q= Λ

2. Aproximar as variâncias específicas por:

( )t0 n 0 0

ˆ ˆ ˆDiag S P PΨ = − (9.37)

3. Obter a matriz

( )1/ 2 1/ 20 n 0 0

ˆ ˆ ˆS− −Ψ −Ψ Ψ (9.38)

e extrair os m autovetores ( )11 21 m1ˆ ˆ ˆe ,e ,..., e e os correspondentes autovalores

( )11 21 m1ˆ ˆ ˆ, ,...,λ λ λ dessa matriz. Formar a matriz [ ]1 11 21 m1

ˆ ˆ ˆ ˆQ e e ... e= sem re-

escalonar e definir as matrizes:

Page 339: multivariada - ufla

Ferreira, D.F. Estatística multivariada 333

11

211

m1

ˆ 0 0ˆ0 0ˆ

ˆ0 0

⎡ ⎤λ⎢ ⎥

λ⎢ ⎥Λ = ⎢ ⎥⎢ ⎥⎢ ⎥λ⎣ ⎦

e

1/ 21 1 1

ˆˆ ˆP Q= Λ

A primeira aproximação de L ( )1L é dada por:

1/ 21 0 1

ˆ ˆ ˆL P= Ψ (9.39)

4. Calcular

( )t1 n 1 1

ˆ ˆ ˆDiag S L LΨ = − (9.40)

Repetir os passos 3 e 4 até que os correspondentes elementos de

sucessivas iterações de iL e i 1L + não difiram por um valor superior a uma

quantidade pré-determinada (critério de convergência). O resultado final do

processo iterativo conterá as estimativas de máxima verossimilhança para as

cargas fatoriais L e das variâncias específicas para o modelo m-fatorial. É

apresentado a seguir um programa SAS no procedimento de matrizes IML para a

obtenção de estimativas de máxima verossimilhança do modelo m-fatorial.

Page 340: multivariada - ufla

9. Análise de fatores 334

As cargas fatoriais e as variâncias específicas da matriz R podem

ser obtidas diretamente de L e Ψ realizando as seguintes transformações.

Formar a matriz diagonal (D) a partir dos elementos Sii de S. Então obter as

estimativas de máxima verossimilhança de R para as cargas fatoriais ( )ZL e para

as variâncias específicas ZΨ . Esses estimadores são:

1/ 2Z

ˆ ˆL D L−= (9.41)

1/ 2 1/ 2Z

ˆ ˆD D− −Ψ = Ψ (9.42)

As estimativas de máxima verossimilhança das comunalidades são

dadas por:

2 2 2 2i i1 i2 im

ˆ ˆ ˆ ˆh ... para i 1, 2, ..., p= + + + = (9.43)

Page 341: multivariada - ufla

Ferreira, D.F. Estatística multivariada 335

options ps=5000 ls=80 nodate nonumber;; proc iml; S={4.9810 3.8063 4.7740, 3.8063 3.0680 3.7183, 4.7740 3.7183 4.8264}; p=ncol(S);n=24;alpha=0.05; L0=Diag(eigval(S));P0=eigvec(S); numfac=1;numIt=100; L0=L0[1:numfac,1:numfac]; P0=P0[1:p,1:numfac];P0=P0*root(L0); print L0 P0; Psi0=diag(S-P0*P0`); print psi0; psii=psi0; do i=1 to numIt; Print '_______________________________________________________________'; print 'iteracao ' i; Print'________________________________________________________________'; Delta=inv(root(psii))*(S-psii)*inv(root(psii)); *print delta; Li=Diag(eigval(delta));Pi=eigvec(delta); Li=Li[1:numfac,1:numfac]; Pi=Pi[1:p,1:numfac]; Pi=root(psii)*Pi*root(Li); *print Li Pi; Psii=diag(S-Pi*Pi`); /*soma de quadrados dos residuos do modelo*/ resi=S-pi*pi`-psii; print 'Soma de quadrados dos residuos'; SQResiduo=sum(resi#resi); print sqresiduo; *print psii; Print'________________________________________________________________'; end; Print 'Solucao final do modelo de fatores'; Print 'Cargas fatoriais'; print Pi; print 'Variancias especificas'; print psii; resi=S-pi*pi`-psii; print 'matriz de residuos'; print resi; print 'Soma de quadrados dos residuos'; SQResiduo=sum(resi#resi); print sqresiduo; print 'Cargas fatoriais de Z-variaveis padronizadas'; D=root(inv(diag(S))); PiZ=D*Pi; print PiZ; print 'Variancias especificas fatoriais de Z-variaveis padronizadas'; PsiZ=D*psii*D; print PsiZ; Li=Diag(eigval(delta)); print Li; quit;

Page 342: multivariada - ufla

9. Análise de fatores 336

Dessa forma, a proporção explicada pelo j-ésimo fator é dada por:

p2ij

i 1

p2Z(i j)

i 1

ˆ100 para fatores de S

Tr(S)%VarExp

ˆ100 para fatores de R

p

=

=

⎧⎪⎪ ×⎪⎪= ⎨⎪⎪⎪ ×⎪⎩

(9.44)

O processo descrito anteriormente para a obtenção das soluções de

máxima verossimilhança possui convergência lenta. Aitken (1937) propôs uma

técnica conhecida por processo δ2 de aceleração dos esquemas iterativos de

convergência. Seja jt os elementos do t-ésimo processo iterativo, referente a j-

ésima coluna da matriz de cargas fatoriais Lt do estágio t. O processo de Aitken

(1937) prevê para 3 consecutivos valores de jt o ajuste pela razão:

ij( t 1) ijt

ijt ij( t 1)2i j t

ij( t 1) ijt ij( t 1)2

+

+ −

=− +

(9.45)

em que ijt é o i-esimo elemento de jt . Se o denominador de (9.45) for nulo o

valor de 2i j t deve ser feito igual a i j t .

Aitken (1937) mostra que os termos de 2j t convergem mais

rapidamente do que àqueles de j t .

Page 343: multivariada - ufla

Ferreira, D.F. Estatística multivariada 337

Exemplo 9.2. Utilizando a matriz de covariâncias amostral das 24 tartarugas

fêmeas que foram mensuradas em p = 3 variáveis X1, X2 e X3, as quais são:

comprimento, largura e altura de carapaças transformadas por logaritmo,

determinar o modelo de fatores com m = 1. Ajustar o modelo por meio de

estimativas de máximas verossimilhanças.

4,9810 3,8063 4,7740S 3,8063 3,0680 3,7183

4,7740 3,7183 4,8264

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

i) Inicialmente foram obtidos os autovalores e autovetores de S e

compostas as matrizes 0 0 0ˆˆ ˆ(1 1), Q (3 1) e P (3 1)Λ × × × por:

0ˆ 12,637147Λ = 0

0,6234937Q 0, 4859812

0,612436

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

1/ 20 0 0 0

2, 2164432ˆˆ ˆ ˆL P Q 1,727603

2,1771344

⎡ ⎤⎢ ⎥= = Λ = ⎢ ⎥⎢ ⎥⎣ ⎦

ii) As variâncias específicas iniciais foram obtidas por:

( )t0 n 0 0

0,0683794 0 0ˆ ˆ ˆDiag S P P 0 0,0833879 0

0 0 0,0864857

⎡ ⎤⎢ ⎥Ψ = − = ⎢ ⎥⎢ ⎥⎣ ⎦

iii) Foi obtida a seguinte matriz e desta extraídos os autovalores e

autovetores. O m = 1 primeiro autovalor e autovetor correspondente

foram usados para compor as matrizes 1 1 1ˆˆ ˆ(1 1), Q (3 1) e P (3 1)Λ × × × .

Page 344: multivariada - ufla

9. Análise de fatores 338

( )1/ 2 1/ 20 n 0 0

71,843527 50,406739 62,079406ˆ ˆ ˆS 50,406739 35,791891 43,784534

62,079406 43,784534 54,805777

− −

⎡ ⎤⎢ ⎥Ψ −Ψ Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦

1ˆ 161,45963Λ = 1

0,6657947Q 0,4691915

0,5801523

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

1/ 21 1 1

8,4600381ˆˆ ˆP Q 5,9618652

7,3718074

⎡ ⎤⎢ ⎥= Λ = ⎢ ⎥⎢ ⎥⎣ ⎦

Finalmente a primeira aproximação 1L é feita por:

1/ 21 0 1

2,2122546ˆ ˆ ˆL P 1,721606

2,167934

⎡ ⎤⎢ ⎥= Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦

iv) Foi calculado o segundo valor 1Ψ por:

( )t1 n 0 0

0,0869296 0 0ˆ ˆ ˆDiag S L L 0 0,1040727 0

0 0 0,1264622

⎡ ⎤⎢ ⎥Ψ = − = ⎢ ⎥⎢ ⎥⎣ ⎦

Os procedimentos 3 e 4 foram repetidos 41 vezes até que as trocas

na matriz (vetor) L fosse da ordem de 1e-7 ou menos. O resultado final foi:

Page 345: multivariada - ufla

Ferreira, D.F. Estatística multivariada 339

1/ 241 40 41

2,2106526ˆ ˆ ˆL P 1,7217993

2,1595433

⎡ ⎤⎢ ⎥= Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦

e

( )t41 n 41 41

0,0940152 0 0ˆ ˆ ˆDiag S L L 0 0,1034073 0

0 0 0,1627727

⎡ ⎤⎢ ⎥Ψ = − = ⎢ ⎥⎢ ⎥⎣ ⎦

A matriz de resíduos (R) foi:

0 2,9835E-8 3,7474E-8R 2,9835E-8 0 -7,05E-8

3,7474E-8 -7,05E-8 0

⎡ ⎤⎢ ⎥= ⎢ ⎥⎢ ⎥⎣ ⎦

E a soma de quadrados dos resíduos foi:

SQResíduos= 1,453E-14

As cargas fatoriais obtidas das variáveis padronizadas são:

1/ 2Z

1 0 04,9810 2,2106526 0,9905177

1ˆ ˆL D L 0 0 1,7217993 0,9830033,0680 2,1595433 0,9829926

10 04,8264

⎡ ⎤⎢ ⎥⎢ ⎥ ⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥ ⎢ ⎥= = =⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

E as variâncias específicas são:

Page 346: multivariada - ufla

9. Análise de fatores 340

1/ 2 1/ 2Z

0,0188748 0 0ˆ ˆD D 0 0,0337051 0

0 0 0,0337255

− −

⎡ ⎤⎢ ⎥Ψ = Ψ = ⎢ ⎥⎢ ⎥⎣ ⎦

Exemplo 9.3. A matriz de correlação entre 10 escores das respectivas 10 provas

do declato, medidas em n = 160 atletas, está apresentada a seguir. Obter os m = 4

fatores pelo método da máxima verossimilhança. As dez variáveis mensuradas

são: i) corrida de 100 m rasos; ii) salto em distância; iii) lançamento de peso; iv)

salto em altura; v) corrida dos 400m livres; vi) 110 m com barreiras; vii) arremesso

de disco; viii) salto com vara; ix) arremesso de dardos; e x) corrida de 1500 m. A

matriz de correlação dos escores dos 160 competições.

1,00 0,59 0,35 0,34 0,63 0, 40 0, 28 0, 20 0,11 0,071,00 0, 42 0,51 0, 49 0,52 0,31 0,36 0, 21 0,09

1,00 0,38 0,19 0,36 0,73 0, 24 0, 44 0,081,00 0, 29 0, 46 0, 27 0,39 0,17 0,18

1,00 0,34 0,17 0, 23 0,13 0,39R

1,00 0,32 0,33 0,18 0,001,00 0, 24 0,34 0,0

=

− 21,00 0, 24 0,17

1,00 0,001,00

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥−⎢ ⎥⎢ ⎥⎣ ⎦

A solução de m = 4 fatores, dada por Johnson e Wichern (1998), foi

obtida pelo algoritmo apresentado nesse material por meio das estimativas de

máxima verossimilhança. Após 100 mil iterações o algoritmo convergiu.

Page 347: multivariada - ufla

Ferreira, D.F. Estatística multivariada 341

Estimativas de máxima verossimilhança

Cargas fatoriais estimadas Variâncias

específicas Variáveis

F1 F2

F3

F4

2i i

ˆˆ 1 hψ = −

Corrida 100m -0,0869 0,3449 0,8290 -0,1685 0,157935 Salto em distância 0,0688 0,4352 0,5931 0,2746 0,378693 Lançamento de peso -0,1294 0,9911 -0,0038 -0,0007 0,001053 Salto em altura 0,1603 0,4059 0,3343 0,4451 0,499688 corrida 400m 0,3787 0,2437 0,6702 -0,1372 0,329262 110m com barreira -0,0178 0,3629 0,4234 0,3878 0,538310 Arremesso de disco -0,0563 0,7294 0,0268 0,0182 0,463815 Salto com vara 0,1573 0,2640 0,2275 0,3937 0,698795 Arremesso de dardos -0,0218 0,4411 -0,0115 0,0971 0,795340 1500m rasos 0,9986 0,0496 -0,0004 -0,0001 0,000408 Proporção cumulativa da variância explicada

0,12

0,37 0,55

0,61

Page 348: multivariada - ufla

9. Análise de fatores 342

9.4. Rotação fatorial

A fatoração de Σ em tLL +Ψ não é única, conforme discussão

realizada na seção 9.2. A pós-multiplicação da matriz de cargas fatoriais L por

qualquer matriz ortogonal conformável (T) conduz a uma fatoração igualmente

válida. A solução numérica de Rao-Maxwell para as equações de verossimilhança

remove essa indeterminação por adotar a restrição de que t 1ˆ ˆ ˆL L−Ψ seja uma matriz

diagonal. Não obstante, após a obtenção da solução de máxima verossimilhança,

qualquer transformação ortogonal pode ser realizada. A idéia é aplicar tal

transformação rígida dos eixos coordenados, a qual conduz a um padrão que

tornam as cargas fatoriais mais facilmente interpretáveis. Essa rotação rígida dos

eixos coordenados das m-dimensões fatoriais é chamada de rotação das cargas

fatoriais.

Citado por Morrison (1974) Thurstone sugere um critério de resposta

de simples estrutura para a realização da rotação fatorial. Estruturas como a

sugerida raramente existe em dados reais e não será descrito o procedimento de

Thurstone. Outra técnica de uso limitado é a obtenção de rotação graficamente

dos fatores plotados dois a dois. A rotação analítica é o procedimento mais

comumente empregado. Na rotação ortogonal rígida as propriedades estatísticas

dos fatores ficam inalteradas, embora a matriz de cargas fatoriais não seja a

mesma. Supondo que a matriz p x m de cargas fatoriais seja submetida a uma

rotação rígida pela matriz ortogonal T (m x m) por meio da seguinte operação:

Page 349: multivariada - ufla

Ferreira, D.F. Estatística multivariada 343

*L LT= . A ortogonalidade de T, isto é, tT T = tT T = Ι, faz com que as

comunalidade fiquem inalteradas:

m m*2 2 *2 2ij ij i i

j 1 j 1

h h= =

= ⇔ =∑ ∑

bem como a soma de seus quadrados:

2p p pm m m 1 m

2 4 2 2ij ij ij ik

i 1 j 1 i 1 j 1 i 1 j 1 k j 1

2−

= = = = = = = +

⎛ ⎞= +⎜ ⎟

⎝ ⎠∑ ∑ ∑∑ ∑∑ ∑ (9.46)

também é invariante.

Com esse resultado em evidência é possível especificar critérios de

simplicidade ou parcimônia propostos pelos analistas de fatores (Morrison, 1976).

Fergusson (1954) sugeriu minimizar o termo dos duplos produtos de (9.46) como

uma medida de parcimônia, por meio de uma escolha adequada de T. Esse

resultado foi determinado quase que ao mesmo tempo e independentemente por

Carroll (1953).

Neuhaus e Wrigley (1954) propuseram a maximização da variância

do quadrado das pm cargas fatoriais para definir T. A variância do quadrado das

cargas fatoriais é:

2p pm m

4 2ij ij

i 1 j 1 i 1 j 1

1Vpm= = = =

⎛ ⎞= − ⎜ ⎟

⎝ ⎠∑∑ ∑∑ (9.47)

Como o termo de correção é meramente soma das comunalidades

tomada ao quadrado, então, a maximização de V é equivalente a maximizar a

Page 350: multivariada - ufla

9. Análise de fatores 344

soma da quarta potência das cargas fatoriais, ou equivalentemente, minimizar a

medida de parcimônia de Fergusson (1954) e Carroll (1953). Por argumentos

diferentes Sanders (1960) obteve o mesmo critério de Neuhaus e Wrigley (1954).

Esse critério determina o método denominado de “quartimax” por maximizar a

soma da quarta potencia das cargas fatoriais.

Kaiser (1958, 1959) propôs uma medida de estrutura simples

relacionada a soma das variâncias das cargas fatoriais quadráticas dentro de cada

coluna da matriz L de fatores. O critério de “varimax” de linha de Kaiser é:

2p pm

* 4 2ij ij2

j 1 i 1 i 1

1v pp = = =

⎡ ⎤⎛ ⎞= −⎢ ⎥⎜ ⎟

⎢ ⎥⎝ ⎠⎣ ⎦∑ ∑ ∑ (9.48)

Esse critério dá pesos iguais às respostas com grandes e com

pequenas comunalidades e Kaiser sugere a melhora desse critério pelo uso do

critério alternativo:

2p pm

4 2ij ij2

j 1 i 1 i 1

1v p x xp = = =

⎡ ⎤⎛ ⎞= −⎢ ⎥⎜ ⎟

⎢ ⎥⎝ ⎠⎣ ⎦∑ ∑ ∑ (9.49)

em que:

ijij m

2ij

j 1

x

=

=

∑ (9.50)

Page 351: multivariada - ufla

Ferreira, D.F. Estatística multivariada 345

é j-ésima carga fatorial do i-ésima variável resposta dividida pela raiz quadrada de

sua comunalidade. Na seqüência da rotação os valores de xij devem ser

multiplicados pela raiz quadrada de sua comunalidade respectiva para restaurar a

dimensão original. Esse critério foi nomeado por Kaiser de “varimax”.

O processo computacional para a rotação varimax é descrito a

seguir. Considere o par de fatores r e s, com cargas normalizadas xir e xis. A

rotação desses fatores envolve o simples ângulo φ, e diferenciando (9.49) com

relação a φ Kaiser mostrou que o ângulo deve satisfazer a relação:

( ) ( )

( ) ( ) ( )

p p p2 2 2 2ir is ir is ir is ir is

i 1 i 1 i 1

2 2p p p22 2 2 2

ir is ir is ir is ir isi 1 i 1 i 1

2 2p x x x x x x 2 x xtg( )

p x x 2x x x x 2 x x

= = =

= = =

⎡ ⎤⎛ ⎞− − −⎢ ⎥⎜ ⎟

⎝ ⎠⎣ ⎦φ =⎧ ⎫⎡ ⎤ ⎛ ⎞⎪ ⎪⎡ ⎤− − − − −⎨ ⎬⎜ ⎟⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎝ ⎠⎪ ⎪⎩ ⎭

∑ ∑ ∑

∑ ∑ ∑ (9.51)

Para que a segunda derivada seja negativa é necessário que 4φ seja

colocado no quadrante correto. A escolha é designada pelos sinais do numerador

e denominador de (9.51). A Tabela 9.1 especifica o quadrante de 4φ em função

destes sinais.

A solução iterativa para a rotação é realizada de acordo com os

seguintes procedimentos: a rotação do primeiro e segundo fator é realizada como

ângulo φ determinado conforme descrição anterior; o novo primeiro fator é rotado

Page 352: multivariada - ufla

9. Análise de fatores 346

com o terceiro fator original, e assim por diante, até que m(m-1)/2 pares de

rotações tenham sido executadas. Essa seqüência de rotações é repetida até que

“todos” os ângulos sejam menores que um critério de convergência especificado ε,

dentro de um ciclo.

Tabela 9.1. Quadrante do ângulo 4φ em função dos sinais do numerador e

denominador da equação (9.51).

Sinal do numerador Sinal do denominador + (positivo) - (negativo)

+ (positivo) Ι: 00≤4φ<900 ΙV: -900≤4φ<00

- (negativo) ΙΙ: 900≤4φ<1800 ΙΙΙ: -1800≤4φ<-900

Exemplo 9.4. Efetuar a rotação varimax dos m = 3 fatores obtidos por Morrison

(1974) apresentados a seguir.

(incompleto)

9.5. Teste da falta de ajuste do modelo de fatores

A natureza das estimativas de máxima verossimilhança das cargas

fatoriais conduz a um teste formal para o m-ésimo modelo fatorial. A hipótese nula

é:

Page 353: multivariada - ufla

Ferreira, D.F. Estatística multivariada 347

t0

1

H : LL

H : uma matriz p p p.d. sim.

⎧ Σ = +Ψ⎪⎨⎪ Σ ×⎩

(9.52)

Usando a distribuição de Wishart, Morrison (1976) mostra que a

razão de verossimilhança fornece o seguinte teste, com a correção de Bartlett

(1954):

t

2c

n

ˆ ˆ ˆLL(2p 4m 5)n 1 ln6 S

⎧ ⎫+ Ψ+ + ⎪ ⎪⎡ ⎤χ = − − ⎨ ⎬⎢ ⎥⎣ ⎦ ⎪ ⎪⎩ ⎭ (9.53)

o qual tem distribuição qui-quadrado para grandes amostras com:

21 (p m) p m2⎡ ⎤ν = − − −⎣ ⎦ (9.54)

graus de liberdade.

Pela propriedade da invariância das cargas e das variâncias

específicas estimadas segue-se que o valor do teste seria o mesmo da solução de

fatores da matriz de correlação R. Para a aplicação do teste da falta de ajuste é

necessário que os graus de liberdade sejam positivos. Isso significa que o número

de fatores comuns m não pode exceder o maior inteiro que satisfaz a equação:

( )1m 2p 1 8p 12

< + − + (9.55)

Page 354: multivariada - ufla

9. Análise de fatores 348

O teste de razão de verossimilhança compara as variâncias

generalizadas tˆ ˆ ˆLL +Ψ e nS . Se m for pequeno em relação a p, geralmente H0 é

rejeitada, conduzindo a um modelo com um maior número de fatores comuns. Por

outro lado, quando m for grande em relação a p, a hipótese tende a ser não

rejeitada, principalmente para grandes valores de n. Isso acontece devido ao fato

de tˆ ˆ ˆLL +Ψ aproximar de Sn, de tal sorte que o acréscimo de novos fatores não

traga novas melhoras ao modelo. A diminuição de m pode, ainda, pelas mesmas

razões levar a não rejeição de H0. Algum tipo de bom sendo deve ser aplicado na

escolha de m.

Para demonstrar que a padronização das variáveis não afeta o teste

apresentado seja 1/ 2D− definida anteriormente a matriz diagonal com o recíproco

dos desvios padrões das p variáveis na diagonal principal. Então, a razão que

aparece na equação (9.53) pode ser operada por:

t 1/ 2 t 1/ 2

1/ 2 1/ 2n n

ˆ ˆ ˆ ˆ ˆ ˆLL D LL D

S D S D

− −

− −

+ Ψ +Ψ=

uma vez que a multiplicação do numerador e denominador não altera o resultado

final.

Pela propriedade do determinante |AB|=|A|×|B|, verifica-se que:

Page 355: multivariada - ufla

Ferreira, D.F. Estatística multivariada 349

t 1/ 2 t 1/ 2 1/ 2 1/ 2 tZ Z z

1/ 2 1/ 2n n

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆLL D LL D D D L L

S RD S D

− − − −

− −

+ Ψ + Ψ +Ψ= =

Dessa forma o teste de qui-quadrado é exatamente o mesmo,

quando for aplicado a partir da matriz Sn ou da matriz R, com os dados

padronizados.

9.6. Escores fatoriais

Os fatores são variáveis não observáveis, muito embora seus

valores possam ser estimados. Os valores estimados dos fatores são

denominados de escores. Dois métodos de estimação são propostos. Ambos

tratam as cargas fatoriais e as variâncias específicas estimadas como se fossem

os verdadeiros valores desconhecidos. Se ocorrer rotação, os escores são obtidos

a partir das cargas fatoriais que sofreram rotação e não a partir das originais. Não

obstante, as fórmulas não distinguirão entre as situações em que ocorreu rotação

daquelas em não ocorreu, uma vez que estas fórmulas não são alteradas pelas

rotações.

Page 356: multivariada - ufla

9. Análise de fatores 350

9.6.1. Método dos mínimos quadrados ponderados

Suponha que µ , L e Ψ sejam considerados inicialmente como

conhecidos para o modelo fatorial:

X LF−µ = + ε

Como Var(εi)=ψi, não necessariamente igual para todo i, Bartlett

(1937) sugeriu o uso dos quadrados mínimos ponderados, usando como peso o

recíproco das variâncias específicas. A soma de quadrados de resíduos do

modelo fatorial ponderada é dada por:

( ) ( )2p tt 1 1i

i 1 i

X LF X LF− −

=

ε= ε Ψ ε = −µ − Ψ −µ −

ψ∑ (9.56)

Bartlett (1937) propôs a solução F que minimiza (9.56). A solução é:

( ) ( )1t 1 t 1F L L L X−− −= Ψ Ψ −µ (9.57)

Como, de fato, L, Ψ e µ são desconhecidos, os respectivos

estimadores devem ser utilizados para a obtenção dos escores fatoriais:

Page 357: multivariada - ufla

Ferreira, D.F. Estatística multivariada 351

( ) ( )1t 1 t 1j j

ˆ ˆ ˆ ˆ ˆ ˆF L L L X X j 1, 2, ..., n−

− −= Ψ Ψ − = (9.58)

Se a matriz de correlação for utilizada, então:

( ) 1t 1 t 1j Z Z Z Z Z j

ˆ ˆ ˆ ˆ ˆ ˆF L L L Z j 1, 2, ..., n−

− −= Ψ Ψ = (9.59)

Se as cargas fatoriais que sofreram rotação são usadas *ˆ ˆL LT= ,

então, jF se relaciona com *jF por:

*j j

ˆ ˆF T 'F= (9.60)

9.6.2. Método de regressão

A partir do modelo de fatores originais:

X LF−µ = + ε

Considerando que L e Ψ são conhecidas, e que F e ε possuem

distribuição normal multivariada com média e variâncias dadas pelas equações de

Page 358: multivariada - ufla

9. Análise de fatores 352

(9.3) a (9.6), a combinação linear X LF−µ = + ε tem distribuição ( )tpN 0, LL +Ψ . A

distribuição conjunta de X −µ e F é, também, ( )*m pN 0,+ Σ ; em que:

t

*t

LL LL

⎡ ⎤+ ΨΣ = ⎢ ⎥Ι⎣ ⎦

(9.61)

A média 0 é um vetor [(m+p)×1] de zeros. A distribuição condicional

de F / x é normal com média e variância dados por:

( ) ( ) ( ) ( )1t 1 t tE F / x L x L LL x−−= Σ −µ = +Ψ −µ (9.62)

e

( ) ( ) 1t 1 t tCov F / x L L L LL L−−= Ι − Σ = Ι − +Ψ (9.63)

Os coeficientes ( ) 1t tL LL−

+ Ψ são os coeficientes de uma regressão

multivariada dos fatores com as variáveis originais. As estimativas desses

coeficientes produzem os escores fatoriais. Dados as observações jX e tomando-

se os estimadores de máxima verossimilhança L e Ψ os escores dos fatores são

dados por:

( ) ( )1t tj j

ˆ ˆ ˆ ˆ ˆF L LL X X j 1, 2, ..., n−

= +Ψ − = (9.64)

Page 359: multivariada - ufla

Ferreira, D.F. Estatística multivariada 353

O uso da identidade de matrizes:

( ) ( )1 1t t t 1 t 1ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆL LL L L L− −

− −+Ψ = Ι + Ψ Ψ (9.65)

pode simplificar o cálculo dos escores dos fatores, os quais são dados por:

( ) ( )1t 1 t 1j j

ˆ ˆ ˆ ˆ ˆ ˆF L L L X X j 1, 2, ..., n−

− −= Ι + Ψ Ψ − = (9.66)

A comparação dos escores fatoriais obtidos por regressão (LS) e por

mínimos quadrados ponderados (WLS) pode ser realizada subtraindo os

estimadores (9.66) e (9.58). Assim, simbolizando os estimadores de regressão por

LSjF e o de mínimos quadrados ponderados por WLS

jF e usando a identidade de

matriz dada por:

( ) ( )1 1t t 1 t 1 t 1ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆL LL L L L− −

− − −+ Ψ = Ι + Ψ Ψ

Tem-se:

( ) ( ) ( )1 1WLS t 1 t 1 LS LSt 1

j j jˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆˆ ˆ ˆF L L L L F FL L

− −− − −⎡ ⎤= Ψ Ι + Ψ = Ψ + Ι⎢ ⎥⎣ ⎦

Pelas estimativas de máxima verossimilhança verifica-se que

( ) 1t 1ˆ ˆ ˆL L−−Ψ é uma matriz diagonal e quando o seu valor for próximo de zero os

Page 360: multivariada - ufla

9. Análise de fatores 354

estimadores anteriores serão aproximadamente os mesmo, ou seja, os

estimadores anteriores fornecerão aproximadamente os mesmos escores.

9.7. Exercícios

9.7.1. Teste a hipótese de que o modelo com m = 1 fator, apresentado no exemplo

9.1, é adequado utilizando o teste de qui-quadrado para falta de ajuste do

modelo.

9.7.2. Para o exemplo 9.3 testar a aderência do modelo com m = 4 fatores.

9.7.3. Obter estimativas de máxima verossimilhança para m = 1 e m = 2 dos dados

apresentados no exemplo 7.6.7 e calcular os escores pelos dois métodos

apresentados. Para o caso de m = 2 fatores plotar os escores dos dois

fatores obtidos.

Page 361: multivariada - ufla

||[ ]||Análise de correlação canônica

10

10.1. Introdução

A análise de correlação canônica é centrada na identificação e

quantificação da associação entre dois grupos de variáveis. O foco da correlação

canônica é direcionado para a correlação entre uma combinação linear das

variáveis em um dos grupos com uma outra combinação linear das variáveis do

outro grupo de variáveis. A idéia fundamental é, a princípio, determinar as

combinações lineares dos dois grupos que possuem a maior correlação. No

próximo estágio, é determinado o par de maior correlação que seja, ainda, não

correlacionado com o par selecionado inicialmente. O processo continua até se

esgotar as dimensões de ambos os grupos ou do menor grupo. Os pares de

combinações lineares são denominados de variáveis canônicas e suas

correlações são chamadas de correlações canônicas. A técnica de encontrar

essas combinações lineares e suas respectivas correlações é devida a Hotelling

(1935 e 1936).

Page 362: multivariada - ufla

10. Análise de correlação canônica 356

A idéia fundamental é encontrar relações entre dois conjuntos de

variáveis, em alta dimensão, em poucos pares de variáveis canônicas. Várias

aplicações nas ciências humanas, na genética entre outras áreas são encontradas

na literatura.

10.2. Variáveis canônicas e correlação canônica populacionais

Seja X um vetor de dimensão (p+q x 1), o qual possui matriz de

covariância Σ e média µ . Sejam os vetores (1)X (p x 1) e (2)X (q x 1) definidos

como sendo originados de uma partição do vetor original X , representando um

grupo com p variáveis e outro com q, respectivamente. Sem perda de

generalidade é assumido que p≤q. Pressupõe-se, também, que Σ possui

elementos finitos e é positiva definida. Para o vetor aleatório X , os seguintes

resultados são apresentados.

(1)1(1)2

(1)(1)p(2)(2)1(2)2

(2)q

XX

XXX

XXX

X

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥

⎡ ⎤ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(10.1)

Page 363: multivariada - ufla

Ferreira, D.F. Estatística multivariada 357

Cuja média é:

(1)

(2)E(X)

⎡ ⎤µµ = = ⎢ ⎥

µ⎢ ⎥⎣ ⎦ (10.2)

E cuja matriz de covariância é:

( )( )t 11 12

21 22

p qp

E X Xq

Σ Σ⎡ ⎤Σ = −µ −µ = ⎢ ⎥Σ Σ⎣ ⎦

(10.3)

Assim, para os vetores (1)X (p x 1) e (2)X (q x 1) verifica-se que:

( ) ( )

( ) ( )

( )

(1) (1) (1)11

(2) (2) (2)22

(1) (2) t12 21

E X Cov X

E X Cov X

Cov X , X

⎧ = µ = Σ⎪⎪⎪

= µ = Σ⎨⎪⎪⎪ = Σ = Σ⎩

(10.4)

As covariâncias entre pares de variáveis pertencentes aos dois

grupos, uma de (1)X e outra de (2)X , estão contidas em Σ12. Dessa forma, os pq

elementos de Σ12 medem a associação entre os dois grupos. Se ambos os valores

de p e q são grandes, a interpretação simultânea desse conjunto de covariâncias é

uma tarefa difícil e na maioria das vezes infrutífera. Como a finalidade, em geral, é

Page 364: multivariada - ufla

10. Análise de correlação canônica 358

de realizar predição ou realizar comparação, o interesse pode ser focado em

combinações lineares das variáveis originais. A idéia é, portanto, concentrar a

atenção em algumas poucas combinações lineares de variáveis pertencentes a

(1)X e a (2)X , ao invés de utilizar todas as pq covariâncias contidas em Σ12.

Seguindo a notação normalmente utilizada na literatura

especializada, sejam as variáveis U e V combinações lineares das variáveis de

(1)X e de (2)X , respectivamente, definidas por:

t (1)

t (2)

U a X

V b X

⎧ =⎪⎨⎪ =⎩

(10.5)

sendo a e b vetores não nulos dos coeficientes dessas combinações lineares.

Assim,

( )( )

( )

t (1) t11

t (2) t22

t (1) (2) t12

Var(U) Cov a X a a

Var(V) Cov b X b b

Cov(U, V) a Cov X , X b a b

⎧ = = Σ⎪⎪ = = Σ⎨⎪

= = Σ⎪⎩

(10.6)

A correlação entre U e V é definida por:

t

12U, V t t

11 22

a bCorr(U, V)a a b b

Σ= ρ =

Σ Σ (10.7)

Page 365: multivariada - ufla

Ferreira, D.F. Estatística multivariada 359

Hotelling (1935 e 1936) propôs estabelecer os pares (Ui, Vi),

i=1, 2, ..., p, determinando os vetores ia e ib que maximizam (10.7). As variáveis

Ui e Vi são denominadas de variáveis canônicas e a correlação entre elas de

correlação canônica. Na seqüência são apresentados os resultados necessários

para a maximização de (10.7) e, portanto, para a obtenção das variáveis

canônicas e de suas correlações.

Para determinar o máximo de ρU,V, inicialmente são impostas as

restrições:

t t11 22a a b b 1Σ = Σ = (10.8)

A mudança de escala imposta pelas restrições (10.8) não afeta a

correlação (10.7). Para obter o máximo de ρU,V é preciso derivar a equação (10.7)

com relação aos vetores a e b e igualar as derivadas parciais a zero. As

equações obtidas são:

( ) ( ) ( )( )

( ) ( ) ( )( )

1/ 2 1/ 2 3 / 2U,V t t t t22 11 12 12 11 11

1/ 2 1/ 2 3 / 2U,V t t t t t11 22 12 12 22 22

1b b a a b 2 a b a a aa 2

1a a b b a 2 a b b b bb 2

− − −

− − −

⎧ ⎡ ⎤∂ρ ⎛ ⎞−= Σ Σ Σ + Σ Σ Σ⎪ ⎢ ⎥⎜ ⎟∂ ⎝ ⎠⎪ ⎣ ⎦

⎪⎨⎪ ⎡ ⎤∂ρ ⎛ ⎞−⎪ = Σ Σ Σ + Σ Σ Σ⎢ ⎥⎜ ⎟⎪ ∂ ⎝ ⎠⎣ ⎦⎩

(10.9)

Igualando as derivadas parciais de (10.9) a zero e impondo as

restrições (10.8), rearranjando alguns termos, obtém-se:

Page 366: multivariada - ufla

10. Análise de correlação canônica 360

( )

( )

t12 11 12

t t12 12 22

a b a b 0

a a b b 0

⎧− Σ Σ + Σ =⎪⎪⎨⎪Σ − Σ Σ =⎪⎩

(10.10)

É fácil observar que (10.7) sujeita as restrições (10.8) se torna igual

a tU, V 12a bρ = Σ , que é o valor máximo, então:

U, V 11 12

t12 U, V 22

a b 0

a b 0

⎧−ρ Σ + Σ =⎪⎨⎪Σ − ρ Σ =⎩

(10.11)

Assim, para solução de (10.11) é necessário que o determinante dos

coeficientes do sistema de equações homogêneas seja nulo. Logo,

U, V 11 12t12 U, V 22

0−ρ Σ Σ

=Σ −ρ Σ

(10.12)

Uma importante propriedade dos determinantes é reproduzida a

seguir. Seja uma matriz A com as seguintes partições:

11 12

21 22

A AA

A A⎡ ⎤

= ⎢ ⎥⎣ ⎦

(10.13)

Page 367: multivariada - ufla

Ferreira, D.F. Estatística multivariada 361

O determinante de A, se A11 e A22 são não singulares, é dado por:

111 22 21 11 12

122 11 12 22 21

A A A A A A

ou

A A A A A A

⎧ = −⎪⎪⎨⎪ = −⎪⎩

(10.14)

Utilizando o resultado (10.14) no determinante (10.12), obtém-se os

seguintes resultados para a primeira equação:

t 1U, V 11 U, V 22 12 11 12

U, V

1 0−−ρ Σ −ρ Σ + Σ Σ Σ =ρ

Como U, V 11−ρ Σ é diferente de zero, pois Σ11 é positiva definida,

então, o determinante anterior só será zero se:

t 1U, V 22 12 11 12

U, V

1 0−−ρ Σ + Σ Σ Σ =ρ

Como o resultado dessa equação é zero, não há alteração se ambos

os termos da equação à esquerda da desigualdade for multiplicado por ( )U, Vρ . Se

procede da mesma forma para a segunda equação do determinante de (10.14). O

resultado final dessa derivação é:

Page 368: multivariada - ufla

10. Análise de correlação canônica 362

1 t 212 22 12 U,V 11

t 1 212 11 12 U,V 22

0

0

⎧ Σ Σ Σ −ρ Σ =⎪⎪⎨⎪ Σ Σ Σ −ρ Σ =⎪⎩

(10.15)

Fazendo 2U,Vλ = ρ , verifica-se que as equações determinantais de

(10.15) podem ser vistas como maximização de pares de formas quadráticas

(capítulo 2) do tipo:

t

t

e Aee Be

λ =

restrito a te Be =1.

Assim, os resultados de (10.15) podem ser reescritos (capítulo 2) da

seguinte forma:

( )

( )

1 t12 22 12 11

t 112 11 12 22

a 0 (a)

b 0 (b)

⎧ Σ Σ Σ −λΣ =⎪⎪⎨⎪ Σ Σ Σ −λΣ =⎪⎩

(10.16)

A resolução do sistema de equações pode ser feita aplicando uma

transformação linear não singular. Isso é ilustrado doravante com a equação (a)

de (10.16). Seja 1/ 211Σ a matriz raiz quadrada de 11Σ e considere a transformação

linear 1/ 211c a= Σ , então, 1/ 2

11a c−= Σ . Se a equação (a) for pré-multiplicada por 1/ 211−Σ e

a for substituído por 1/ 211a c−= Σ , então:

Page 369: multivariada - ufla

Ferreira, D.F. Estatística multivariada 363

( )1/ 2 1 t 1/ 211 12 22 12 11 11 c 0− − −Σ Σ Σ Σ −λΣ Σ =

( )1/ 2 1 t 1/ 2 1/ 2 1/ 211 12 22 12 11 11 11 11 c 0− − − − −Σ Σ Σ Σ Σ −λΣ Σ Σ =

Então a solução de (a) é dada pela solução do seguinte sistema de

equações homogêneas:

( )1/ 2 1 t 1/ 211 12 22 12 11 i ic 0− − −Σ Σ Σ Σ Σ −λ Ι = (10.17)

A solução de (10.17) é facilmente obtida pelo cálculo dos autovalores

(λi) e autovetores ( )ic de 1/ 2 1 t 1/ 211 12 22 12 11− − −Σ Σ Σ Σ Σ . Os autovalores (λi) dessa matriz são

os mesmos do sistema não transformados por serem invariantes com relação a

transformações não singulares, no entanto, os autovetores são afetados pela

transformação. Dessa forma, os autovetores devem ser recuperados pela

transformação linear inversa a efetuada. Assim,

1/ 2i 11 ia c−= Σ (10.18)

Tratamento igual é dado para a equação (b) de (10.16), agora

efetuando a transformação linear 1/ 222d b= Σ . Então,

Page 370: multivariada - ufla

10. Análise de correlação canônica 364

( )1/ 2 t 1 1/ 222 12 11 12 22 i id 0− − −Σ Σ Σ Σ Σ −λ Ι = (10.19)

Os autovetores ib , soluções almejadas, são recuperados por:

1/ 2i 22 ib d−= Σ (10.20)

O máximo é obtido substituindo essas soluções em (10.7). Logo,

( )t

t12U, V 12t t

11 22

a bMax a ba a b ba,b

Σρ = = Σ

Σ Σ

Da equação (10.10), sabendo que tU, V 12 ia bρ = Σ = λ , verifica-se que

( )2t12a bλ = Σ , logo:

( )U, V iMaxa,b

ρ = λ (10.21)

As variáveis canônicas têm as seguintes propriedades:

( )t (1) t t 1/ 2 1/ 2 ti i i 11 i i 11 11 11 i i iVar(U ) Cov a X a a c c c c− −= = Σ = Σ Σ Σ =

Page 371: multivariada - ufla

Ferreira, D.F. Estatística multivariada 365

Sabendo que ic é um autovetor de 1/ 2 1 t 1/ 211 12 22 12 11− − −Σ Σ Σ Σ Σ com norma 1, e

procedendo da mesma forma para Var(Vi) verifica-se que:

( ) ( )i iVar U Var V 1= = (10.22)

A ( )kCov U , U com (k )≠ é dada por:

( ) ( )t (1) t (1) tk k k 11

t 1/ 2 1/ 2 t tk 11 11 11 k k

Cov U , U Cov a X , a X a a

c c c c c c 0 (k )− −

= = Σ =

= Σ Σ Σ = Ι = = ≠

Logo,

( ) ( ) ( )

( ) ( ) ( )

k k

k k

Cov U , U Corr U , U 0 k

Cov V , V Corr V , V 0 k

= = ≠⎧⎪⎨⎪ = = ≠⎩

(10.23)

Finalmente, a covariância entre Uk e V com ( )k ≠ é dada por:

( ) ( )t (1) t (2) tk k k 12

t 1/ 2 1/ 2k 11 12 22

Cov U , V Cov a X , b X a b

c d 0 (k )− −

= = Σ =

= Σ Σ Σ = ≠

Logo,

Page 372: multivariada - ufla

10. Análise de correlação canônica 366

( ) ( ) ( )k kCov U , V Corr U , V 0 k= = ≠ (10.24)

Para variáveis padronizadas (1) t (1) (1) (1)1 2 pZ Z Z Z⎡ ⎤= ⎣ ⎦ e

(2)t (1) (2) (2)1 2 qZ Z Z Z⎡ ⎤= ⎣ ⎦ as variáveis canônicas são dadas por:

t (1) t 1/ 2 (1)k k k 11

t (2) t 1/ 2 (2)k k k 22

U a Z c Z

V b Z d Z

⎧ = = ρ⎪⎨⎪ = = ρ⎩

(10.25)

em que kc e kd são os autovetores de norma 1 das matrizes 1/ 2 1 t 1/ 211 12 22 12 11− − −ρ ρ ρ ρ ρ e

1/ 2 t 1 1/ 222 12 11 12 22− − −ρ ρ ρ ρ ρ , respectivamente. Os autovetores originais devem ser

recuperados por:

1/ 2k 11 k

1/ 2k 22 k

a c

b d

⎧ = ρ⎪⎨⎪ = ρ⎩

(10.26)

em que: 11ρ (p x p), 12ρ (p x q) e 22ρ (q x q) são partições de ρ (p + q x p + q)

dadas por:

( ) 11 12t

21 22

p qp

E ZZqρ ρ⎡ ⎤

ρ = = ⎢ ⎥ρ ρ⎣ ⎦

(10.27)

Page 373: multivariada - ufla

Ferreira, D.F. Estatística multivariada 367

de forma que:

( ) ( )

( ) ( )

( )

(1) (1)11

(2) (2)22

(1) (2) t12 21

E Z 0 Cov Z

E Z 0 Cov Z

Cov Z , Z

⎧ = = ρ⎪⎪⎪

= = ρ⎨⎪⎪⎪ = ρ = ρ⎩

(10.28)

As correlações canônicas das combinações lineares padronizadas

são dadas por:

tk 12 k

k k kt tk 11 k k 22 k

a bCorr(U , V )a a b b

ρ= = λ

ρ ρ (10.29)

em que kλ é k-ésimo autovalor de 1/ 2 1 t 1/ 211 12 22 12 11− − −ρ ρ ρ ρ ρ , ou equivalentemente de

1/ 2 t 1 1/ 222 12 11 12 22− − −ρ ρ ρ ρ ρ .

Por se tratarem de variáveis artificiais, as variáveis canônicas não

possuem significado físico. Se (1)X (p x 1) e (2)X (q x 1) são utilizados, os

coeficientes de a e b têm as unidades dos correspondentes coeficientes de (1)X e

de (2)X . Se as variáveis padronizadas forem utilizadas, então, os coeficientes

canônicos não possuem unidades de mensuração e não dependem da escala das

variáveis. Em geral, é dada uma interpretação subjetiva para as variáveis

canônicas de acordo com a magnitude das correlações das variáveis originais com

Page 374: multivariada - ufla

10. Análise de correlação canônica 368

as variáveis canônicas em foco. Muitos pesquisadores preferem fazer tal

relacionamento utilizando os coeficientes canônicos estandardizados.

Sejam A (p x p) e B (q x q) matrizes definidas pelos vetores

canônicos:

1 1

2 2

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

t t

t t

t tp q

a ba b

A e B

a b

(10.30)

É possível definir os vetores de todas as p ou q variáveis canônicas

simultaneamente por:

1 1

2 2(1) (2)

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥= = = =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦p q

U VU V

U AX e V BX

U V

(10.31)

Logo,

( ) ( ) ( )(1) (1) (1) (1)11, ,= = = ΣCov U X Cov AX X ACov X A (10.32)

A matriz de correlação entre as p variáveis originais de (1)X e as p

variáveis canônicas de U é dada pela “covariância” entre as p variáveis canônicas,

Page 375: multivariada - ufla

Ferreira, D.F. Estatística multivariada 369

as quais já são estandardizadas, e as p variáveis de (1)X padronizadas. A

padronização de (1)X é dada por:

(1)11 (1)

1(1)2(1)1/ 2 (1)

2211

(1)

(1)

1 0 0

10 0

10 0

⎡ ⎤⎢ ⎥σ⎢ ⎥ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥σ= ⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦⎢ ⎥⎢ ⎥

σ⎢ ⎥⎣ ⎦

p

pp

XX

V X

X

(10.33)

Assim,

( ) ( )(1)(1) (1) 1/ 2 (1) 1/ 2

11 11 11,, , − −ρ = = = Σ

U XCorr U X Cov AX V X A V (10.34)

Cálculo semelhante é realizado para os pares ( )(2),U X , ( )(2),V X e

( )(1),V X que resulta em:

( 2)

( 2)

(1)

1/ 212 22,

1/ 222 22,

1/ 212 11,

( )

( )

( )

⎧ρ = Σ ×⎪⎪⎪⎪ρ = Σ ×⎨⎪⎪⎪ρ = Σ ×⎪⎩

U X

V X

tV X

A V p q

B V q q

B V q p

(10.35)

em que 1/ 222−V é uma matriz diagonal (q x q) com o i-ésimo elemento dado por

(2)1/ σii .

Page 376: multivariada - ufla

10. Análise de correlação canônica 370

Para as variáveis canônicas calculadas de matrizes de correlação ρ,

a interpretação pode ser realizada alternativamente pelas correlações entre as

variáveis canônicas e as variáveis padronizadas. Sejam AZ (p x p) e BZ (q x q)

matrizes compostas dos coeficientes canônicos de (1)Z e (2)Z , respectivamente.

As correlações entre as variáveis canônicas e as variáveis padronizadas são

dadas por:

(1) ( 2)

( 2) (1)

11 22, ,

12 12, ,

;

;

⎧ = =⎪⎪⎨⎪ = =⎪⎩

Z ZU Z V Z

tZ ZU Z V Z

ρ A ρ ρ B ρ

ρ A ρ ρ B ρ (10.36)

As matrizes de correlação (10.34), (10.35) com (10.36), apresentam,

no entanto, os mesmos valores numéricos, como por exemplo (1) (1), ,=

U Z U Xρ ρ , e

assim por diante. Verifica-se facilmente isso por:

(1) (1)1/ 2 1/ 2 1/ 2 1/ 2

11 11 11 11 11 11 11, ,− − −= Σ = Σ = =ZU X U Z

ρ A V AV V V A ρ ρ

ou seja, a correlação não é afetada pela padronização (mudança de escala).

Page 377: multivariada - ufla

Ferreira, D.F. Estatística multivariada 371

10.3. Variáveis e correlações canônicas amostrais

Uma amostra aleatória de tamanho n em cada conjunto de (p + q)

variáveis aleatórias (1)X (p x 1) e (2)X (q x 1), dada por (1) (1) (1)1 2, , , nX X X e

(2) (2) (2)1 2, , , nX X X possui vetores de médias amostrais dados por:

(1)1

(1) (1)

(2) (2)1

(2)

⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎡ ⎤⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

p

q

X

X XX

X X

X

(10.37)

Em que:

(1) (1) (2) (2)

1 1

1 1= =

= =∑ ∑n n

j jj j

X X e X Xn n

(10.38)

A matriz de correlação amostral S (p + q x p + q) é dada por:

11 12

21 22

⎡ ⎤= ⎢ ⎥

⎣ ⎦

p qS Sp

SS Sq

(10.39)

Page 378: multivariada - ufla

10. Análise de correlação canônica 372

em que ( )( )( ) ( ) ( ) ( )

1

11

n tk kk j j

jS X X X X

n =

= − −− ∑ , , 1, 2=k .

As k-ésimas variáveis canônicas amostrais são dadas pelas

combinações lineares:

t (1)k k

t (2)k k

ˆ ˆU a X

ˆV b X

⎧ =⎪⎨⎪ =⎩

(10.40)

que maximizam a k-ésima correlação canônica amostral dada por:

k k

tk 12 k

ˆ ˆU , V t tk 11 k k 22 k

ˆa S bˆ ˆˆ ˆa S a b S b

=r (10.41)

O processo de maximização de (10.41) segue estritamente os

mesmos passos da maximização de (10.7), substituindo apenas Σ11, Σ22 e Σ12 por

S11, S22 e S12, respectivamente. As equações homogêneas correspondentes ao

máximo são dadas por:

( )

( )

1 t12 22 12 k 11 k

t 112 11 12 k 22 k

ˆ ˆS S S S a 0 (a)

ˆˆS S S S b 0 (b)

⎧ − λ =⎪⎪⎨⎪

−λ =⎪⎩

(10.42)

Page 379: multivariada - ufla

Ferreira, D.F. Estatística multivariada 373

Em que o máximo de ˆˆ ,k ku Vr é dado por kλ , para os autovetores ˆ

ka e

ˆkb obtidos por:

1/ 2k 11 k

1/ 2k 22 k

ˆ ˆa S c (a)

ˆ ˆb S d (b)

⎧ =⎪⎨⎪ =⎩

(10.43)

sendo que kc é k-ésimo autovetor de 1/ 2 1 t 1/ 211 12 22 12 11S S S S S− − − e kd o k-ésimo autovetor de

1/ 2 t 1 1/ 222 12 11 12 22S S S S S− − − ; kλ é o k-ésimo autovalor de ambas as matrizes, por serem

idênticos; k=1, 2, ..., p≤q.

As variáveis canônicas amostrais têm as seguintes propriedades:

1. Variâncias amostrais unitárias

( ) ( )k kˆ ˆˆ ˆVar U Var V 1= = (10.44)

2. Correlações amostrais:

k k k

ˆ ˆ ˆ ˆ ˆ ˆU ; U V ; V U ; Vr r r 0 (k )= = = ≠ (10.45)

3. Correlação amostral máxima:

k k

ˆ ˆ kU ; Vˆr = λ (10.46)

Page 380: multivariada - ufla

10. Análise de correlação canônica 374

Sejam as matrizes A (p p)× e B (q q)× definidas pelos vetores

canônicos amostrais:

11

2 2

ˆˆˆˆˆ ˆ

ˆ ˆ

tt

t t

t tp q

baa b

A e B

a b

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

(10.47)

Analogamente a (10.31) definem-se:

1 1

(1) (2)2 2

ˆ ˆ

ˆ ˆˆ ˆ ˆ ˆ

ˆ ˆp q

U V

U VU AX e V BX

U V

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

= = = =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

(10.48)

As correlações entre as variáveis canônicas amostrais e as variáveis

originais de cada um dos grupos podem ser obtidas. Para isso definiu-se as

matrizes diagonais ( )1/ 2 (1)11 iiD Diag 1/ S− = , (pxp) e ( )1/ 2 (2)

22 iiD Diag 1/ S− = , (qxq).

1. Matriz de correlações entre U e (1)X

(1)1/ 2

ˆ 11 11U, XˆR AS D−= (10.49)

Page 381: multivariada - ufla

Ferreira, D.F. Estatística multivariada 375

2. Matriz de correlações entre U e (2)X

( 2)1/ 2

ˆ 12 22U, XˆR AS D−= (10.50)

3. Matriz de correlações entre V e (1)X

(1)t 1/ 2

ˆ 12 11V, XˆR BS D−= (10.51)

4. Matriz de correlações entre V e (2)X

( 2)1/ 2

ˆ 22 22V, XˆR BS D−= (10.52)

Para variáveis padronizadas, as variáveis canônicas

correspondentes são:

1 1

(1) (2)2 2

ˆ ˆ

ˆ ˆˆ ˆ ˆ ˆ

ˆ ˆ

Z Z

p q

U V

U VU A Z e V B Z

U V

⎡ ⎤ ⎡ ⎤⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥

= = = =⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

(10.53)

em que:

1/ 2 1/ 211 22

ˆ ˆ ˆ ˆZ ZA AD e B BD= = (10.54)

Page 382: multivariada - ufla

10. Análise de correlação canônica 376

Sendo que ˆza e ˆ

zb , para as variáveis padronizadas, são obtidos da

mesma forma que os respectivos vetores para variáveis não padronizadas,

substituindo-se nas expressões correspondentes S11, S22 e S12 por R11, R22 e R12,

respectivamente. A relação (10.54) se verifica para o caso de variáveis canônicas,

mas não se pode estabelecer a mesma relação para os componentes principais

de matriz de covariância e matriz de correlação, como apontado por Johnson e

Wichern (1998). As matrizes de correlações entre as variáveis de cada grupo

padronizadas e as respectivas variáveis canônicas são dadas por:

(1) (1)

( 2) ( 2)

1 tˆ ˆZ 11 Z Z 12U,Z V,Z

1ˆ ˆZ 12 Z 22 ZU,Z V,Z

ˆ ˆ ˆR A R A R B R

ˆ ˆ ˆR A R R B R B

⎧ = = =⎪⎪⎨⎪ = = =⎪⎩

(10.55)

Da mesma forma, é fácil verificar que as correlações não são

afetadas pela padronização, ou seja, as correlações obtidas em (10.49) a (10.52)

são as mesmas as correspondentes em (10.55).

Uma importante avaliação da qualidade do potencial das variáveis

canônicas é medir o poder de resumo da variabilidade contida respectivo conjunto.

Duas formas básicas são descritas: na primeira apresenta-se uma matriz de erro

da aproximação e na segunda calcula-se a proporção da variância explicada pelas

variáveis canônicas para cada grupo de variáveis.

Page 383: multivariada - ufla

Ferreira, D.F. Estatística multivariada 377

As matrizes de erro são obtidas como se segue, admitindo as

definições (1)ˆ ˆ=U AX e (2)ˆ ˆ=V BX . Logo, é possível definir:

(1) 1 (2) 1ˆ ˆ ˆ ˆ− −= =X A U e X B V (10.56)

Como A e B são dadas por:

tt11

t t2(1) t 1/ 2 1/ 2 (2)t 1/ 2 1/ 22

11 11 22 22

t tp p

dcˆc dˆ ˆ ˆ ˆA P S S e B P S S

ˆ ˆc d

− − − −

⎡ ⎤⎡ ⎤⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥= = = = ⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦

(10.57)

Então:

1 1/ 2 (1) 1 1/ 2 (2)11 22

ˆ ˆ ˆ ˆA S P e B S P− −= = (10.58)

devido a (1)P e (2)P serem matrizes ortogonais de autovetores, é fácil perceber que

( ) 1(1)t (1)ˆ ˆP P−= e ( ) 1(2)t (2)ˆ ˆP P

−= .

Das definições de U e V sabe-se que a covariância entre eles é

uma matriz diagonal Λ (pxq) com kλ na k-ésima diagonal para k=1, 2,...p, e

cujas demais p-q colunas são formadas de zeros. Assim,

Page 384: multivariada - ufla

10. Análise de correlação canônica 378

( )

( )

( )

t (1) t 1/ 2 1/ 2 (2)12 11 12 22

t11

t22

ˆˆ ˆ ˆ ˆ ˆ ˆˆCov U, V AS B P S S S P

ˆ ˆˆˆCov U AS A

ˆ ˆ ˆˆCov V BS B

− −⎧ = = = Λ⎪⎪⎪⎪ = = Ι⎨⎪⎪⎪ = = Ι⎪⎩

(10.59)

Assim,

( )

t12

t 112

t1 112

ˆ ˆ ˆAS B

ˆˆ ˆS B A

ˆ ˆ ˆS A B

− −

= Λ

= Λ

= Λ

Da mesma forma:

( )t1 1

11ˆ ˆS A A− −= e ( )t1 1

22ˆ ˆS B B− −=

A idéia é reter um número r menor ou igual a p de variáveis

canônicas em cada grupo. O número r é escolhido de determinada forma que a

covariância amostral dentro de grupo seja reproduzida de uma forma satisfatória.

Da mesma forma é desejável uma boa aproximação das covariâncias entre grupos

S12. Sejam, então, as matrizes compostas das r (r≤p) primeiros autovalores e

autovetores de 1/ 2 1 t 1/ 211 12 22 12 11S S S S S− − − e de 1/ 2 t 1 1/ 2

22 12 11 12 22S S S S S− − − definidas por:

Page 385: multivariada - ufla

Ferreira, D.F. Estatística multivariada 379

t1t

(1)t 1/ 2 1/ 22r r 11 11

tr

ccˆ ˆA P S S

c

− −

⎡ ⎤⎢ ⎥⎢ ⎥= =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(10.60)

t1

t(2)t 1/ 2 1/ 22

r r 22 22

tr

d

dˆ ˆB P S S

d

− −

⎡ ⎤⎢ ⎥⎢ ⎥= = ⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

(10.61)

1

2r

r

ˆ 0 0

ˆ0 0ˆ

ˆ0 0

⎡ ⎤λ⎢ ⎥⎢ ⎥λΛ = ⎢ ⎥⎢ ⎥⎢ ⎥

λ⎢ ⎥⎣ ⎦

(10.62)

Assim, definem-se as matrizes:

1 1/ 2 (1) 1 1/ 2 (2)r 11 r r 22 r

ˆ ˆ ˆ ˆA S P e B S P− −= = (10.63)

Considerando as matrizes de resíduos E11, E22 e E12 das

reproduções de S11, S22 e S12, respectivamente, têm-se:

Page 386: multivariada - ufla

10. Análise de correlação canônica 380

( )( )

( )( )

( ) ( )

t1 1

11 11 r r

t1 122 22 r r

t1 112 12 r r r

ˆ ˆE S A A (a)

ˆ ˆE S B B (b)

ˆ ˆ ˆE S A B (c)

− −

− −

− −

⎧ = −⎪⎪⎪⎪ = −⎨⎪⎪⎪

= − Λ⎪⎩

(10.64)

A segunda alternativa relacionada a essa que apresenta em simples

número a explicação do respectivo conjunto, em substituição aos p(p-1)/2, q(q-1)/2

ou pq valores de E11, E22 e E12. Como ( ) ( )( ) ( )t

1 111 r r 11

ˆ ˆtr S tr A A tr E− −⎡ ⎤= +⎢ ⎥⎣ ⎦, e assim

por diante para as demais matrizes, a explicação das r variáveis canônicas para o

seu respectivo conjunto é dada por:

( ) ( )( )

( ) ( )( )

11(1)1 2 r

11

22(2)1 2 r

22

tr Eˆ ˆ ˆ%Exp U , U , , U de X 100 1 (a)tr S

tr Eˆ ˆ ˆ%Exp V , V , , V de X 100 1 (b)tr S

⎧ ⎛ ⎞= × −⎪ ⎜ ⎟⎜ ⎟⎪ ⎝ ⎠

⎪⎨⎪ ⎛ ⎞⎪ = × −⎜ ⎟⎜ ⎟⎪ ⎝ ⎠⎩

(10.65)

10.4. Inferências para grandes amostras

Quando Σ12=0 as variáveis canônicas t (1)U a X= e t (2)V b X=

possuem covariância nula para todos os pares de vetores a e b . Dessa forma,

Page 387: multivariada - ufla

Ferreira, D.F. Estatística multivariada 381

não existem vantagens em realizar uma análise de correlação canônica. Então, é

evidente que um teste de hipótese de que (Σ12) seja igual a uma matriz nula é

primordial para a validação da análise de correlação canônica. A seguir é

apresentado o teste para a hipótese:

0 12 1 12H : 0 (p q) vs H : 0Σ = × Σ ≠ (10.66)

Seja o vetor aleatório normal de dimensão (p + q x 1) com média µ e

covariância Σ, dado por:

(1)j

j (2)j

XX

X⎡ ⎤

= ⎢ ⎥⎢ ⎥⎣ ⎦

cuja covariância pode ser particionada em:

11 12

21 22

p qpq

Σ Σ⎡ ⎤Σ = ⎢ ⎥Σ Σ⎣ ⎦

Sob H0 o máximo da função de verossimilhança é dado por L0 e sob

H1 por L1, quais sejam:

( ) ( )/ 2( ) / 20 11 2211 22 (2 ) exp ( ) / 2, ,

nn p qL S S n p qX S S−− += π ⎡ ⎤ − +⎣ ⎦ (10.67)

Page 388: multivariada - ufla

10. Análise de correlação canônica 382

em que n é o tamanho da amostra, S11 e S22 são os estimadores das covariâncias

amostrais do grupo 1 e do grupo 2 de variáveis, p e q representam o número total

de variáveis no grupo 1 e 2, respectivamente.

Sob H1, modelo irrestrito tem-se:

( ) ( )/ 2/ 21 (2 ) exp / 2, nnpL npX S S −−= π − (10.68)

A razão de verossimilhança é dada por:

( )( )

/ 2

11 220 11 22

1

, ,,

nS SL X S S

L SX S

−⎡ ⎤

Λ = = ⎢ ⎥⎢ ⎥⎣ ⎦

(10.69)

O teste da razão de verossimilhança para a hipótese (10.66), dado

por:

( )p

11 222c i

i 1

S S ˆ2 ln( ) n ln n ln 1S =

⎛ ⎞ ⎡ ⎤χ = − Λ = = − −λ⎜ ⎟ ⎢ ⎥⎜ ⎟ ⎣ ⎦⎝ ⎠

∏ (10.70)

tem distribuição qui-quadrado com ν=pq graus de liberdade. Em que Λ é a razão

de verossimilhança do teste da hipótese (10.66).

O teste de razão de verossimilhança compara a variância amostral

generalizada sob H0:

Page 389: multivariada - ufla

Ferreira, D.F. Estatística multivariada 383

1111 22

22

S 0S S

0 S=

com a variância generalizada irrestrita, |S|. O primeiro caso com

p(p + 1)/2 + q(q + 1)/2 parâmetros e o segundo com (p + q)(p + q + 1)/2. A

diferença é igual a ν = pq parâmetros, que é igual aos graus de liberdade do teste

em questão. Bartlett (1939) sugere uma correção para uma melhor aproximação

de qui-quadrado, substituindo n em (10.70) por n – 1 - (p + q + 1)/2. O teste com a

correção de Bartlett (1939) é dado por:

( ) ( ) ( )p

11 222c i

i 1

S S1 1 ˆn 1 p q 1 ln n 1 p q 1 ln 12 2S =

⎛ ⎞ ⎡ ⎤⎡ ⎤ ⎡ ⎤χ = − − + + = − − − + + −λ⎜ ⎟ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎜ ⎟⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎝ ⎠∏ (10.71)

Se a hipótese nula ( )0 12 1 2 pH : 0 0Σ = ρ = ρ = = ρ = for rejeitada, é

natural buscar um número de correlações canônicas r que diferem

significativamente de zero. Em que kρ é a notação abreviada de k kU ;Vρ . Bartlett

(1938) sugere um teste seqüencial baseado na razão de verossimilhança. A

princípio, testar a hipótese de que a primeira correlação canônica é não nula e as

demais (p-1) são nulas; em seguida, testar que as duas primeiras são não nulas e

as demais (p-2) são nulas; e assim por diante. Para o k-ésimo passo desse

processo testar a hipótese (k)0H dada por:

Page 390: multivariada - ufla

10. Análise de correlação canônica 384

(k )0 1 2 k k 1 k 2 p

(k)1 i

H : 0, 0, , 0, 0

H : 0 para algum i k 1

+ +⎧ ρ ≠ ρ ≠ ρ ≠ ρ = ρ = = ρ =⎪⎨⎪ ρ ≠ ≥ +⎩

(10.72)

O teste dessa hipótese incorporando a correção de Bartlett (1939)

pode ser realizado por:

( ) ( )p

2c i

i k 1

1 ˆn 1 p q 1 ln 12 = +

⎡ ⎤⎡ ⎤χ = − − − + + −λ⎢ ⎥⎢ ⎥⎣ ⎦ ⎣ ⎦∏ (10.73)

o qual possui distribuição de qui-quadrado com ν=(p-k)(q-k) graus de liberdade. O

teste é realizado para k=1, 2, ..., (p-1).

Cada hipótese da seqüência 0H , (1)0H , (2)

0H , etc. é testada uma de

cada vez até que (k)0H não seja rejeitada para algum k. O valor nominal da

significância não é α, e possui difícil determinação. O teste é especialmente útil

para os dados normais e deve ser interpretado com cautela, e possivelmente deva

melhor ser usado como um guia não muito refinado de seleção do número r de

variáveis canônicas a ser retido. As distribuições amostrais das variáveis

canônicas possuem um estudo mais detalhado em Kshirsagar (1972).

Uma outra opção para esse teste é apresentada por Morrisson

(1976) que afirma que a distribuição do maior autovalor segue a distribuição da

maior raiz característica de Roy, com S=min(p, q), m=(|P-Q| -1)/2 e n=(n-p-q-2)/2.

O teste anterior foi generalizado por Wilks (1935) para avaliar a

independência entre k grupos de variáveis. O teste de razão de verossimilhança

Page 391: multivariada - ufla

Ferreira, D.F. Estatística multivariada 385

para a hipótese de independência entre k-grupos da distribuição normal

multivariada é apresentado doravante. Seja Σ, matriz de covariância para todas as

variáveis, particionada em k grupos, cada um com pi variáveis; a sub-matriz Σij de

dimensão pixpj (i≠j=1, 2, ...,k) é uma partição de Σ que contem as correspondentes

covariâncias entre as pi variáveis do i-ésimo grupo com as pj variáveis do j-ésimo

grupo. A hipótese de interesse é:

0 ij

1 ij

H : 0 para todo i j=1, 2, ..., k

H : 0 para algum i j=1, 2, ..., k

Σ = ≠⎧⎪⎨⎪ Σ ≠ ≠⎩

(10.74)

Cujo teste apresentado por Wilks (1935) depende da quantidade:

c11 22 kk

SV

S S S=

× × × (10.75)

cuja distribuição é muito complicada. Mas Box (1949) obteve boa aproximação de

qui-quadrado com ν graus de liberdade. O teste proposto é:

( )2c c

n 1ln VC−

χ = − (10.76)

em que:

Page 392: multivariada - ufla

10. Análise de correlação canônica 386

( )13 2

2

1C 1 2 312 (n 1)

12

−⎧ = − Γ + Γ⎪ ν −⎪⎪⎨⎪⎪ν = Γ⎪⎩

(10.77)

e

Sk k

SS i i

i 1 i 1p p ; S 2, 3

= =

⎛ ⎞Γ = − =⎜ ⎟

⎝ ⎠∑ ∑ (10.78)

Se k = 2 com p1 = p e p2 = q, o teste (10.76) é exatamente o mesmo

de (10.71). Se k = p + q e pi=1, para todo i=1, 2, ..., p + q, o teste é se especifica

no teste apresentado no capítulo 7, para a independência de variáveis, ou seja,

H0: Σ=diag(σii). Então, esse teste é uma generalização dos demais supra citados.

É conveniente que se saliente que se os testes forem aplicados sobre a matriz de

correlação, os resultados são equivalentes aos obtidos para a matriz de

covariâncias, substituindo-se S por R nas expressões anteriores.

10.5. Exercícios

10.5.1. Verifique que a derivação do máximo de (10.7) pode ser obtida a partir de

(10.16) utilizando o fator de Cholesky F, na transformação linear de

( )t111a F c−= e de ( )t1

22b F d−= no lugar de 1/ 211a c−= Σ e de 1/ 2

22b d−= Σ ,

Page 393: multivariada - ufla

Ferreira, D.F. Estatística multivariada 387

respectivamente; em que, F11 e F22 são os fatores de Cholesky de Σ11 e de

Σ22, respectivamente.

10.5.2. Dois testes ( (1)1X e (1)

2X ) de leitura foram aplicados em n=140 crianças

juntamente com dois testes de aritmética ( (2)1X e (2)

2X ). A matriz de

correlação amostral obtida foi:

11

1,0000 0,6328R

0,6328 1,0000⎡ ⎤

= ⎢ ⎥⎣ ⎦

; 22

1,0000 0, 4248R

0, 4248 1,0000⎡ ⎤

= ⎢ ⎥⎣ ⎦

; e 12

0, 2412 0,0586R

0,0553 0,0655⎡ ⎤

= ⎢ ⎥−⎣ ⎦

a) obtenha todas as variáveis canônicas amostrais e as respectivas correlações

máximas.

b) realizar o teste da hipótese:

0 12 12 1 12 12H : 0 (p q) vs H : 0Σ = ρ = × Σ = ρ ≠

Se H0 for rejeitada realizar o teste da hipótese:

0 1 2 0 2H : 0; 0 Vs H : 0ρ ≠ ρ = ρ ≠

discuta os resultados obtidos.

Page 394: multivariada - ufla

10. Análise de correlação canônica 388

c) estime as matrizes E11, E22 e E12 para o primeiro par de variáveis canônicas

(r=1).

d) Determine a proporção da variação explicada pelo primeiro par de variáveis

canônicas nos dois grupos.

e) calcule a correlação amostral entre (1)Z e (2)Z com U e com V .

Page 395: multivariada - ufla

||[ ]||Referências bibliográficas

11

ANDERSON, T.W. An introduction to multivariate statistical analysis. 2nd Ed.

New York, John Wiley, 1984, 675p.

ANDERSON, T.W. The asymptotic theory for principal components analysis,

Annals of Mathematical Statistics, v.34, p.122-148, 1963.

BARTLETT, M.S. A note on multiplying factors for various Chi-Square

approximations. Journal of the royal Statistical Society –Series B. v.16,

p.296-298, 1954.

BARTLETT, M.S. A note on tests of significance in multivariate analysis.

Proceedings of the Cambridge Philosophical Society, v.35, p.180-185, 1939.

BARTLETT, M.S. Further aspects of the theory of multiple regression.

Proceedings of the Cambridge Philosophical Society, v.34, p.33-40, 1938.

BARTLETT, M.S. The statistical conception of mental factors. British Journal of

Psychology. v.28, p.97-104, 1937.

Page 396: multivariada - ufla

11. Referências bibliográficas 390

BENNETT, B.M. Note on a solution of the generalized Behrens-Fisher problem,

Annals of the Institute of Statistical Mathematics, v.2, p.97-90, 1951.

BOCK, R.D. Multivariate statistical methods in behavioral research. McGraw

Hill, 1975.

BOX, G.E.P. A general distribution theory for a class of likelihood criteria,

Biometrika. v.36, p.317346, 1949.

CARROLL, J.B. An analytical solution for approximating simple structure in factor

analysis. Psychometrika. v.18, pp.23-28, 1953.

CHRISTENSEN, W.F.; RENCHER, A.C. A comparison of type I rates and power

levels for seven solutions to the multivariate Behrens-Fisher problem.

Communication in Statistics-Simula., v.26, n.4, p.1251-1273, 1997.

CLEVELAND, W.S.; RELLES, D.A. Clustering by identification with special

application to two way tables of counts. Journal of American Statistical

Association. v.70, n.351, 1975. 626-630p.

D’AGOSTINO, R.B.;TIÉTJEN, G.L. Approaches to the null distribution of b1 ,

Biometrika, v.60, p.169-173, 1973.

D’AGOSTINO, R.B.;TIÉTJEN, G.L. Simulation probability points of b2 in small

samples, Biometrika, v.58, p.669-672, 1971.

Page 397: multivariada - ufla

Ferreira, D.F. Estatística multivariada 391

DINIZ, L de C. Dinâmica populacional do piolho de são José Quadraspidiotus

perniciosus (Comostock, 1881) (Homóptera: Dispididae) em pessegueiro, no

município de Jacuí - Minas Gerais. UFLA, Lavras, MG, 1996. 61p. (dissertação

de mestrado).

FERGUSON, G.A. The concept of parsimony in factor analysis. Psychometrika.

v.19, pp.281-290, 1954.

GIRSHICK, M.A. On the sampling theory of roots of determinantal equations.

Annals of Mathematical Statistics. v.10, p.203-224, 1939.

HOTELLING, H. Relations between two sets of variables. Biometrika. v.28, p.321-

377, 1936.

HOTELLING, H. The most predictable criterion. Journal of Educational

Psychology. v.26, p.139-142, 1935.

HOUSEHOLDER, A.S. Principles of numerical analysis. McGraw-Hill, New york,

1953.

HOUSEHOLDER, A.S. The theory of matrices in numerical analysis. Blarsdell,

Waltham, Mass., 1964.

JAMES, G.S. Tests of linear hypotheses in univariate and multivariate analysis

when the ratios of the population variances are unknown, Biometrika, v.41,

p.19-43, 1954.

Page 398: multivariada - ufla

11. Referências bibliográficas 392

JOHANSEN, S. The Welch-James approximation to the distribution of the residual

sum of squares in a weighted linear regression, Biometrika, v.67, n.1, p.85-92,

1980.

JOHNSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. 4th

edition. Prentice Hall, New Jersey, 1998. 816p.

KAISER, H.F. Computer program for varimax rotation in factor analysis. Journal of

Educational and Psychological Measurement. v.19, pp.413-420, 1959.

KAISER, H.F. The varimax criterion for analytic rotation in factor analysis.

Psychometrika. v.23, pp.187-200, 1958.

KIM, S. A practical solution to the multivariate Behrens-Fisher problem,

Biometrika, v.79, n.1, p.171-176, 1992.

KRZANOWSKI, W.J. Principles of multivariate analysis. A user’s perspective.

Oxford, 3rd edition, 1993. 563p.

KSHIRSAGAR, A.M. Multivariate analysis. New York: Marcel Dekker, 1972.

LAWLEY, D.N. Further estimation in factor analysis. Proceedings of the Royal

Society of Edinburgh, Series A. v.61, pp.176-185, 1942.

LAWLEY, D.N. On testing a set of correlation coefficients for equality, Annals of

Mathematical Statistics, v.34, p.149-151, 1963.

Page 399: multivariada - ufla

Ferreira, D.F. Estatística multivariada 393

LAWLEY, D.N. Tests of significance for the latent roots of covariance and

correlation matrices. Biometrika, v.43, p.128-136, 1956.

LAWLEY, D.N. Tests of significance in canonical analysis. Biometrika. v.46,

p.59-66, 1959.

LAWLEY, D.N. The application of the maximum likelihood method to factor

analysis. British Journal of Psychology. v.33, pp.172-175, 1943.

LAWLEY, D.N. The estimation of factor loadings by the method of the maximum

likelihood. Proceedings of the Royal Society of Edinburgh, Series A. v.60 ou 40

(checar), pp.64-82, 1940.

MARDIA, K.V. Applications of some measures of multivariate skewness and

kurtosis for testing normality and robustness studies. Sankyã. A36, p.115-128,

1974.

MARDIA, K.V. Measures of multivariate skewness and kurtosis with applications.

Biometrika, p.519-530, 1970.

MARRIOTT, F.H.C. The interpretation of multiple observations. London,

Academic Press, 1974.

MOMENTÉ, V.G. Comparações entre diferentes tipos de famílias clonais para

o melhoramento genético da batata (Solanum tuberosum L.). ESAL, Lavras,

MG, 1994. 83p. (dissertação de mestrado).

Page 400: multivariada - ufla

11. Referências bibliográficas 394

MORRISON, D.F. Multivariate statistical methods. New York: McGraw-Hill, 2d

ed., 1976. 307p.

NEHAUS, J.; WRIGLEY, C. The quartimax method: an analytical approach to

orthogonal simple structure. British Journal of Psychology. v.7, pp.81-91, 1954.

NEL, D.G.; Van der MERWE, C.A. A solution to the multivariate Behrens-Fisher

problem. Communications in Statistics: Theory and Methods, v.15, p.3719-

3735, 1986.

PEARSON, E.S.; HARTLEY, H.O. Biometrika Tables for Statisticians Vol. 1 ed.

Cambridge University Press, New York, 1966.

SEARLE, S.R. Matrix algebra for the biological sciences. Wiley, New York,

1966.

WIKS, S.S. On the independence of k sets of normally distributed statistical

variables. Econometrica. v.3, p.309-326, 1935.

YAO, Y. An approximate degrees of freedom solution to the multivariate

Behrens-Fisher problem. Biometrika, v.52, n.1, p.139-147, 1965.