24
ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais (CP) (ou Funções Ortogonais Empíricas) Motivação variáveis hidroclimatológicas do sistema climático : grande quantidade muitas vezes correlacionadas entre si uma tecnica estatistica que, sem perder as informação relevantes, viabiliza: •Interpretação do sistema de variáveis como um todo, seus padrões dominantes de variabilidade •Reduzir a interpretação a um número de variáveis menor, ou seja: Climatologia II - ACA226 (Iag/USP)

ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Embed Size (px)

Citation preview

Page 1: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USPProf. Humberto Rocha

Análise Estatística Multivariada•Técnica das Componentes Principais (CP)(ou Funções Ortogonais Empíricas)

Motivação

variáveis hidroclimatológicas do sistema climático : grande quantidademuitas vezes correlacionadas entre si

uma tecnica estatistica que, sem perder as informação relevantes, viabiliza:

•Interpretação do sistema de variáveis como um todo, seus padrões dominantes de variabilidade

•Reduzir a interpretação a um número de variáveis menor, ou seja:

• prover variaveis não correlacionadas entre si (limitação da técnica de regressão)• diminuir a redundância de informação

Climatologia II - ACA226 (Iag/USP)

Page 2: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Se i = j então tem-se a variância:

Climatologia II - ACA226 (Iag/USP)

Revisão

A função covariância de duas variáveis aleatórias xi e xj, como séries temporais no tempo k=1,n

Page 3: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Revisão 2. A matriz de covariância Σ

Representação matricial de todas as combinações possíveis de covariâncias no vetor X de séries temporais de v.a. X = (x1,x2,...xp), no tempo k=1,n

é a matriz quadrática (p x p) definida como

Como s12 = s21, por ex, a matriz é simétrica

Climatologia II - ACA226 (Iag/USP)

Page 4: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Revisão 3. Matriz de Correlação

Outra matriz importante nos cálculo das CP é a matriz de correlação.O coeficiente de correlação entre duas variáveis Xi e Xj é definido como

2 2

cov( , )

var( ) var( )i j

i ji j

x xsijrij

x xs s

Se i = j, então2

2 21i

ii

i i

sr

s s

A matriz de correlação é

r11 = r22 = ... rpp = 1 define a diagonal da matriz

Climatologia II - ACA226 (Iag/USP)

rij

Page 5: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Revisão 4. Variáveis Independentes

O coeficiente de correlação linear é

Assim

Se xi e xj são variáveis independentes (não relacionadas) então cov(xi,xy) = 0

Contudo, o oposto nem sempre é verdadeiro.

Climatologia II - ACA226 (Iag/USP)

Se Xi e Xj não tem relação (ou proporção) linear entre si, β = 0

Page 6: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Revisão 5. Problema de autovetores e Autovalores

a) Seja um vetor (de 2 dimensões por exemplo ) X = (x1,x2)

Uma transformação linear em X, obtida por uma matriz A (conhecida)

que obtem o vetor Y, Y= A X (1)

e seja equivalente a um vetor paralelo a X (ou seja, multiplicado por uma constante λ, desconhecida)

Y= λ X (2)

tem como solução possíveis os valores de λ, chamados autovalores,

e de X como o autovetor associado (calculado) a λ,

onde A é chamada de matriz de transformação.

Climatologia II - ACA226 (Iag/USP)

Page 7: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Determinação dos autovalores e autovetoresDe (1) e (2) A X = λ X ↔ (A – λ I) X = 0 (3)

Definindo-se a matriz A e a matriz identidade I, temos

11 21 1

12 22 2

1 0, ,

0 1

a a xA X I

a a x

Então em (3)

a11x1 + a12x2 – λx1 = 0 (a11 - λ) x1 + a12x2 = 0

a21x1 + a22x2 – λx2 = 0 a21x1 + (a22 - λ)x2 = 0↔

A solução do sistema tem solução para λ ≠ 0 que exige det (A – λ I) = 0, ou seja

e que é chamada de equação característica da matriz A ,com soluções (chamadas características) que são os autovalores λ1 e λ2.

Climatologia II - ACA226 (Iag/USP)

Page 8: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Em (3), para cada λi obtem-se um autovetor associado Xi, ou seja,(no exemplo i=1,2) formam-se os pares (λ1, X1) e (λ2,X2), com as seguintes propriedades:

os autovetores Xi são lineares independentes, portanto formam uma base vetorial,

são ortogonais entre si;

nenhum Xk pode ser expresso em função de outro Xj;

cov(Xk,Xj)k≠j = 0

Revisão 6. Variância de um Sistema Def: a Variância total do Sistema (V) de Y = f(x1,x2) dependente das v.a. x1 e x2 na relação

linear y = (a1x1 + a2x2) é definida como

V = Var(y) = Var(a1x1+a2x2) = a12Var(x1) + a2

2Var(x2)+2a1a2cov(x1,x2)

Climatologia II - ACA226 (Iag/USP)

Page 9: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

1

2( ) '( ), onde ,

p

a

aVar y a a a

a

= matriz de covariância de Xa’ = matriz transposta de a

Demonstração:

11 12 1 1

21 22 2 2

1 2

...

...'( ) 1 2

...

p

p

p p pp p

s s s a

s s s aa a a a ap

s s s a

1 11 2 12 1

1 21 2 22 2

1 1 2 2

( .. )

( .. )'( ) 1 2

( .. )

p p

p p

p p p pp

a s a s a s

a s a s a sa a a a ap

a s a s a s

Ou na forma genérica (i=1, ..,p)

mostra-se que

Climatologia II - ACA226 (Iag/USP)

Page 10: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Na diagonal principal vem

Nas diagonais em geral

1 2 12 1 2 1 2

1

( )

2 2 cov( , )

2 cov( , )p

i j i ji

i p

a a s a a x x

a a x x

Portanto cqd

2

1 1

'( ) var( ) 2 cov( , )

'( ) ( )

p p

i i j i ji i

a a a xi a a x x

a a Var y

Climatologia II - ACA226 (Iag/USP)

Na 1ª diagonal por ex

Page 11: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Componentes principais : definição e determinaçãoSeja o sistema (V) de Y = f(X1,X2,..,Xp ) de p variáveis independentes, com n eventos cada (no tempo por ex), as CP serão determinadas com o fim de reter o máximo de informação das variáveis (X1,..,Xp) transformando-as em outras p variáveis Y1, Y2,...Yp, onde se:(a) garanta a sua ortogonalidade de Yi (i=1,p) ;(b) retenha somente k variáveis mais importantes (k<p), Y1,...,Yk ; (c) Possa interpretar a importância de cada Xi (i=1,p) nas CP.

As CP são definidas como o conjunto de vetores Y = (Y1,Y2,...,Yp ) , formado por p combinações lineares de X tal que

pi

i

i

i

l

l

l

l

...

3

2

1

ppppppp

pp

pp

XlXlXlXlY

XlXlXlXlY

XlXlXlXlY

...´

...

...´

...´

2211

222211222

122111111

ilcom o vetor

Climatologia II - ACA226 (Iag/USP)

Page 12: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Cálculo das Componentes principais

Objetivo: maximizar Var(Yi) onde

e que Var(Y1) > Var(Y2) > ... > Var(Yp)

Para a 1ª CP Var(Y1) = l1’(Σ l1) onde Σ = matriz covariancia de X l1’ = (l11,l21,...,lp1) , transposto de l1

maximizar (var(Y1)) = max(l1’(Σ l1))

condição de contorno: l1’ l1=1

seja então Q1 = l1’ (Σ l1) e introduzimos um multiplicador lagrangiano λ1

Q1 = l1’(Σ l1) + λ1 - λ1l1’l1 ↔ Q1 = l1’(Σ l1) + λ1(1 - l1’l1)

max(Q1) leva a 1

1 1 1 1 11

0 0 ( )Q

l l I ll

Eq. Característica da matriz com p-pares solução (λ1, l1), mas para obter

uma solução única de l1 vem:1 1 1 1 1 1

1 1 1 1 1 1

0

multiplicando por ' ' '

l l l l

l l l l l

p

i ji

p

i i YYYVarYVar11

),cov(2)()(

0

Vetores unitários garantem maximização não ocorra simplesmente por multiplicação de uma constante

11 .1)( YVar 11 )( YVar

das p soluções possíveis, toma-se o maior λ1 e o l1 associado

Climatologia II - ACA226 (Iag/USP)

Page 13: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Climatologia II - ACA226 (Iag/USP)

a) Procedimento de cálculo : dada matriz de covariância Σ de X = (X1, .., Xp) calculam-se os p pares (autovalor, autovetor) = (λ1, l1) ,..., (λp, lp)

Identifica-se a 1ª CP no maior λ1, e assim sucessivamente a 2ª CP até k-esima CP tal que (λ1 > λ2 > ... > λp )

b) Construção de cada CP (chamada também de factor) é

ppppppp

pp

pp

XlXlXlXlY

XlXlXlXlY

XlXlXlXlY

...´

...

...´

...´

2211

222211222

122111111

O coeficiente lk1 é o “peso” (chamado de loading) da variável Xk na 1ª CP relativamente aos demais; pode ser positivo ou negativo (proporção direta ou indireta)

infere-se a importância de cada Xk (serve como critério para selecionar variáveis em um modelo de regressão linear múltipla, por ex.)

Page 14: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Propriedades

(1) Com a matriz de covariância , a equação característica | Σ - λ I|=0define-se a matriz dos coeficientes das componentes principais U e a matriz L

U’ Σ U = L , onde

As colunas de U , (u1, u2,...un) são os auto-vetores da matriz ΣOs elementos da diagonal de L , (λ 1, λ 2...λ n) são os autovalores da matriz Σ

A variância total do sistema é dada por

e a variância explicada pela i-ésima CP é

Portanto escolhe-se somente as k primeiras CPs (Y1,Y2,...,Yk), (k>p)que respondam pela maior parte da variância total, para fins de interpretação.

pppp

p

p

lll

lll

lll

U

...

......................

...

...

21

22212

12111

p

L

...00

......................

0...0

0...0

2

1

pii

pii LtraçoYVar

,1,1

)()(

%100.

,1 pi

i

i

Climatologia II - ACA226 (Iag/USP)

Page 15: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Exemplo 1 : duas séries temporais

Temperatura média diária em 2 estações próximas, T1 e T2, durante 15 dias

Dia T 1 T 2

1 10 10.7

2 10.4 9.8

3 9.7 10

4 9.7 10.1

5 11.7 11.5

6 11.0 10.8

7 8.7 8.8

8 9.5 9.3

9 10.1 9.4

10 9.6 9.6

11 10.5 10.4

12 9.2 9.0

13 11.3 11.6

14 10.1 9.8

15 8.5 9.2

Climatologia II - ACA226 (Iag/USP)

Matriz de covariância

determinando a equação característica

Climatologia II - ACA226 (Iag/USP)

Com soluções λ1 = 1.44 e λ2 = .086

053.112.073.068.0

68.079,0 2

IS

Page 16: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Climatologia II - ACA226 (Iag/USP)

auto-vetores li obtidos pela solução da equação 0 IS

0

0

44.173.068.0

68.044.179,0

12

1111 l

llIS Para λ1 = 1.44

Para λ2 = .086 analogamente

69.0

72.01l

72.0

69.02l

variância do sistema = soma dos auto-valores = 1.44 + .09 = 1.53

variância explicada pela 1ª CP = 1.44/1.53 = 0.94 (ou ~94%) variância explicada pela 2ª CP = 0.09 /1.53 = 0.06 ( ou ~6,0%)

72.069.0

69.072.0Usautovetoredosmatriz

Page 17: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Interpretação geométrica das CPs : rotação de eixosno sistema de coordenadas centrado na média =(10,10) definem-se eixos de variação:

Na 1ª CP l11=0.72 = cosseno do ângulo abscissa c/1º eixo (linha azul sólida), cos(43,65o)=0.72;

Na 2ª CP l21=-0.69 = cosseno do ângulo abscissa c/2º eixo (linha verde), cos(90o+46,35o)=-0.69é Ortogonal ao 1º eixo

regressão linear de T2 =f (T1) indicada linha preta

Climatologia II - ACA226 (Iag/USP)

Var

iave

l T2

Variavel T1

46,35o

Page 18: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Eixo u = direção principal de variação entre X1 e X2

Eixo v = 2a direção principal

assim as direções u e v são chamadas de Componentes Principais.

1o autovetor2o autovetor

Page 19: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Exemplo 2: com 3 variáveis

Page 20: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais
Page 21: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Exemplo 3 - Aplicação em campos espaciais

Variáveis: série histórica de precipitação (acumulado em pentadas) 1979 a 2010 (=2336 pêntadas) Fonte: GPCP (Adler et al., 2003)

Disposição: grade regular na America do Sul (60S a10N ; 90W a 30W ) com 24 pontos em x, 28 pontos em y, 2336 pontos em t

Cada ponto é uma variável (no total p=24x28 = 672 variáveis), e cada um é uma série temporal com n=2336 eventos, ou seja,

Climatologia II - ACA226 (Iag/USP)

Page 22: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

1º CP 18.6% da variância explicada 2º CP 7.8% da variância explicada

3º CP 4.36% da variância explicada4º CP 3.92% da variância explicada

Climatologia II - ACA226 (Iag/USP)

Page 23: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Coeficiente temporal do 1º CP Coeficiente temporal do 2º CP

Coeficiente temporal do 3º CP Coeficiente temporal do 4º CP

Reconstrução temporal das CPs

Climatologia II - ACA226 (Iag/USP)

Page 24: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Reconstrução da Série =CP x coeficiente temporal

Dados originais de Precipitação pentadal

evento 25-maio-1984evento 25-maio-1984

Climatologia II - ACA226 (Iag/USP)