Estatistica Multivariada Aplicada UCoimbra (1)

Embed Size (px)

Citation preview

  • Faculdade de Economia da Universidade de Coimbra

    Estatstica

    Multivariada

    Aplicada

    Pedro Lopes Ferreira

    2000

  • ii

  • iii

    Sumrio

    1 Introduo estatstica multivariada ----------------------------------------------- 1 1.1 A organizao dos dados --------------------------------------------------- 1 1.2 Estatsticas descritivas ------------------------------------------------------ 2 1.3 Distncias ----------------------------------------------------------------------- 6 2 lgebra matricial e vectores aleatrios -------------------------------------------- 13 2.1 Alguns conceitos bsicos --------------------------------------------------- 13 2.2 Matrizes definidas positivas ------------------------------------------------ 17 2.3 Mdias e covarincias de combinaes lineares --------------------- 21 3 Geometria amostral e amostragem aleatria ------------------------------------ 23 3.1 Geometria da amostra ------------------------------------------------------- 23 3.2 Amostragem aleatria ------------------------------------------------------- 28 3.3 Varincia generalizada ------------------------------------------------------ 29 4 Distribuio normal multivariada ---------------------------------------------------- 37 4.1 A densidade normal multivariada ----------------------------------------- 37 4.2 Propriedades da distribuio normal ------------------------------------- 42 4.3 A forma amostral da distribuio normal multivariada --------------- 44

    4.4 Distribuio amostral de X e S ------------------------------------------ 45 5 Inferncia acerca do vector mdia -------------------------------------------------- 47 5.1 T2 de Hotelling ---------------------------------------------------------------- 47 5.2 Regies de confiana -------------------------------------------------------- 50 5.3 Inferncias para grandes amostras -------------------------------------- 56 6 Comparao entre duas mdias multivariadas --------------------------------- 59 6.1 Comparaes emparelhadas ---------------------------------------------- 59 6.2 Comparaes em desenhos de medidas repetidas ------------------ 65 6.3 Comparaes entre duas populaes ----------------------------------- 70

  • iv

    7 Anlise de componentes principais e anlise factorial --------------------- 75 7.1 Introduo ---------------------------------------------------------------------- 75 7.2 Componentes principais ---------------------------------------------------- 78 7.3 Anlise factorial --------------------------------------------------------------- 86 8 Anlise de agrupamentos (clusters) ----------------------------------------------- 99 8.1 Introduo ---------------------------------------------------------------------- 99 8.2 Medidas de semelhana ---------------------------------------------------- 99 8.2.1 Medidas de distncia ----------------------------------------------- 100 8.2.2 Medidas de associao -------------------------------------------- 102 8.3 Critrios de agregao e desagregao -------------------------------- 105 8.3.1 Critrio do vizinho mais prximo (single linkage) ----------- 106 8.3.2 Critrio do vizinho mais afastado (complete linkage) ------ 106 8.3.3 Critrio da mdia do grupo (average linkage) ---------------- 107 8.3.4 Critrio do centride ------------------------------------------------ 107 8.3.5 Critrio de Ward ----------------------------------------------------- 107 Referncias bibliogrficas ------------------------------------------------------------- 109

  • 1 Introduo anlise multivariada

    1.1 A organizao dos dados

    Sendo este um curso de estatstica multivariada, iremos analisar medies

    feitas em vrias variveis ou caractersticas. Estas medies (dados) so

    normalmente apresentadas quer graficamente, quer sob a forma matricial.

    Assim, se considerarmos n medies em p variveis, xij representar a

    medio da varivel j no item i. A sua representao matricial ser

    X =

    npnjnn

    ipijii

    pj

    pj

    xxxx

    xxxx

    xxxxxxxx

    21

    21

    222221

    111211

    ....

    ....

    Esta matriz X contm os dados de todas as observaes em todas as variveis.

    Exemplo 1.1: Pretende-se estudar as vendas dos livros de uma livraria e, para isso,

    recolheu-se uma amostra de 4 recibos, indicando cada um deles o

    nmero de livros vendidos e o total gasto (em centenas de escudos).

    Numa forma tabular temos os seguintes dados:

    Varivel Nome

    1 Total 42 52 48 58

    2 No. livros 4 5 4 3

  • 2

    Representando numa forma matricial obtemos a matriz X com duas linhas

    (variveis) e quatro colunas (itens):

    X = '

    345458485242

    o

    1.2 Estatsticas descritivas

    Se considerarmos x1j,x2j,,xij,,xnj como representando as n medies

    feitas na varivel j (coluna j da matriz X), podemos denominar por jx a mdia amostral

    da varivel j

    jx = =

    n

    iijxn 1

    1 j = 1,2,,p

    Do mesmo modo, a medida de disperso varincia amostral da varivel i

    dada por

    s2i = sii =

    =

    n

    iij xjxn 1

    2)(1 i = 1,2,,p

    A raiz quadrada da varincia amostral, jjs denominada desvio padro amostral.

    Podemos tambm estar interessados em determinar o grau de associao

    linear entre duas variveis j e k. Isto consegue-se atravs da covarincia amostral

    representada pela mdia dos produtos dos desvios em relao s respectivas mdias

    sik = ski = =

    n

    ikikij xxxjxn 1

    )()(1 i = 1,2,,p ; k = 1,2,,p

  • 3

    Se valores altos de uma varivel foram observados conjuntamente com valores

    altos de outra varivel, e valores pequenos tambm ocorrerem conjuntamente, sjk

    ser positiva. Se valores altos de uma varivel ocorrerem com valores pequenos de

    outra varivel, sjk ser negativa. Caso no exista associao entre os valores de

    ambas as varveis, sjk ser aproximadamente nula.

    Finalmente, consideremos o coeficiente de correlao amostral de Pearson,

    uma medida de associao linear entre duas variveis, independente das unidades de

    medida e com valores entre -1 e +1.

    rjk = rkj = kkjj

    jk

    ss

    s=

    ==

    =

    n

    ikik

    n

    iiij

    n

    ikikjij

    xxxx

    xxxx

    1

    2

    1

    2

    1

    )

    )()(

    ()(

    para i = 1,2,,p e k = 1,2,,p.

    Esta ltima medida constitui, como facilmente se pode observar, uma verso

    estandardizada da covarincia amostral.

    De notar que, se substituirmos os valores originais xij e xik pelos

    correspondentes valores estandardizados (xij - jx ) / jjs e (xik - kx ) / kks , o

    coeficiente de correlao amostral rjk pode ser visto como a covarincia amostral.

    Aps a estandardizao, ambas as variveis podem ser comparadas, pois passam a

    estar nas mesmas unidades.

    Voltando, de novo, apresentao matricial, baseando-nos na matriz X com n

    medies (linhas) em p variveis (colunas), as mdias amostrais so representadas

    por

  • 4

    x =

    px

    x

    x

    2

    1

    as varincias e covarincias amostrais por

    Sn =

    pppp

    p

    p

    sss

    ssssss

    21

    22221

    11211

    ...

    e as correlaes amostrais por

    R =

    1...

    11

    21

    221

    112

    pp

    p

    p

    rr

    rrrr

    Reparar que as matrizes Sn e R so matrizes simtricas de ordem p.

    Exemplo 1.1 (cont):

    Pegando de novo na matriz

    X = '

    345458485242

    podemos determinar o vector x_

    e as matrizes Sn e R. Assim,

    x1_

    = =

    4

    114

    1

    iix = )58485242(4

    1 +++ = 50

  • 5

    x2_

    = =

    4

    124

    1

    iix = )3454(4

    1 +++ = 4

    e ento, x_

    =

    2

    1

    x

    x=

    450

    Do mesmo modo,

    s11 = =

    4

    1

    211 )(4

    1

    ii xx = [ ]2222 )5058()5048()5052()5042(41 +++ = 34

    s22 = =

    4

    1

    222 )(4

    1

    ii xx = [ ]2222 )43()44()45()44(41 +++ = .5

    s12 = =

    4

    1

    )2211 ()(41

    iii xxxx =

    = [ ])43)(5058()44)(5048()45)(5052()44)(5042(41 +++ = -1.5

    Sn =

    5.5.1

    5.134

    Finalmente, a correlao amostral dada por

    r12 = r21 = 2211

    12

    sss =

    5.345.1 = -.36

    R =

    136.36.1

    o

  • 6

    1.3 Distncias

    A maioria das tcnicas multivariadas so baseadas no conceito simples de

    distncia. Se considerarmos um plano e um ponto P = (x1,x2) nesse plano, a distncia

    d(O,P) entre a origem e esse ponto dada por

    d(O,P) = 2221 xx +

    Figura 1.1 Teorema de Pitgoras

    Num caso mais geral, se os pontos tiverem p coordenadas, ento P = (x1,x2,

    ,xp), O=(0,0,,0) e d(O,P) = 22

    221 pxxx +++

    Desta ltima equao, e elevando ao quadrado ambos os termos, podemos

    dizer que todos os pontos (x1,x2, ,xp) que estejam a uma mesma distncia

    quadrada da origem, satisfazem a equao

    d2(O,P) = x 21 + x 22 + + x 2p

    Se se tratar de um espao onde p=2 , esta equao no mais do que a

    equao de uma circunferncia de centro (0,0) e raio d(0,P).

    A distncia em linha recta entre dois pontos quaisquer P e Q com coordenadas

    P=(x1,x2, ,xp) e Q=(y1,y2, ,yp) dada por

    d(P,Q) = 2222211 )()()( pp yxyxyx +++

    P

    O

    x2

    x 1

  • 7

    Ora tambm aqui se faz sentir o eventual problema das vrias dimenses

    terem unidades de medida distintas. Mais ainda, as medies das diversas

    coordenadas podem estar sujeitas a variaes aleatrias com intensidades diferentes.

    Por isso, uma distncia baseada numa linha recta, ou euclideana, no a mais

    apropriada. Necessitamos ento de um outro tipo de medio de distncias e, porque

    este novo tipo de distncia vai ter em conta as diferenas de variao, denomina-la-

    emos distncia estatstica.

    Para ilustrar o conceito de distncia estatstica, suponhamos que temos n

    pares de medies em duas variveis independentes x1 e x2. Alm disso,

    suponhamos tambm que a variao das medies da varivel x1 maior do que a

    das medies em x2.

    x1

    x2

    Figura 1.2 Diagrama de pontos

    Neste caso, a soluo passa, de novo, pela estandardizao das coordenadas,

    dividindo cada uma delas pelo respectivo desvio padro amostral. Assim, uma

    distncia estatstica do ponto P=(x1,x2) origem O=(0,0) dada por

    d(O,P) = 2

    22

    2

    2

    11

    1

    +

    sx

    sx =

    22

    22

    11

    21

    sx

    sx +

    Se compararmos esta equao com a anteriormente apresentada, podemos

    concluir que a diferena reside na aplicao de pesos k1 = 1/s11 e k2 = 1/s22,

  • 8

    respectivamente, a x 21 e x 22 . Tambm aqui todos os pontos de coordenadas (x1,x2) a

    uma distncia quadrada constante c2 da origem devem satisfazer a

    11

    21

    sx +

    22

    22

    sx = c2

    Esta ltima equao no mais do que a equao de uma elipse centrada na

    origem com os eixos principais a coincidirem com os eixos do sistema de

    coordenadas.

    0

    P

    c s11

    c s22

    x 1

    x2

    Figura 1.3 Elipse centrada na origem

    Exemplo 1.2: Suponhamos que temos duas variveis independentes com mdias x1_

    = x2_

    = 0 e com varincias s11 = 4 e s22 = 1.

    x1

    x 2 1

    2

    Figura 1.4 Elipse

    A distncia de um qualquer ponto

    P=(x1,x2) origem O=(0,0) dada, neste

    caso por

    d2(O,P) = 4

    21x +

    1

    22x

  • 9

    Todos os pontos (x1,x2) que esto a uma distncia constante 1 da origem

    satisfazem a equao

    4

    21x +

    1

    22x = 1

    correspondendo equao da elipse centrada em (0,0), com os eixos principais

    segundo os eixos x1 e x2 e com meias distncias iguais a 4 = 2 e 1 = 1,

    respectivamente.

    o

    Generalizando para p variveis, podemos determinar a distncia estatstica

    entre dois pontos P=(x1,x2, ,xp) e Q=(y1,y2, ,yp) atravs da equao

    d(P,Q) = pp

    pp

    syx

    syx

    syx 2

    22

    222

    11

    211 )()()( +++

    com s11, s22, , spp as varincias construdas a partir das n medies nas variveis

    x1,x2, ,xp, respectivamente. Todos os pontos P a uma distncia quadrada de Q

    esto colocados num hiperelipside centrado em Q com os eixos principais paralelos

    aos eixos do sistema de coordenadas. Obviamente, se todas as varincias fossem

    iguais, encontramos a distncia euclideana j atrs apresentada.

    Temos at agora analisado a situao em que os eixos da elipse dos dados

    coincidem com os eixos do sistema de coordenadas. Ora, h situaes onde isto no

    acontece, isto , em que a varivel x1 no varia independentemente da varivel x2 e,

    neste caso, o coeficiente de correlao amostral no nulo.

  • 10

    x1

    x2

    x1

    x 2

    ~

    ~

    Da figura ao lado vemos que basta

    rodarmos o sistema original de eixos de um

    ngulo para termos uma situao semelhante s anteriores.

    Figura 1.5 Elipse com ngulo

    Isto corresponde a passarmos a usar as novas variveis

    x1~ = x1 cos() + x2 sin() x2~ = - x1 sin() + x2 cos()

    A distncia entre o ponto P=(x1~ ,x2~ ) e a origem O=(0,0) ento definida como

    d(O,P) = 22

    22

    11

    21

    ~~

    ~~

    sx

    sx + = 222221122111 2 xaxxaxa ++

    Nesta fase no vital sabermos como determinar os valores destes as. O que

    importante vermos que existe um termo de produto cruzado indicador da

    correlao r12 no nula. Mais ainda, quando olhamos para a equao correspondente

    s duas variveis independentes, vemos que

    a11 = 11

    1s

    a22 =22

    1s

    a12 = 0

    De uma maneira geral, a distncia estatstica do ponto P=(x1,x2) ao ponto fixo

    Q=(y1,y2) para variveis correlacionadas dada por

    d(P,Q) = 2222222111221111 )())((2)( yxayxyxayxa ++

  • 11

    As coordenadas de todos os pontos P=(x1,x2) que estejam a uma distncia

    quadrada constante c2 de Q, definem uma elipse centrada em Q. A generalizao das

    frmulas anteriores para p dimenses imediata.

  • 12

  • 13

    2 lgebra matricial e vectores aleatrios

    2.1 Alguns conceitos bsicos

    Vejamos alguns conceitos que nos iro ser teis mais tarde.

    Sendo dado um vector x= [ x1, x2, , xn ] com n componentes, definimos

    comprimento deste vector como sendo o valor dado por

    Lx = 22221 nxxx +++

    Assim, pr-multiplicando x pelo inverso do seu comprimento, L 1x x , obtm-se o vector

    unitrio (com comprimento 1) e com a mesma direco de x.

    Um outro conceito tambm importante o de ngulo. Se tivermos dois vectores

    num plano com um ngulo entre eles, podemos considerar que = 2 - 1, sendo 1 e 2 os ngulos que, respectivamente, x e y fazem com a primeira coordenada (ver Figura 2.1).

    Assim, sabendo que

    cos (1) = xL

    x1 cos (2) = yL

    y1

  • 14

    sin (1) = xL

    x2 sin (2) = yL

    y2

    e que cos () = cos (2 - 1) = cos (2) cos (1) + sin (2) sin (1)

    x

    y

    2 1 x

    x 2

    y

    y

    2

    1 Figura 2.1 Diferena entre ngulos

    obtemos

    cos () = cos (1 - 2) =

    xy Lx

    Ly 11 +

    xy Lx

    Ly 22 =

    yxLLyxyx 2211 +

    Como o produto interno de dois vectores dado por xy = x1y1 + x2y2

    podemos re-escrever as equaes referentes a Lx e a cos () da seguinte maneira:

    Lx = xx e cos () = yx

    yxLL =

    yyxxyx

    Deste modo, dizemos que x e y so perpendiculares quando xy = 0.

    Exemplo 2.1: Sendo dados os vectores x= [ 1, 3, 2 ] e y= [ -2, 1, -1 ] , determinar o

    valor do comprimento de x e de y e o ngulo que eles fazem entre si.

  • 15

    Como xx = 12 + 32 + 22 = 14

    yy = (-2)2 + 12 + (-1)2 = 6

    xy = 1(-2) + 3(1) + 2(-1) = -1

    ento Lx = xx = 14 = 3.74

    Ly = yy = 6 = 2.45

    cos () = yx

    yxLL =

    -1(3.74) (2.45) = -.109 , donde, = 96.3

    o

    Diz-se que um conjunto de vectores x1, x2, , xk linearmente dependente

    se existirem as constantes c1, c2, , ck , no todas nulas, tal que

    c1 x1 + c2 x2 + + ck xk = 0

    Exemplo 2.2: Determinar a dependncia linear dos vectores x1= [ 1, 2, 1 ] , x2= [ 1,

    0, -1 ] e x3= [ 1, -2, 1 ] .

    A equao c1 x1 + c2 x2 + c3 x3 = 0 implica o sistema

    c1 + c2 + c3 = 0

    2c1 - 2c3 = 0c1 - c2 + c3 = 0

    que possui uma nica soluo c1 = c2 = c3 = 0.

  • 16

    Neste caso, dizemos que os vectores x1, x2 e x3 so linearmente independentes.

    o

    x

    y

    Figura 2.2 Projeco de x em y

    A projeco (ou sombra) de um vector x num vector y dada por

    yyyx

    y =

    yy

    yxLL1 y

    tendo L 1y y , o comprimento unitrio. O comprimento desta projeco

    y

    yxL

    || = Lx yx

    yxLL = Lx | cos() |

    O ltimo conceito muito usado na estatstica multivariada o de valor prprio e

    vector prprio. Uma matriz quadrada A tem um valor prprio com o correspondente vector prprio x 0 se

    A x = x

    Isto , os valores prprios so as razes da equao caracterstica | A - I | = 0.

    Exemplo 2.3: Determinar os valores e vectores prprios da matriz A =

    1551

    | A - I | = 0 B

    1551

    = 0 B (1 - )2 - 25 = 0 B 1=6 ou 2=-4

  • 17

    Para 1=6, A e = 1 e B

    21

    11

    1551

    ee

    = 6

    21

    11

    ee

    =+=

    212111

    112111

    6565

    eeeeee B

    =

    =

    212

    1

    21

    11

    e

    e

    e1 =

    212

    1

    um vector prprio normalizado correspondente ao valor prprio

    1=6.

    De modo idntico se encontra e2 =

    212

    1

    como sendo o vector prprio

    correspondente a 2 = -4.

    o

    2.2 Matrizes definidas positivas

    Dois dos pilares fundamentais da estatstica multivariada so o conceito de

    distncia e o pressuposto de que os dados esto distribudos segundo uma

    distribuio normal multivariada. Os produtos de matrizes resultantes da combinao

    destes conceitos so denominados formas quadrticas. Assim, neste captulo iremos

    falar em particular sobre as formas quadrticas no negativas e as matrizes definidas

    positivas associadas.

    Muitas vezes, tambm, os resultados que envolvem formas quadrticas e

    matrizes simtricas so consequncia directa do que se denomina decomposio

    espectral definida numa matriz simtrica Akk definida como

  • 18

    A = 1 e1 e1 + 2 e2 e2 + + k ek e

    k

    (kk) (k1) (1k) (k1)(1k) (k1)(1k)

    onde 1, 2, , k so os valores prprios de A e e1, e2, , ek os

    correspondentes vectores prprios normalizados, isto , ei ei = 1 (i = 1, 2, , k) e

    ei ej = 0 (i j).

    Exemplo 2.4: Sendo dada a matriz A =

    3113

    , obtm-se os valores prprios 1 = 4

    e 2 = 2. O vector prprio correspondente ao primeiro valor prprio e1

    =

    11

    Tornamo-lo nico, normalizando-o (comprimento igual unidade), isto , dividindo

    cada elemento do vector por 221211 ee + = 22 11 + = 2

    Encontra-se e1 =

    212

    1

    . Do mesmo modo se obtinha e2 =

    212

    1

    .

    Reparar que e1 e 2 , isto , e1 e2 = 0.

    Verificando a decomposio espectral,

    3113

    = 4

    21

    21

    212

    1

    + 2

    21

    21

    212

    1

    =

  • 19

    = 4

    21

    21

    21

    21

    + 2

    21

    21

    21

    21

    =

    2222

    +

    1111

    =

    3113

    o

    Sempre que a matriz A (kk) simtrica seja tal que xA x seja sempre maior ou igual a zero, qualquer que seja o vector x= [ ]nxxx 21 [ ]000 , denominamo-la definida no-negativa ou semi-definida positiva. A chamada definida

    positiva se xA x > 0 para todo o vector x 0. componente xA x damos o nome

    de forma quadrtica.

    Para k = 2,

    xA x = [ ]

    2

    1

    2212

    121121 x

    xaaaa

    xx = [ ]

    ++

    222112

    21211121 xaxa

    xaxaxx

    = a11x 21 + a12x1x2 + a12x1x2 + a22x 22 = a11x 21 + 2a12x1x2 + a22x 22

    = d2(0,x) = c2

    Pela decomposio espectral; A = 1 e1 e1 + 2 e2 e2

    e ento xA x = 1 (xe1)2 + 2 (xe2)2 .

    Assim; c2 = 1 y 21 + 2 y 22 uma elipse em y1 = xe1 e y2 = xe2

    Facilmente se verifica que x = c 2/11 e1 satisfaz xA x = 1 (c 2/11 e1e1)2 = c2

  • 20

    e x = c 2/12 e2 nos d a distncia na direco e2

    Deste modo os pontos situados a uma distncia c fazem parte de uma elipse

    cujos eixos so dados pelos vectores prprios de A com comprimentos proporcionais

    aos inversos das razes quadradas dos valores prprios. A constante de

    proporcionalidade c.

    Esta concluso ilustrada na figura abaixo.

    Figura 2.3 Elipse de distncia constante

    Com p > 2, os pontos x= [ ]pxxx 21 a uma distncia constante

    c = Axx da origem encontram-se no elipside

    c2 = 1 (xe1)2 + + p (xep)2

    cujos eixos so dados pelos vectores prprios de A . A meia distncia na direco de

    ei igual a i

    c

    , i = 1, 2, , p, onde 1, 2, , p, so os valores prprios de A.

    x1

    x 2 e1

    e 2 c

    1 c

    2

  • 21

    2.3 Mdias e covarincias de combinaes lineares

    Um vector aleatrio um vector cujos elementos so variveis aleatrias. Do

    mesmo modo, uma matriz aleatria uma matriz cujos elementos so variveis

    aleatrias.

    A combinao linear cX = c1X1 + + cpXp tem

    mdia E(cX) = c

    e varincia Var(cX) = c c

    onde = E(X) e = Cov(X) = [ ]')()( XXE

    Exemplo 2.5: Consideremos a matriz X = '

    052132

    A mdia desta matriz =

    12

    e a matriz das covarincias =

    3/263/2

    3/23/2

    Assim, a combinao linear Y = 3 X1 + 2 X2 , isto , [ ]

    052

    13223 ,

    ter a mdia E(YX) = [ ]

    12

    23 = 8

    e a varincia Var(YX) = [ ]

    23

    3/263/23/23/2

    23 = 48.67

    o

  • 22

    Alm dos resultados anteriores podemos tambm afirmar que, sendo dado

    duas combinaes lineares aX e bX, a covarincia entre elas dada por

    Cov(aX,bX) = a' b

  • 23

    3 Geometria amostral e amostragem aleatria

    Neste captulo iremos analisar as interpretaes geomtricas das estatsticas

    descritivas amostrais x_

    , Sn e R. Ser tambm introduzido o conceito de varincia

    generalizada para descrever a variabilidade.

    3.1 Geometria da amostra

    Tal como j atrs vimos, as n observaes em p variveis podem ser dispostas

    numa matriz np

    X =

    npnn

    p

    p

    xxx

    xxxxxx

    21

    22221

    11211

    ...

    ...

    ...=

    nx

    xx

    ...

    2

    1

    onde cada linha representa uma observao multivariada (vector xi , i= 1, n).

    Assim, a variabilidade ocorre em vrias direces e quantificada atravs da

    matriz Sn das varincias. Um valor numrico desta variabilidade dado pelo

    determinante de Sn.

  • 24

    Exemplo 3.1: Determinar o vector mdia x_

    da matriz X = '

    531314

    ,

    apresente os n = 3 pontos num espao a p = 2 dimenses e localize x_

    .

    x_

    =

    +++

    3531

    3314

    =

    32

    O grfico de pontos correspondente ser,

    X3

    X2 x

    X1

    Figura 3.1 Representao dos pontos x1, x2, x3 e mdio

    o

    Em alternativa a esta interpretao geomtrica, podemos considerar os dados

    como sendo p pontos num espao a n dimenses.

    X =

    npnn

    p

    p

    xxx

    xxxxxx

    21

    22221

    11211

    ...

    ...

    ...= [y1 y2 yp]

    -2

    -1

    0

    1

    2

    3

    4

    5

    6

    -2 -1 0 1 2 3 4 5 6

  • 25

    Nesta nova interpretao, as coordenadas do i-simo ponto yi = [x1i , x2i , ,

    xni] so as n medies da i-sima varivel.

    Exemplo 3.2: Usando a mesma matriz do exemplo anterior, representar o

    vectores y1 e y2.

    y1 = [ 4 -1 3 ] y2 = [ 1 3 5 ]

    O grfico de pontos correspondente ser,

    Figura 3.2 Representao dos vectores y1 e y2 o

    Tambm possvel dar-se uma interpretao geomtrica ao processo de

    determinao da mdia amostral. Para isso comeamos por definir o vector n 1

    1n = 1 = [ 1 1 1 ]

    que, por definio, forma ngulos iguais com cada uma das n coordenadas.

    1

    2

    4

    5

    6

    3

    1 2 4 5 6 3 1

    2

    4 5

    6

    3

    y 2

    y 1

    1

    2

    3

  • 26

    Deste modo, n

    1 1 tem comprimento unitrio e direco do ngulo igualitrio.

    A projeco de yi no vector unitrio dada por

    yi nn11

    1 1 = n

    xxx inii +++ 21 1 = xi_

    1

    isto , a mdia amostral xi_

    = yi 1/ n corresponde ao mltiplo de 1 necessrio para

    obter a projeco de yi na linha determinada por 1.

    Alm disso, para cada yj podemos determinar o vector desvio dj , desvio entre yj e

    ix 1.

    dj = yj - jx 1 =

    ini

    ii

    ii

    xx

    xxxx

    2

    1

    0 1 1x Figura 3.3 Diferena entre vectores

    Exemplo 3.3: Ainda com a mesma matriz X,

    x1_

    1 =

    222

    x2_

    1 =

    333

    Consequentemente,

    d1 = y1 - x1_

    1 =

    31

    4-

    222

    =

    13

    2

    d2 = y2 - x2_

    1 =

    531

    -

    333

    =

    202

    y 2

  • 27

    Figura 3.4 Vectores desvios o

    fcil ver que

    L 2id = d

    i di = =

    n

    ijij xx

    1

    2)(

    isto , o quadrado do comprimento do vector desvio igual soma dos quadrados

    dos desvios.

    Do mesmo modo,

    di dk = =

    n

    jkkjiij xxxx

    1

    )()( = LidL

    kdcos(ik)

    e ento,

    rik = kkii

    ik

    sss = cos(ik)

    O coseno do ngulo o coeficiente de correlao amostral. Assim, se dois

    vectores tiverem aproximadamente a mesma orientao, a correlao amostral ser

    prxima da unidade. Se estes dois vectores forem quase perpendiculares, a

    y 2

    y 1

    1

    2

    3

    d 1

    d 2

    x 1 2 x 1 1

  • 28

    correlao amostral quase nula. Se os dois vectores estiverem orientados

    aproximadamente em direces opostas, a correlao amostral ser prxima de -1.

    Exemplo 3.4: Com os resultados dos exemplos anteriores,

    d1 d1 = [ ]

    13

    2132 = 14 = 3 s11

    d2 d2 = [ ]

    202

    202 = 8 = 3 s22

    d1 d2 = [ ]

    202

    132 = -2 = 3 s12

    Sn =

    38

    32

    32

    314

    r12 = 2211

    12

    sss =

    38

    314

    32

    = -.189

    R =

    1189.189.1

    3.2 Amostragem aleatria

    Para estudarmos a variabilidade amostral de x_

    e Sn e para podermos inferir

    os resultados para toda a populao, temos de estabelecer alguns pressupostos

    relativamente s variveis que constituem o conjunto das observaes.

  • 29

    Dada a matriz

    X =

    npnn

    p

    p

    xxx

    xxxxxx

    21

    22221

    11211

    ...

    ...

    ...=

    nx

    xx

    ...

    2

    1

    dizemos que x1 , x2 , , xn formam uma amostra aleatria se constiturem

    observaes independentes, possuindo uma distribuio conjunta f(x) = f(x1) f(x2)

    f(xn).

    Se e representarem, respectivamente, o vector mdia e a matriz de

    varincias da amostra aleatria x1 , x2 , , xn , ento x_

    um estimador no

    enviesado de [E(x_

    ) = ] e S = 1n

    n Sn um estimador no enviesado de , isto ,

    E(1n

    n Sn) = .

    A matriz amostral no enviesada das varincias

    S = 1n

    n Sn = =

    n

    jjjn 1

    ')()(1

    1 xxxx

    3.3 Varincia generalizada

    A varincia normalmente descrita pela matriz das varincias

  • 30

    S =

    npnn

    p

    p

    xxx

    xxxxxx

    21

    22221

    11211

    ...

    ...

    ...=

    = =

    n

    iikjijjk kxxn

    s1

    )()(1

    1 xx

    Um nico valor numrico que representa toda a variao expressa em S a

    varincia amostral generalizada dada pelo determinante de S.

    Varincia amostral generalizada = | S |

    Exemplo 3.5: Consideremos a matriz S =

    15538142131421314808

    A varincia generalizada dada por

    | S | = (14808) (15538) - (14213) (14213) = 28.08 106.

    Vejamos de seguida uma interpretao geomtrica para |S|. Consideremos

    ento a rea gerada pelos dois vectores desvio d1 = y1 - x1_

    1 e d2 = y2 - x2_

    1

    d1

    d2

    Ld1sin

    Figura 3.5 rea gerada pelos desvios

    rea = [ ])sin(1

    dL L 2d

    = L1dL 2cos1

    2d

    = (n - 1) )1( 2122211 rss

  • 31

    Por outro lado,

    | S | =

    2212

    1211

    ssss

    =

    22122211

    12221111

    srssrsss

    = s11 s22 - s11 s22 r212 = s11 s22 (1 - r

    212 )

    Destes dois ltimos resultados, podemos concluir que

    | S | = 2

    2

    )1( nrea = (n - 1)-2 rea2

    Generalizando para um p-espao obtemos

    Varincia amostral generalizada = | S | = (n - 1)-p (volume)2

    isto , para um determinado conjunto de dados, a varincia amostral generalizada

    proporcional ao quadrado do volume gerado pelos p vectores desvio.

    As duas figuras abaixo representam, respectivamente, uma grande e uma

    pequena varincia amostral generalizada para p = 3 no espao das observaes.

    Figura 3.6 - Representao geomtrica da varincia generalizada

    1

    2

    3

    d1

    d3 d2

    1

    2

    3

    d1 d3

    d2

  • 32

    A varincia generalizada tem tambm interpretao no grfico de pontos num

    p-espao. Consideremos, para isso, a mdia amostral x_

    = [ x1_

    , x2_

    , , xp_

    ].

    As coordenadas x =[ 1x , 2x ; , px ] dos pontos a uma distncia constante c

    de x_

    satisfazem

    (x - x_

    ) S-1 (x - x_

    ) = c2

    que define uma elipse (p = 2) centrada em x_

    .

    Usando o clculo integral, podemos verificar que o volume do hiper-elipside

    est relacionado com o valor de | S |

    Volume de { }21 )()(: cx = xxSxx = kp | S |1/2 cp ou

    (volume do elipside)2 = (constante) (varincia amostral generalizada)

    Apesar da sua interpretao geomtrica, a varincia amostral generalizada

    limitada como indicador descritivo de uma matriz amostral de varincias. Para ilustrar

    isto vejamos o exemplo que se segue.

    Exemplo 3.6: Consideremos as matrizes

    S =

    5445

    S =

    5445

    S =

    3003

  • 33

    todas elas com a mesma varincia generalizada | S | = 9 mas com distintos

    coeficientes de correlao, respectivamente, .8, -.8 e 0.

    o

    Ora, prova-se que o determinante de uma qualquer matriz A pp pode ser

    escrito como o produto dos seus valores prprios 1, 1, , p, isto , | A | = =

    p

    ii

    1

    .

    Assim, os valores prprios podem dar-nos informao referente variabilidade em

    todas as direces numa representao p-espacial e, por isso, til no s

    analisarmos os valores individuais assim como o seu produto.

    A varincia generalizada nula quando e apenas quando pelo menos um

    vector desvio estiver no hiperplano formado por todas as combinaes lineares dos

    outros, isto , quando as linhas de uma matriz de desvios forem linearmente

    dependentes.

    Exemplo 3.7: Dada a matriz X =

    465012441

    ,

    a matriz das mdias x_

    = [ 3 , 1 , 5 ] e ento X - x_

    1 =

    110101

    112.

    Os desvios residuais so d1 =

    112

    , d2 =

    101

    e d3 =

    110

    .

    Como d3 = d1 + 2 d2, h degenerescncia nas linhas e |S| = 0, pois o volume a

    trs dimenses formado pelos trs vectores nulo.

    o

  • 34

    |S| = 0 significa, em termos matemticos, que as medies em algumas

    variveis podem ser retiradas do estudo. Por outro lado |S| tambm ser nulo se o

    tamanho da amostra for menor ou igual ao nmero de variveis, isto , n p.

    Se estivermos a trabalhar com variveis estandardizadas, podemos dizer que a

    varincia amostral generalizada dada pelo determinante de R:

    Varincia amostral generalizadadas variveis estandardizadas = | R | = (n - 1)-p (volume)2

    Como |S| e |R| esto relacionadas por |S| = (s11 s22 spp) |R|, podemos

    escrever

    (n - 1)p | S | = (n - 1)p (s11 s22 spp) | R |

    Exemplo 3.8: Sendo dada a matriz S =

    121293134

    , s11 = 4; s22 = 9 e s33 =

    1.

    Alm disso, R =

    132

    21

    321

    21

    21

    211

    . Como | S | = 14 e | R | = 187 , confirma-se que

    14 = | S | = s11 s22 s33 | R | = (4) (9) (1)

    187 = 14

    o

    Conclumos esta discusso apresentando o conceito de varincia amostral

    total cujo valor corresponde ao valor do trao da matriz S, isto , soma dos

    elementos da sua diagonal.

  • 35

    Varincia amostral total = s11 + s22 + + spp

    Exemplo 3.9: A varincia amostral total da matriz S =

    15538142131421314808

    s11 + s22 = 14808 + 15538 = 30346.

    A varincia amostral total da matriz S =

    1210

    211

    23

    0233

    s11 + s22 + s33 = 3 + 1 + 1 = 5. o

    Geometricamente, a varincia amostral total corresponde soma dos

    quadrados dos comprimentos dos p vectores residuais d1 = y1 - x1_

    1, , dp = yp -

    xp_

    1 dividida por n - 1.

  • 36

  • 37

    4 Distribuio normal multivariada

    A generalizao da to conhecida curva normal para vrias dimenses

    desempenha um papel fundamental na anlise multivariada.

    4.1 A densidade normal multivariada

    A densidade normal multivariada consiste numa generalizao, para p 2, da

    densidade da curva normal

    f(x) = 22

    1

    e - [ ] 2//)( 2x - < x <

    O termo

    x 2 = (x - ) (2)-1 (x - ) no expoente da funo densidade no

    mais do que a distncia quadrada de x a em unidades estandardizadas de desvio.

    Generalizando para um vector x de dimenso p1, podemos escrever

    (x - ) -1 (x - )

    onde o vector representa o valor esperado do vector aleatrio x e a matriz pp a matriz da varincias.

  • 38

    A funo densidade normal p-dimensional Np(, ) para o vector aleatrio x

    = [X1, X2, , Xp]

    f(x) = 2/12/ ||)2(

    1p e

    - (1/2) (x - ) -1 (x - )

    onde - < xi < , i = 1, 2, , p.

    Exemplo 4.1: Consideremos o espao p = 2.

    Neste espao =

    2

    1

    e =

    2212

    1211

    ssss

    Calculando a inversa da matriz de varincias, obtemos

    -1 =

    11121222

    2122211

    1

    Assim, a distncia quadrada (x - ) -1 (x - ) fica igual a

    = [ ]

    22

    11

    11221112

    221112222122211

    11111

    xx

    xx

    = ( ) ( ) ( )( )

    )1(

    2222122211

    112211122

    22112

    1122

    + xxxx

    =

    +

    1111

    11

    1112

    2

    22

    22

    2

    11

    11212

    21

    1

    xxxx

    Deste modo,

  • 39

    f(x1,x2) = )1(2

    12122211

    ( )

    +

    11

    11

    11

    1112

    2

    22

    22

    2

    11

    11212

    212

    1exp

    xxxx

    Olhando para esta ltima equao, podemos dizer que se 12 = 0 , a densidade

    conjunta pode ser escrita como um produto de duas densidades normais

    univariadas, isto , se X1 e X2 no esto correlacionadas, f(x1,x2) = f(x1) f(x2),

    isto , X1 e X2 so independentes.

    o

    Do que atrs ficou dito, podemos concluir que a densidade normal multivariada

    constante nas superfcies onde a distncia quadrada (x - ) -1 (x - ) for

    constante. Os eixos de cada elipside de constante densidade tm a direco dos

    vectores prprios de -1 e os comprimentos proporcionais aos inversos das razes

    quadradas dos valores prprios de .

    Uma vez que e = e -1 e = 1 e, os valores prprios de -1 podem ser

    determinados atravs dos valores prprios de .

    Deste modo, podemos afirmar que os contornos de densidade constante da

    distribuio normal p-dimensional constituem elipsides definidos por x tal que

    (x - ) -1 (x - ) = c2. Estes elipsides so centrados em e possuem eixos

    com comprimento c i ei , onde ei = i ei , i=1, , p.

  • 40

    Exemplo 4.2: Consideremos o caso em que 11 = 22.

    = 0

    1112

    1211 = 0

    ( - 11 - 12) ( - 11 + 12) = 0

    f(x , x )1 2

    x 1

    x 2

    f(x , x )1 2

    0

    x 1

    (b)

    0

    x 2

    (a)

    Figura 4.1 Duas distribuies normais bivariadas

    (a) 11 = 22 e 12 = 0 (b) 11 = 22 e 12 = .75

  • 41

    Ento, os valores prprios so 1 = 11 + 12 e 2 = 11 - 12. O vector prprio

    e1 correspondente ao valor prprio 1 dado por

    21

    11

    1112

    1211

    ee

    ssss

    = (11 + 12)

    21

    11

    ee

    e1 =

    21

    11

    ee

    =

    212

    1

    De modo idntico e2 =

    22

    12

    ee

    =

    212

    1

    c 11 - 12

    c 11+ 12

    1

    2

    1 x

    2 x

    Figura 4.2 - Contorno de densidade constante para uma distribuio normal bivariada

    com 11 = 22 e 12 > 0 (ou 12 > 0)

    Quando 12 > 0, 1 = 11 + 12 o maior valor prprio e o correspondente

    vector prprio

    =2

    1,2

    1'1e ] situa-se na recta a 45 que passa por = [1, 2].

    Como os eixos das elipses de densidade constante so dados por c 11e e

  • 42

    c 22e , com cada vector prprio de comprimento unitrio, o maior eixo est

    associado ao maior dos valores prprios.

    o

    A densidade normal p-variada

    f(x) = 2/12/ ||)2(

    1p e

    - (1/2) (x - ) -1 (x - )

    tem um valor mximo quando a distncia quadrada (x - ) -1 (x - ) for nula, isto

    , quando x=. Deste modo, o ponto de densidade mxima, ou moda, ao mesmo

    tempo que constitui o valor esperado de X, ou mdia.

    4.2 Propriedades da distribuio normal

    Vejamos, de seguida, algumas propriedades da distribuio normal. Assim, sendo

    dado o vector aleatrio x com uma distribuio normal multivariada, x ~ Np(, ),

    Combinaes lineares das componentes de X so normalmente distribudas.

    a X = a1 X1 + a2 X2 + + ap Xp ~ N(a, aa)

    ++

    ++++

    =XpaXa

    XpaXaXpaXa

    pX

    pqA

    qpq

    p

    p

    ...

    ...

    ...

    ...

    )1()(

    11

    2121

    1111

    ~ Nq(A, AA)

  • 43

    )1()1( + p

    dpX ~ Np(, d)

    Todos os subconjuntos das componentes de X seguem uma distribuio normal

    multivariada. Se dividirmos X, e

    =)1)((

    )1()1( 2

    1

    qpXqX

    pX

    =)1)((

    )1()1( 2

    1

    qp

    qp

    =

    ))()((

    ))((

    ||||

    ))((

    )()( 22

    12

    21

    11

    qpqp

    qpq

    qqp

    qqpp

    ento, por exemplo, X1 ~ Nq(1, 11).

    Se X1 (q11) e X2 (q21) forem independentes, ento Cov(X1,X2) = 0, sendo 0

    uma matriz (q1q2) de zeros.

    As distribuies condicionais das componentes so normais multivariadas.

    Se X =

    X1

    X2 ~ Np(, ) com =

    1

    2 , =

    2221

    1211

    |___

    |

    e |22| > 0, ento a distribuio condicional de X1 dado X2 = x2 normal com

    a mdia = 1 + 12 122 (x2 - 2) e covarincia = 11 - 12 122 21.

    Notar que a covarincia no depende do valor de x2 da varivel condicionante.

  • 44

    Se || > 0, ento (x - ) -1 (x - ) ~ 2p , uma distribuio de qui-quadrado

    com p graus de liberdade.

    A distribuio Np(,) atribui uma probabilidade 1- ao elipside

    { })()()(: 21 px = xx sendo 2p () o percentil de ordem (100) da distribuio 2p .

    4.3 A forma amostral da distribuio normal multivariada

    Sendo dado x1, x2, , xn uma amostra aleatria de uma populao normal

    com mdia e covarincia , os estimadores de mxima verosimilhana para e

    so dados, respectivamente, por

    = X

    = =

    n

    jjjn 1

    ))((1 XXXX = n

    n 1 S

    Notar que o estimador X um vector aleatrio e que o estimador uma

    matriz aleatria.

    Estes estimadores de mxima verosimilhana possuem a propriedade da

    invarincia. Isto significa, por exemplo, que o estimador de mxima verosimilhana de

    1 1 e que o estimador de mxima verosimilhana de jj jj ,

  • 45

    com jj = =

    n

    iij jn 1

    2)(1 XX como sendo o estimador de mxima verosimilhana de jj

    = Var(Xj).

    Tratando-se de populaes normais, toda a informao amostral da matriz de

    dados X est contida em X e S; qualquer que seja o tamanho n da amostra. Como

    esta afirmao no necessariamente verdadeira para populaes no normais,

    sempre conveniente testar os pressupostos da normal multivariada.

    4.4 Distribuio amostral de X e S

    No caso univariado (p = 1) sabemos que X segue uma distribuio normal

    com mdia e varincia 1n 2. O resultado para o caso multivariado (p 2)

    idntico. X segue uma distribuio normal com mdia e matriz de covarincia 1n

    .

    Ora, como desconhecida, a distribuio de X no pode ser usada

    directamente para inferir acerca de . Contudo, S independente de fornece-nos

    informao suficiente acerca de . medida que o tamanho da amostra cresce, X e

    S so regidos por algumas propriedades independentemente das caractersticas da

    populao-pai. O nico requisito que existe que esta populao-pai, qualquer que

    seja a sua forma, tenha uma mdia e uma covarincia finita .

    Pela Lei dos Grandes Nmeros e sempre que o tamanho da amostra seja

    grande, existe uma grande probabilidade de que X se aproxime de e que S se

  • 46

    aproxime de . Precisando um pouco mais (Teorema do Limite Central), sejam X1,

    X2, , Xn uma observao independente de uma qualquer populao com mdia e

    covarincia finita . Ento, para amostras grandes (n deve ser grande relativamente a

    p), n ( X - ) aproximadamente segue uma distribuio Np(0, ).

    Quando X ~ Np(, 1n ) ou seja, quando n ( X

    - ) ~ Np(0; ), pode tambm

    demonstrar-se que n ( X - ) -1 ( X - ) ~ 2p .

    Reparar, finalmente, que, para n grande e muito maior do que p, substituir 1

    por S -1 no afecta seriamente a aproximao.

  • 47

    5 Inferncia acerca do vector mdia

    Nos captulos anteriores apresentaram-se os conceitos bsicos para uma

    melhor compreenso da estatstica multivariada. Neste captulo iremos analisar a

    inferncia (testes e regies de confiana) referentes ao vector mdia de uma

    populao normal.

    5.1 T2 de Hotelling

    Uma generalizao natural da distncia quadrada

    t2 = ns

    X o/

    )(2

    2= n ( X

    - o) (s

    2)-1 ( X

    - o)

    a correspondente multivariada

    T2 = ( X

    - o)

    Sn1 -1 ( X

    - o) = n ( X

    - o) S

    -1 ( X

    - o)

    onde =

    =n

    jjXnp

    X

    1

    1)1(

    ( )( )'11

    1)(

    XXXXnpp

    Sj

    n

    jj = =

    =

    0

    20

    10

    0

    )1(

    p

    p

    M

    e 1n S representa a matriz estimada das covarincias de X

    .

  • 48

    A estatstica T2 denominada T2 de Hotelling em homenagem a Harold

    Hotelling, pioneiro da estatstica multivariada. Se a distncia generalizada observada

    T2 for grande, isto ; se x_

    estiver muito longe de 0, a hiptese H0: = 0 ser

    rejeitada. Ora, para podermos ter uma ideia da grandeza da distncia T2, utilizamos o

    conhecimento que temos da sua distribuio. De facto,

    T2 ~ )(

    )1(pn

    pn Fp, n-p

    onde Fp,n-p indica uma varivel aleatria com uma distribuio F com p e n-p graus

    de liberdade.

    Considerando ento a amostra aleatria X1, X2, , Xn de uma populao

    Np(, ),

    = P

    > )()(

    )1(,

    2 pnpFpnpnT =

    > )()(

    )1()()( ,

    1 pnpFpnpnn XSX

    quaisquer que sejam os valores verdadeiros de e , com Fp,n-p() a representar o

    percentil de ordem (100) da distribuio Fp,n-p.

    O que j foi dito suficiente para testar H0: = 0 contra H1: 0. A um

    nvel de significncia , rejeitamos H0 em favor de H1 se

    T2 = n (x_ - 0) S

    -1 (x_ - 0) > )(

    )1(pn

    pn Fp,n-p()

    Exemplo 5.1: Analisou-se a transpirao de 20 mulheres saudveis, tendo

    sido usadas as trs variveis X1 = taxa de transpirao, X2 = contedo de sdio e

  • 49

    X3 = contedo de potssio. Os valores encontrados levaram aos seguintes

    resultados:

    X =

    965.9400.45640.4

    S =

    628.3627.5810.1627.5798.199002.10810.1002.10879.2

    e S-1 =

    402.002.258.002.006.022.258.022.586.

    Testar a hiptese H0: = [ 4 , 50, 10 ] contra H1: [ 4 , 50, 10 ] a um nvel de

    confiana de = .10.

    Ora T2 = n ( X - 0) S-1 ( X - 0)

    = 20 [4.640 - 4 ; 45.400 - 50 ; 9.965 - 10]

    10965.950400.45

    4640.4

    402.002.258.002.006.022.258.022.586.

    = 20 [.640 ; -4.600 ; -.035 ]

    160.042.467.

    = 9,74

    Comparando o valor observado T2 com o valor crtico

    )()1(pn

    pn Fp,n-p(.10) = 17

    )3(19 F3,17(.10) = (3.353) (2.44) = 8,18

    podemos concluir que T2 = 9.74 > 8.18 e, portanto, rejeitamos H0 ao nvel de

    confiana de 90%.

    o

  • 50

    5.2 Regies de confiana

    Seja X = [X1 X2 Xn] a matriz de dados e um vector de parmetros

    desconhecidos de uma populao. A regio R(X) chamada regio 100(1-)% confiana se, antes da amostra ser seleccionada,

    P[R(X) incluir o verdadeiro valor para ] = 1 -

    Adaptando este conceito mdia , obtemos

    P

    )()(

    )1()()( ,1 pnpFpn

    pnn XSX = 1 -

    Por outras palavras, X estar a uma distncia )()(

    )1(, pnpFpn

    pn

    de , com

    probabilidade 1 - , desde que a distncia seja definida em termos de

    Sn1 -1.

    Para se saber se um qualquer valor 0 pertence regio de confiana,

    necessitamos de determinar o valor da distncia quadrada generalizada

    n (x_

    - o) S-1 (x_

    - o)

    e compar-la com o valor de )(

    )1(pn

    pn Fp,n-p(). Caso a distncia seja maior do que

    este ltimo valor, 0 no pertencer regio de confiana.

  • 51

    Os eixos do elipside de confiana e os seus respectivos comprimentos podem ser

    determinados atravs dos prprios valores prprios i e dos vectores prprios ei de S.

    Centrado em x_

    , os eixos do elipside

    n (x_

    - ) S-1 (x_

    - ) c2 = )(

    )1(pn

    pn Fp,n-p()

    so )()(

    )1(, pnpi Fpnn

    pn

    ei ; onde Sei = i ei , i = 1, 2, , p.

    Exemplo 5.2: Num estudo de 42 aparelhos de microondas, foram medidas as

    radiaes emitidas pelos aparelhos, respectivamente, com as portas fechadas (X1)

    e com as portas abertas (X2). Para os 42 pares de observaes , encontrou-se

    X =

    603.564.

    S =

    0146.0117.0117.0144.

    e S-1 =

    228.200391.163391.163018.203

    Os pares de valores prprios e vectores prprios para S so

    1 = .026 e1 = [ .704, .710 ]

    2 = .002 e2 = [ -.710, .704 ]

    A elipse a 95% de confiana para consiste em todos os valores (1 , 2) que

    satisfazem a inequao

    42 [.564 - 1 ; .603 - 2]

    2

    1

    603.564.

    228.200391.163391.163018.203

    40

    )41(2 F2,40(.05)

    Como F2,40(.05) = 3.23, obtm-se,

  • 52

    42(203.018)(.564-1)2 + 42(200.228)(.603-2)2 - 84(163.391)(.564-1)(.603-2) 6.62

    Para determinar se = [ .562 , .589 ] pertence regio de confiana, calculamos

    a expresso anterior para 1 = .562 e 2 = .589, encontrando-se o valor 1.30

    6.62. Conclumos ento que se situa na regio de confiana.

    Do mesmo modo, um teste de H0: =

    589.562.

    no ser rejeitado em favor de H1:

    589.562.

    a um nvel de significncia = .05.

    O elipside de confiana conjunta est centrado em X =

    603.564.

    e,

    respectivamente, com metades dos eixos maior e menor iguais a

    )()(

    )1(,1 pnpFpnn

    pn

    = )23.3()40(42

    )41(2026. = .064

    e )()(

    )1(,2 pnpFpnn

    pn

    = )23.3()40(42

    )41(2002. = .018

    Estes eixos encontram-se segundo e1 = [ .704, .710 ] e e2 = [ -.710, .704 ].

    Pode-se facilmente ver que o eixo maior cerca de 3.6 vezes maior do que o eixo

    menor.

    o

    Consideremos agora X ~ Np(, ) e a combinao linear Z = cX = c1 X1 + c2

    X2 + + cp Xp . Ento, para c fixo e 2z desconhecido, um intervalo de confiana a 100(1 - )% para z = c dado por

    c x - tn-1(/2) n

    cc S c c x + tn-1(/2) n

    cc S

  • 53

    onde tn-1(/2) o percentil superior de ordem 100(/2) de uma distribuio t com n-1

    graus de liberdade.

    Esta desigualdade pode ser interpretada como uma afirmao em relao s

    componentes do vector mdia . Por exemplo, com c= [ 1, 0, , 0 ], c = 1

    torna-se no intervalo de confiana j por ns conhecido para a mdia de uma

    populao normal, sendo cSc = s11.

    Podemos deste modo construir vrios intervalos de confiana para os

    componentes de , cada um deles associado a um coeficiente de confiana de 1-. Basta para isso escolher os vectores c apropriados. Contudo, a confiana associada a

    todos os intervalos quando tomados em conjunto no igual a 1-.

    Sendo dada a amostra aleatria X1, X2, , Xn de uma populao Np(, ),

    com definida positiva, para todos os c simultaneamente, o intervalo

    +

    SccFpnnnpcSccF

    pnnnpc pnppnp ')()(

    )1(;')()()1( ,, XX

    contm c com probabilidade 1-. Estes intervalos simultneos so, por vezes, denominados, intervalos T2 pois a

    probabilidade de cobertura determinada pela distribuio de T2. As escolhas c= [ 1,

    0, , 0 ], c= [ 0, 1, , 0 ], , c= [ 0, 0, , 1 ] permitem-nos concluir que todos os

    intervalos

    x1 -

    ns

    Fpn

    nppnp

    11, )()(

    )1( 1 x1 + n

    sF

    pnnp

    pnp11

    , )()()1(

  • 54

    x2 -

    ns

    Fpn

    nppnp

    22, )()(

    )1( 2 x2 + n

    sF

    pnnp

    pnp22

    , )()()1(

    xp -

    ns

    Fpn

    np pppnp )()(

    )1(,

    p xp + ns

    Fpn

    np pppnp )()(

    )1(,

    se verificam com um coeficiente de confiana de 1-.

    Reparar que, por exemplo, para se obter um intervalo de confiana para i - k

    basta usar-se ci = ck = 1 no vector c= [ 0, , ci, 0, , -ck, , 0 ] a que corresponde

    cSc = sii - 2sik + skk, obtendo-se o intervalo

    xi - kx n

    sssF

    pnnp kkikii

    pnp+

    2

    )()()1(

    ,

    Exemplo 5.3: 87 alunos de um liceu obtiveram classificaes em trs exames

    especiais: X1 = cincias sociais, X2 = verbal e X3 = cincias exactas. Os

    resultados obtidos foram:

    X =

    13.2569.5474.527

    e S =

    11.2337.2325.21737.2305.12651.60025.21751.60034.5691

    Para encontrar os intervalos simultneos de confiana a 95% para 1, 2 e 3

    necessitamos calcular o valor

    )()1(

    pnnp

    Fp,n-p() = )387()187(3

    F3,84(.05) = )7.2(84

    )86(3 = 8.29

    obtendo assim os intervalos

  • 55

    527.74 - 87

    34.569129.8 1 527.74 + 8734.569129.8 504.45 1 551.03

    54.69 - 87

    05.12629.8 2 54.69 + 8705.12629.8 51.22 2 58.16

    25.13 - 87

    11.2329.8 3 25.13 + 8711.2329.8 23.65 3 26.61

    o

    Se o nmero m de mdias i ou de combinaes lineares c = c11 + c22 +

    + cpp for pequeno, os intervalos de confiana simultneos podem ser obtidos de

    uma forma mais precisa. Tais intervalos de confiana, denominados de Bonferroni,

    so baseados nos intervalos t individuais

    x_

    i tn-1 nsiii

    2 i = 1, 2, , m

    com i = /m. Assim, para um nvel de confiana global maior ou igual a 1 - ,

    podemos obter m = p intervalos:

    x 1 - tn-1 ns

    p11

    2

    1 x 1 + tn-1 n

    sp

    11

    2

    x 2 - tn-1 ns

    p22

    2

    2 x 2 + tn-1 n

    sp

    22

    2

    x_

    p - tn-1 ns

    ppp

    2 p x

    _ p + tn-1 n

    sp

    pp

    2

  • 56

    Exemplo 5.4: Voltando aos dados da transpirao, podemos obter os

    intervalos de confiana de Bonferroni a 95% para 1, 2 e 3 correspondentes

    escolha de i = .05/3, i=1, 2, 3.

    Como n = 20 e t19(.05/2(3)) = t19(.0083) = 2.625, temos

    x_

    1 t19 (.0083) ns11 = 4.64 2.625

    20879.2 3.64 1 5.64

    x_

    2 t19 (.0083) ns22 = 45.4 2.625

    20798.199 37.10 2 53.70

    x_

    3 t19 (.0083) ns33 = 9.965 2.625

    20628.3 8.85 3 11.08

    o

    5.3 Inferncias para grandes amostras

    Quando o tamanho da amostra grande, os testes de hipteses e as regies

    de confiana para podem ser construdos sem o pressuposto da existncia de uma

    populao normal, mesmo tratando-se de distribuies discretas. Todas as inferncias

    de amostras grandes so baseadas na distribuio 2.

    ( X - )

    Sn1 -1 ( X - ) = n ( X - ) S-1 ( X - ) aproximadamente 2

    com p graus de liberdade e, ento,

    P [ ])()()( 21 pn XSX = 1 -

  • 57

    onde )(2 p o percentil superior de ordem (100) da distribuio 2p .

    Seja X1, X2, , Xn uma amostra aleatria de uma populao com mdia e

    matriz de covarincia definida positiva . Quando n - p for grande,

    a hiptese H0: = 0 rejeitada em favor de H1: 0, a um nvel de

    significncia aproximadamente se

    n (x_

    - o) S-1 (x_

    - o) > )(2 p

    c X n

    ccp

    S)(2 contm c, para todo c, com probabilidade aproximadamente

    1-. Consequentemente, os intervalos de confiana simultneos a 100(1-)%

    x_

    1 ns

    p112 )( contm 1

    x_

    2 ns

    p222 )( contm 2

    x_

    p ns pp

    p )(2 contm p

    Alm disso, para todos os pares (i, k), i, k = 1, 2, , p, as elipses amostrais

    centradas na mdia

    n [x_

    i - i ; x_

    k - k]

    kkik

    ikii

    ssss -1

    kk

    ii

    xx

    __

    )(2 p contm (i, k)

  • 58

  • 59

    6 Comparao entre duas mdias multivariadas

    Neste captulo iremos estender o conhecimento comparao entre dois

    vectores mdia. Mais uma vez iremos partir de procedimentos univariados e

    generalizaremos para o caso multivariado.

    6.1 Comparaes emparelhadas

    Por vezes, as medies so feitas em condies experimentais diversas, com

    o objectivo de testar se as respostas diferem significativamente. o caso, por

    exemplo, de um teste de eficcia de um novo medicamento que requer que haja

    medies antes e aps um determinado tratamento. As respostas emparelhadas

    podem ser comparadas analisando as respectivas diferenas.

    No caso univariado, e considerando X1j e X2j, respectivamente, as medies

    "antes" e "aps", os efeitos so representados pelas diferenas dj = x1j - x2j , j= 1, 2,

    , n. Partindo do pressuposto de que as diferenas Dj representam observaes

    independentes de uma distribuio N(, 2d ), a varivel

    t = ns

    D

    d /)( ;

  • 60

    onde D = =

    n

    jjDn 1

    1 e s 2d = =

    n

    jj DDn 1

    )(1

    1 2, segue uma distribuio t com n-1

    graus de liberdade.

    Consequentemente, a um nvel , o teste H0: = 0 contra H0: 0 pode ser

    conduzido comparando | t | com tn-1(/2). Do mesmo modo, um intervalo de

    confiana a 100(1-)% para a diferena mdia = E(X1j - X2j) pode ser obtido pela

    expresso

    d - tn-1(/2) nsd d + tn-1(/2) n

    sd

    Ao generalizar para o caso multivariado, vamos necessitar de distinguir entre p

    respostas, 2 tratamentos e n unidades experimentais. Obtemos assim as p variveis

    aleatrias de diferenas

    D1j = X11j - X21j

    D2j = X12j - X22j

    Dpj = X1pj - X2pj

    ou, em forma matricial,

    pnpp

    n

    XXX

    XXX

    12111

    11112111

    ... -

    pnpp

    n

    XXX

    XXX

    22212

    21212211

    ... =

    pnpp

    n

    DDD

    DDD

    21

    11211

    ...

    Considerando Dj = [ ] ),,2,1(21 njDDD pjjj = ,

  • 61

    E(Dj) = =

    p

    L2

    1

    e cov(Dj)=d.

    Se, alm disso, D1, D2, , Dn forem vectores aleatrios independentes Np(,

    d), ento

    T2 = n (D - )S )(1 Dd

    onde D = =

    n

    jjn 1

    1 D e Sd = =

    n

    jjjn 1

    ))((1

    1 DDDD distribudo como uma varivel

    aleatria )(

    )1(pn

    pn Fp,n-p.

    Se ambos n e n-p forem grandes, T2 aproximadamente distribuda como

    2p , independentemente da forma da populao subjacente das diferenas.

    Sendo observadas as diferenas dj = [ ] ),,2,1(21 njddd pjjj = , rejeitamos H0: = 0 contra H1: 0 a um nvel para uma populao Np(, d) se o valor

    observado

    T2 = n d S-1d d

    > )(

    )1(pn

    pn Fp,n-p()

    onde Fp;n-p() o valor do percentil de ordem 100 de uma distribuio F com p e n-

    p graus de liberdade.

  • 62

    Uma regio de confiana a 100(1-)% para formado por todos os tal que

    ( d - ) S-1d ( d - d)

    )()1(pnnpn

    Fp,n-p()

    Os intervalos simultneos de confiana a (1-)% para i so dados por

    i: di ns

    Fpn

    pn idpnp

    2

    , )()()1(

    onde di o elemento de ordem i de d e s

    2di o i-simo elemento da diagonal de

    Sd.

    Para n-p grande; )(

    )1(pn

    pn Fp,n-p() aproxima-se da distribuio )(2 p , e a

    normalidade no mais necessria.

    Os intervalos de confiana simultneos de Bonferroni a 100(1-)% para as mdias individuais de diferena, i , so

    i: di tn-p ns

    pid

    2

    2

    onde tn-p

    p2 o percentil de ordem 100(/2p) de uma distribuio t com n-p graus

    de liberdade.

  • 63

    Exemplo 6.1: Um conjunto de 11 amostras de gua foi enviado a dois

    laboratrios para a anlise da necessidade oxignio bioqumico (NOB) e de slidos

    suspensos (SS). Os dados so apresentados a seguir:

    Laboratrio 1 Laboratrio 2 Amostra j x11j (NOB) x12j (SS) x21j (NOB) x22j (SS)

    1 6 27 25 15 2 6 23 28 33 3 18 64 36 22 4 8 44 35 29 5 11 30 15 31 6 34 75 44 64 7 28 26 42 30 8 71 124 54 64 9 43 54 34 56

    10 33 30 29 20 11 20 14 39 21

    Ser que os resultados provenientes dos dois laboratrios coincidem? Se existir

    diferena, de que tipo ?

    A estatstica T2 para o teste H0: = [ 1 , 2 ] = [ 0 , 0 ] contra H0: 0

    construda a partir das observaes de diferenas:

    d1j = x11j - x21j -19 -22 -18 -27 -4 -10 -14 17 9 4 -19

    d2j = x12j - x22j 12 10 42 15 -1 11 - 4 60 -2 10 -7

  • 64

    Ento,

    d =

    1

    1

    d

    d=

    27.1336.9

    ; Sd =

    61.41838.8838.8826.199

    e

    T2 = 11 [-9.36; 13.27]

    27.1336.9

    0026.0012.0012.0055.

    = 13.6

    Com = .05; encontramos )(

    )1(pn

    pn Fp;n-p(.05) =

    2 (10)9 F2;9(.05) = 9.47

    Como T2 = 13.6 > 9.47, rejeitamos H0 e conclumos que existe uma diferena

    mdia no nula entre as medies dos dois laboratrios. Dos dados parece

    evidente que o primeiro laboratrio tende a produzir medies mais baixas para

    NOB e mais altas para SS do que o segundo laboratrio.

    Os intervalos de confiana simultneos a 95% para as mdias das diferenas

    1 e 2 so, respectivamente,

    d1

    ns

    Fpn

    pn dpnp

    2

    ,1)(

    )()1(

    = -9.36 11

    26.19947.9 ou (-22.46 ; 3.74)

    d2

    ns

    Fpn

    pn dpnp

    2

    ,1)(

    )()1(

    = 13.27 11

    61.41847.9 ou (-5.71 ; 32.25)

    O intervalo de confiana simultneo a 95% inclui o valor zero e, no entanto, como

    vimos, a hiptese H0: = 0 foi rejeitada.

    De facto, o ponto = 0 encontra-se fora da regio de confiana a 95%, o que

    consistente com o teste T2. Os intervalos de confiana simultneos dizem respeito

    ao conjunto de todos o conjunto de intervalos que podem ser construdos a partir

    das possveis combinaes c11 + c22, de que os intervalos calculados

  • 65

    correspondem s escolhas (c1 = 1, c2 = 0) e (c1 = 0, c2 = 1). Estes intervalos

    contm o valor zero; no entanto, outras escolhas para c1e c2 produzem intervalos

    simultneos que no contm zero. Sabemos, sim , que se a hiptese H0: = 0 no

    tivesse sido rejeitada, todos os intervalos simultneos incluiriam zero. Os intervalos

    de Bonferroni tambm cobrem o valor zero.

    o

    6.2 Comparaes em desenhos de medidas repetidas

    Outra generalizao da estatstica t univariada consiste no caso de q

    tratamentos serem comparados relativamente a uma nica varivel de resposta. Cada

    indivduo ou unidade experimental recebe o tratamento uma vez em vrios perodos

    de tempo. A observao de ordem j

    Xj =

    qj

    j

    j

    X

    XX

    .

    .

    .2

    1

    j = 1, 2, , n

    onde Xij corresponde ao tratamento de ordem i no indivduo ou unidade experimental

    j.

    Representando por C a matriz de contraste onde as q-1 linhas so linearmente

    independentes, podemos formular a hiptese de que no h diferenas nos

    tratamentos (igualdade das mdias dos tratamentos) fazendo C = 0, qualquer que

    seja a escolha da matriz de contraste C.

    Considerando uma populao Np(, ), uma matriz de contraste C e um nvel

    , a hiptese H0: C = 0 rejeitada em relao hiptese H1: C 0 se

  • 66

    T2 = n (Cx_

    ) (CSC)-1 Cx_

    > )1()1)(1(

    +

    qnqn Fq-1,n-q+1()

    onde Fq-1,n-q+1() o percentil de ordem 100 de uma distribuio F, com q-1 e n-

    q+1 graus de liberdade.

    A regio de confiana para os contrastes C determinada pelo conjunto de

    todos os C tal que

    n (Cx_

    - C) (CSC)-1 (Cx_

    - C) )1()1)(1(

    +

    qnqn Fq-1,n-q+1()

    Consequentemente, os intervalos simultneos de confiana a 100(1-)% para um nico contraste c dado por

    c : cx_

    nSccF

    qnqn

    qnq

    '

    1,1 )()1()1)(1( ++

    Exemplo 6.2: Num teste de eficcia de um novo anestsico, foi escolhida uma

    amostra de 19 ces aos quais foi administrado dixido de carbono (CO2) a dois

    nveis de presso (alto e baixo), seguido da adio de halotano (H) e da repetio

    de dixido de carbono.

    Ausente

    Presente

    Baixo Alto

    CO 2

    Halotano

  • 67

    tratamento 1 = CO2 alto sem H tratamento 3 = CO2 alto com H

    tratamento 2 = CO2 baixo sem H tratamento 4 = CO2 baixo com H

    Os dados referentes aos milisegundos entre batidas do corao esto

    apresentados a seguir:

    Tratamento

    Co 1 2 3 4

    1 426 609 556 600

    2 253 236 392 395

    3 359 433 349 357

    4 432 431 522 600

    5 405 426 513 513

    6 324 438 507 539

    7 310 312 410 456

    8 326 326 350 504

    9 375 447 547 548

    10 256 286 403 422

    11 349 382 473 497

    12 429 410 488 547

    13 348 377 447 514

    14 412 473 472 446

    15 347 326 455 468

    16 434 458 637 524

    17 364 367 432 469

    18 420 395 508 531

    19 397 556 645 625

    Com base neste desenho de medidas repetidas, vamos analisar os efeitos

    anestsicos da presso de CO2 e do halotano. Representando por 1, 2, 3, e

    4, respectivamente, as respostas mdias nos tratamentos 1, 2, 3 e 4, estamos

    interessados nos seguintes trs contrastes de tratamento:

  • 68

    (3 + 4) - (1 + 2) contraste halotano, representando a diferena entre a

    presena e a ausncia do halotano

    (1 + 3) - (2 + 4) contraste CO2, representando a diferena entre as presses

    baixa e alta de CO2

    (1 + 4) - (2 + 3) contraste interaco, representando a influncia do halotano

    nas diferenas de presso de CO2

    Com = [ ]1 2 3 4 , a matriz de contraste C =

    111111111111

    Dos dados acima, x_

    =

    89.50226.47963.40421.368

    e S =

    99.487863.449944.406535.2295.32.685198.530349.2943..14.796342.3568...19.2819

    Ento; Cx_

    =

    79.1205.6031.209

    , CSC =

    44.755754.91462.92754.91484.519592.109862.92792.109832.9432

    e T2 = n (Cx_

    ) (CSC)-1 (Cx_

    ) = 19 (6.11) = 116.

    Com = .05, )1()1)(1(

    +

    qnqn Fq-1;n-q+1() = 16

    )3(18 F3;16( 5) = )24.3(16)3(18 = 10.94.

    Como T2 = 116 > 10.94, rejeitamos H0: C = 0 (no h efeitos do tratamento).

    Para detectarmos quais os contrastes responsveis pela rejeio de H0,

    construmos os intervalos simultneos de confiana a 95% para estes contrastes.

    Assim, a influncia de halotano estimada pelo intervalo

  • 69

    (x3 + x4 ) - (x1 + x2 ) 18 (3)

    16 F3,16(.05) c1Sc1

    19

    = 209.31 19

    32.943294.10 = 209.31 73.70

    Do mesmo modo, os contrastes restantes so estimados por

    influncia da presso CO2 = (1 + 3) - (2 + 4):

    = -60.05 19

    84.519594.10 = -60.05 54.70

    interaco H - CO2 = (1 + 4) - (2 + 34):

    = -12.79 19

    44.755794.10 = -12.79 65.97

    Podemos ver, do primeiro intervalo, que existe um efeito do halotano. A presena

    do halotano produz tempos mais longos entre batidas do corao, o que acontece

    a ambos os nveis de presso de CO2 (pois o contraste de interaco no

    significativamente diferente de zero). O segundo intervalo de confiana tambm

    indica que h um efeito devido presso de CO2, provocando as baixas presses

    maiores tempos entre batidas.

    H, no entanto, que referir que estes resultados devem ser encarados com

    algum cuidado, uma vez que as experincias com halotano tem necessariamente de

    ser realizadas aps as experincias sem halotano. Assim, o efeito encontrado

    derivado presena do halotano pode tambm ser derivado ao factor tempo.

    o

  • 70

    6.3 Comparaes entre duas populaes

    tambm possvel compararmos as respostas obtidas em duas populaes.

    Consideremos uma amostra aleatria de tamanho n1 de uma populao 1 e uma

    amostra de tamanho n2 de uma populao 2. As observaes em p variveis so tais

    que:

    Amostra Estatsticas

    Populao 1

    x11, x12, , x1n1

    x1 = =

    1

    11

    1

    1 n

    jjn

    x S1 = =

    1

    11111

    1))((

    11 n

    jjjn

    xxxx

    Populao 2

    x21, x22, , x2n2 x2 =

    =

    2

    12

    2

    1 n

    jjn

    x S2 = =

    2

    12222

    2))((

    11 n

    jjjn

    xxxx

    Pretendemos inferir acerca da diferena entre os vectores mdia de ambas as

    populaes (1 - 2). Ser que 1 = 2 (isto , 1 - 2 = 0)? E se 1 - 2 0, que

    mdias so diferentes?

    Para se responder a estas questes, h que se partir de alguns pressupostos. Assim,

    A amostra X11, X12, , X1n1 aleatria de comprimento n1 de uma populao

    p-variada com vector mdia 1 e matriz de covarincia 1.

    A amostra X21, X22, , X2n2 aleatria de comprimento n2 de uma populao

    p-variada com vector mdia 2 e matriz de covarincia 2.

    X11, X12, , X1n1 so independentes de X21, X22, , X2n2.

  • 71

    Alm disto, quando n1 e n2 so pequenos,

    Ambas as populaes so normais multivariadas.

    Igual matriz de covarincia (1 = 2 = ).

    Neste ltimo caso h, portanto necessidade de estimar a covarincia comum ,

    fazendo

    Scomum = 2

    ))(())((

    21

    12222

    11111

    21

    +

    + ==

    nn

    n

    jjj

    n

    jjj xxxxxxxx

    = 2

    )1()1(

    21

    2211

    ++

    nnnn SS

    Como Scomum estima , podemos afirmar que

    +

    21

    11nn

    Scomum um estimador

    de Cov(X1 - X2

    ).

    Sendo dado o teste H0: 1 - 2 = 0 contra H1: 1 - 2 0; rejeitamos H0 se

    T2 = (x1 - x2 - 0)

    + comumnn S21

    11 -1 (x1 - x2 - 0) > c2

    onde c2 = )1(

    )2(

    21

    21

    ++

    pnnpnn Fp,n1+n2-p-1().

  • 72

    Exemplo 6.3: 50 barras de sabo so fabricadas de cada um de dois

    processos e duas caractersticas X1 = espuma e X2 = suavidade so medidas.

    Foram obtidas as seguintes estatsticas:

    x_

    1 =

    1.43.8

    S1 =

    6112

    x_

    2 =

    9.32.10

    S1 =

    4112

    Obter uma regio de confiana a 95% para 1 - 2.

    Como S1 e S2 so aproximadamente iguais, faz sentido encontrar-se uma matriz

    comum de covarincias:

    Scomum = 25050)150()150( 21

    ++ SS =

    5112

    Como x_

    1 - x_

    2 =

    2.9.1

    , a elipse de confiana est centrada em [-1.9; .2], sendo

    os valores e vectores prprios de Scomum obtidos atravs da equao

    0 = IS comum =

    l

    l51

    12= 2 - 7 + 9.

    Deste modo; 1 = 5.303 e1 = [ .290; .957 ]

    2 = 1.697 e2 = [ .957; -.290 ]

    Alm disso;

    +

    21

    11nn

    c2 = )97(

    )2)(98(501

    501

    + F2,97(.05) = .25

  • 73

    A elipse de confiana estende-se 221

    11 cnni

    + = 25.i unidades segundo o

    vector prprio ei; isto ; 1.15 unidades na direco de e1 e .65 unidades na

    direco de e2. bvio que 1 - 2 = 0 no pertence elipse sendo, portanto,

    possvel concluirmos que os dois mtodos de fabricao de sabo produzem

    resultados diferentes. Parece que os dois tipos de sabo tm a mesma suavidade,

    produzindo o segundo maior espuma.

    o

  • 74

  • 75

    7 Anlise de componentes principais e anlise factorial

    7.1 Introduo

    Os nomes que compem o ttulo deste captulo so frequentemente usados de

    uma maneira menos precisa, chegando mesmo a acontecer que investigadores

    afirmem que esto a levar a cabo uma anlise factorial quando, de facto, esto a

    proceder a uma anlise de componentes principais.

    Consideremos as variveis 'temperatura' e 'horas de sol' numa determinada

    regio. O valor 0.9 de coeficiente de correlao entre ambas as variveis pode ser

    representado pelo ngulo entre estas variveis, quando representadas vectorialmente.

    A questo que a anlise factorial pretende responder a seguinte

    Podem estes dois vectores ser substitudos por um nico vector de

    referncia, denominado factor, de tal modo que retenha a maior parte da

    informao respeitante correlao existente entre as variveis originais?

    Intuitivamente parece que o melhor vector de referncia o que divide ao meio

    o ngulo de 25 entre os dois vectores. Na Figura 7.1. a varivel 'temperatura'

    representada por T, as 'horas de sol' por S e o vector de referncia por F1. Este

    vector faz um ngulo de 12.5 com T e com S. O coseno de 12.5, igual a 0.976,

    representa a correlao entre T e F1 e entre S e F1. Na linguagem da anlise

    factorial, a correlao entre uma varivel e um factor denominada peso (loading) da

    varivel no factor.

  • 76

    Tambm j vimos que o quadrado do

    coeficiente de correlao, R2, representa a

    quantidade da varincia partilhada por ambas as

    variveis. No nosso caso, a quantidade de varincia

    partilhada por T e F1 (0.976)2 = 0.95, tambm

    chamada varincia do factor comum.

    A varincia explicada pelo factor F1 atravs de T e de

    S obtida pela soma dos quadrados dos pesos de T

    e de S em F1, isto , (0.9762)2+(0.9762)2=1.9.

    a b

    S 1 TF

    Figura 7.1 Diagrama

    vectorial representando o

    primeiro vector de

    referncia F1 ( = b^ =

    12.5)

    Como a varincia total de cada uma das variveis T e S 1, a varincia

    mxima que pode ser extrada por F1 igual a 1 + 1 = 2 e, portanto, a percentagem

    da varincia extrada por F1 1.92 x100 = 95. Isto j nos d 95% da representao da

    relao entre ambas. No entanto, para obter a imagem completa, temos de desenhar

    o outro vector F2, fazendo um ngulo recto (ou ortogonal) com F1.

    a

    b

    S1TF

    2F

    Figura 7.2 Diagrama vectorial representando dois vectores de referncia F1 e F2

  • 77

    ( = 102.5 ; b^ = 77.5)

    Os ngulos formados por T e S com F2 so, respectivamente, 102.5 e 77.5,

    correspondendo aos pesos cos(102.5) = -0.216 e cos(77.5) = 0.216. A varincia

    extrada por F2 (-0.216)2 + (0.216)2 = 0.1 e a percentagem de varincia extrada

    5%.

    Estes resultados podem ser resumidos na seguinte tabela:

    Variveis Factores Comunalidade

    1 2

    T 0.976 -0.216 1.0

    S 0.976 0.216 1.0

    Varincia extrada 1.9 0.1 2.0

    Percentagem da varincia 95 5 100

    A ltima coluna, a comunalidade, encontrada pela soma das varincias do

    factor comum. Assim, por exemplo para T, temos (0.976)2 + (-0.216)2 = 1.0 que

    corresponde quantidade de varincia que partilhada com as outras variveis.

    7.2 Componentes principais

    Com a anlise das componentes principais pretende-se explicar a estrutura

    das varincias-covarincias atravs de algumas combinaes lineares das variveis

    originais. Embora as p componentes sejam necessrias para reproduzir toda a

    variabilidade do sistema, normalmente grande parte desta variabilidade pode ser

  • 78

    atribuda a um nmero menor k de componentes principais. Existir, assim, quase

    tanta informao quanta a existente com as p variveis originais. As k componentes

    principais podem substituir as p variveis e o conjunto inicial de dados, com n

    medies em p variveis, pode ento ser reduzido num conjunto de n medies em k

    variveis.

    A anlise das componentes principais utilizada mais como um meio do que

    como um fim, constituindo um passo intermdio para investigaes mais extensas,

    como por exemplo, as baseadas em regresses ou anlises de agrupamentos

    (clusters).

    Algebricamente, as componentes principais so combinaes lineares das p

    variveis aleatrias X1, X2, , Xp e correspondem geometricamente seleco de

    um novo sistema de coordenadas. Sendo apenas dependentes da matriz de

    covarincias (ou da matriz de correlaes) as componentes principais no necessitam, para a sua construo, do pressuposto da normalidade multivariada.

    Sendo dada a matriz de covarincias associada ao vector aleatrio X' = [ X1,

    X2, , Xp ] e os pares de valores-vectores prprios (1, e1), (2, e2), , (p, ep), onde 1 2 p so todos no nulos, a componente principal de ordem i dada por

    Yi = ei, ' X = e1i X1 + e2i X2 + + epi Xp i = 1, 2, , p

    As componentes principais so no correlacionadas [ Cor(Yi, Yk) = ei ' ek = 0 (i k)]

    e tm varincias iguais aos valores prprios de [ Var(Yi) = ei ' ei = i (i = 1, 2, ,

    p) ].

  • 79

    Alm disso, se Y1 = e1 ' X , Y2 = e2 ' X , , Yp = ep ' X forem as

    componentes principais,

    11 + 22 + + pp = =

    p

    jiXVar

    1

    )( = 1 + 2 + + p = =

    p

    jiYVar

    1

    )(

    Varincia total da populao = 11 + 22 + + pp = 1 + 2 + + p

    Proporo da varinciatotal da populao

    devida componenteprincipal de ordem k

    = pkp

    k ,,2,1,21

    =+++

    Os coeficientes de correlao entre as componentes Yi e as variveis Xk (i, k = 1,

    2, , p) so dados por Yi, Xk = kkikie

    Exemplo 7.1: Suponhamos que as variveis X1, X2 e X3 possuem a seguinte

    matriz de covarincias:

    =

    200052021

    Pode ser verificado que os pares valores-vectores prprios so:

    1 = 5.83 e1 ' = [ .383; -.924; 0 ]

    2 = 2.00 e2 ' = [ 0; 0; 1 ]

    3 = 0.17 e3 ' = [ .924; .383; 0 ]

  • 80

    As componentes principais so ento,

    Y1 = e1 ' X = .383 X1 - .924 X2

    Y2 = e2 ' X = X3

    Y3 = e3 ' X = .924 X1 - .383 X2

    Facilmente se v, por exemplo, que

    Var(Y1) = Var(.383 X1 - .924 X2)

    = (.383)2 Var(X1) + (-.924)2 Var(X2) - 2(.383)(-.924) Cov(X1, X2)

    = 5.83 = 1

    Cov(Y1, Y2) = Cov(.383 X1 - .924 X2, X3)

    = .383 Cov(X1, X3) - .924 Cov(X1, X3)

    = 0

    Verifica-se tambm que

    11 + 22 + 33 = 1 + 5 + 2 = 1 + 2 + 3 = 5.83 + 2.00 + .17 = 8

    A proporo da varincia total devida primeira componente principal

    73.883.5

    321

    1 ==++

  • 81

    e as primeiras duas componentes principais so responsveis por %98283,58

    =+ da

    varincia da populao. Neste caso as componentes Y1 e Y2 podem substituir as

    trs variveis originais com pouca perda de informao.

    Finalmente, como Y1, X1 = 11111

    le

    = 1

    83.5383. = .925

    Y1, X2 = 22121

    le

    = 5

    83.5924. = -.998

    podemos concluir que X1 e X2 so, cada um, igualmente importantes para a

    primeira componente principal. Alm disto,

    Y2, X1 = Y2, X2 = 0 e Y2, X3 = 33232

    le

    = 22 = 1

    As restantes correlaes podem ser desprezadas uma vez que a terceira

    componente no importante.

    o

    As componentes principais y1 = e1 ' x , y2 = e2 ' x , , yp = ep ' x posicionam-se

    nas direces dos eixos do elipside de densidade constante. Assim, qualquer ponto

    no eixo de ordem i do elipside tem x coordenadas proporcionais a ei ' x = [ e1i, e2i,

    , epi ] e, necessariamente, coordenadas das componentes principais da forma [ 0,

    , 0, yi, 0, , 0 ].

    A Figura 7.3 uma elipse de densidade constante e as componentes principais para

    um vector aleatrio normal bivariado com = 0 e = .75. Podemos ver que as

  • 82

    componentes principais so obtidas rodando o sistema inicial de coordenadas de um

    ngulo at coincidir com os eixos da elipse de densidade constante. O mesmo vlido para p > 2.

    y1y2

    x2

    x1

    Figura 7.3 - Elipse de densidade constante e as componentes principais y1 e y2

    Embora no necessariamente iguais s obtidas anteriormente, podemos

    tambm encontrar as componentes principais para as variveis estandardizadas. A

    componente principal de ordem i das variveis estandardizadas Z' = [ Z1, Z2, , Zp ]

    com Cov (Z) = dada por

    Yi = ei ' Z = ei ' (V1/2) -1 (X - ), i = 1, 2, , p

    Alm disto, sendo (1, e1), (2, e2), , (p, ep) os pares valores-vectores

    prprios de com 1 2 p 0,

    =

    p

    jiYVar

    1

    )( = =

    p

    jiZVar

    1

    )( = p

    Yi; Zk = eki ),,2,1,( pkii =

  • 83

    Proporo da varincia totalda populao estandardizada

    devida componenteprincipal de ordem k

    = pkpk ,,2,1, =

    Exemplo 7.2: Consideremos a matriz de covarincias =

    1004

    41e a

    correspondente matriz de correlaes =

    14.4.1

    Os pares valores-vectores prprios de so 1 = 100.16 e1 ' = [ .040; .999 ]

    2 = .84 e2 ' = [ .999. -.040 ]

    e, para , 1 = 1 + = 1.4 e1 ' = [ .707. .707 ]

    2 = 1 - = .6 e2 ' = [ .707; -.707 ]

    As correspondentes componentes principais so ento, para :

    Y1 = .040 X1 + .999 X2

    Y2 = .999 X1 - .040 X2

    e para :

    Y1 = .707 Z1+.707 Z2 = .707

    1

    11 X +.707

    10

    22 X = .707 (X1 - 1) +.0707 (X2 - 2)

    Y2 = .707 Z1 -.707 Z2 = .707

    1

    11 X -.707

    10

    22 X = .707 (X1 - 1) -.0707 (X2 - 2)

  • 84

    Devido sua maior varincia, X2 domina completamente a primeira componente

    principal obtida a partir de . Esta primeira componente principal explica 21

    1

    + =

    10116.100 = .992 da varincia total da populao.

    Contudo, quando as variveis X1 e X2 so estandardizadas, as variveis

    resultantes contribuem de modo idntico para as componentes principais obtidas

    de . Assim, como

    Y1, Z1 = e11 1 = .707 1.4 = .837 e Y1, Z2 = e21 1 = .707 1.4 = .837

    a primeira componente principal explica p1 =

    24.1 = .7 da varincia total da

    populao estandardizada.

    o

    Do exemplo anterior pode concluir-se que as componentes principais obtidas

    de so diferentes das obtidas de . Alm disso, um conjunto de componentes principais no uma funo simples do outro, dando, portanto valor

    estandardizao.

    Exemplo 7.3: Sejam x1, x2, x3, x4 e x5 observaes semanais das taxas de

    retorno das aces de cinco empresas (Allied Chemical, DuPont, Union Carbide,

    Exxon e Texaco). Aps 100 semanas consecutivas, obteve-se

    x_

    ' = [ .0054; .0048; .0057; .0063; .0037 ]

  • 85

    e R =

    000.1523.426.322.462.523.000.1436.389.387.426.436.000.1599.509.322.389.599.000.1577.462.387.509.577.000.1

    Os valores prprios e os correspondentes vectores prprios normalizados de R so

    1 = 2.857 e1 ' = [ .464, .457, .470, .421, .421 ]

    2 = .809 e2 ' = [ .240, .509, .260, -.526, -.582 ]

    3 = .540 e3 ' = [ -.612, .178, .335, .541, -.435 ]

    4 = .452 e4 ' = [ .387, .206, -.662, .472, -.382 ]

    5 = .343 e5 ' = [ -.451, .676, -.400, -.176, .385 ]

    Usando as variveis estandardizadas, obtermos as primeiras duas componentes

    principais

    y1 = e1 ' z = .464 z1 + .457 z2 + .470 z3 + .421 z4 + .421 z5

    Y2 = e2 ' z = .240 z1 + .509 z2 + .260 z3 - .526 z4 + .582 z5

    Estas componentes, que explicam

    +

    p21 100% =

    +

    5809.857.2 100% = 73% tm

    uma interpretao interessante. A primeira componente consiste num ndice das

    cinco aces e pode ser chamada 'componente de mercado'. A segunda

    componente representa um contraste entre as aces de empresas qumicas

    (Allied Chemical, DuPont e Union Carbide) e as aces das empresas petrolferas

    (Exxon e Texaco) podendo ser denominado componente industrial.

  • 86

    As restantes componentes, de difcil interpretao, representam no seu conjunto a

    variao provavelmente especfica de cada aco.

    o

    7.3 Anlise factorial

    O objectivo essencial da anlise factorial descrever, se possvel, as relaes

    de covarincia entre as vrias variveis em termos de um nmero reduzido de

    quantidades aleatrias subjacentes, mas no observveis, chamadas factores.

    A anlise factorial pode ser vista como uma extenso da anlise das

    componentes principais, uma vez que ambas podem ser encaradas como

    aproximaes matriz das covarincias. Contudo, a aproximao feita pelo modelo da

    anlise factorial mais elaborada e centra-se na anlise da consistncia dos dados

    com uma estrutura pr-definida.

    Considerando o vector aleatrio X de dados observados, com p componentes,

    mdia e matriz de covarincias , o modelo factorial parte do conceito de que X

    linearmente dependente de algumas variveis no observveis F1, F2, , Fm,

    chamados factores comuns, e p fontes de variao 1, 2, , m, chamados erros ou

    factores especficos.

    Numa forma matricial, o modelo de anlise factorial

    )1()1()()1( +=

    pmF

    mpL

    pX

    ou seja,

    X1 - 1 = l11 F1 + l12 F2 + + l1m Fm + 1

  • 87

    X2 - 2 = l21 F1 + l22 F2 + + l2m Fm + 2

    Xp - p = lp1 F1 + lp2 F2 + + lpm Fm + p

    onde i representa a mdia da varivel i, i o factor especfico de ordem i, Fi o

    factor comum de ordem i e lij o peso (loadings) da varivel i no factor j.

    Alm disso, as variveis aleatrias F1, F2, , Fm, assim como os erros 1, 2,

    , m no so observveis, o que permite distinguir este modelo da representao

    linear onde os X independentes podem ser observados.

    Para este modelo partimos do pressuposto que

    E(F) = )1(

    0m ; Cov(F) = E[FF'] = )( mm

    E() = )1(

    0p ; Cov() = E['] = )( pp

    =

    p00...

    0000

    2

    1

    F e so independentes; isto ; Cov(; F) = E( F') = )(

    0mp

    Como j atrs vimos, comunalidade representa a parte da varincia da varivel i

    devida aos m factores comuns. Deste modo, a varincia de Xi pode ser dada por

    Var(Xi) = comunalidade hi 2 + varincia especfica i

  • 88

    ii = [ ]212121 iii lll +++ + i

    Exemplo 7.4: Consideremos a matriz de covarincias

    =

    6847231247385223557301223019

    A igualdade = L L' + , ou seja,

    6847231247385223557301223019

    =

    86211174

    81612714

    +

    3000010000400002

    pode ser verificada pela lgebra matricial. Deste modo, tem a estrutura produzida

    por um modelo factorial ortogonal com m=2.

    Sendo L =

    4241

    3231

    2221

    1211

    ll

    ll

    ll

    ll

    =

    81612714

    e =

    4

    3

    2

    1

    000000000000

    =

    3000010000400002

    a comunalidade de X1

    h1 2 = 211l +

    212l = 4

    2 + 12 = 17

    e a varincia de X1 pode ser decomposta da seguinte maneira

    11 = h1 2 + 1 = 17 + 2 = 19

    As restantes variveis podem ser decompostas de maneira anloga.

    o