View
215
Download
0
Category
Preview:
Citation preview
1
TÓPICOS ESPECIAIS: ANÁLISE ESTATÍSTICA DE DADOS AMBIENTAIS MULTIVARIADOS”
Paulo M. Barbosa Landim plandim@rc.unesp.br
1
06/julho
Análise estatística de dados multivariados. Regressão linear múltipla. Exercício 01
07/julho Análise de agrupamentos. Escalonamento multidimensional. Exercício 02
08/julho Análise de componentes principais. Análise fatorial. Exercício 03
09/julho Análise de correspondências. Análise de correlações canônicas. Exercício 04
10/julho
Análise discriminante. Classificação regionalizada. Exercício 05
15/julho Envio dos exercícios 01-05
17/julho Solução dos exercícios 01-02-03-04-05
22/julho Envio do exercício final Todos exercícios enviados: conceito A
2
3
http://igce.rc.unesp.br/#!/departamentos/ geologia-aplicada/curso-prof-landim/
Exercício final: Dados fornecidos pelos próprios alunos(as). Relatório: individual ou no máximo até 2 alunos(as)
Porque análise de dados?
4
UMA IMAGEM VALE MAIS QUE 1000 PALAVRAS
5
E UMA TABELA DE DADOS?
6
2
ANÁLISE DE DADOS: DESCRIÇÃO
Os dados precisam ser explorados em sua estrutura multidimensional, tanto sob um enfoque clássico como espacial, para o seu entendimento e, consequente, formulação de hipóteses de trabalho.
Existem a disposição, graças à moderna tecnologia computacional, tanto softwares específicos como ferramentas gráficas que permitem a visualização simultânea de amostras no espaço e/ou no tempo e as primeiras ideias a respeito da estrutura multidimensional podem começar a surgir a partir desses resultados e exibições gráficas.
7
ANÁLISE DE DADOS: INTERPRETAÇÃO
Os resultados analíticos e produtos gráficos obtidos a partir das informações numéricas são avaliados levando em consideração tanto o conhecimento já adquirido com dados similares, como fatos científicos relacionados às variáveis sob estudo.
A interpretação da estrutura espacial ou temporal, as associações e as relações casuais entre variáveis devem, então, ser organizadas num modelo que se ajuste aos dados.
8
ANÁLISE DE DADOS: ESTIMATIVA
A modelagem, se correta, não apenas descreve o fenômeno nos locais amostrados, mas pode se tornar válida para interpolações em locais ou intervalos de tempo adjacentes, não amostrados, representando um passo alem com relação às informações contidas nos dados numéricos.
Na verdade este é o grande desafio da análise multivariada, a estimação de valores para situações de previsão quantitativa.
9
MODELAGEM DE FENÔMENOS NATURAIS
modelo conceitual
modelo escalar
modelo matemático:
determinístico
estocástico (estatístico)
10
Amostragem para o teor de um painel
● ● ●
Mapeamento de solos
11
Mina de cobre
12
3
Biomassa numa plantação de eucaliptos
13
Pluma de contaminação
14
Volume de petróleo no pré-sal
15
Como obter dados?
Amostragem
População e amostra
16
AMOSTRAGEM CASUAL SIMPLES
Necessário preliminarmente construir um sistema de referência, isto é, a relação completa e numerada de todos os elementos n que compõe a população.
Em seguida utiliza-se uma tabela de números ao acaso para a escolha dos n números que comporão a amostra.
Essa amostragem será com reposição se os elementos de população puderem entrar mais de uma vez para a amostra e, neste caso, a amostragem é estatisticamente independente.
Caso contrário, a amostragem será sem reposição e estatisticamente dependente.
17
Números ao acaso
17 80 97 28 17 80
43 36 15 57 72 08
39 90 73 63 66 29
20 69 82 65 87 36
29 81 05 90 19 91
12 82 89 64 53 98
69 33 71 24 66 68
58 84 26 36 57 10
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 100
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 100
18
4
AMOSTRAGEM SISTEMÁTICA
Quando o sistema de referência geral para toda a população é dispensado e por sorteio amostras são sistematicamente coletadas segundo um padrão pré-determinado.
19
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20
21 22 23 24 25 26 27 28 29 30
31 32 33 34 35 36 37 38 39 40
41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60
61 62 63 64 65 66 67 68 69 70
71 72 73 74 75 76 77 78 79 80
81 82 83 84 85 86 87 88 89 90
91 92 93 94 95 96 97 98 99 100 20
AMOSTRAGEM POR AGRUPAMENTOS
Quando a construção do sistema de referência, dada uma certa unidade de amostragem, é inexeqüível.
Escolhe-se então uma amostra casual simples de uma unidade de amostragem maior que englobe um certo número de indivíduos, os quais serão todos considerados.
21
5 10 15 20 25 30 35 40 45
5
10
15
20
25
30
35
40
45
5 10 15 20 25 30 35 40 45
5
10
15
20
25
30
35
40
45
22
AMOSTRAGEM ESTRATIFICADA
Usada quando se supõe presente uma grande variabilidade nas observações. Neste caso a população é dividida em sub-populações e cada uma delas é submetida a uma amostragem casual simples.
O efeito dessa amostragem é que apesar de existir uma grande variabilidade entre as sub-populações, consegue-se encontrar dentro de cada uma dela uma variabilidade menor.
23 24
5
AMOSTRAGEM HIERÁRQUICA O sistema de referência é construído
no sentido de unidades de amostragem maiores para menores através de sucessivas amostragens casuais.
25
26
SEQÜÊNCIA EM UM ESTUDO QUANTITATIVO
Enfoque do problema.
Modelo conceitual.
Amostragem.
Análise de dados.
Seleção de variáveis.
Refinamento do modelo.
Uso do modelo em previsão.
Aceitação, rejeição ou melhoria do modelo.
Retorno ao estágio apropriado. 27 28
Do rigor na ciência
Jorge Luis Borge s
Naquele Império, a Arte da Cartografia logrou tal
perfeição que o mapa de uma única Província
ocupava toda uma Cidade, e o mapa do Império,
toda uma Província. Com o tempo, esses Mapas
Desmedidos não satisfizeram e os Colégios de
Cartógrafos levantaram um Mapa do Império, que
tinha o tamanho do Império e coincidia
pontualmente c om ele. Menos Afeitas ao Estudo da
Cartografia, as Gerações Seguintes entenderam que
esse dilatado Mapa era Inútil e não sem Impiedade
o entregaram às Inclemências do Sol e dos Invernos.
Nos desertos do Oeste perduram despedaçadas Ruínas
do Mapa, habitadas por Animais e por Mendigos. Em
todo o País não há outra relíquia das Disciplinas
Cartográficas.
Suáres Miranda: Viajes de Varones Prudentes, livro quatro, cap. XLV,
Lerida, 1658.
• A incerteza da estimativa •Os resultados são sempre incertos. •Essa incerteza não é uma propriedade intrínsica do fenômeno estudado. •A incerteza reflete apenas o grau de não conhecimento do observador.
29
“O caos é uma ordem por decifrar” Livro dos Contrários/Saramago
TiposTipos de dados e de dados e escalasescalas de de medidasmedidas
DadosDados
QuantitativosQuantitativos QualitativosQualitativos
EscalaEscala nominalnominal
EscalaEscala ordinalordinal
EscalaEscala dede intervalointervalo
EscalaEscala de de razãorazão
30
6
Dados univariados
31
Dados univariados georreferenciados
32
DADOS BIVARIADOS
33 34
DADOS MULTIVARIADOS
Observações quantitativas
Observações qualitativas
35 36
7
água esgoto lixo educação renda
sim não não secundário R$ 500.00
não não sim primário R$ 500.00
não sim não secundário R$ 1,000.00
sim não não secundário R$ 1,000.00
não não não primário R$ 500.00
não sim não secundário R$ 500.00
não não não primário R$ 1,000.00
sim sim simuniversitário R$ 2,000.00
não não não secundário R$ 500.00
não não não primário R$ 500.00
não não sim primário R$ 1,000.00
sim não não primário R$ 500.00
não sim não secundário R$ 500.00
não não não primário R$ 500.00
não não sim primário R$ 1,000.00
sim sim não secundário R$ 500.00
sim sim simuniversitário R$ 2,000.00
não sim não primário R$ 500.00
não não não secundário R$ 1,000.00
sim não sim secundário R$ 500.00
37
MATRIZ DE DADOS = [XIJ]
66192479
09824454
61377001
22347587
34452223
Álgebra matricial: matrizes e métodos estatísticos multivariados.
38
MÉTODOS ESTATÍSTICOS MULTIVARIADOS
Análise de agrupamentos
Análise de componentes principais
Análise de correspondências
Análise discriminante
39
Análise de Agrupamentos
40
Análise de Componentes Principais
41
Análise Discriminante
42
8
Análise multivariada: exemplos
43
Exemplo 1: fósseis Medidas cranianas foram obtidas em 7 espécies fósseis de oreodontes (mamífero do Eoceno-Oligoceno dos Estados Unidos da América).
44
BC-W: largura da caixa craniana na altura da região parietal-escamosal TR-L: comprimento máximo dos dentes molariformes Bu-L: comprimento máximo da “bulla” timpânica Bu-HP: comprimento máximo da “bulla” timpânica medida do bordo dorsal até o processo paroxipital.
Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O. osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M. culbertsoni (Mc) e Prodesmatochoerus . meeki (Pr).
45 46
4 grupos indicados pela Análise Discriminante: 1: Prodesmatochoerus meeki + Merychoidodon culbertsoni + O. osborni 2: Subdesmatochoerus sp 3: Desmatochoerus hatcheri + Psuedodesmatochoerus 4: Megoreodon gigas loomisi
47
? 48
9
Exemplo 2: Óxidos em rochas magmáticas
Rochas SiO2 Al2O3 Fe2O3 FeO MgO CaO Na2O K2O
01Sienito 61.7 15.1 2 2.3 3.7 4.6 4.4 4.5
02Sienito 58.3 17.9 3.2 1.7 1.5 3.7 5.9 5.3
03Sienito 51.2 17.6 3.5 4.3 3.2 4.5 5.7 4.4
04Monzonito 54.4 14.3 3.3 4.1 6.1 7.7 3.4 4.2
05Diorito 58 15.7 0.7 2.8 5 10.9 3 3.2
06Diorito 46.9 15.9 2.9 10 7 9.6 2.7 0.7
07Diorito 58 17.3 2.2 3.8 2.2 4.3 4.3 4.1
08QDiorito 55.5 16.5 1.7 4.6 6.7 6.7 3.2 2.5
09Gabro 55.4 15.3 2.7 5.5 5.8 9.9 2.9 1.5
10Gabro 55.9 13.5 2.7 5.9 6.5 8.9 2.4 1.7
11Norito 47.2 14.5 1.6 13.8 5.2 8.1 3.1 1.2
12Norito 48.2 18.3 1.3 6.1 10.8 9.4 1.3 0.7
13HipGabro 44.8 18.8 2.2 4.7 11.3 14.6 0.9 0.1
14HipGabro 47 14.1 0.8 15 16 2.3 0.4 1.7
15Sienito 59.8 17.3 3.6 1.6 1.2 3.8 5 5.1
16QSienito 66.2 16.2 2 0.2 0.8 1.3 6.5 5.8
17SienitoAlt 50 9.9 3.5 5 11.9 8.3 2.4 5
18Monzonito 57.4 18.5 3.7 2.1 1.7 6.8 4.5 3.7
19Monzonito 59.8 15.8 3.8 3.3 2.2 3.9 3 4.4
20Diabasio 52.2 18.2 3.3 4.4 4.7 6.5 4.6 1.9 49 50
Si: ↑
Fe3: ↑
Fe2: ↓
Mg: ↓
Na: ↑
K: ↑
51
T = 1000 °C
Comp. = A
T = 900 °C
Comp. = B
T = 800 °C
Comp. = C
T = 700 °C
Comp. = D
T = 600 °C
Comp. = E
Formação de minerais
52
53
Diferenciação magmática 54
Rochas siálicas
Rochas máficas
10
Diferença entre os dois exemplos
1. Análise de dados: metodologia
2. Interpretação final: conhecimento
55 56
•Imensa quantidade de informações coletadas. •Basta ver os relatórios de pesquisa e mesmo os bancos de dados com um grande número de matrizes de informações não trabalhadas. •A sua análise, porem, esta muito aquém.
•Verbas e tempo são gastos com essa coleta que precisa ser devidamente manuseada e para essa análise dos dados o emprego de técnicas estatísticas multidimensionais torna-se uma ferramenta fundamental.
57
•Fenômenos naturais são resultantes de diversos fatores condicionantes e o seu entendimento é facilitado quando o estudo é submetido a um enfoque quantitativo multidimensional.
•Deve ser enfatizado, porem, que a pura utilização de técnicas estatísticas, e hoje em dia bastante facilitado graças à vasta disposição de programas computacionais, não é condição suficiente se o estudo não for embasado num sólido conhecimento específico
58
Mapa com distribuição espacial das rochas?
Relacionamento no espaço a 8 dimensões é rebatido para 2D. Distorção?
n,m2,m1,m
n,32,31,3
n,22,21,2
n,12,11,1
j,i
zzz
zzz
zzz
zzz
Z
1,m1,m
1,31,3
1,21,2
1,11,1
yx
yx
yx
yx
XY
Modelagem espacial de fenômenos multivariados
+ =? 59
Métodos clássicos da análise estatística multivariada não levam em consideração a localização dos pontos de amostragem, nem as suas relações espaciais e também não refletem as diferenças quanto ao suporte das amostras ou com relação ao domínio regional onde o estudo esta sendo realizado. A metodologia geoestatística univariada, tem essas propriedades, mas não é capaz de tratar da correlação espacial entre diversas variáveis. Ferramentas se tornam, então, necessárias para incorporar essas importantes feições e daí a necessidade de métodos estatísticos que enfoquem a análise espacial de dados multivariados.
60
11
Duas soluções propostas
Metodologia geoestatística multivariada
Krigagem fatorial .
Metodologia estatístca multivariada “adaptada”
Classificação regionalizada .
6
1
Estudos em aberto. Grande potencial de pesquisa. Diversas possibilidades de aplicação Modelos “Causa-e-efeito”.
Análise estatística multivariada de dados espaciais
6
2
Exemplo: Mapeamento de solos
FATORES CLIMA ORGANISMOS RELÊVO MATERIAL DE ORIGEM
VARIÁVEIS AREIA SILTE ARGILA SOMA DE BASES CAPACIDADE DE TROCA DE CÁTIONS SATURAÇÃO DE BASES SATURAÇÃO DE ALUMÍNIO.
TEMPO ESPAÇO
63 64
Este Curso, a ser apresentado de maneira a mais simples possível, por um Professor de Geologia, tem como enfoque uma introdução aos métodos estatísticos multidimensionais que possam ser aplicados na análise de dados, sem uma abordagem matemática complexa, porém sempre, que possível, com um enfoque espacial . Presume que os participantes tenham um conhecimento básico de estatística descritiva, além de dominar conceitos simples de álgebra matricial e familiaridade com manuseio de computadores. Os exemplos são voltados às Geociências, mas a metodologia pode perfeitamente ser utilizada em outras áreas que disponham de dados com estas mesmas características, ou seja, multivariados e regionalizados.
BIBLIOGRAFIA LANDIM, P.M.B. (2011) – Análise estatística de dados geológicos
multivariados: Editora Oficina de Textos
DAVIS, J.C (2002) - Statistics and Data Analysis in Geology: 3rd ed., John Wiley and Sons.
HAIR JR., J.F.; BLACK, W.C.; BABIN, B.J.; ANDERSON, R.E., TATHAM, R.L.
(2009) – Análise Multivariada de Dados: 6a.ed., Bookman.
LEGENDRE, P. & LEGENDRE, L. (1998) – Numerical Ecology: 2nd ed. Elsevier
KRZANOWSKI, W. J. (200) – Prrinciples of Multivariate Analysis. A User’s Perspective: Oxford University Press
MANLY, B.J.F. (2008) – Métodos estatísticos multivariados. Uma Introdução
(Tradução Carmona, S. I. C.): Artmed Editora S. A.
MINGOTI, S. A. (2005) - Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada : Editora UFMG.
6
5
SOFTWARES
SAS
S-Plus
Statistica
Systat
Matlab (algebra matricial)
PAST (http://folk.uio.no/ohammer/past)
XLStat/Excel (www.xlstat.com)
6
6
Recommended