Dissertao de Mestrado
Reconstruo de Sinais em Redes de Sensores sem
Fios com Tcnicas de Geoestatstica
Bruno Lopes [email protected]
Orientador:
Alejandro C. Frery
Macei, abril de 2010
Bruno Lopes Vieira
Reconstruo de Sinais em Redes de Sensores sem
Fios com Tcnicas de Geoestatstica
Dissertao apresentada como requisito parcial paraobteno do grau de Mestre pelo Curso de Mestradoem Modelagem Computacional de Conhecimentodo Instituto de Computao da Universidade Fede-ral de Alagoas.
Orientador:
Alejandro C. Frery
Macei, abril de 2010
Dissertao apresentada como requisito parcial para obteno do grau de Mestre peloCurso de Mestrado em Modelagem Computacional de Conhecimento do Instituto de Com-putao da Universidade Federal de Alagoas, aprovada pela comisso examinadora queabaixo assina.
Alejandro C. Frery - OrientadorInstituto de Computao
Universidade Federal de Alagoas
Eliana S. de Almeida - ExaminadorInstituto de Computao
Universidade Federal de Alagoas
Andr Luiz Lins de Aquino - ExaminadorDepartamento de Computao
Universidade Federal de Ouro Preto
Macei, abril de 2010
Resumo
As Redes de Sensores sem Fios (RSsF) so conjuntos de dispositivos que obtm amostras defenmenos ambientais, sejam eles naturais (como, por exemplo, temperatura, presso at-mosfrica, intensidade de iluminao, concentrao de substncias em cursos dgua) ouantrpicos (qualidade do ar em sinais de trnsito, presso ao longo de um oleoduto). Essesdispositivos tm despertadomuito interesse, tanto pelas suas potenciais aplicaes quantopelos desafios tericos e tecnolgicos que seu uso otimizado oferece. O objetivo deste traba-lho trata da anlise da reconstruo de sinais nessas redes, com base em tcnicas de geoes-tatstica. Analizam-se trs processos de kriging: simples, ordinrio e bayesiano. Ao simples,analizam-se trs abordagens encontradas na literatura para estimao ou informao do pa-rmetro da mdia e ao bayesiano prope-se uma variante capaz de reduzir o tempo de pro-cessamento necessrio, estimando a mdia por mnimos quadrados generalizados, sendouma constante na inferncia bayesiana. Leva-se em considerao o processo de agrupa-mento dos ns sensores, com simulaes sem agrupamento e com os sensores agrupadospelos algoritmos LEACH e SKATER. O algoritmode kriging bayesiano apresenta osmelhoresresultados qualitativos namaioria dos casos, mas se torna invivel para sistemas que neces-sitem de respostas rpidas. Nesses casos, recomenda-se o algoritmo de kriging ordinrio. Avariante proposta para o kriging bayesiano reduz o tempo de computao, mas no o su-ficiente para sistemas de tempo real. No foram observadas divergncias significativas dequalidade nesta variante.
i
Abstract
Wireless Sensor Networks are a set o mobile devices wich collect datum from the enviro-ment, independet of kind, and transmit them to a data center wich is responsible for takingdecisions. This work aims to analyze the signal reconstruction in these networks using geo-statistic techniques. Three process of kriging are used: simple, ordinary and bayesian. In thesimple kriging, three approaches were found into the literature, according to the way thatthe mean is estimated, and were evaluated. To the bayesian a new approach is proposed:use general least square to estimate the mean and set it as a constant into the bayesian in-ference. The clustering is taked in considered, using simulations without clusters and withclusters formed by LEACH and SKATER algorithms. The bayesian kriging algorithmpresentsthe best qualitative results in almost all scenarios, but it is not available to systems that re-quire fast aswers. In this case we recommend the ordinary kriging algorithm. The proposedvariant of bayesian kriging reduces the time required, but not enough to real-time systems.There were not observed substancial quality differences in this variant.
ii
Agradecimentos
iii
iv
Quem, de trs milnios,No capaz de se dar conta
Vive na ignorncia, na sombra, merc dos dias, do tempo.
JohannWolfgang vonGoethe
Contedo
I Introduo 1
II Geoestatstica,Kriging e as Redes de Sensores sem Fios 3
2.1 Definies iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Modelos de correlao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Modelo de correlaoMatrn . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2.2 Modelo de correlao exponencial . . . . . . . . . . . . . . . . . . . . . . . 92.2.3 Modelo de correlao esfrico . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.4 Modelo de correlaowave . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.3.1 Variograma terico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3.2 Variograma emprico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.4.1 Kriging simples e ordinrio . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.4.2 Kriging bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5 Redes de Sensores sem Fios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.5.1 Agrupamento pelo algoritmo LEACH . . . . . . . . . . . . . . . . . . . . . 212.5.2 Agrupamento pelo algoritmo SKATER . . . . . . . . . . . . . . . . . . . . . 22
2.6 Relao entre a Geoestatstica e as Redes de Sensores sem Fios . . . . . . . . . . 23
III Modelagemproposta 25
3.1 Modelo formulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.1.1 Sinal de origem amostrado . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.1.2 Processos pontuais e a distribuio dos sensores . . . . . . . . . . . . . . 263.1.3 Reconstruo do sinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.1.4 Validao domodelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Implementao na plataforma R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.3 Ambiente de execuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.4 Resultados esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
IV Anlise dos resultados 40
4.1 Implementao de simulaes Monte Carlo na literatura . . . . . . . . . . . . . 404.2 Critrios para pesquisa reproduzvel . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3 Dados obtidos com a simulao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.4 Anlise da qualidade do sinal reconstrudo . . . . . . . . . . . . . . . . . . . . . . 43
4.4.1 Anlise do comportamento dos parmetros do modelo . . . . . . . . . . 434.4.2 Anlise do campo gaussiano reconstrudo . . . . . . . . . . . . . . . . . . 45
4.5 Anlise do tempo necessrio reconstruo do sinal . . . . . . . . . . . . . . . . 474.6 Consideraes acerca dos dados obtidos . . . . . . . . . . . . . . . . . . . . . . . 47
v
CONTEDO vi
V Resultados e discusses 48
Referncias bibliogrficas 50
Lista de Figuras
2.1 Exemplos de curvas da correlao Matrn . . . . . . . . . . . . . . . . . . . . . . 82.2 Exemplos de curvas da correlao exponencial . . . . . . . . . . . . . . . . . . . 102.3 Exemplos de curvas da correlao esfrica . . . . . . . . . . . . . . . . . . . . . . 112.4 Exemplos de curvas da correlaowave . . . . . . . . . . . . . . . . . . . . . . . . 122.5 Construo de um variograma terico . . . . . . . . . . . . . . . . . . . . . . . . . 142.6 Examplo de reconstruo por kriging . . . . . . . . . . . . . . . . . . . . . . . . . 172.7 Elementos fundamentais de uma Rede de Sensores sem Fios . . . . . . . . . . . 192.8 Modelo de uma Rede de Sensores sem Fios . . . . . . . . . . . . . . . . . . . . . . 202.9 Clusters de sensores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.10 Clusters gerados pelo LEACH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.11 Sensores espalhados sobre uma superfcie . . . . . . . . . . . . . . . . . . . . . . 222.12 Grafo construdo a partir de 12 sensores . . . . . . . . . . . . . . . . . . . . . . . 232.13 rvore geradoramnima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.14 Clusters formados pelo algoritmo SKATER . . . . . . . . . . . . . . . . . . . . . . 243.1 Exemplos de campos aleatrios gaussianos . . . . . . . . . . . . . . . . . . . . . 263.2 Exemplos de processo pontual Poisson . . . . . . . . . . . . . . . . . . . . . . . . 283.3 Exemplos de processo pontual Poisson no Homogneo . . . . . . . . . . . . . . 293.4 Perspectiva da funo de intensidade . . . . . . . . . . . . . . . . . . . . . . . . . 303.5 Exemplos de processo pontual SSI . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.6 Exemplos do processo compostoC . . . . . . . . . . . . . . . . . . . . . . . . . . 323.7 Exemplos do processo M2P2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.8 Diagrama ilustrativo da reconstruo dos campos gaussianos . . . . . . . . . . . 353.9 Diagrama ilustrativo do sistema de simulaes . . . . . . . . . . . . . . . . . . . 37
vii
Lista de Tabelas
4.1 Plataformas de planilhas eletrnicas avaliadas . . . . . . . . . . . . . . . . . . . . 424.2 Geradores de nmeros pseudoaleatrios de planilhas eletrnicas . . . . . . . . 434.3 Vis e EQM dos estimadores do parmetro . . . . . . . . . . . . . . . . . . . . . 444.4 Mdia dos erros absolutos relativos do kriging . . . . . . . . . . . . . . . . . . . . 454.5 Mdia dos erros absolutos relativos por reconstruo . . . . . . . . . . . . . . . . 464.6 Mdia dos erros absolutos relativos por reconstruo commdia . . . . . . . . 47
viii
Lista de Cdigos
2.1 Algoritmo de kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.1 Algoritmo para paralelizao das simulaes . . . . . . . . . . . . . . . . . . . . . 384.1 Reconstruo do campo gaussiano original com base na estimativa . . . . . . . 46
ix
IIntroduo
You need to prepare your students for the future, not the past.
Spencer Graves
R-help (novembro de 2006)
A necessidade de se monitorar reas nas quais no possvel a superviso humana emtodos os pontos tem se tornado cada vez maior. Isso se d, por exemplo, nomonitora-mento de incndios em florestas e na medio de nveis de concentrao de gases txicos;
outro ponto a considerar quando a escala no permite interveno humana, como nomo-
nitoramento da vlvula mitral do corao, utilizandonanosensores e atmesmo quando ela
pode interferir no resultado, como se d no estudo da vocalizao de anfbios, que pode ser
alterado em decorrncia da presena do pesquisador.
Uma dasmais convenientes formas de se obter a automao demonitoramentos o uso
de Redes de Sensores semFios (RSsF, Akyildiz et al., 2002; Szewczyk et al., 2004; Sarangapani,
2007; Sohraby et al., 2007; Wu & Tseng, 2007), que consistem num conjunto de ns sensores
independentes, munidos de dispositivos de sensoreamento e da capacidade de se comuni-
car, transmitindo os dados tipicamente com algum tipo de agregao a um n especial que,
por sua vez, os transmitir a uma central de processamento.
Essa rea ainda recente de pesquisa apresenta diversos problemas em aberto e o Labo-
ratrio de Computao Cientfica e Anlise Numrica (LaCCAN) da Universidade Federal de
Alagoas possui diversos estudos relacionados a estas redes. Dentre eles, a anlise de simula-
dores de RSsF, desenvolvimento de hardware para ns sensores, avaliao do uso de Redes
de Sensores sem Fios no monitoramento de temperatura de Data Centers, medidas de vida
til da rede mediante caractersticas energticas, processos de deposio de ns sensores,
avalio da qualidade da reconstruo de sinais (dados de interesse amostrados) providos
pelas RSsF, dentre outros.
1
INTRODUO 2
Esse ltimo o objetivo deste trabalho. Seguindo as conexes apontadas por diversos au-
tores, como Frery et al. (2010); Alencar-Neto (2008); Aquino et al. (2008); Camilli et al. (2007);
Frery et al. (2008); Jedermann & Lang (2009); Ni et al. (2009) e Umer et al. (2008), este traba-
lho visa avaliar a relao entre as Redes de Sensores sem Fios e a geoestatstica no que con-
cerne reconstruo de sinais.
Com a geoestatstica, os dados esto atrelados a suas posies geogrficas. Adota-
se a hiptese de que o sinal (dado de origem amostrado) estacionrio e, a partir desse
pressuposto, avalia-se a sua reconstruo por alguns processos de kriging (Krige, 1951;
Diggle & Ribeiro Jr., 2007), com uma de suas verses modificada, proposta no captulo 3.
Os algoritmos sero analisados atravs de um estudo Monte Carlo de fora bruta
(Metropolis & Ulam, 1949), analisando-se vis, varincia e erro quadrticomdio apresenta-
dos (definidos no captulo 3) bem como a viabilidade por tempo computacional necessrio.
Namaioria dos cenrios avaliados o algoritmoque apresentoumelhores resultados qua-
litativos foi o kriging bayesiano. Entretanto este necessita de muitos recursos computacio-
nais e grande tempode computao, o que pode inviabilizar o seu uso em cenrios de tempo
real. O kriging ordinrio apresenta o segundo melhor resultato qualitativo, porm com ne-
cessidade de poucos recursos computacionais e processamento de pouco tempo, o que o
tornamais adequado a este tipo de situao. Para os casos em que for necessrio ter amaior
qualidade possvel dos dados e o tempo no for fator crucial, uma variante proposta do kri-
ging bayesiano no apresenta diferenas significativas na qualidade do sinal reconstrudo,
mas possibilita reduo no tempo necessrio para computao.
No captulo 2 encontram-se as principais definies necessrias ao trabalho; a modela-
gem do estudo est definida no captulo 3, com anlise dos dados obtidos no captulo 4 e
discusso dos resultados e trabalhos futuros no captulo 5.
IIGeoestatstica, Kriging e as Redes de
Sensores sem Fios
What we have is nice, but we need something very different.
Robert Gentleman
Statistical Computing 2003 (junho de 2003)
A geoestatstica um ramo da estatstica espacial que difere dos demais por associar osdados s suas posies geogrficas (Bivand & Pebesma, 2008;Diggle & Ribeiro Jr., 2007;Le & Zidek, 2006). Dentre suas tcnicas de inferncia, destaca-se o kriging (Krige, 1951), ori-
ginado nos trabalhos de Daniel G. Krige e Georges Matheron. Sua relao com as Redes
de Sensores sem Fios tem sido discutida em diversos trabalhos, como os de Alencar-Neto
(2008); Camilli et al. (2007); Frery et al. (2008); Jedermann & Lang (2009); Ni et al. (2009) e
Umer et al. (2008).
Neste captulo sero explanados os conceitos necessrios ao entendimento do kriging
bem como suas variaes utilizadas nesse trabalho: simples, ordinrio e bayesiano. Em se-
guida, apresentam-se as definies necessrias ao entendimentodas Redes de Sensores sem
Fios e os algoritmos de agrupamento (clusterizao) utilizados nos experimentos (LEACH e
SKATER).
2.1 Definies iniciais
Nesta seo so explanados conceitos bsicos de probabilidades que fundamentamo traba-
lho que se segue, com base nos textos de James (2006) e Diggle & Ribeiro Jr. (2007).
Definio 1 (Experimento Aleatrio). Um experimento aleatrio consta de uma observao
repetvel no controlada, com um conjunto limitado de resultados observveis.
3
2.1. DEFINIES INICIAIS 4
Definio 2 (Espao Amostral). Dado um experimento aleatrio qualquer, o espao amos-
tral, dito conjunto , consiste no conjunto de todos os resultados que podem ser observados
por este experimento.
Definio 3 (Evento). Seja um conjunto que denota um evento de . Se um con-junto unitrio, diz-se que um evento simples; Pr() = 1, onde o evento dito certo; caso=;, o evento impossvel, isto , Pr(;)= 0.
Definio 4 (Varivel Aleatria Real). Uma varivel aleatria real X uma funo X : R que mapeia os resultados de um experimento aleatrio na reta, onde representa o espao
amostral.
A partir deste ponto, sempre que for referida alguma varivel aleatria, tratar-se- de
uma Varivel Aleatria Real.
Definio 5 (Ocorrncia de uma Varivel Aleatria). Seja X : R uma varivel alea-tria. Uma ocorrncia desta varivel aleatria ser um elemento de R mapeado de que
denota um resultado do experimento aleatrio que X mapeia.
Definio 6 (Distribuio de uma Varivel Aleatria). Conhecer a distribuio de uma va-
rivel aleatria X ser capaz de calcular a probabilidade dela estar num conjuntoA formado
por um nmero arbitrrio de unies e interseces.
Definio 7 (Funo de Distribuio Acumulada). a funo F (t ) = Pr(X t ), t R quecaracteriza cada distribuio. Possui as seguintes propriedades:
1. no decrescente, isto , se t1 < t2, ento F (t1) F (t2);
2. contnua direita, isto , se tn t quando n, ento F (tn) F (t );
3. limt F (t )= 0 e limtF (t )= 1.
Definio 8 (Varivel Aleatria Discreta). Uma varivel aleatria X dita discreta se ela
possui uma quantidade finita ou infinita enumervel de valores possveis. descrita por uma
funo de probabilidade p(ti )= Pr(X = ti ), i = 1,2, . . . , onden
i=1 p(ti )= 1 e 0 p(ti ) 1.
Definio 9 (Varivel Aleatria Contnua). Seja X uma varivel aleatria e F (t ) sua funo
de distribuio acumulada. A funo de densidade de X dada por f (t ) = F (t )/t , quedefine uma varivel aleatria contnua, se f (t ) existir. Suas propriedades so:
1. sempre positiva, ou seja f (t ) 0;
2. sua integral na reta vale 1, entoR
f (t )dt = 1.
2.1. DEFINIES INICIAIS 5
Definio 10 (Variveis Aleatrias Distribudas de forma Conjunta). Num experimento
aleatrio onde o interesse est no comportamento conjunto de duas ou mais variveis ale-
atrias, a distribuio conjunta dessas variveis aleatrias ser dada, no caso discreto,
por Pr(X1 = t1 e X2 = t2 e . . . e Xn = tn) = pX1X2 ...Xn (t1i , t2i , . . . , tni ), com o valor do soma-trio
ni=1 pX1X2 ...Xn (t1i , t2i , . . . , tni ) = 1. No caso contnuo, sejam as variveis aleatrias
(X1,X2, . . . ,Xn) sua densidade caracterizada por uma funo fX1,X2 ,...,Xn (t1, t2, . . . , tn), onde:
fX1,X2,...,Xn no negativa;
fX1,X2 ,...,Xn (t1, t2, . . . , tn)dt1,dt2, . . . ,dtn = 1.
Neste trabalho sero tratadas apenas de variveis aleatrias contnuas.
Definio 11 (Esperana de uma Varivel Aleatria). Tambm conhecida por mdia ou
valor esperado, a esperana de uma varivel aleatria X uma mdia ponderada onde os
pesos so dados pelas probabilidades Pr(X = t ). De uma forma genrica definida comoE[X ] =
R
tF (t )dt . No caso discreto definida como E[X ] = i tip(ti ) e no caso contnuoE[X ]= t f (t )dt, se a integral existir.Definio 12 (Esperana de uma Funo). Seja X uma varivel aleatria e (X ) : R Ruma funo qualquer. A esperana de(X ) dada porE[(X )]=
R
(t ) f (t )dt , se a integral
existir.
Definio 13 (Esperana do Produto de Transformaes de Variveis Aleatrias). Sejam
X1, . . . ,Xn variveis aleatrias, a esperana de (X1)(. . . )(Xn), dita E[(X1)(. . . )(Xn)],
ser a integral(t1)(. . . )(tn) f (t1) f (. . . ) f (tn)dt1d . . .dtn no caso contnuo, se a integral
existir; no caso discreto ser o somatrio
i=(t1i )(. . . )(tni ) f (t1i ) f (. . . ) f (tni ).
Definio 14 (Probabilidade Condicional). Sejam X e Y variveis aleatrias. A probabili-
dade condicional Pr(X x | Y = y) dada pela frao
Pr(X x e Y = y)Pr(Y = y) .
Definio 15 (Esperana Condicional). No caso discreto dada por E[X | Y = y] =x xPr(X = x e Y = y). No caso contnuo, E[X | Y ] =
R
x f (x | Y = y)dx, onde, caso X eY possuam distribuio conjunta,
f (x | Y = y)= fXY (x, y)fY (y)
.
Definio 16 (Varincia de uma Varivel Aleatria). Sendo X uma varivel aleatria, o
valor Var(X )=E[X 2]E2[X ], seE[X 2] existir e a diferena estiver bem definida.
2.1. DEFINIES INICIAIS 6
Definio 17 (Covarincia dentre Variveis Aleatrias). Sendo X ,Y variveis aleatrias,
definida por Cov(X ,Y )=E[XY ]E[X ]E[Y ], se as esperanas existirem.
Definio 18 (Correlao dentre Variveis Aleatrias). A correlao dentre duas variveis
aleatrias X ,Y dada por Corr(X ,Y )= Cov(X ,Y )pVar(X )Var(Y )
.
Definio 19 (Distribuio Gaussiana). Uma varivel aleatria X segue uma distribuio
gaussiana N (,) de mdia e varincia 2 se possuir funo de densidade
f (t |,)= 1p2pi
exp
{ (t )
2
22
}, (2.1)
,, onde=RR+ o espao paramtrico, com t R.
Definio 20 (Distribuio Gaussiana Multivariada). Dada uma coleo de variveis ale-
atrias X1, . . . ,Xn , elas seguem uma distribuio gaussiana multivariada de mdia =(1, . . . ,n) Rn e matriz de covarincia G simtrica positiva se sua densidade conjunta for
f (t |,G)= 1(2pi)n/2|G |1/2 exp
{12(t )G1(t )
}, (2.2)
onde | | representa o valor do determinante da matriz apresentada neste.
Definio 21 (Processo Estocstico). Um processo estocstico {S(x) : x Rd },d 1 constade uma coleo de variveis aleatrias, onde x Rd representa o posicionamento de cadavarivel aleatria S().
Definio 22 (Processo Estocstico Gaussiano). Para que um processo estocstico {S(x) : x R
d } seja gaussiano, a distribuio conjunta de S(x),x Rd deve ser gaussiana multivariada.Este processo completamente especificado por suas funes demdia e covarincia, respecti-
vamente:
(x)=E[S(x)],Cov{S(xi ),S(x j )}=E[S(xi )S(x j )]E[S(xi )]E[S(x j )].
Definio 23 (Processo Estocstico Estacionrio). Umprocesso estocstico diz-se estacion-
rio se suamdia for constante igual a e a covarincia depender apenas da diferena vetorial
entre xi e x j : Cov{S(xi ),S(x j )} = (u), u = xi x j , assim (u) = Cov{S(z),S(z + u)}; comoCov{S(zi ),S(z j )} = Cov{S(zi +h),S(z j +h)}, pode-se utilizar qualquer valor para z dentro dodomnio admissvel.
Definio 24 (Processo Estocstico Estacionrio Isotrpico). A propriedade de isotropia
num processo estocstico {S(x) : x Rd } obtida quando a diferena vetorial dentre duas va-riveis aleatrias dada pela distncia euclidiana. Assim, (xi ,x j ) = (u), com deno-tando distncia euclidiana.
2.2. MODELOS DE CORRELAO 7
Definio 25 (Campos Aleatrios). Um campo gaussiano definido por um processo esto-
cstico {S(x) : x Rd }, onde d representa a dimenso do espao. So comumente utilizadospara representar fenmenos naturais, como iluminao, umidade, temperatura etc. Sua ca-
racterizao se d pela distribuio conjunta de suas variveis aleatrias.
Definio 26 (Estimador). Um estimador uma funo de variveis aleatrias que, em
princpio, tenta aproximar o valor verdadeiro de um parmetro de uma distribuio.
Neste trabalho sempre que for referido um campo gaussiano tratar-se- de um campo
aleatrio cuja distribuio conjunta de suas variveis aleatrias gaussianamultivariada.
2.2 Modelos de correlao
Uma funo paramtrica (u) deve ser definida para o domnio R+ para que cumpra os
requisitos de uma funo de correlao. Se ela vlida para Rd , ser tambm para Rm ,
m < d , mas no necessariamente para dimenses maiores.Essas funes costumam decrescer quando u = xi x j aumenta emmodelos estacio-
nrios e interessante que possuam diferentes graus de suavizao (ver figuras 2.1a e 2.2a).
Ou seja, que haja fatores que suavizem suas curvas. Seguem informaes sobre alguns mo-
delos de correlao, aplicados a um processo estocstico gaussiano estacionrio isotrpico
{S(x) : x R2}.
2.2.1 Modelo de correlaoMatrn
O modelo de correlao Matrn um dos mais utilizados na literatura. Ele apresenta duas
propriedades extremamente interessantes aos estudos de geoestatstica: depende apenas
do posicionamento geogrfico dos dados e possui um parmetro de suavizao da curva
entre dois pontos (Diggle & Ribeiro Jr., 2007).
Sua representao dada na forma
(u)={2(1)()
}1 (u
)K
(u
), (2.3)
onde K() representa uma funo de Bssel de ordem , > 0 um parmetro de escala,responsvel por dimensionar a distncia, e > 0 o parmetro responsvel pela curva desuavizao dentre os valores, denomina-se ordem.
A figura 2.1a mostra a curva da correlao deMatrn de acordo com o aumento do valor
u, onde o quo mais clara for a linha, maior o valor de , com 0,5 2,5, com fixo em0,23. Da mesma forma a figura 2.1b apresenta os resultados com = 2 e 0,1 0,3.
2.2. MODELOS DE CORRELAO 8
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
u
(u)
(a) Variao do parmetro
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
u
(u)
(b) Variao do parmetro
Figura 2.1: Exemplos de curvas da correlao Matrn onde o parmetro varia de forma quequomais clara for a cor da linha, maior o valor do parmetro
2.2. MODELOS DE CORRELAO 9
Para= 0,5, a correlaoMatrn reduz-se a exponencial (seo 2.2.2), (u)= exp{u/},e para , (u) exp{(u/)2}, tambm conhecida como funo de correlao gaussi-ana (Handcock &Wallis, 1994).
Vale ressaltar que correlaes de ordem ou escala diferentes no so comparveis. A
partir da, sugere-se uma reparametrizao da funo para = 2p.
2.2.2 Modelo de correlao exponencial
Assim como omodeloMatrn, o exponencial apresenta umparmetro de suavizao e um
de escala (Diggle & Ribeiro Jr., 2007). Entretanto, est limitado a 0. (2.5)
Consoante no possuir parametrizao para suavizao da curva, seu modelo apresenta
uma grande vantagem: um limitantefinito de distncia. Para valores suficientemente grades
de distncia, leia-se u > , o valor da correlao ser (u) = 0. Um exemplo de suas curvasest exposto na figura 2.3 com 0,1 0,3.
Alm de perder flexibilidade pela parametrizao, um outro problema presente o fato
dessa funo de correlao ser apenas uma vez diferencivel para u = . Isto proporcionadificuldades na estimao por mxima verossimilhana.
2.2. MODELOS DE CORRELAO 10
0.0 0.2 0.4 0.6 0.8 1.0
0.2
0.4
0.6
0.8
1.0
u
(u)
(a) Variao do parmetro
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
u
(u)
(b) Variao do parmetro
Figura 2.2: Exemplos de curvas da correlao exponencial onde o parmetro varia de formaque quomais clara for a cor da linha, maior o valor do parmetro
2.3. VARIOGRAMA 11
2.2.4 Modelo de correlao wave
Modelos nomontonos de correlao so raros. Um exemplo a funoWave,
(u)=(u
)1sen
(u
). (2.6)
Assim como o esfrico, ele tambmuniparametrizadopela escala (). Seu comportamento
pode ser observado na figura 2.4 com 0,1 0,3.
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
u
(u)
Figura 2.3: Exemplos de curvas da correlao esfrica comvariao doparmetrode formaque quomais clara for a cor da linha, maior o valor e
Outros modelos de correlao podem tambm ser encontrados na literatura (ver, por
exemplo, Gneiting, 1997; Schlather, 1999). Entretanto, esses apresentados so os mais utili-
zados em geoestatstica.
2.3 Variograma
Tambm conhecido por semivariogramaou semivarincias, o variograma uma ferramenta
muito importante geoestatstica. Ele descreve naturalmente estruturas de dependncia
nummodelo gaussiano e pode ser til como ferramenta de diagnstico nos demais.
2.3. VARIOGRAMA 12
0.0 0.2 0.4 0.6 0.8 1.0
0.
20.
00.
20.
40.
60.
81.
0
u
(u)
Figura 2.4: Exemplos de curvas da correlao wave com variao do parmetro de formaque quomais clara for a cor da linha, maior o valor de
2.3.1 Variograma terico
Num processo estocstico o variograma terico dado pela funo V (xi ,x j )= 12Var{S(xi )S(x j )}. No caso de um processo estacionrio (assim como exposto na definio 23) o va-
riograma se reduz a uma funo de u = ||xi x j || e (u) = Cov{S(x),S(x u)} equivalente,expressa por VY (u) = (0) (u) = 2{1 (u)}, onde 2 a varincia de S(x) e (u) =Corr{S(x),S(xu)}. Como a mdia constante:
VY (u)=1
2E
[{S(x)S(xu)}2
]. (2.7)
2.3.2 Variograma emprico
Dado um conjunto de variveis aleatrias Yi : i = 1, . . . ,n que modelam os dados do fen-meno mesurado e yi : i = 1, . . . ,n ocorrncias dessas variveis, os valores vi j = 12(Yi Y j )2correspondem a uma estimativa no viesada da semivarincia, tambm denominada vario-
grama ordinrio.
O variograma tericoVT ser os pares de distncias e variogramas ordinrios correspon-
dentes (ui j ,vi j ) : j > i . Graficamente, ele correponde a plotagem dos valores vi j pelas dis-tncias correpondentes (ver exemplo na figura 2.5b, construdo a partir dos pontos amos-
2.4. KRIGING 13
trados no campo gaussiano da figura 2.5a).
2.4 Kriging
Dado S(), que modela um sinal (dado de interesse) ocorrido, porm no observado,pretende-se efetuar predio sobre ocorrncias de uma varivel aleatria T = T (S), ondeT denota o conjunto de variveis aleatrias que sero preditas, S representa o conjunto de
todos os valores a partir de S(x) e T () a funo de predio.Sejam amostras observadas Y = (y1, . . . , yn) onde cada yi representa uma amostra, com
possvel rudo, de seu correspondente S(x), num processo estocstico gaussiano estacion-
rio {S(x) : x R2} com x representando o posicionamento geogrfico. S possui distribuiogaussiana multivarada de vetor de mdias 1, onde 1 um vetor onde todos os elementos
so 1. Suamatriz de varincia 2R , onde R nn tal que ri j = (||xi x j ||).Da mesma fora Y possui distribuio gaussiana multivariada com vetor de mdias 1 e
matriz de varincia
2V = 2(R+v2I )2V = 2R+2I , (2.8)
com I sendo a matriz identidade.
Utilizando qualquer funo t de Y tal que T = t (Y ) o erro do preditor pelos mnimosquadrados ser:
MSE(T )=E[(T T )2] . (2.9)A forma que minimiza esta quantidade dada quando T =E[T | Y ]. Da, tem-se que:
E[(T T )2]=EY [Var(T | Y )]. (2.10)
Neste trabalho so analisadas algumas variantes do processo de kriging (Krige, 1951),
que, de uma forma geral, consistem no resultado de
S(x)=WwiS(x)dx, (2.11)
onde S(x) denota o conjunto de amostras,W R2 a janela deR2 que o processo estocs-ticomodela e wi : i = 1, . . . ,n um vetor de pesos, construdos a partir das funes de correla-o, que suavizam a interpolao dentre os pontos (Diggle & Ribeiro Jr., 2007).
2.4. KRIGING 14
(a) Campo gaussiano com pontos em destaque amostrados
0 20 40 60 80 100
010
20
30
40
u
V(u
)
(b) Variograma emprico
Figura 2.5: Campo gaussiano com pontos amostrados em 2.5a, a partir dos quais se constrio variograma emprico em 2.5b
2.4. KRIGING 15
2.4.1 Kriging simples e ordinrio
Dentre todos os modelos de kriging, o simples apresenta-se como o modelo matemtico
mais simples. Nele se considera que mdias de grupos dos valores do processo se apro-
ximam da mdia global. Relaxando-se essa suposio, de forma a permitir que as mdias
locais possam se distanciar da global, o kriging ordinrio usa uma estimao diferente para
a mdia.
Em suma:
no kriging simples a mdia informada e todos os demais parmetros so tratados
como conhecidos, entretanto, necessrio acoplar estimadores dos demais parme-
tros ao preditor;
no kriging ordinrio, a mdia tratada como parmetro desconhecido, sendo substi-
tuda pelo estimador por mnimos quadrados
= (1V 11)11V 1Y . (2.12)
Alguns autores, entretanto, adotam que no kriging simples a mdia no informada,
mas computada atravs dos mnimos quadrados ordinrios dos valores amostrados, dito y
(Diggle & Ribeiro Jr., 2007, pp. 137). Entretanto, essa abordagem pode no resultar em bons
valores estimados; uma alternativa utilizar os mnimos quadrados generalizados, levando
em considerao os valores de covarincia dentre as variveis indexadas pelas coordenadas
amostradas.
O preditor de kriging para T = S(x) ser
T =+ r V 1(Y 1), (2.13)
onde r o vetor tal que ri = (||x xi ||), i = 1, . . . ,n1 e V dado por (2.8). Y possui distri-buio gaussianamultivariada de mdia 1 e matriz de varincia dada por (2.8).
Da, segue que
S(x)=+ni=1
ai (x)(Yi )=[1
ni=1
ai (x)
]+
ni=1
ai (x)Yi . (2.14)
O preditor por kriging ordinrio pode ser expresso como S(x) =ni=1wi (x)Yi , onde w o vetor de pesos do kriging para o ponto xi . Ou seja, dado um ponto no amostrado xi o
qual deseja-se reconstruir com base no conjunto de amostras Y , ser computado um vetor
de pesos w , com a soma de seus elementosn
i=1wi = 1. Esse vetor de pesos w ser nicopara cada i .
SeVY () a funo de semivarincia (semivariograma) de umprocesso estocstico gaus-siano estacionrio {S(x) : x R2}, onde x denota o posicionamento geogrfico dos pontos, o
2.4. KRIGING 16
vetor de pesos para um ponto xi ser dado por
w1VY (ui ,x1 )+ +wnVY (ui ,xn )=VY (ui ,xi ), (2.15)
no kriging simples.
Para o kriging ordinrio, insere-se na equao uma varivel de normalizao . Assim, a
equao que representa o vetor de pesos w para o kringing ordinrio
w1VY (ui ,x1)+ +wnVY (ui ,xn )+=VY (ui ,xi ), (2.16)
onde possui o mesmo valor, independente de i .
Em ambos os casos o vetor de pesos definido pela resoluo de um sistemade equaes
baseadas na semivarincia. Da nota-se o impacto do modelo de correlao adotado no
kriging, que parte da definio de semivarincia e a construo dos pesos de forma aprover
curvas de variao suaves, determinadas por seus fatores de suavizao ().
Como os modelos de kriging simples e ordinrio diferem apenas na estimao damdia
por este ltimo, o kriging simples tambm conhecido como kriging ordinrio com mdia
(Diggle & Ribeiro Jr., 2007).
A escolha de um modelo que represente o mais adequadamente o possvel os dados
crucial para que se obtenha um bom resultado. Da mesma forma, encontrar valores de
que se aproximem do ideal proporcionar uma reconstruo omais fidedgna o possvel.
Uma descrio algoritmica do processo de kringing est no cdigo 2.1. Como ilustra-
o dos resultados que se podem obter atravs das duas tcnicas a figura 2.6 apresenta um
campo gaussiano em 2.6a com 20 pontos amostrados e reconstrudos por kriging simples e
ordinrio, respectivamente 2.6b e 2.6c.
1 S
2.4. KRIGING 17
(a) Campo aleatrio original
(b) Reconstruo por kriging simples (c) Reconstruo por kriging ordinrio
Figura 2.6: Dada uma regio de interesse 2.6a, amostram-se alguns pontos atravs de 20 sen-sores dispostos aleatoriamente e reconstri-se a partir desses dados amostrados por krin-ging simples 2.6b e ordinrio 2.6c
2.4.2 Kriging bayesiano
Diferentemente dos modelos anteriores de kriging, o bayesiano no faz nenhuma distin-
o formal entre os pontos no observados e os parmetros do modelo a serem estimados.
Conforme Diggle & Ribeiro Jr. (2007), ambos so tratados como variveis aleatrias no ob-
servadas.
Seus principais requisitos so:
conhecimento da distribuio a priori de , onde o espao paramtricodo processo estocstico modelado que, como nos demais, gaussiano estacionrio
{S(x) : x R2};
capacidade computacional para a especificao de ummodelo com seus dados a pri-
2.4. KRIGING 18
ori a serem computados a posteriori.
Um dado a priori uma informao parametrizada aomodelo. Por sua vez uma a poste-
riori inferida nomodelo atravs da informao a priori.
A capacidade computacional citada trata de resolver a seguinte equao:
Pr( | y)= `(; y)pi()`(; y)pi()d
, (2.17)
onde as funes utilizadas so a de verossimilhana,`(; ), e a distribuio apriori,pi(), dadapelo teorema de Bayes (2.18). O parmetro y corresponde aos dados amostrados, ocorrn-
cias de S(x).
O Teorema de Bayes diz que
Pr(A | B)= Pr(B | A)Pr(A)Pr(B)
. (2.18)
Neste caso Pr(A) e Pr(B) seriam as probabilidades a priori e Pr(A | B) e Pr(B | A) as probabi-lidades a posteriori.
No enfoque bayesiano, o modelo pode ser especificado como [Y ,], onde Y representa
as variveis aleatrias que descrevem o fenmeno a ser reconstrudo (o sinal), so todos
os parmetros do modelo a serem inferidos e [] denota a distribuio das variveis alea-trias que lhe so parametrizadas. Assim, com os valores a priori de pode-se calcular a
[Y ,] = [Y | ][], onde a notao | denota condicionalidade dentre as variveis aleatrias.Pelo Teorema de Bayes, apresentado na equao (2.18), chega-se a
[ | Y ]= [Y | ][][Y ]
, (2.19)
onde [Y ] pode ser obtido por
[Y ]=[Y | ][]d, (2.20)
induzido pela funo de verossimilhana. As inferncias acerca do parmetro so feitas por
computao de dados a posteriori, com [ | Y ].Modelando o proposto neste trabalho com o enfoque bayesiano tem-se trs elementos:
um sinal no observado, S; um conjunto de valores medidos, Y ; e os parmetros domodelo,
. A especificao do modelo, ento, se d por
[Y ,S,]= [][S | ][Y | S,]. (2.21)
Como [] representa os valores a priori de , eles podem ser encarados como a opinio do
analista dos dados. Sob a aplicao do Teorema de Bayes, equao (2.18),
[S | Y ]=[S | Y ,][ | Y ]d. (2.22)
2.5. REDES DE SENSORES SEM FIOS 19
Algoritmicamente, iniciandopelo valor inicial arbitrado, sero computados os valores in-
feridos. Com estes calculados, os parmetros do modelo so computados (inferncia sobre
) e o processo se repete at um limite de convergncia pr-estabelecido.
Nesse trabalho sero avaliadas computaes com o valor de mdia conhecido e infe-
rido por mdia ponderada, levando em considero valores inferidos de correlao. Em
uma abordagem real a uma Rede de Sensores sem Fios (ver seo 2.5), efetua-se um pro-
cedimento de flood (disperso da solicitao de leitura de dados a todos os sensores que
a retornaro conforme a modelagem da rede) e esses dados so utilizados para compor a
mdia.
2.5 Redes de Sensores sem Fios
AsRedes de Sensores semFios (RSsF Akyildiz et al., 2002; Szewczyk et al., 2004; Sarangapani,
2007; Sohraby et al., 2007;Wu & Tseng, 2007) so conjuntos de dispositivosque obtmamos-
tras de fenmenos ambientais, sejam eles naturais (como, por exemplo, temperatura, pres-
so atmosfrica, intensidade de iluminao, concentrao de substncias em cursos dgua
ver figura 2.7) ou antrpicos (qualidade do ar em sinais de trnsito, presso ao longo de um
oleoduto). Uma vez comessas informaes captadas, elas so transmitidas a umn especial,
denominado sink que tipicamente efetua algum tipo de agregao de dados, numa comu-
nicao atravs de redes ad-hoc (Rappaport, 2002; Sarangapani, 2007; Sohraby et al., 2007;
Wu & Tseng, 2007). Este se responsabiliza por transmitir as informaes coletadas atravs de
algummeio como a Internete para um centro de tratamento de dados e tomada de decises,
o qual pode efetuar consultas na rede. Seu funcionamento pode ser modelado conforme o
diagrama da figura 2.8, modelado por Frery et al. (2010).
SensoresMeio
Sink
Central
Figura 2.7: Elementos fundamentais de uma Rede de Sensores sem Fios
2.5. REDES DE SENSORES SEM FIOS 20
NF V S V V F V
Ry RyD D
Figura 2.8: Modelo de uma Rede de Sensores sem Fios
No diagrama supracitado, N representa a natureza, com toda sua infinidade de fatos, F
o fenmeno de interesse (o sinal, i.e.: iluminao, temperatura, umidade etc.), com todos
os seus dados em V . Se fosse possvel observar F em toda a sua complexidade, constuir-se-
a um conjunto de regras ideais R com as quais seria possvel tomar decises ideaisD. Em
vez disso, utiliza-se um conjunto de sensores S = {S1, . . . ,Sn} que disponibiliza um conjuntode valores V , sob os quais efetuam-se transformaes (i.e.: agregao e fuso de dados)
que geram um conjunto de dadosV . Nesse ltimo conjunto de dados aplica-se uma funo
de reconstruo do sinal F que permite idealmente reconstruir o conjunto de valores V
a partir do qual pode-se construir um conjunto de regras R com as quais se pode tomar
decises D . Este conjunto D deve ser o mais prximo possvel deD (idealmente iguais).
Essas redes tm despertado muito in-
Figura 2.9: Clusters de sensores
teresse, tanto pelas suas potenciais aplica-
es quanto pelos desafios tericos e tec-
nolgicos que seu uso otimizado oferecem.
Tipicamente aplica-se algumalgoritmopara
reduzir a quantidade de dados transmitidos
(Nakamura et al., 2007). Dentre os princi-
pais motivos para que se efetue esta ope-
rao, est que a transmisso de dados co-
mumente a operaomais custosa em ter-
mos de energia (Akyildiz et al., 2002). As-
sim,minimizando essas transmisses pode-
se prolongar o tempo de vida til da rede.
Bem como esta compactao, h diver-
sos outros aspectos tecnolgicos, como autoconfigurao, adaptao na ocorrncia de fa-
lhas e limitaes de energia, aguardando por solues satisfatrias. Uma das formas de oti-
mizar o consumo de energia utilizar agrupamentos (clusters) de sensores. A tcnica con-
siste em formar grupos de sensores que transmitem seus dados a um n dentro do grupo,
para que somente este transmita as informaes ao destino. Os grupos so definidos e
eleito um dito representante (clusterhead) responsvel por receber as informaes dos de-
mais sensores e transmit-lo (ver figura 2.9).
2.5. REDES DE SENSORES SEM FIOS 21
Essa a idia dos algoritmos LEACH e SKATER, dentre diversos outros (ver Akyildiz et al.,
2002; Heinzelman et al., 2002; Younis & Fahmy, 2004; Assuno et al., 2006; Younis et al.,
2006; Yoon & Shahabi, 2007; Abbasi & Younis, 2007). O objetivo sempre o mesmo: analisar
globalmente o estado da rede para formar grupos de sensores e estratgias de fuso de in-
formaes, diminuindo a redundncia nos dados transmitidos e otimizando o consumo de
energia. Dessa forma o consumo minimizado nos sensores que apenas transmitem para
este representante do grupo. Alm disso, pode-se aplicar alguma transformao nesses da-
dos no nvel dos clusters, como por exemplo no caso de medio de temperatura transmitir
a mdia de cada grupo, em vez da informao de cada sensor.
As principais referncias que tratam deste assunto no empregam explicitamente a ana-
logia existente entre esse problema e o problema de amostragem e reconstruo de sinais.
Alencar-Neto (2008) e Frery et al. (2008) estabelecem formalmente essa analogia, e propem
medidas de erro na reconstruo do sinal empregando diferentes tcnicas de amostragem e
de reconstruo (ambas utilizando clulas de Voronoi).
A dissertao demestrado deAlencar-Neto
Figura 2.10: Clusters gerados pelo LEACH,com clusters identificados pelas cores atribu-das aos sensores
(2008) generaliza esses resultados, conside-
rando (alm da amostragem e da recons-
truo por clulas de Voronoi) amostragem
baseada em funes caractersticas dos sen-
sores (dando, assim, maior realismo ao es-
tudo) e kriging simples na reconstruo do
sinal. Esta ltimamostrouproduzir resulta-
dos significativamente melhores do que os
gerados pela reconstruo por Voronoi na
maioria dos casos.
2.5.1 Agrupamentopelo algoritmo
LEACH
O algoritmo LEACH (Low Energy Adaptive Clustering Hierarchy Heinzelman et al., 2000,
2002) prope a diviso dos ns sensores numaquantidade pr-definidade clusters. Escolhem-
se aleatoriamente os clusterheads e os integrantes de cada grupo so definidos atravs de
uma funo queminimize a distncia entre osmembros de um cluster e seu clusterhead (ver
figura 2.10).
Esse processo ocorre numa etapa de configurao, prvia ao inicio do sensoriamento.
Determina-se uma janela de tempo em que essa configurao permanece at que haja a
reconfigurao da rede, onde os clusterheads se alternam, numa tentativa de minimizar o
desgaste desses sensores, visto que eles promovemmais comunicao, gastandomais ener-
gia.
2.5. REDES DE SENSORES SEM FIOS 22
Neste protocolo h uma srie de fatores no especificados e ainda h a premissa de que
cada clusterhead comunica-se diretamente como sink, semnecessitar transmitir dados para
outros sensores e que estes os repassem (comunicao single-hop). Entretanto, em diversos
casos esse escopo no retratar uma situao real. Dentre as diversas variaes deste proto-
colo encontradas na literatura,muitas que desconsideram essa restrio.
2.5.2 Agrupamento pelo algoritmo SKATER
Uma outra alternativa para o processo de agrupamento de sensores o protocolo SKATER
(Spatial Kluster Analysis by Tree Edge Removal Assuno et al., 2006). A abordagem ado-
tada prover grupos com dados o mais correlacionados o possvel.
Os sensores so organizados num grafo onde cada um determina um vrtice. As arestas
so definidas pelo raio de comunicao (ver figura 2.12, que apresenta o grafo correspon-
dente aos sensores da figura 2.11).
Figura 2.11: Sensores espalhados sobre uma superfcie
Dado que um sensor consegue se comunicar com outro, atribui-se um peso a aresta que
representa a distncia entre os dados amostrados naquele instante pelos sensores. Conside-
rando esses pesos calcula-se uma rvore geradora (subgrafo contendo todos os vrtices do
grafo original, enretanto apenas um caminho de um n a outro, conforme a figura 2.13) de
customnimo (a soma dos pesos das arestas para se percorrer de um vrtice a outro possuir
o menor valor possvel).
Dessa rvore subtraem-se as n arestas de maior peso, onde n representa a quantidade
desejada de clusters. Os subgrafos resultantes conexos definem cada um dos grupos (ver
figura 2.14). Note-se que os clusterheads no possuem fator determinante na formao dos
clusters.
2.6. RELAO ENTRE A GEOESTATSTICA E AS REDES DE SENSORES SEM FIOS 23
1110
1
0
3 2
5 4
76
9
85,27
3,02
1,01
3,62
2,51
4,24
0,49
1,61
3,23
4,63
1,77
1,31
0,45
1,65
1,48
5,46
2,76
4,71
2,20 1,80
3,81
0,56
2,27
2,01
1,97
1,03
0,79
4,56
1,603,98
0,26
0,07 1,52
2,10
0,75
2,83
1,71
1,24
0,75
3,26
3,06
2,47
3,21
5,42
0,17
0,19
2,36
5,72
2,27
3,32
2,95
2,21
0,960,82
1,46
3,75
0,86
Figura 2.12: Grafo construdo a partir de 12 ns sensores (0 a 11)
1110
1
0
3 2
5 4
76
9
8
0,49
1,61
1,48
0,56
0,79
0,26
0,07
0,750,17
0,19
0,96
Figura 2.13: rvore Geradora Mnima do grafo de sensores da figura 2.12
Assim, os grupos devero conter os sensores de dados amostradosmais correlacionados.
Bemcomonoprotocolo LEACH, h etapas de configurao e reconfigurao,paraminimizar
o desgaste energtico nos clusterheads.
2.6 Relao entre aGeoestatstica e as Redes de Sensores sem
Fios
O objetivo deste trabalho avaliar a conexo entre a geoestatstica e as Redes de Senso-
res sem Fios, apontada j por Frery et al. (2010); Alencar-Neto (2008); Aquino et al. (2008);
Camilli et al. (2007); Frery et al. (2008); Jedermann & Lang (2009); Ni et al. (2009); Umer et al.
(2008). Para tal, no captulo 3 ser construdo ummodelo de simulaes.
O ambiente simulado o de Redes de Sensores sem Fios nos mais diversos cenrios de
2.6. RELAO ENTRE A GEOESTATSTICA E AS REDES DE SENSORES SEM FIOS 24
1110
1
0
3 2
5 4
76
9
8
0,49
1,61
1,48
0,56
0,79
0,26
0,75
0,19
0,96
Figura 2.14: Diviso dos sensores da figura 2.12 em 3 clusters pelo algoritmo SKATER
dados. Neles, so aplicados os dois algoritmos de agrupamento definidos na seo 2.5 que
provem os dados amostrados. Com estes dados, aplicam-se os algoritmos de kriging defi-
nidos nas sees 2.4.1 e 2.4.2 e os sinais reconstrudos so avaliados.
Uma proposta de modificao no algorito definido pela seo 2.4.2 tambm efetuada,
visando no s ganho no resultado do sinal obtido bem como no custo computacional.
IIIModelagem proposta
R may be the wrong tool for the job, but its the wrong job.
Rolf Turner
R-help (maio de 2008)
A avaliao dos algoritmosde reconstruo de sinais apresentadosno captulo 2 foi efetu-ada atravs de simulaesMonteCarlo implementadas na plataforma R. Neste captuloseguem os detalhes da modelagem e implementao do sistema de simulaes e de como
os dados foram gerados.
3.1 Modelo formulado
O cenrio de simulaes foi montado atravs de umprocesso estocstico gaussiano estacio-
nrio isotrpico {S(x) : x R2}, onde x denota a posio geogrfica das variveis aleatrias.Os dados so amostrados na forma (x, y), onde y representa uma ocorrncia da varivel ale-
atria S(x).
Seguem novas definies necessrias a compreenso da implementao domodelo.
3.1.1 Sinal de origem amostrado
Os dados utilizados nas simulaes so provenientes de campos aleatrios gaussianos
{S(x) : x R2} gerados pelos mtodos apresentados por Chan &Wood (1997); Lantuejoul(2002) e Schlather (1999).
Neste trabalho adotou-se omodeloMatrn (ver seo 2.2.1), citado comomodelo de cor-
relaomais utilizado em geoestatstica (Bivand & Pebesma, 2008; Diggle & Ribeiro Jr., 2007;
Le & Zidek, 2006), para as variveis aleatrias do campo gaussiano. Assim, pode-se variar os
25
3.1. MODELO FORMULADO 26
parmetros deste modelo de forma a gerar situaes diversas. Os parmetros variados so
mdia, varincia, coeficiente de suavizao () e escala (). Este ltimo permite modelar,
dentre outras aplicaes, a intensidade da luz que chega ao solo de uma floresta, em funo
da densidade da folhagem das rvores (ver Alencar-Neto, 2008).
A partir deste ponto, sempre que for referido um campo gaussiano ele ter mdia zero
e varincia unitria. Exemplos de campos aleatrios gaussianos com parmetros variados
podem ser vistos na figura 3.1.
(a) = 1 e = 1 (b) = 1 e = 5
(c) = 5 e = 1 (d) = 5 e = 5
Figura 3.1: Exemplos de campos aleatrios gaussianos de 100100 pontos, mdia 0 e vari-ncia 1, variando parmetros de suavizao () e escala (), onde utiliza-se uma escala decores para representar a mudana de valores
3.1.2 Processos pontuais e a distribuio dos sensores
A distribuio dos sensores segue o modelo proposto por Alencar-Neto (2008); Frery et al.
(2008), utilizandoprocessos pontuais (Baddeley, 2006) para distribuir os ns sensores. Estes,
3.1. MODELO FORMULADO 27
somodelos estocsticos que descrevem a distribuio de dados no espao. Para a compre-
enso do modelo adotado, necessrio incluir algumas definies com base nos textos de
James (2006); Alencar-Neto (2008), a saber.
Definio 27 (Processo Estocstico Poisson). Sendo Ekt ,t a notao para k eventos ocorridos
no intervalo de tempo (t , t +t ], a distribuio de um processo de Poisson pode ser definidacomo Pr(Ek0,t )= (t )ket/k ! Sua caracterizao se d pelo parmetro de intensidade e peloparmetro , com a relao (t )= t , que denota a quantidade esperada de eventos por uni-dade de tempo. As seguintes hipteses seguem da probabilidade acima:
1. Pr(Ekt ,t+t )= Pr(Ek0,t ), k, t e t ;
2. Pr(Ek1t1,t1 Ek2t2,t2
)= Pr(Ek1t1,t1 )Pr(Ek2t2,t2
) se (t1,t1] (t2,t2]=;;
3. limt0
Pr(Ea0,t )
Pr(Eb0,t )= 0, com a 2 e b 1.
Definio 28 (Processos pontuais Homogneos com Independncia). So processos pon-
tuais onde a quantidade de eventos esperados (parmetro ) constante, ou seja, dado um
processo {S(x) : x Rd }, (x)=> 0,x Rd .
A partir deste ponto, considere-se todo processo estocstico com dimenso 2.
Definio 29 (Distribuio Uniforme). Uma varivel aleatria contnua X : {x R : x } segue a distribuio uniforme se sua densidade for dada pela funo f (t ) =()11(a,b)(t ), com 0 e > 0. p1,p2, . . . ,pn representam os pontos deste processo em um subconjuntoA Rd , onde o nmero de pontos de qualquer conjunto B A, denominado N (B) possuir asseguintes propriedades:
1. N (B) segue uma distribuio de Poisson de mdia (B) definida porB (u)du, tal que
(u) constante para todo u B;
3.1. MODELO FORMULADO 28
2. as variveis aleatrias N (B1), . . . ,N (Bn) so coletivamente independentes se os conjun-
tos B1, . . . ,Bn forem disjuntos.
A partir da, um processo pontual Binomial ser um processo pontual de Poisson condicio-
nado ao nmero de pontos n. Exemplos de processos pontuais Poisson podem ser observados
na figura 3.2. Estes podem ser encarados como exemplos de processos pontuais binomiais com
n dado em 3.2a, 3.2b, 3.2c e 3.2d.
(a) n = 94 pontos (b) n = 95 pontos
(c) n = 100 pontos (d) n = 94 pontos
Figura 3.2: Exemplos de um processo pontual de Poisson com = 100
Definio 33 (Processos pontuais no homogneos). Num processo pontual no homog-
neo a intensidade do parmetro pode variar de acordo com a rea onde o processo apli-
cado. Assim possvel construir processos onde a probabilidade de se obter n pontos varie em
decorrncia da rea de A em questo. Pode-se construir um processo desse tipo definindo sua
intensidade como uma funo tal que : AR+ comB
3.1. MODELO FORMULADO 29
Definio 34 (Processo pontual Poisson no homogneo). umconjunto de pontos P1, . . . ,Pn
localizados num conjunto A R2 tal que o nmero de pontos N (B) de qualquer B A possuias seguintes propriedades:
1. N (B) segue umadistribuio de Poisson demdia(B) tal que (u) varia de acordo com
a funo de intensidade : AR+ qualquer que seja u B;
2. as variveis aleatrias N (B1), . . . ,N (Bn) so coletivamente independentes se os conjun-
tos B1, . . . ,B2 forem disjuntos.
Exemplos de um processo de Poisson no homogneo podem ser observados na figura 3.3
com (x, y)= xex , cujo comportamento pode ser observado na figura 3.4.
(a) = 10 (b) = 50
(c) = 75 (d) = 100
Figura 3.3: Exemplos de um processo pontual de Poisson no Homogneo com (x, y) =xex
3.1. MODELO FORMULADO 30
Figura 3.4: Perspectiva da funo de intensidade (x, y)= xex
Definio 35 (Processo Pontual SSI Matrns Simple Sequential Inhibition). Define-se de
forma iterativa, com tentativas de por n pontos atravs de uma distribuio uniforme de m-
dia 2n numa regio A. Com um parmetro de distanciamento obrigatrio (raio de inibio)
r , insere um primeiro ponto em A e efetuam-se at T tentativas para cada um dos n1 pon-tos restantes, sendo estas bem sucedidas se nenhuma das distncias entre este ltimo ponto e
quaisquer outro for menor ou igual a r , caso contrrio, o ponto descartado. Na figura 3.5
pode-se observar exemplos de um processo SSI de n = 100, T = 1.000 e raio de inibio vari-ando em r = {0,01, 0,05, 0,10, 0,11}.
Uma vez definidos esses processos pontuais, pode-se definir o processo composto C
(Alencar-Neto, 2008; Frery et al., 2008).
Definio 36 (Processo pontual compostoC ). Objetivandomodelar as possveis situaes de
deposio de sensores a uma Rede de Sensores sem Fios, o processo composto C (n,), onde
denomina-se coeficiente de atratividade, implementado como segue, numa rea A R2.
Independente: processo pontual Binomial definido na regio A, na forma B [n,A].
Atrativo: composio de dois processos de Poisson, um com intensidade sobre uma rea
alvo A A e outro com intensidade , sobre a rea A\A, na forma S[n,].
3.1. MODELO FORMULADO 31
(a) r = 0,01 (b) r = 0,05
(c) r = 0,10 (d) r = 0,11
Figura 3.5: Exemplos de um processo pontual de SSI com n = 100 e T = 1.000
Repulsivo: processo pontual SSI com raio de inibio rmax = n1/2, na forma SSI[n,rmax,A].
Regular: situao de repulso extrema, quando =.
Assim, este processo ser definido como
C (n,)=
SSI (n,rmax(1e)), se < 0
B(n), se 0 1S(n,), se > 1.
(3.1)
Na figura 3.6 pode-se observar exemplos do processo composto C.
Dado que para se espalhar sensores sobre grandes regies omeiomais comum o uso de
avies, os quais depem os ns sensores, modela-se este procedimento atravs do processo
C . Sob um plano de voo de altura constante, os sensores so depositados gradativamente,
3.1. MODELO FORMULADO 32
num processo repulsivo (figura 3.6a). Caso sejam lanados muitos sensores de uma nica
vez, ns tendem a se aglomerar numa parte da regio, conforme um processo atrativo (fi-
guras 3.6c e 3.6d). Quando no h controle a deposio e esta se d de forma totalmente
aleatria, caracteriza-se um processo independente (figura 3.6b).
(a) =10: processo repulsivo (b) = 0: processo independente
(c) = 10: processo atrativo (d) = 50: processo fortemente atrativo
Figura 3.6: Exemplos do processo compostoC com n = 100
Este processo composto C ser um caso particular de um processo mais complexo, o
M2P2. Seguem as definies necessrias, extradas do trabalho de Ramos et al. (2010).
Definio 37 (Multilevel Marked Point Process). O processo M2P2(n,,m,rc ,ri ) representa
diversas possibilidades de deposio de sensores, onde n representa a quantidade de sensores e
o coeficiente de atratividade, m a quantidade de H-sensors (um grupo pequeno de sensores
com quantidade menor que a metade do total), rc o raio mximo de comunicao dentre os
L-sensors (sensores alm dos H-sensors), ri o raio de inibio dentre os H-sensors. Seja um
nmero pequeno m > 1 de H-Sensors num grupo n >m de L-Sensors num crculo de raio
3.1. MODELO FORMULADO 33
rc > 0 centrado em cada H-Sensor. Os H-Sensors so depostos e em seguida os L-Sensors sodepostos prximos aosH-Sensors. Seja um processo pontual de Poisson de funo de inten-
sidade
(x, y)={ se d((x, y), (hxi ,hyi )) rc ,1 i m,1 caso contrrio,
onde d uma medida de distncia (neste trabalho, a euclidiana), {(hx1 ,hy1), . . . , (hxm ,hym )}
so as coordenadas dos H-Sensors e rc o raio mximo de comunicao dos L-Sensors.
Denote-se este processo por (n m,,rc ,h). O processo M2P2 um processo composto dem amostras de H(m,ri ), osH-Sensors, e nm amostras de(nm,,rc ,h), os L-Sensors. Oprocesso corresponde as seguintes configuraes de :
=1 processo totalmente binomial,= 0 processo repulsivo para osH-Sensors e binomial para os L-Sensors,
> 0 processo repulsivo para osH-Sensors e atrativo em torno dosH-Sensors para os L-Sensors.
(3.2)
Exemplos dessas situaes podem ser observados na figura 3.7.
3.1.3 Reconstruo do sinal
O sinal sera reconstrudo utilizando os algoritmos de kriging definidos nas sees 2.4.1 e
2.4.2 alm de algumas variantes. So estas:
kriging simples commdia constante
kriging simples commdia computada atravs de mnimos quadrados ordinrios
kriging simples commdia computada por mnimos quadrados generalizados
kriging ordinrio
kriging bayesiano
kriging bayesianomodificado (mdia computada pormnimos quadrados generaliza-
dos).
Uma vez com os campos devidamente reconstrudos, utilizar-se-o os valores compu-
tados pelas funes de kriging dos parmetros e para reconstruir os campos gaussia-
nos com a mesma funo que os gerou na primeira etapa do processo. Esse processo est
representado no diagrama da figura 3.8. Da natureza (N ) representa-se numericamente
um fenmeno de interesse (F representado em V ). Desse fenmeno coletam-se 50 valores
(R50) em pontos correspondentes s localizaes de sensores depostos (S), nos quais por
3.1. MODELO FORMULADO 34
(a) =1
(b) = 0 (c) = 5
(d) = 15 (e) = 30
Figura 3.7: Exemplos do processoM2P2, com raio de comunicao 20, raio de sensoriamento5 e 6H-Sensors, para 100 sensores, variando o valor de , onde cadaM denota um L-sensor e umH-sensor
3.2. IMPLEMENTAONA PLATAFORMA R 35
um algoritmo de agrupamento () sero compostos 6 grupos, totalizando 6 valores de m-
dia aritmtica de cada grupo (R6). Com esses valores reconstri-se o sinal de origem com a
computao dos parmetros dos campos gaussianos do sinal de origem ( e , representa-
dos por ). A partir desses valores reconstrem-se os valores numricos do campo gaussiano
de origem (R100100).
NF R100100 S R50 R6 R100100
Figura 3.8: Diagrama ilustrativo da reconstruo dos campos gaussianos com base nos valo-res inferidos aos parmetros e pelos algoritmos de kriging
3.1.4 Validao domodelo
O modelo ser validado atravs do Mtodo de Monte Carlo (Metropolis & Ulam, 1949;
Murray, 1953; Robert & Casella, 1999), que consiste na repetio exaustiva do procedimento
utilizando dados diferentes, porm provenientes do mesmo processo. Para aferir a quali-
dade dos algoritmos,utilizam-se trsmtricas de qualidade: o vis (definio 39), a varincia
(definio 16) e o Erro Quadrtico Mdio (definio 40).
Definio 38 (Estimador). Constitui uma funo (ou sistemas de equaes) definida para
estimar o valor de um ou mais parmetros de uma distribuio D com base nas ocorrncias
de uma varivel aleatria X que siga a distribuio D.
Definio 39 (Vis). O vis do estimador , denotado B[], a diferena entre o valor espe-
rado do estimador e o verdadeiro valor do parmetro: B[]=E[].
Um estimador cujo vis seja igual a zero e dito no viesado.
Definio 40 (Erro Quadrtico Mdio EQM). Uma medida que leve em considerao no
apenas o quanto o valor estimado se distancia do valor verdadeiro como tambm avalie a
varinca dos valores estimados de grande importancia na avaliao de estimadores. Para
tal, o Erro Quadrtico Mdio define-se como EQM() = B2[]+Var(). Para um estimadorno viesado, o EQM reduz-se varincia do estimador.
3.2 Implementao na plataforma R
Diversos so os trabalhos que trazem tona a problemtica da falta de preciso numrica em
programas cientficos. Dentre diversos outros, podemos citar os trabalhos de Almiron et al.
(2009, 2010); Altman &McDonald (2001); Bustos & Frery (2006); Kennedy & Gentle (1980);
3.2. IMPLEMENTAONA PLATAFORMA R 36
Callaert (2003); Altman et al. (2007); Oliveira & Stewart (2006), que no s avaliam o erro de
plataformas numricas como apresentam diversos erros que lhes so recorrentes, inclusive
trabalhos como o de Andel & Yasinac (2006), que avalia imprecises em simuladores de Re-
des de Sensores sem Fios. Sem a certeza de que os resultados so realistas, uma anlise
torna-se invivel.
R (R Development Core Team, 2009) uma linguagem e um ambiente de computao
funcional com um vasto ferramental de suporte estatstica computacional. um pro-
jeto da GNU (http://www.gnu.org) sob a licensa GPL (Michaelson, 2004; Ueda, 2005), fa-zendo parte dos programas de cdigo aberto denominados FLOSS (Free/Libre Open Source
Software). A qualidade de suas propriedades numricas pode ser aferida no trabalho de
Almiron et al. (2009).
Em seus repositrios oficiais (http://cran.r-project.org/mirrors.html) possvelencontrar uma vasta quantidade de pacotes que possibilitam incluir novas funes.
A base inicial das ferramentas de geoestatstica utilizadas nesse trabalho provm do pa-
cote geoR (Ribeiro Jr. & Diggle, 2001) que implementa os algoritmos de kriging simples, or-
dinrio e bayesiano. Uma nova verso do algorito de kriging bayesiano tambm proposta
modificando o j existente para que a mdia seja computada por mnimos quadrados gene-
ralizados, levando em conta os parmetros de covarincia, e que seja mantida fixa (no ser
ocorrncia de uma varivel aleatria, conforme definido na seo 2.4.2).
Para a implementao do algoritmo de agrupamento SKATER utiliza-se o pacote igraph
(Csardi & Nepusz, 2006), que implementa diversas operaes em grafos, alm de uma con-
veniente estrutura de dados para armazenamento dos grafos.
Os dados do sinal de origemprovm de funes para gerar campos aleatrios gaussianos
do pacote RandomFields (Schlather, 2009) e o ferramental para uso de processos pontuais
implementado pelo pacote spatstat (Baddeley & Turner, 2005).
A implementao do processo composto M2P2 a provida por Ramos et al. (2010).
O sistema de simulaes, ento, efetua as etapas enuciadas abaixo, com elementos refe-
renciados do diagrama da figura 2.8.
Gerao do sinal de origem: gera-se um campo aleatrio gaussiano (V ).
Deposio dos sensores: os sensores so depostos (S).
Agrupamento dos sensores: executa-se um algoritmo de agrupamento ().
Amostragem: os dados so coletados na forma (x, y), onde x denota o posicionamento ge-
ogrfico e y uma ocorrncia da varivel aleatria Y , que representa os dados amos-
trados no ponto x (V ). Ao se utilizar um algoritmo de agrupamento, cada clusterhead
efetua uma fuso dos dados de seu cluster e os valores coletados seguem com o posi-
cinamento geogrfico do clusterhead; apenas a informao fundida transmitida, da
mesma forma utilizada por Nordio et al. (2010).
3.2. IMPLEMENTAONA PLATAFORMA R 37
Reconstruo do sinal: o sinal reconstrudo por um algoritmo de kriging (F ).
Para que os resultados sejam os mais realistas o possvel, so analisados sensores de-
postos atravs do processo M2P2 com coeficiente de atratividade 1, 0, 5 e 30. Em cadacampo gaussiano os sensores so depostos em suas cinco configuraes; em cada uma das
configuraes executam-se os dois algoritmos de agrupamento (sees 2.5.1 e 2.5.2), alm
de uma verso sem considerar agrupamentos; executam-se os trs algoritmos de kriging
(sees 2.4.1 e 2.4.2); no algoritmo de kriging simples efetua-se a mdia informada, com-
putada por mnimos quadrados ordinrios e computada por mnimos quadrados generali-
zados, considerando os valores de covarincia inferidos; no kriging bayesiano efetua-se o
algoritmo em sua forma tradicional, com mdia informada e com mdia computada por
mnimos quadrados generalizados consedirando os valores de covarincia inferidos. O di-
agrama da figura 3.9 ilustra o modo como as simulaes se processam, considerando que
cada transio (representa pelas setas) deve contemplar todos os parmetros.
Figura 3.9: Diagrama ilustrativo do sistema de simulaes
3.3. AMBIENTE DE EXECUO 38
3.3 Ambiente de execuo
A execuo das simulaes demanda grande poder computacional. Para tornar vivel a exe-
cuo de um estudo Monte Carlo com as variveis supracitadas utiliza-se de um ambiente
de computao de alto desempenho.
O ambiente em questo o cluster de computadores integrado GradeBR-UFAL, inte-
grado Rede Galileu (integrao dentre supercomputacores de quatro instituies: UFAL,
UFRJ, PUC-Rio e USP) do Laboratrio de Computao Cientfica e Visualizao da Uni-
versidade Federal de Alagoas. Este cluster composto de aproximadamente 170 ns com
dois processadores, cada um destes com quatro ncleos de processamento Intel Nehalem
(Intel Corporation, 2008), e 24GB de memria RAM. Entretanto o cluster ainda se encontra
em fase de implantao, no havendo disponibilidade de grande parte de seus ns, nem de
grades perodos para computaes.
O sistema de paralelizao das simulaes foi desenvolvido em linguagem C (ver c-
digo 3.1), utilizando a interface de paralelizao MPI (Walker & Dongarra, 1994). A imple-
mentao desta interface a OpenMPI (Gabriel et al., 2004), portvel diversas plataformas
(GNU Linux,MacOS,MicrosoftWindows, BSD e diversosmodelos baseados emUnix). O sis-
tema operacional utilizado o GNU Linux CentOS (http://centos.org) verso 5.4, kernelverso 2.6.18-164.el5 compilado para x86_64 (arquitetura amd64). O compilador utilizado
o Intel Compiler verso 11 (http://software.intel.com/en-us/intel-compilers).
1 cont
3.4. RESULTADOS ESPERADOS 39
20 Se rank = 021 {22 Se cont >= Total de arquivos23 incompleto
IVAnlise dos resultados
Will Frank Harrell or someone else please explain to me a real application in which this is
not fast enough?
Brian D. Ripley
R-devel (dezembro de 2004)
UMA vez comos dados da simulaomodelada no captulo 3, procedeu-se a anlise esta-tstica. Como as simualaes foram efetuadas atravs do mtodo de Monte Carlo porFora Bruta (Metropolis & Ulam, 1949; Murray, 1953; Robert & Casella, 1999), analisaram-se
o vis, a varincia e o erro quadrtico mdio dos estimadores.
Um aspecto importante na contruo desse processo a defino da ferramenta utili-
zada para a simulao. Como j apresentado na seo 3.2, a plataforma adotada foi o R
(R Development Core Team, 2009), devido a suas boas propriedades numricas. O uso de
outras plataformas foi avaliado, especifiamente plataformas de planilhas eletrnicas.
4.1 Implementao de simulaesMonte Carlo na literatura
A literatura sobre simulaes de Monte Carlo extremamente vasta. Uma busca simples
no ISI Web of Knowledge/Web of Science com a chave monte carlo retorna mais de 100.000
resultados.
Encontram-se disponveis diversos estudos que implementam simulaes Monte Carlo
utilizando planilhas eletrnicas. Dentre diversos outros, pode-se citar trabalhos, como o
de Li & Low (2010), que apresenta uma nova metodologia para anlise de riscos na sade
pblica; Tatone & Grasselli (2010) com uma modelagem probabilstica para o tombamento
de blocos com implementao baseada em planilhas eletrnicas; Schilstra &Martin (2009)
40
4.2. CRITRIOS PARA PESQUISA REPRODUZVEL 41
afirma que resultados interessantes de aplicaes simples sempre podem ser obtidos por si-
mulao deMonteCarlo emplanilhas eletrnicas; Rivard et al. (2009) efetua anlises de ben-
chmark para um equipamento de braquiterapia; Oscar (2009) modela a vida e crescimento
da salmonela.
Um maior destaque se d a trabalhos com grande nmero de citaes, como o de
Thompson et al. (1992), que extende modelagens da anlise de riscos na sade pblica;
Lindqvist & Westoo (2000) modelam uma avaliao de riscos ecotoxicolgicos em bacias;
e o de Vose (1998), que apresenta mtodos para anlise da contaminao de gneros ali-
mentcios. Esses trs ltimos trabalhos possuem mais de 40 citaes no ISI Web of Kno-
wledge/Web of Science, sendo os atualmentemais citados em uma busca com a chave spre-
adsheet monte carlo.
O uso das planilhas eletrnicas bastante difundido devido a sua facilidade de uso,como
pode ser visto no stio da European Spreadheet Risks Interest Group (2010). Nele podem ser
encontrados diversos casos de uso bem como histrias de desastres por erros em planilhas.
Ao mesmo tempo h diversos artigos na literatura que criticam o uso de planilhas em
aplicaes estatsticas devido a problemas numricos que lhes so recorrentes (ao exem-
plo de, dentre diversos outros,McCullough, 2008a,b, 2004, 1999, 1998;McCullough & Heiser,
2008; McCullough &Wilson, 2005, 2002, 1999; Nash, 2008, 2006). Entretanto, no incio deste
trabalho apenas foram encontradas disponveis na literatura anlises doMicrosoft Excel at
a verso 2003 e GNU Gnumeric; nada foi encontrado sobre outras planilhas eletrnicas, a
exemplo do OpenOffice.org Calc, a mais difundida dentre a comuindade Open Source. Isso
motiva a uma sria avaliao das propriedades numricas das planilhas eletrnicas antes de
seu uso.
4.2 Critrios para pesquisa reproduzvel
Para que a pesquisa possa ser validada por outros pesquisadores, a mais importante de suas
caractersticas a reproducibilidade. S atravs da capacidade de reproduzir os experimen-
tos e verificar a consistncia dos dados se podem avaliar a corretude dos resultados e a per-
tinncia das concluses.
O modelo adotado para suprir esta propriedade est detalhado por Koenker & Zeileis
(2009), almde uma vasta quantidadede informaes disponibilizadaspor Vandewalle et al.
(2009). As principais caractersticas necessrias s experinciasMonte Carlo so:
independncia de plataforma de sistema operacional;
independncia de plataforma de hardware;
capacidade de reproduzir a sequncia de nmeros pseudoaleatrios;
boas propriedades numricas.
4.2. CRITRIOS PARA PESQUISA REPRODUZVEL 42
Efetuou-se esta anlise nas planilhas eletrnicas mais difundidas, cujo contedo deta-
lhado pode ser obtido no trabalho de Almiron et al. (2010). As plataformas avaliadas, cujas
verses e arquiteturas de sistema esto apresentadas na tabela 4.1, foram:
OpenOffice.org Calc (http://www.openoffice.org/product/calc.html)
Microsoft Excel (http://www.microsoft.com/Excel)
GNU Gnumeric (http://www.gnome.org/gnumeric)
NeoOffice NeoCalc (http://neowiki.neooffice.org/index.php/NeoCalc)
GNUOleo (http://www.gnu.org/software/oleo).
Plataforma Calc Excel Gnumeric NeoOffice OleoHardware OS 2.4.1 3.0.1 2007 2008 1.8.3 1.9.1 2.2.5 3.0 1.99.16
Windows ! ! ! !i386
Ubuntu ! ! ! !
amd64 Mac OS ! ! ! !
Tabela 4.1: Plataformas de planilhas eletrnicas avaliadas
Para avaliar os geradores de nmeros pseudoaleatrios, adotaram-se os princpios de
Ripley (1990, 1987), que diz que bons geradores de nmeros pseudoaleatrios devem prover
sequncias numricas com as seguintes propriedades:
1. devem seguir a distribuio uniforme;
2. vetores de dimenso moderada de variveis aleatrias diferentes, mas do mesmo ge-
rador, devem ser coletivamente independentes;
3. devem ser reproduzveis atravs de poucos parmetros simples de especificar (a se-
mente), independente do ambiente computacional (hardware, sistema operacional,
linguagem de programao),
4. devem ser produzidas rapidamente,
5. devem possuir longos perodos.
Apenas atravs destes parmetros, simulaes Monte Carlo j se tornam inviveis em
planilhas eletrnicas, visto que apenas numa delas h documentao e possibilidade de in-
formar a semente (Excel 2007). De acordo com sua documentao, o gerador de nmeros
pseudoaleatrios implementado seria o de Wichmann & Hill (1982), entretanto, seguindo
a mesma metodologia de McCullough (2008a), pde-se verificar que essa informao est
incorreta. O gerador tambm no corresponde a nova verso deste gerador proposta por
4.3. DADOS OBTIDOS COM A SIMULAO 43
Calc Excel 2007 Excel 2008 Gnumeric NeoOffice Oleo
Documentao N S-incorreta N S N NSemente N S N N N N
Tabela 4.2: Documentao e disponibilidade de informar a semente em geradores de nme-ros pseudoaleatrios de planilhas eletrnicas
Wichmann & Hill (2006). A situao dos geradores dessas planilhas est resumida na ta-
bela 4.2.
No ambiente adotado, o R, h diversos geradores de nmeros pseudoaleatrios imple-
mentados. O gerador atualmente padro e utilizado neste trabalho o Mersenne-Twistter
(Matsumoto & Nishimura, 1998), que possui todas as propriedades supracitadas, com um
perodo de 2199371.
4.3 Dados obtidos com a simulao
Os dados resultantes do ensaio Monte Carlo foram os campos gaussianos reconstrudos, o
valor dos parmetros e e o valor estimado para a mdia, nos casos em que esta no foi
informada.
Para garantir a fidelidade nos valores a serem comparados, uma vez com os parme-
tros estimados os campos gaussianos so reconstrudos atravs da mesma funo que os
gerou. O valor das mdias tambm utilizado na reconstruo e analisado isoladamente.
Essa ltima anlise se torna relevante uma vez que, excesso do kriging ordinrio que pos-
sui estimador prprio para a mdia, os algoritmos so flexveis no modo como a mdia
computada. Tanto ela pode ser informada como estimada por padro atravs de mnimos
quadrados generalizados. Essa operao pode ter custo computacional invivel sistemas
de tempo real.
4.4 Anlise da qualidade do sinal reconstrudo
Conforme apontado por Diggle & Ribeiro Jr. (2007), o modelo de correlaoMatrn omais
utilizado por apresentar comportamento de interesse a diversos cenrios e possuir para-
metrizao no s de distanciamento () como tambm de suavizao de suas curvas ().
Assim sendo, as anlises deste trabalho consideram esse modelo de correlao.
4.4.1 Anlise do comportamento dos parmetros domodelo
Para a estimao dos parmetros e necessrio informar um ponto de partida para o
algoritmo. Em ambos os casos o valor informado foi 0,5, que, nos resultados onde se obteve
4.4. ANLISE DA QUALIDADE DO SINAL RECONSTRUDO 44
dados suficientes para anlise (100 replicaes), coincidiu com o valor real do parmetro .
O valor encontrado pelo estimador do parmetro foi este informado como partida (valor
correto). Os resultados das estimativas do parmetro encontram-se na tabela 4.3.
Kriging
Agrupamento Simples Ordinrio Bayesiano
Vis EQM Vis EQM Vis EQM
0,267981 11.26781 1,2875495 2.101374 0,07658597 0.007924418LEACH 6,98646 120,6482 8,78553 172,2060 2,135116 4,571751SKATER 3,47729 48,02378 274.238 81109 1,193697 8.668885
Tabela 4.3: Vis e EQM dos estimadores do parmetro para o valor real de = 5 e = 0,5
Nos cenrios avaliados, o modo como amdia foi informada no influenciou na estima-
tiva do parmetro . O kriging bayesiano apresentou resultado qualitativo muito superior
aos demais. O estimador utilizado pelo kriging ordinrio apresenta desvio muito grande, se
comparado aos outros algoritmos.
No caso do algoritmode agrupamento LEACH, a ordemdequalidade se repete, conforme
a tabela. As diferenas qualitativas no estimador de so bastante acentuadas, reforando
a qualidade superior nos dados providos pelo kriging bayesiano. Os resultados do algoritmo
de agrupamento SKATER so superiores qualitativamente aos do LEACH, mas consideravel-
mente inferiores aos sem agrupamento, excesso do kriging ordinrio, que apresenta uma
estimativa totalmente desviada do valor correto neste cenrio.
Dentre os trs tipos de kriging avaliados quanto a este estimador do parmetro , o kri-
ging bayesiano apresentou os melhores resultados. Estes resultados so melhores ainda ao
no se utilizar algoritmos de agrupamento. Para o caso com algoritmo de agrupamento,
o SKATER apresenta os melhores resultados, excesso do kriging ordinrio, que apresenta
umvis extremamente alto, indicandopossveis problemas do estimador como cenrio ava-
liado. Note-se que o comportamentodo estimador utilizadopelo kriging bayesiano sem uso
de algoritmo de agrupamento, mesmo sendo inferior aos demais, no apresenta vis muito
alto.
Como formade se obter umamedida unificadade qualidade,utiliza-se o ErroQuadrtico
Mdio (EQM ver definio 40). Neste, obtm-se uma conceituao que leva emconta o vis
e a varincia.
Em todos os casos o estimador utilizado pelo kriging bayesiano apresenta resultados
qualitativamentemuito superiores ao demais algoritmos. O destaque aindamaior quando
no se usa algoritmo de agrupamento, onde o EQM reduz-se para menos de 102. exces-
so dos resultados sem uso de algoritmo de agrupamento, onde o kriging ordinrio supera
os do kriging simples, este apresenta resultados superiores aos daquele. Os resultados do
algoritmo SKATER so superiores aos do algoritmo LEACH, mas bastante inferiores se com-
4.4. ANLISE DA QUALIDADE DO SINAL RECONSTRUDO 45
parados aos sem uso de algoritmo de agrupamento.
4.4.2 Anlise do campo gaussiano reconstrudo
A anlise dos campos gaussianos reconstrudos divide-se em duas fases. Na primeira,
analizam-se os dados de interpolao provenientes das funes de kriging;na outra, os cam-
pos so reconstrudos com base nas estimativas dos parmetros.
Amedida de qualidade adotada neste trabalho amesmausada porAlencar-Neto(2008):
o erro absoluto relativo, descrito como
= 1104
100i , j=1
g (i , j ) g (i , j )g (i , j ) , (4.1)
onde g representa o campo gaussiano original e g o campo gaussiano recostrudo.
Campos reconstrudos por kriging
A mdia dos erros absolutos relativos oriundos dos campos reconstrudos pelo processo de
kriging em cada um dos cenrios avaliados esto expostas na tabela 4.4.
Kriging Simples commdia: Sem cluster LEACH SKATER
Informada 1,767403e-06 1,677676e-06 2,518104e-06Mnimos Quadrados Ordinrios 1,660393e-06 1,484805e-06 2,296276e-06Mnimos Quadrados Generalizados 1,672886e-06 1,555376e-06 2,299960e-06
Kriging Ordinrio commdia:
Inferida 1,545347e-06 1,572371e-06 4,322422e-06
Kriging Bayesiano commdia:
Inferida 1,565611e-06 2,567227e-06 3,256432e-06Mnimos Quadrados Generalizados 1,565611e-06 2,567227e-06 3,256432e-06
Tabela 4.4: Mdia dos erros absolutos relativos dos campos reconstrudos pelo processo dekriging com = 0,5 e = 5
Os trs tipos de kriging apresentam resultados de prximos. Sem o uso de algoritmo
de agrupamento e para o algoritmo LEACH, o kriging ordinrio apresenta os melhores re-
sultados qualitativos no sinal reconstrudo. Para o algoritmo SKATER, o kriging bayesiano
apresenta os melhores resultados.
Concordantemente aos resultados anteriores, os menores valores de de so obtidos
sem o uso de algoritmo de agrupamento. Dentre os dois algoritmos avaliados, o LEACH
apresenta os melhores resultados.
4.4. ANLISE DA QUALIDADE DO SINAL RECONSTRUDO 46
Campos reconstrudos a partir dos parmetros estimados
Comos valores dos parmetros estimados, o campo gaussianooriginal foi reconstrudo atra-
vs damesma funo que o gerou, conforme o algoritmoapresentadono cdigo 4.1. Se g a
funo que gera o campo gaussiano com os valores reais do parmetro (), a mesma funo
com os parmetros estimados () constituir a funo g , estimador de g ().
Para g computam-se asmesmas anlises efetuadas nos parmetros (vis, varincia e erro
quadrticomdio).
1 Para cada simulacao efetuada2 {3 campo
4.5. ANLISE DO TEMPONECESSRIO RECONSTRUODO SINAL 47
Kriging Simples commdia: Sem cluster LEACH SKATER
Mnimos Quadrados Ordinrios 4,750628e-08 1,546162e-06 8,08544e-07Mnimos Quadrados Generalizados 2,46977e-07 1,546162e-06 7,73929e-07
Kriging Ordinrio commdia:
Inferida 1,671397e-07 1,857702e-06 8,08544e-07
Kriging Bayesiano commdia:
Inferida 1,671397e-07 3,302198e-06 1,872057e-07Mnimos Quadrados Generalizados 1,671397e-07 3.302198e-06 1.375265e-06
Tabela 4.6: Mdia dos erros absolutos relativos dos campos reconstrudos pelos parmetrosinferidos para = 0,5 e = 5 e mdia = 100
4.5 Anlise do tempo necessrio reconstruo do sinal
Redes de Sensores sem Fios so utiliadas nos mais diversos cenrios e, dentre diversos ou-
tros, muitos envolvemdeteco de riscos iminentes, bem como incndios em florestas, con-
centrao de gases txicos (Akyildiz et al., 2002; Sha et al., 2006; Lloret et al., 2009). Nessas
aplicaes, o tempo necessrio reconstru do sinal crucial, dado que a funo do sis-
tema o combate ao fator, que em pouco tempo se propaga atingindo propores cada vez
maiores.
Assim sendo, no basta que a tcnica utilizada para a reconstruo do sinal seja efici-
ente na qualidade dos dados, mas que seja eficaz no tempo de reconstruo. Este problema
est referenciado em diversos trabalhos, dentre os quais, os de Sha et al. (2006); Lloret et al.
(2009); Fierens (2009) e Tsow et al. (2009).
importante ressaltar que isso se d a depender dos recursos computacionais. Mesmo
que atualmente no haja alternativa disponvel, possvel que em alguns anos, com o au-
mento do poder computacional disponvel, esse tpico seja preterido.
4.6 Consideraes acerca dos dados obtidos
Em virtude da alta demanda computacional requerida pelo processo de kriging bayesiano
e do fato do cluster da GradeBR-UFAL no ter sido entregue, foram realizadas simulaes
de poucos cenrios. Entretanto, encontra-se em andamento a simulao de diversos outros
cenrios que faro parte de um trabalho resultante desta pesquisa, a ser publicado.
VResultados e discusses
It was simple, but you know, its always simple when youve done it.
Simone Gabbriellini
R-help (agosto de 2005)
A anlise dos dados do captulo 4 permitiu observar amaior qualidade dos dados geradospelo algoritmo de kriging bayesiano na maioria dos cenrios avaliados. Entretantoele no apresenta bom comportamento com o algoritmo LEACH. Neste cenrio o kriging
simples apresentou os melhores resultados.
Algo a se considerar que nem sempre sua utilizao vivel em decorrncia de sua
necessidade de alto poder computacional (ver seo 4.5). exemplo, sistemas de tempo real
no so suscetveis a computaes de longos perodos de tempo; necessrio que a reao
seja imediata solicitao.
O sinal reconstrudo diretamento pelos algoritmosde kriging apresentamaior qualidade
que os gerados pela mesma funo utilizada para a construo dos campo gaussianos de
amostras, informando as estimativas dos parmetros e . Esta ltima situao, excesso
da emque se utiliza o kriging bayesiano, necessita demenor tempo de computao,uma vez
que a interpolao no necessita ser efetuada, basta estimar os parmetros e inform-los
funo que gera campos gaussianos.
O kriging que necessita de menor tempo para estimao dos parmetros e reconstruo
do campo gaussiano o ordinrio. Os parmetros e estimados no apresentam resul-
tados superiores ao kriging simples, mas os resultados da reconstruo dos campos gaussi-
anos superior ao kriging simples em todos os cenrios avaliados que no o do algoritmo
LEACH.
O kriging ordinrio, ento, apresenta os melhores resultados na relao qualidade dos
parmetros estimados / tempo de execuo, uma vez que no se conseguiu obter execu-
48
4.6. CONSIDERAES ACERCA DOS DADOS OBTIDOS 49
o de reconstruo por kriging bayesiano em menos de uma hora e trinta minutos, numa
das estaes especificadas no capitulo 3. importante ainda considerar que os exemplos
simulados neste trabalho possuam apenas 100 100 pontos; num caso real esse nmeropode ser de escalas bem maiores, o que pode elevar muito o tempo de execuo. Mesmo
os resultados do kriging bayesiano sendo em geral superiores qualitativemente, ele s pode
ser utilizado quando houver grande poder computacional e/ou no houver necessidade de
resultados rpidos.
Para o kriging bayesiano foi avaliada uma variante proposta neste trabalho, que consiste
na incluso da informao a priori do parmetro de mdia, transformada numa constante
para o sistema de reconstruo. Essa abordagem possibilitou reduo no tempo necessrio
de processamento, uma vez que a computao da mdia deixa de ser por inferncia baye-
siana e passa a ser efetuada por mnimos quadrados ge
Recommended