Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
ESTIMAÇÃO DA DISTRIBUIÇÃO ESPACIAL DE PERDAS COMERCIAIS ATRAVÉS DE UM
MODELO ADITIVO GENERALIZADO
LUCAS T. FARIA, JOEL D. MELO, ANTONIO PADILHA-FELTRIN
Laboratório de Planejamento de Sistemas de Energia Elétrica – LaPSEE, Depto de Engenharia Elétrica – DEE,
Faculdade de Engenharia de Ilha Solteira – FEIS, Universidade Estadual Paulista – UNESP
Caixa Postal 031, (18) 3743-1000, Ramal: 1626, Ilha Solteira, SP, BRASIL
Emails: [email protected],[email protected],[email protected]
Abstract This work incorporates the geographical area to the analysis of the problem of non-technical losses. These losses are
modeled as point events considering socioeconomic variables that help explain the spatial distribution of them. These variables
are used in a Generalized Additive Model (GAM) associated with a case-control study carried out from a set of cases and a set of controls. The set of cases consists of the consumer units caught in irregularities over four years. The control set is formed by
randomly regular consumer units in the customer base of the power utilities. The model has the advantage of allowing the
estimation of the spatial distribution of non-technical losses using socioeconomic covariates that characterize the sub-regions where these losses occur. Moreover, it is easy to interpret and can be extended to add new covariates. The result of this work is a
probability map indicating areas of the city most vulnerable to non-technical losses. This study highlights the socioeconomic
variables that are statistically significant and therefore directly influence the spatial distribution of non-technical losses. This model was applied in a city with approximately 200,000 inhabitants and the results allow us to affirm that the regions with
highest average residents with more rented houses and with more extensive distribution network are more likely to possess
consumer units with higher non-technical losses. With this result, power utilities are better able to take measures not only to combat energy theft, as well as preventing the onset and exacerbation of non-technical losses in the city analyzed.
KeywordsNon-technical Losses, Commercial Losses, Power Distribution System, Spatial Point Analysis.
Resumo Neste trabalho incorpora-se o espaço geográfico à análise do problema de perdas comerciais. Essas perdas são mode-ladas como eventos pontuais considerando variáveis socioeconômicas que auxiliem na explicação da disposição espacial das
mesmas. Tais variáveis são utilizadas em um modelo aditivo generalizado associado a um estudo casos-controles que realiza a
comparação entre dois processos espaciais pontuais. Um deles é representado pelo conjunto dos casos que são as Unidades Con-sumidoras (UCs) flagradas em irregularidades. O outro processo é representado pelo conjunto de controles que é composto por
UCs regulares obtidas aleatoriamente a partir da base de clientes da concessionária. O modelo possui a vantagem de permitir a
estimação da distribuição espacial das perdas comerciais utilizando covariáveis socioeconômicas que caracterizam as sub-regiões em que ocorrem essas perdas. Ademais, é de fácil interpretação e pode ser estendido para adição de novas covariáveis. O resulta-
do deste trabalho é um mapa de probabilidades indicando as regiões do município mais vulneráveis às perdas comerciais. Além de indicar as regiões mais vulneráveis, este estudo destaca as variáveis socioeconômicas que são estatisticamente relevantes e
que, portanto, influem diretamente na disposição espacial das perdas comerciais. Este modelo foi aplicado em um município com
aproximadamente 200 mil habitantes e os resultados permitem constatar que as regiões com maior média de moradores, com mais domicílios alugados e com rede de distribuição mais extensa, têm maior probabilidade de possuírem UCs com maiores per-
das comerciais. Com tal resultado, as concessionárias têm melhores condições de adotar não apenas medidas de combate, bem
como de prevenção ao surgimento e/ou agravamento das perdas comerciais no município analisado.
Palavras-chave Perdas Comerciais, Perdas Não Técnicas, Sistema de Distribuição, Análise Espacial de Pontos.
1 Introdução
As perdas comerciais ou perdas não técnicas o-
casionam prejuízos relevantes e, por isso, são motivo
de grande preocupação no Sistema de Distribuição de
Energia Elétrica (SDEE) de países emergentes como
o Brasil (ANEEL, 2008).
Denominam-se perdas comerciais a energia não
faturada descontadas as perdas técnicas – que são
inerentes ao sistema elétrico. As perdas comerciais
existem predominantemente devido às fraudes embu-
tidas nos medidores de energia, às ligações clandes-
tinas, aos erros do leiturista e à obsolescência dos
equipamentos de medição energia (Faria et al.,
2012).
Tais perdas causam prejuízo financeiro à empre-
sa distribuidora de energia e à sociedade. Destacam-
se: redução da arrecadação de impostos, aumento da
tarifa de energia e injustiça social (ANEEL, 2008).
Um dos primeiros trabalhos relevantes em per-
das comerciais foi Jiang et al. (2002). Neste utilizam-
se múltiplos classificadores e coeficientes wavelets
para identificação de fraudes em clientes a partir do
histórico de consumo mensal. Os trabalhos posterio-
res têm a mesma estrutura básica, isto é, utilizam
alguma técnica da área de sistemas inteligentes tais
como: redes neurais artificiais (Faria et al., 2012),
lógica nebulosa ou lógica fuzzy (Cabral et al., 2004),
algoritmos de aprendizado de máquina (Cometti;
Varejão, 2005), mineração de dados (Nizar et al.,
2008), mineração de texto (Guerreiro et al., 2010),
redes Bayesianas (Bastos, 2011) para detectar Uni-
dades Consumidoras (UCs) com indícios de fraudes.
Utilizam como dados de entrada basicamente o histó-
rico de consumo mensal, dados cadastrais e comentá-
rios dos leiturista e inspetores.
Em Smith (2004) amplia-se a discussão através
de uma abordagem qualitativa na qual analisam-se
aspectos socioeconômicos de diversas regiões do
mundo. Estima-se o furto de eletricidade em 102
países entre 1980 e 2000. Também é reconhecida a
característica complexa e multifacetária do problema
de perdas comerciais o qual é associado a aspectos
Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014
2873
governamentais e sociais tais como: instabilidade
política, baixa efetividade governamental, altos ní-
veis de corrupção, alto nível de pobreza, alta taxa de
natalidade, baixo Índice de Desenvolvimento Huma-
no (IDH), etc.
Portanto, há indícios de que as características
socioeconômicas da região onde ocorrem as perdas
comerciais são importantes. Por isso, neste trabalho,
em contraposição aos trabalhos supracitados, tais
características são incorporadas à análise espacial das
perdas comerciais. Conforme Drucks et al. (2004),
em alguns problemas específicos, a localização espa-
cial dos fenômenos é muito importante e em alguns
casos imprescindível à completa compreensão do
problema.
Neste estudo utilizam-se variáveis socioeconô-
micas do censo demográfico IBGE (2010) e dados
oriundos de Faria et al. (2014) o qual caracteriza
espacialmente as perdas comerciais através da análise
espacial de pontos aplicada em históricos de inspe-
ções reais. O trabalho de Faria et al. (2014) apresen-
tou uma análise exploratória para constatação de
aglomerados espaciais ou clusters das perdas comer-
ciais na zona de estudo. A partir dessa constatação,
este estudo visa responder as seguintes questões: as
variáveis socioeconômicas influenciam na disposição
das perdas comerciais em aglomerados espaciais?
Em caso afirmativo, qual a relevância de cada variá-
vel? E, em último, quais regiões do município em
análise são mais vulneráveis, nas quais há maior
probabilidade de que existam perdas comerciais?
Neste trabalho utiliza-se uma abordagem deno-
minada casos-controles. Nesta, realiza-se a compara-
ção entre dois processos espaciais pontuais. Um
deles é representado pelo conjunto dos casos que são
as UCs flagradas em irregularidades ao longo de
quatro anos – de 2009 até 2012. O outro processo é
representado pelo conjunto de controles que é com-
posto por UCs regulares obtidas aleatoriamente a
partir da base de clientes da concessionária. Tal a-
bordagem é comumente utilizada na área de epide-
miologia (Diggle; Rowlingson, 1994; Shikamura et
al., 2001; Kiffer et al., 2011).
De posse de um estudo de casos-controles utili-
za-se um Modelo Aditivo Generalizado ou Generali-
sed Additive Models (GAM) que leva em considera-
ção variáveis socioeconômicas para produzir o mapa
de probabilidades.
Na próxima seção deste trabalho abordam-se as-
pectos fundamentais da análise espacial de pontos e
seu relacionamento com o problema de perdas co-
merciais. Na seção 3, há uma apresentação teórica
detalhada da metodologia empregada: medida de
risco e significância estatística. Por fim, na seção 4,
apresenta-se o mapa de probabilidades – resultado do
GAM – e as covariáveis relevantes que auxiliam na
explicação da disposição espacial em aglomerados
das perdas comerciais no município em análise.
2 Análise espacial de pontos incorporada ao
problema de perdas comerciais
A análise espacial permite a incorporação do es-
paço ao problema e o conhecimento a respeito das
características das sub-regiões nas quais se localizam
as perdas comerciais. Tal conhecimento é determi-
nante para maior eficiência na prevenção e no com-
bate a tais perdas. Ela é constituída por um conjunto
de procedimentos encadeados cuja finalidade é a
escolha de um modelo inferencial que considere
explicitamente os relacionamentos espaciais existen-
tes no fenômeno em estudo.
Ao avaliar um processo pontual, o primeiro teste
comumente realizado é a Aleatoriedade Espacial
Total ou Complete Spatial Randomness (CSR) (Dig-
gle, 1983). Sob CSR, os eventos estão distribuídos
independentemente, aleatoriamente e uniformemente
na área em análise. Essa formulação permite uma
comparação entre uma distribuição completamente
aleatória (que é gerada por um processo de Poisson)
e os dados coletados em campo.
2.1 Análise espacial de eventos pontuais
Um processo pontual é um processo estatístico
no qual se observam alguns eventos de interesse
dentro de uma região limitada A (Diggle, 1983).
Cada UC é vista como um ponto no espaço – evento
pontual. O termo evento refere-se a qualquer tipo de
fenômeno localizável no espaço geográfico por coor-
denadas geográficas s.
A localização dos eventos gerados por um pro-
cesso pontual na área de estudo A denomina-se pa-
drão de ponto (Diggle, 1983). Em alguns casos, co-
variáveis adicionais podem ser requeridas e associa-
das à localização onde os eventos foram observados.
A fim de avaliar a distribuição espacial global
dos eventos, pode-se trabalhar com a intensidade
do processo pontual. Ajusta-se uma função
bidimensional sobre os eventos considerados cuja
superfície é proporcional à intensidade de amostras
por unidade de área. Tal função efetua a contagem de
todos os pontos dentro de uma região de influência,
ponderando-os pela distância de cada um em relação
à localização de interesse, conforme ilustrado na
Figura 1.
Figura 1. Estimador de intensidade de distribuição de pontos.
Sejam as localizações de n eventos ob-
servados em uma região A e s representa uma locali-
zação genérica cujo valor da intensidade deseja-se
estimar. O estimador de intensidade é avaliado a
partir dos n eventos que estão contidos em um raio
em torno de s. Na equação (1), tem-se o estimador de
Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014
2874
intensidade ponderado (Shikamura et al., 2001). O
raio de influência define a área centrada no ponto
de estimação s e indica quantos eventos contribu-
em para a estimativa da função de intensidade e é
o vetor de ponderações. Em (1), ao contrário dos
estimadores de intensidade ordinários, há um peso
específico para cada localização espacial que pon-
dera cada evento pontual.
(1)
Neste estudo associam-se os eventos pontuais ao
processo de Poisson homogêneo ou Homogeneous
Poisson Processes (HPP) e ao processo de Poisson
não homogêneo ou Inhomogeneous Poisson Proces-
ses (IPP). Tanto o HPP quanto o IPP assumem que os
eventos ocorrem independentemente e são distribuí-
dos conforme a intensidade dada. A diferença entre
ambos é que no HPP, a função de intensidade é cons-
tante; no IPP, ela varia espacialmente.
Um HPP é aquele no qual os eventos estão dis-
tribuídos independentemente e uniformemente na
região A. Isso significa que a localização de um e-
vento não influencia nas probabilidades de outros
surgirem em sua vizinhança. Ademais, não há região
onde há maior probabilidade de ocorrerem.
O IPP é uma generalização do HPP, no qual a in-
tensidade não é constante. O princípio de indepen-
dência entre os eventos permanece; no entanto, a
variação espacial pode ser mais diversa, ou seja, há
maior probabilidade de os eventos aparecerem mais
em algumas regiões do que em outras.
A interação entre dois pontos arbitrários em pe-
quena escala de distância é avaliada pelas proprieda-
des de segunda ordem. Elas mensuram a força e o
tipo de interação entre eventos do processo pontual.
Se os mesmos estão dispostos espacialmente em
aglomerado ou dispersos.
Uma alternativa para mensurar a propriedade de
segunda ordem quando o processo espacial é HPP é
por meio da função K. Ela mensura o número de
eventos encontrados a uma dada distância de um
evento particular qualquer conforme equação (2).
(2)
E[.] é o operador de esperança e represen-
ta o número de outros eventos até uma distância r ao
redor de um evento arbitrário.
O valor da função K para um HPP é .
Existem algumas funções para estimar o valor de
. Comparando o valor estimado de com o
valor teórico pode-se avaliar o tipo de interação exis-
tente. Assume-se que as interações ocorrem em pe-
quena escala; logo, interessa apenas pequenos valo-
res de r. Valores de maiores do que caracte-
rizam um processo em aglomerado, enquanto que
valores menores indicam competição entre os even-
tos (Bivand et al., 2008).
A fim de avaliar o grau de similaridade com o
padrão CSR, várias funções são utilizadas junto com
métodos para medir a incerteza relacionada aos da-
dos observados. Para mensurar efeitos globais ou em
larga escala utiliza-se a função denominada
Função de Distribuição Cumulativa. A função é
uma das alternativas para mensurar efeitos em pe-
quena escala. Tais funções são utilizadas por Faria et
al. (2014) e conclui-se que as perdas comerciais
estão dispostas em aglomerados espaciais tanto em
larga quanto em pequena escala. Os aglomerados são
mais evidentes a partir de distâncias r superiores a
100 metros, aproximadamente.
3 Estudo do conjuntos de casos e de controles em
perdas comerciais
Têm-se o conjunto constituído por casos e
controles. Assume-se que ambos são realizações de
dois processos de Poisson não homogêneos ou IPPs
com intensidades e , respectivamente.
Neste contexto, assume-se que a distribuição de
casos e de controles é a mesma. Isso significa que as
intensidades e são iguais a uma constante
de proporcionalidade que é igual à razão entre e
, isto é, .
3.1 Descrição dos dados utilizados no modelo
Neste trabalho utilizam-se dados advindos do
censo demográfico IBGE (2010) e de Faria et al.
(2014). São constituídos por históricos de inspeções
realizadas em UCs de um município do interior do
Estado de São Paulo ao longo de quatro anos – de
2009 até 2012. Na Tabela 1 consta o número de UCs
inspecionadas e de UCs irregulares por ano.
Observa-se a irregularidade na quantidade de
UCs inspecionadas anualmente. Um ano com um
número significativo de inspeções é seguido por um
ano com menos inspeções. Em 2010, por exemplo,
realizou-se pouco mais de um terço das inspeções de
2009 e em 2012 realizou-se pouco mais da metade
das inspeções de 2011. Não há um critério padrão
para definir a quantidade e a localização das UCs
inspecionadas. A maior parte das inspeções são reali-
zadas em UCs denunciadas por leituristas, pela popu-
lação ou em UCs suspeitas a partir de análises preli-
minares dos históricos de consumo mensais em pla-
nilhas eletrônicas com regras heurísticas empíricas.
Tabela 1. Distribuição das inspeções e de irregularidades em UCs ao longo de quatro anos.
Inspeções
Anuais UCs
Inspecionadas UCs
Irregulares
2009 3.068 173
2010 1.298 101
2011 4.613 505
2012 2.387 461
Total 11.366 1.240
Observa-se também que o sucesso das inspeções
por ano, ou seja, a razão percentual entre o número
Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014
2875
de UCs irregulares encontradas e o número total de
UCs inspecionadas é crescente sendo de 5,6%, 7,8%,
10,9% e 19,3%, respectivamente, nos anos de 2009,
2010, 2011 e 2012. Tal fato demonstra o aperfeiçoa-
mento empírico da concessionária na seleção das
UCs a serem inspecionadas anualmente (Faria et al.,
2014).
Na Tabela 2, consta o resultado das inspeções
conforme padrão da concessionária de energia que as
realizou. Entre as irregularidades mais recorrentes
destacam-se: UCs com lacre do medidor violado,
desvio fora da medição, auto-religação, diversas
modalidades de fraudes no medidor e medidor avari-
ado. Observa-se que há irregularidades que não im-
plicam em prejuízo financeiro à concessionária de
energia. Adicionalmente, o medidor avariado pode
ser consequência de tentativas de fraudes mal suce-
didas ou então por obsolescência natural do equipa-
mento. O fato concreto é que a porção majoritária
das 1.240 UCs rotuladas irregulares o são por conse-
quência de uma ação suspeita de tentativa de fraude
daqueles que têm acesso a mesma.
Tabela 2. Diagnóstico das inspeções realizadas.
Resultado das Inspeções Ocorrências
Desvio fora da medição 57
Auto-religação 237
Medidor avariado 324
Fraude no medidor 472
Outras irregularidades 150
Normal 10.126
No estudo de casos-controles utilizou-se um es-
quema de amostragem (5:1) similar à Diggle; Ro-
wlingson (1994), isto é, para cada caso de UCs irre-
gular há cinco UCs normais denominadas eventos de
controle. Tais eventos representam a distribuição
espacial da população de risco. Neste trabalho, a
população de risco é constituída por todas as UCs do
município, pois, em princípio, podem existir UCs
irregulares em qualquer parte. Conforme Bivand et
al. (2008), a distribuição dos casos é influenciada
pela distribuição heterogênea da população. Devido a
isso, é preciso estimar a distribuição espacial da
população e compará-la aos casos. Isso é feito por
meio de um conjunto de controle que é selecionado
aleatoriamente a partir da população de risco.
Neste contexto, os casos são as 1.240 UCs fla-
gradas em irregularidades e os controles são 6.200
UCs normais selecionadas aleatoriamente entre as
81.640 UCs do município sob análise.
As UCs da base de dados de perdas não estão
georreferenciadas. Devido a isso, elas são agrupadas
pelos transformadores ao qual se conectam. Isso pois,
ao contrário das UCs, os transformadores são georre-
ferenciados, viabilizando a análise espacial de pontos
proposta neste trabalho.
As cinco covariáveis utilizadas no GAM e a des-
crição detalhada de cada uma delas consta na Tabela
3. Entre as centenas de variáveis socioeconômicas
disponibilizadas pelo censo demográfico 2010 para
cada setor censitário, foram selecionadas três variá-
veis. São elas: domicílios alugados, média de mora-
dores e renda média. Além das variáveis do censo,
têm-se duas variáveis advindas do histórico de inspe-
ções. São elas: PERTRAFO e NTRAFO cujas descri-
ções constam também na Tabela 3.
Tabela 3. Descrição das Covariáveis.
Covariáveis Descrição
Domicílios Alugados
Nº Domicílios particulares alugados
Média de
moradores Nº médio de moradores em domicílio particular
Renda Média Rendimento médio mensal das pessoas a partir
de 10 anos (com e sem renda)
NTRAFO Nº Transformadores por setor censitário
PERTRAFO Perdas percentuais por transformador em
relação ao Nº total de UCs conectadas nele
Conforme IBGE (2010), o setor censitário é a
menor unidade territorial nas cidades, com limites
físicos identificáveis e com dimensão adequada para
levantamento das informações do censo demográfi-
co. A malha de setores censitários 2010 apresenta as
seguintes unidades territoriais: municípios, distritos,
subdistritos e setores censitários. Conforme descrição
do IBGE (2010) selecionou-se 254 setores censitá-
rios com o seguinte perfil: situação urbana tipo 1
(área urbanizada de cidade ou vila); tipo 2 (área não-
urbanizada de cidade ou vila); tipo 3 (área urbana
isolada) e situação rural tipo 4 (aglomerado rural de
extensão urbana). A concessionária inspeciona prio-
ritariamente a população urbana do município devido
a maior facilidade de acesso e a maior concentração
das perdas comercias na região de maior densidade
populacional.
3.2 Variação espacial do risco de perdas comerciais
Sejam as localizações na região
sob análise A dos casos e as
localizações dos controles como sendo observa-
ções de dois IPPs com intensidades e , respectivamente. Define-se o logaritmo do risco
relativo na localização s conforme equação (3).
Sob a hipótese nula de distribuição espacial i-
gual, a razão é constante, isto é: (Kelsall;
Diggle, 1998).
(3)
Seja um indicador binário ao ponto no espaço
tal que se , o evento i é um caso e se
é um evento de controle. Considera-se que são realizações das variáveis aleatórias inde-
pendentes de Bernoulli com probabilidade conforme equação (4).
(4)
Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014
2876
Observa-se que é relacionado ao logaritmo
do risco relativo conforme equação (5).
(5)
Nota-se que é uma constante
aditiva que não modifica as características da distri-
buição espacial da probabilidade de perdas comerci-
ais na região sob análise.
3.3 Modelo Aditivo Generalizado para análise espa-
cial das perdas comerciais
A abordagem semi-paramétrica de Modelos Adi-
tivos Generalizados ou GAM permite a inclusão de
covariáveis que caracterizam a região para investigar
a variação espacial do risco de perdas comerciais por
meio de regressão logística padrão. A variação espa-
cial residual é modelada através de uma função de
suavização – spline. O modelo é de fácil interpreta-
ção e pode ser facilmente estendido para adição de
novas covariáveis.
Neste trabalho utiliza-se a biblioteca do software
R® mgcv para produzir o GAM (R Development
Core Team, 2011; Wood, 2006). Esta biblioteca
implementa o estimador não paramétrico apresentado
em Kelsall e Diggle (1998).
A inclusão dos efeitos das covariáveis no mode-
lo, conforme Kelsall e Diggle (1998) consta na equa-
ção (6). Nesta é o vetor das covariáveis, são seus
coeficientes que modelam seus efeitos, é uma
função suave das coordenadas espaciais que leva
em consideração outros fatores não considerados
como covariáveis.
(6)
A equação (6) é uma forma de estimar uma su-
perfície de probabilidade considerando a
influência das covariáveis e de uma variação espa-
cial devida a outros fatores não considerados como
covariáveis representados por . Se o risco é assumido constante na região, então
e o modelo da equação (6) se reduz a um
modelo de regressão logística padrão.
Portanto, em (6), tem-se um modelo de regressão
logística estendido por uma componente aditiva que varia suavemente no espaço (Shikamura et al.,
2001).
O procedimento para estimação de e ba-
seia-se em métodos iterativos usuais de modelos
aditivos generalizados (Wood, 2006).
Na Figura 3 tem-se o fluxograma com todos os
passos para obtenção do mapa de probabilidades. Os
dados de entrada são as UCs flagradas em irregulari-
dades (casos), as UCs obtidas aleatoriamente a partir
da base de clientes da concessionária (controles) e as
covariáveis obtidas do censo demográfico 2010.
Seguem os passos da metodologia:
1. Utiliza-se a equação (6) para determinar a
probabilidade de cada ponto da base dados
casos-controles considerando sua localiza-
ção espacial s e as covariáveis x.
Figura 3. Fluxograma do modelo para geração do mapa de proba-bilidades.
2. Cálculo da probabilidade inicial utilizando a equação (4). e são as intensidades ponderadas calculadas
pela equação (1).
3. Sorteiam-se a partir da base de dados n1
pontos que são rotulados como casos e n0
pontos que são rotulados como controles.
Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014
2877
4. Recalcula-se a probabilidade calcu-
lada no Passo 2 para o novo conjunto obtido
aleatoriamente no Passo 3 de casos e contro-
les. Utiliza-se novamente a equação (4) para
determinar a probabilidade de cada ponto da
base de dados casos-controles considerando
sua localização espacial s e a influência das
covariáveis x.
5. Se a probabilidade calculada no Passo 4
for superior à probabilidade calcula-
da no Passo 2 – – então incremen-
ta-se . Os passos de 3 a 5 se
repetem até um número predefinido de ite-
rações.
6. Desenha-se o gráfico do mapa de probabili-
dades armazenado em .
3.4 Teste global do risco de perdas comerciais
O teste global do risco e a identificação de áreas
de baixo e alto risco são efetuados via método de
simulação de Monte Carlo, conforme Bivand et al.
(2008) e Kelsall, Diggle (1998).
O teste de Monte Carlo baseia-se no fato de que
casos e controles estão distribuídos igualmente sob a
hipótese nula – . Neste contexto, os casos tornam-
se controles e vice-versa. O novo conjunto de casos e
de controles ainda terá a mesma distribuição espacial
e a mesma probabilidade . Se este não for o
caso, a renomeação de casos e controles produzirá
diferentes valores.
Testa-se em (7) a significância, porque se assu-
me que a variação da probabilidade – equação (4) – é
não homogênea – igual a .
Em (7), avalia-se em uma grade regular de
pontos com n quadrículas. Calcula-se
a soma dos valores
onde k é o número de renomeações de casos e de
controles, é a área de cada quadrícula, é o
valor estimado da probabilidade inicial e
são as probabilidades estimadas por renome-
ação de casos e de controles.
(7)
Neste teste, avaliam-se k valores do teste estatís-
tico T por renomeação de casos e controles. Os casos
tornam-se controles e vice-versa, mantendo-se e
fixos. Calcula-se a nova probabilidade
para cada novo conjunto de casos e controles.
Isto produzirá uma série de valores sob a
hipótese nula. Se é o valor de T para os conjunto
de dados observados, a significância (pvalor) pode
ser avaliada por , onde t é
o número de valores de maiores do
que .
O processo avalia para cada ponto , a propor-
ção de valores que são menores do que
onde são as probabilidades esti-
madas por renomeação de casos e controles.
4 Resultados e Discussões
O modelo GAM ajustado assume um efeito line-
ar do total de cinco covariáveis no logaritmo do risco
relativo. Sendo três covariáveis oriundas do censo
demográfico IBGE (2010); as demais, obtidas a par-
tir de Faria et al. (2014). Três referem-se às caracte-
rísticas socioeconômicas do setor censitário (Domicí-
lios Alugados, Média de Moradores e Renda Média).
PERTRAFO está diretamente relacionada à ocorrên-
cia de perdas comerciais e NTRAFO está associada à
extensão da rede de distribuição do setor censitário.
Na Figura 4, estão representadas as amostras dos
eventos de casos e controles no mapa do território do
município em análise.
Figura 4. Distribuição espacial dos eventos casos e controles na região urbana do município sob análise.
O pvalor corresponde à menor significância para
a qual a hipótese poderia ser rejeitada. Logo é
rejeitada se o pvalor for menor ou igual a um nível
de significância de referência. Neste trabalho, tal
nível de significância é igual a 0,1, pois a taxa média
de sucesso das inspeções é de 10% (Cometti; Vare-
jão, 2005).
Na Tabela 4 tem-se as estimativas, desvios pa-
drão e significâncias estatísticas de cada covariável
para o modelo GAM da equação (6). As covariáveis
significantes são PERTRAFO (pvalor inferior a
), Média de Moradores (pvalor 0,0173),
NTRAFO (pvalor 0,0364) e Domicílios Alugados
(pvalor 0,0861).
Tabela 4. Estimativas, desvio padrão e significâncias estatísticas das covariáveis.
Covariáveis Estimativa Desvio
Padrão pvalor
Média de Moradores 0,37790 0,15870 0,01730
Domicílios Alugados 0,00302 0,00176 0,08610
Renda Média -0,00001 0,00006 0,83290
NTRAFO -0,00874 0,00418 0,03640
PERTRAFO 35,55900 1,26800 0,00000
Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014
2878
Na Figura 5 tem-se o mapa de probabilidades
gerado a partir dos processos ilustrados no fluxogra-
ma da Figura 3. Observa-se que a probabilidade de
perdas comerciais é alta na região central do municí-
pio – região inscrita no círculo – e aumenta à medida
que se desloca para a direção oeste – região de maior
crescimento da cidade.
Figura 5. Mapa de probabilidades para a distribuição espacial das perdas comerciais com pvalor de 0,01.
A aplicação do teste estatístico – seção 3.4 – in-
dica variação espacial significativa da probabilidade
de perdas comerciais sob o município analisado, com
pvalor de 0,01.
Deduz-se a partir da Tabela 4 e da Figura 5 que
as regiões com maior probabilidade de perdas co-
merciais estão em setores censitários localizados nas
regiões centrais e oeste do município sob análise.
Os setores censitários da região do centro do
município estão localizados em uma zona comercial
da cidade, na qual a rede de distribuição é extensa e,
por conseguinte, há elevado número de transforma-
dores. Tal fato é corroborado pela significância da
covariável NTRAFO. Ademais, nesta região, há ele-
vada densidade populacional. Grande parte das UCs
pertencem a edifícios alugados por comerciantes.
Tais constatações são ratificadas pela significância
das covariáveis Média de Moradores e Domicílios
Alugados. Finalmente, a significância da covariável
PERTRAFO é um indicativo da concentração das
UCs irregulares em transformadores com altas perdas
comerciais percentuais (em relação ao número total
de UCs conectadas nele) as quais estão localizados
majoritariamente na região central e oeste do muni-
cípio em análise.
A covariável Renda Média (pvalor 0,8329) não
apresenta associação estatisticamente significativa
com as perdas comerciais no município analisado.
Todavia, conforme Bailey e Gatrell (1995), em-
bora existam covariáveis que não possuam signifi-
cância estatística, não é possível afirmar conclusiva-
mente que tal variável não esteja influenciando de
algum modo na presença de perdas comerciais. A
interpretação da significância estatística deve ser
feita com critério no momento da análise exploratória
do problema. Ademais, a significância de cada cova-
riável é modificada na medida em que se inclui (ou
exclui) covariáveis da análise. A significância tam-
bém depende da amostragem do conjunto de casos-
controles adotada.
Observa-se também que o termo residual da fun-
ção de suavização splines não é significante (pvalor
0,327). Isso sugere que o modelo aditivo linear gene-
ralizado proposto com estas covariáveis é suficiente
para explicar a variação espacial das perdas comerci-
ais para o caso particular do município analisado.
Considerando a simplicidade do modelo, o tem-
po computacional para gerar o mapa de probabilida-
des é irrelevante (inferior a 10 segundos) em um
computador com processador Intel Core i7; 2,8 GHz
e com 4 GB de memória RAM.
5 Conclusão
Neste estudo apresenta-se uma análise a partir da
qual estimou-se um mapa de probabilidades do risco
de perdas comerciais em um município do interior de
São Paulo. Utilizaram-se as localizações pontuais de
casos e de controles e as condições socioeconômicas
dos setores censitários modeladas por covariáveis
selecionadas a partir do censo demográfico 2010.
Os setores censitários localizados nas regiões
central e oeste do município são mais vulneráveis às
perdas comerciais, pois possuem maior probabilidade
de possuir UCs irregulares. As covariáveis estatisti-
camente significantes foram: Média de Moradores,
Domicílios Alugados, NTRAFO e PERTRAFO.
Conclui-se, que as covariáveis socioeconômicas
influem diretamente na dimensão das perdas comer-
ciais. Como cada região, possui quadros socioeco-
nômicos específicos; logo, a incorporação do espaço
à análise é uma alternativa viável no sentido de escla-
recer os fatores espaciais que têm significância esta-
tística.
O resultado da análise indica as regiões de maior
risco da cidade, possibilitando o planejamento de
ações mais específicas de combate e de prevenção às
perdas comerciais pelas concessionárias de energia.
O modelo apresentado neste trabalho de análise
espacial de distribuição de padrões é compacto e de
fácil implementação em softwares de análise estatís-
tica.
Agradecimentos
Os autores deste trabalho agradecem à CAPES,
CNPq e ao professor Eduardo Camargo do programa
de pós-graduação em Sensoriamento Remoto e Geo-
informação do INPE.
Referências Bibliográficas
ANEEL. (2008) Metodologia de tratamento
regulatório para perdas não-técnicas de energia
elétrica. Brasília, DF: SER/ANEEL, 2008. (Nota
Técnica, n. 342/2008).
BAILEY, T. C. and GATRELL A. C. (1995)
Interactive spatial data analysis: Prentice Hall.
Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014
2879
BASTOS, P. R. F. M. (2011) Diagnóstico de perdas
comerciais de energia elétrica na distribuição
usando rede Bayesiana. Tese de Doutorado.
Centro de Engenharia Elétrica e Informática.
Paraíba: Universidade Federal de Campina
Grande.
BIVAND, R. S., PEBESMA, J. and GÓMEZ-
RUBIO, V. (2008) Applied spatial data analysis
with R. NY: Springer Verlag.
CABRAL, E., GONTIJO, E. M., PINTO, J. O. P.
(2004) Fraud Detection in Electrical Energy
Consumers Using Rough Sets. In Proc. Of the
IEEE International Conference on systems, Man
and Cybernetics, pp. 3625-3629.
COMETTI, E. S., VAREJÃO, F. M. (2005)
Melhoramentos na identificação de perdas não-
técnicas através da análise computacional
inteligente do perfil de consumo e dos dados
cadastrais de consumidores. Vitório-ES:
Relatório técnico final do projeto de P&D.
DIGGLE, P. J. (1983) Statistical Analysis of Spatial
Point Patterns. London: Academic Press.
DIGGLE, P. J. and ROWLINGSON, B. (1994) A
conditional approach to point process modelling
of elevated risk. Journal of the Royal Statistical
society.
DRUCKS, S.; SÁ CARVALHO, M.; VIEIRA, A. M.
(2004) Análise espacial de dados geográficos.
EMBRAPA.
FARIA, L. T., PADILHA-FELTRIN, A., MINUSSI,
C. R. (2012) Sistema Inteligente Híbrido
Intercomunicativo para Detecção de Perdas
Comerciais em Sistemas de Distribuição de
Energia Elétrica. In IV Simpósio Brasileiro de
Sistemas Elétricos – IV SBSE. Goiânia-GO, 15 a
18 de maio de 2012, pp. 1-6.
FARIA, L. T., MELO, J. D., PADILHA-FELTRIN,
A. (2014) Análise Espacial de Pontos para
Mapeamento de Perdas Comerciais. In V
Simpósio Brasileiro de Sistemas Elétricos – V
SBSE, Foz do Iguaçu-PR, 22 a 25 de abril de
2014, pp. 1-6.
GUERREIRO, J. I., LEÓN, C., BISCARRI, F.
(2010) Increasing the Efficiency in Non-
Technical Losses Detection in Utility
Companies. 15th
IEEE Mediterranean
Electrotechnical Conference, pp. 136-141.
IBGE. (2010) Censo demográfico 2010 – Agregado
por setores censitários 3ª edição. Avaliado em:
<http://www.ibge.gov.br>. Acesso em novembro
de 2013.
JIANG, R., TAGARIS, H., LACHSZ, A., Jeffrey M.
(2002) Wavellet base Feature Extraction and
Multiple Classifiers for electricity Fraud
Detection. In Transmission and Distribution
Conference and Exhibition, pp. 2251-2256, vol.
3.
KELSALL, J. E., DIGGLE, P. J. (1995) Kernel
estimation of relative risk. Bernoulli, 1:3-16.
KELSALL, J. E., DIGGLE, P. J. (1998) Spatial
variation in risk of disease: A nonparametric
binary regression approach. Applied Statistics,
47:559-573.
KIFFER, C. R. V., CAMARGO, C.G.,
SHIKAMURA, S.E. et al.. (2011) A spatial
approach of the epidemiology of antibiotic use
and resistance in community-based studies: the
emergence of urban clusters os Escherichia coli
quinolone resistance in São Paulo, Brasil.
International Journal Of Health Geographics.
MELO, J. D., CARRENO, E. M., PADILHA-
FELTRIN, A. (2012) Análise espacial de
eventos pontuais na alocação de transformadores
da rede elétrica secundária de distribuição. In
XIX Congresso Brasileiro de Automática – CBA.
Campina Grande-PB, 02 a 06 de setembro de
2012, pp. 2684-269.
NIZAR, A. H., DONG, Z. Y., ZHANG, P. (2008)
Detection Rules for Non-Technical Losses
Analysis in Power Utilities. IEEE Power and
Energy Society General Meeting. Pittsburgh, pp.
1-8.
R Development Core Team. (2011) R: A language
and environment for statistical computing. R
Foundation for Statistical Computing, Vienna,
Austria. ISBN 3-900051-07-0, URL
<http://www.R-project.org/>.
SHIKAMURA, S. E., CARVALHO, M. S.,
AERTES, D. R. G. C. e Flores, R. (2001)
Distribuição espacial do risco: modelagem de
mortalidade infantil em Porto Alegre, Rio
Grande do Sul, Brasil, Caderno de Saúde
Pública, Rio de Janeiro, vol. 17, pp. 1251-1261.
SMITH, T. B. (2004) Electricity theft: a comparative
analysis. Energy Policy, vol. 32, pp. 2067-2076.
WOOD, S. N. (2006) Generalized Additive Models:
An Introduction with R. Boca Raton: CRC.
Anais do XX Congresso Brasileiro de Automática Belo Horizonte, MG, 20 a 24 de Setembro de 2014
2880