Upload
buidieu
View
216
Download
0
Embed Size (px)
Citation preview
INTERPOLAÇÃO ESPACIAL DE PROBABILIDADES DE ESCOLHA DE MODO
DE TRANSPORTE MOTORIZADO
Anabele Lindner
Cira Souza Pitombo
Universidade de São Paulo (EESC)/Departamento de Engenharia de Transportes, São Carlos
RESUMO A análise de demanda por transportes convencional é realizada pela utilização atributos socioeconômicos e de
sistema de transportes e a estimação é dada apenas a domicílios anteriormente pesquisados. Este trabalho teve
como objetivo a realização da interpolação espacial de probabilidades de escolha do modo de transporte
motorizado em diversas coordenadas geográficas de valores não amostrados pela Pesquisa Origem/Destino da
Região Metropolitana de São Paulo (2007). Neste trabalho foram usados apenas os dados domiciliares relativos
ao município de São Paulo. Este artigo propôs um método sequencial que combina a abordagem tradicional de
previsão de demanda (Regressão Logística Múltipla) a uma abordagem de estatística espacial (Modelagem
Geoestatística). Concluiu-se que estudos de combinação de métodos tradicionais a métodos de estatística espacial
são prósperos em tais estudos, obtendo-se, de forma confirmatória, uma superfície de escolha modal.
ABSTRACT
The conventional transportation demand analysis is carried out by using socioeconomic and transportation systems
attributes and the estimate is given exclusively to households previously surveyed. This study aimed the spatial
interpolation of motorized travel mode choice probabilities in several geographical coordinates of non-sampled
values by an Origin-Destination Survey dataset, conducted in São Paulo Metropolitan Area in 2007. In this study
it was used only the household data of São Paulo city. This paper purposes a sequential method, which associates
the traditional approach of transportation demand forecasting (Multiple Logistic Regression) with a spatial
statistical approach (Geostatistic Modeling). It was concluded that conjoint studies of spatial statistics and
traditional methods are thriving in transportation issues, getting a mode choice surface through a confirmatory
way.
1. INTRODUÇÃO
Modelagem de demanda por transportes geralmente considera fatores explicativos, tais como
características individuais, das viagens, do meio urbano e suas facilidades (Ortúzar e
Willumsen, 2011). O modelo mais tradicional na previsão de demanda por transporte é o
modelo sequencial ou Quatro Etapas. O Modelo Quatro Etapas é composto por: a) Geração de
viagens, b) Distribuição de viagens, c) Divisão modal e d) Alocação de tráfego.
A etapa de divisão modal, ou escolha modal, enfoque deste trabalho, é subdividida em modelos
determinísticos e probabilísticos, fundamentados em econometria. Os dados de interesse nesta
etapa podem ser a probabilidade de escolha do modo ou a escolha discreta. O modelo logístico
(e suas variações) é um dos mais utilizado na etapa de divisão modal.
A aplicação convencional de modelos logísticos se dá pela utilização de variáveis
independentes, correlacionadas a atributos socioeconômicos, custo de uso e nível de serviço do
modo de transporte. Contudo, as informações referentes à localização espacial das variáveis
não são consideradas na modelagem tradicional de demanda. Ao longo dos anos, muitos estudos
corroboraram com a afirmação de que comportamento relativo a viagens, sobretudo escolha
modal, é fortemente relacionado também à distribuição espacial das atividades no meio urbano
e à presença de zonas de tráfego de uso do solo misto (Cervero e Radisch, 1996; Kitamura et
al., 1997).
Levando-se em conta os avanços tecnológicos e disponibilidade de informações
georreferenciadas, a análise espacial de demanda por transportes torna-se uma linha de pesquisa
potencial, sobretudo considerando a expectativa de inclusão de efeitos espaciais nos modelos
matemáticos (Páez et al., 2013).
Através de diferentes abordagens, alguns autores têm encontrado resultados promissores ao
considerar fatores espaciais em estudos de comportamento relativo a viagens. Bhat e Zhao
(2002) propuseram o modelo logit misto com múltiplos níveis a fim de incorporar fatores
espaciais no contexto de análise de demanda por viagens baseadas em atividades.
Recentemente, Páez et al. (2013) introduziram um indicador espacial que foi incorporado em
modelos de escolha discreta para estimativas de viagens com base domiciliar.
Dentre as técnicas de Estatística Espacial, destaca-se a geoestatística que torna possível realizar
a interpolação de valores de variáveis que possuam estrutura e continuidade espacial. Alguns
trabalhos recentes demonstram o potencial da geoestatística em termos de interpolação de
variáveis de demanda por transportes e entendimento do fenômeno no espaço, através de
elaboração de mapas krigados ou superfícies (Pitombo et al., 2015a; Lindner, 2015; Pitombo et
al., 2015b). Deve-se destacar, no entanto, a necessidade de adaptação de variáveis de
transportes, considerando que em geral são variáveis discretas e sem continuidade espacial.
Geralmente, a geoestatística é aplicada a casos cuja continuidade espacial é aparente, tais como
temperatura, precipitação ou composição e propriedade dos solos, por exemplo.
Apesar desta limitação, observa-se, ao longo de muitos anos, aplicação de modelagem
geoestatística a dados espacialmente discretos, sobretudo na área de saúde. Áreas de riscos de
contaminação ou mortalidade, antes detectadas por mapas temáticos ou mapas de Kernel,
podem ser observadas, em caráter confirmatório, com obtenção de valores estimados e
variâncias de estimação, através de técnicas de krigagem (Croner e De Cola, 2001; Boulos,
2004; Goovaerts, 2006).
O objetivo principal deste trabalho é realizar interpolação espacial de probabilidades de escolha
do modo de transporte motorizado (individual ou público). A ideia é estimar dados em diversas
coordenadas geográficas de valores não pesquisados. Através da superfície de divisão modal
obtida, é possível se obter “manchas” de preferência modal, associadas a valores estimados e
erros relativos a estimativas.
É proposto um método sequencial com o uso de regressão logística binomial, seguido da
Krigagem Ordinária. Neste artigo foi utilizada uma amostra desagregada por domicílios do
município de São Paulo, proveniente da Pesquisa Origem/Destino da Região Metropolitana de
São Paulo, realizada em 2007. Este artigo apresenta cinco seções, além desta introdutória. A
segunda e a terceira seções apresentam definições das técnicas abordadas. A quarta seção
descreve, essencialmente, o método utilizado. A quinta seção expõe os resultados e principais
discussões. Finalmente, a sexta seção apresenta as conclusões.
2. REGRESSÃO LOGÍSTICA MÚLTIPLA
A estimativa de escolha de uma variável discreta não pode ser obtida por meio de fundamentos
da Regressão Linear, pois sendo a variável dependente qualitativa, o método de mínimos
quadrados não oferece estimadores plausíveis. A solução para isso é o uso da Regressão
Logística, que permite o uso de um modelo (curva em S) para prever a probabilidade π de um
evento específico. A função logística g(x) é dada pela Equação 1.
(1)
Caso a variável discreta seja também binária (dicotômica), a representação do gráfico de
dispersão indicará apenas os valores de “0” e “1. A Regressão Logística pode ser subdividida
em: Regressão Logística Binomial Simples e Múltipla e Regressão Logística Multinomial
Simples e Múltipla. Neste artigo, foi utilizada a Regressão Logística Binomial Múltipla.
A Regressão Logística Binomial Múltipla (RLM) é indicada caso haja duas categorias para a
variável dependente e mais de uma variável independente. Para este caso, a equação de
calibração (Equação 2), derivada da Equação 1, é dada por:
(2)
Sendo x0=1, β0, β1,..., βn os coeficientes da equação de calibração e n o número de variáveis
independentes.
Em posse da equação de calibração e respectivos coeficientes, é simples calcular o valor de
probabilidade π (Equação 3).
(3)
A qualidade do ajuste pode ser mensurada por medidas estatísticas, como testes de regressão
de Cox & Snell e Nagelkerke e valores de máxima verossimilhança (Hair et al., 2010).
3. GEOESTATÍSTICA
A Geoestatística é uma técnica completa de análise espacial que tem caráter exploratório e
confirmatório, pois além de descrever e tornar possível a visualização de dados para a
verificação da existência de padrões de associação espacial, envolve também o conjunto de
modelos de estimação e procedimentos para sua validação. Na abordagem deste trabalho, esta
técnica se mostra como vantajosa devido ao fato de possibilitar a inferência sobre dados
desconhecidos.
A Geoestatística é melhor definida quando estabelecidas as seguintes etapas de sua aplicação:
1) Análise variográfica, 2) Krigagem e 3) Validação. Vale ressaltar que esta sequência pode
seguir a ordem inversa entre a Krigagem e a validação, caso esta seja cruzada.
3.1 Análise variográfica
A análise variográfica se dá, principalmente, pelo estudo da estrutura espacial. Esta análise é
realizada pela identificação da variável regionalizada, cálculo de semivariogramas
experimentais e posterior ajuste por curvas teóricas e verificação da direção principal.
Uma variável regionalizada é aquela que se distribui espacialmente e exibe certa estrutura e
distribuição espacial, sendo formada por uma componente espacialmente estruturada e uma
componente aleatória (Matheron, 1971). Quando a estrutura espacial apresenta mesmo
comportamento independente da direção de estudo, esta se denomina isotrópica. Caso contrário,
a variável possui comportamento anisotrópico e existe uma direção principal, em que a
variabilidade é maior que em outras direções.
1ln)(xg
nn xxxxg ...)( 22110
)(1
1xge
A análise e modelagem da estrutura espacial têm como ferramenta primária o semivariograma,
que representa o comportamento espacial da variável regionalizada. A função do
semivariograma é determinada pela média das variâncias entre os pontos:
(4)
Sendo N o número total de observações da amostra em cada distância h.
A partir dos conceitos matemáticos estabelecidos na Equação 4, torna-se necessária a definição
de parâmetros de cálculo, para representação gráfica do semivariograma. Estes parâmetros são:
a distância de corte, o lag, a tolerância de lag, a direção angular.
Construído o semivariograma experimental, a etapa seguinte se refere ao ajuste e determinação
da direção principal. Para isto, deve-se ter conhecimento de algumas características gráficas de
um semivariograma teóricos ou ajustados (Figura 1).
Figura 1: Parâmetros gráficos do semivariograma ajustado.
A partir do semivariograma experimental, faz-se o ajuste de semivariogramas por curvas
teóricas (modelos cúbico, esférico e exponencial, por exemplo). A Figura 1 apresenta os
parâmetros do semivariograma teórico ou ajustado esférico. Este ajuste destaca o
semivariograma com maior tendência espacial, indicando a direção principal, no caso de
estrutura espacial anisotrópica. Caso haja isotropia, os semivariogramas experimentais são
similares para todas as direções, o que faz com que não haja uma direção principal.
Ao final do ajuste do semivariograma experimental da direção principal e ortogonal, os
parâmetros gráficos obtidos são essenciais no processo de interpolação (Krigagem).
3.2 Krigagem
A Krigagem é um método complexo de interpolação de valores utilizada na Geoestatística.
Trata-se de um processo de predição linear, pois suas estimativas são combinações lineares
ponderadas por dados existentes.
A Krigagem parte do pressuposto que pontos próximos no espaço tendem a ter valores mais
parecidos do que pontos afastados. Esse pressuposto é garantido por uma ponderação intrínseca
ao método.
)(
1
2)]()([2
1)(
hn
i
hxZxZN
h
A partir das curvas ajustadas de semivariogramas do espaço amostral, valores de efeito pepita
(Co), variação espacial (C1) e amplitude (a), demonstrados na Figura 1, são utilizados para a
definição de ponderadores. Os ponderadores de Krigagem são considerados dentro de uma área
de atuação estabelecida por um elipsoide de raios determinados pelas amplitudes da direção
principal e ortogonal. Por consequência, a determinação dos parâmetros gráficos do
semivariograma, bem como da direção principal, deve ser feita de forma criteriosa.
As formas mais usuais de Krigagem são a Krigagem Simples (KS) e a Ordinária (KO). A KS é
utilizada quando a média é assumida como estatisticamente constante para toda área de
abrangência das amostras. Já a KO, por sua vez, considera a média flutuante ou móvel por toda
área. Para este trabalho, por se tratar de uma variável contínua, utilizou-se a Krigagem
Ordinária.
O resultado das estimativas pode ser representado por um mapa krigado com a superfície
espacial, que consiste de um novo conjunto de dados, obtido a partir de dados conhecidos. Este
mapa é representado por pontos espaçados a uma distância d e dotados de três informações:
latitude x, longitude y e valor da variável.
3.3 Validação
Um tipo de validação comum na Geoestatística é a validação cruzada (teste do ponto fictício).
Isto se deve ao fato de este método utilizar a amostra como um todo, sem separá-la em conjunto
de calibração e validação, reduzindo a susceptibilidade a erros. O teste do ponto fictício
considera um ponto do conjunto de validação como desconhecido e calcula seu valor através
dos outros pontos de valores conhecidos por meio de uma função advinda da Krigagem, que
leva em conta os ponderadores e a proximidade espacial. O processo de considerar um ponto
como desconhecido se repete para os demais, até que todos os pontos do conjunto de validação
sejam estimados. Para este trabalho, o processo de validação se deu pela leitura dos valores
estimados no mapa krigado e conferência com os valores observados da amostra de teste.
4. MATERIAIS E MÉTODO
4.1 Materiais: área de estudo, banco de dados e software Os dados desagregados utilizados neste trabalho são referentes à Pesquisa Origem/Destino
(O/D) realizada na Região Metropolitana de São Paulo (RMSP) em 2007, pela Companhia do
Metropolitano de São Paulo.
Este trabalho utilizou dados relacionados apenas ao município de São Paulo, onde estão
contidas 319 das 460 Zonas de Tráfego da RMSP. A Pesquisa O/D (2007) levantou informações
de 30.000 domicílios, sendo 23.101 destes relacionados à cidade de São Paulo.
As Zonas de Tráfego que não tiveram ou foram poucos os domicílios pesquisados são citadas
como: Cantareira, Estação de tratamento de água do Guaraú, Reserva do Cantareira, Vista
Alegre, Cidade Universitária, Marsilac, Parelheiros, Bororé. Estas Zonas de Tráfego podem ser
visualizadas pelas regiões em que não foram locados a maior parte dos domicílios, conforme a
Figura 2.
O trabalho teve como foco a escolha modal, mais especificamente, o transporte motorizado.
Dessa forma, as variáveis relativas ao modo de transporte público e individual motorizado por
domicílio, obtidas pela Pesquisa O/D, foram transformadas em uma variável binária. A variável
resultante desta discretização, utilizada neste estudo, foi a preferência por modo motorizado,
em que o valor “0” representa o uso predominante de modo individual motorizado e o valor “1”
o uso de transporte público por domicílio. Consequentemente, os domicílios em que não havia
viagens por transporte motorizado foram eliminados. Ao final, foram analisados 14.443
domicílios, para a cidade de São Paulo.
Figura 2: Domicílios entrevistados pela Pesquisa O/D (2007) nas zonas de tráfego da cidade
de São Paulo.
Com o intuito de prever de forma eficiente variáveis de demanda também em coordenadas onde
não foram amostrados domicílios, dois artifícios foram combinados. Utilizou-se, de forma
sequencial, a RLM, como método tradicional de estimação da variável dicotômica, e a
Geoestatística, para que fosse possível a previsão em outras localizações.
As variáveis independentes escolhidas para a estimação pela abordagem tradicional foram sete
variáveis socioeconômicas e de viagens.
O resultado primário da RLM produz uma probabilidade de ocorrência, que no caso é uma
variável de probabilidade de escolha do transporte público em relação ao transporte individual
motorizado. A partir desta proporção, foi realizada a estimação por método geoestatístico. A
Geoestatística, por definição, utiliza como dados de entrada a localização espacial e distância
entre os dados da amostra. Desta forma, foram utilizados dados originais da pesquisa Origem
Destino na etapa de aplicação da RLM e coordenadas geográficas e dados resultantes do modelo
de RLM (probabilidades de escolha do modo motorizado) na abordagem geoestatística.
Os aplicativos utilizados neste trabalho foram o IBM - Statistical Package for the Social
Sciences (SPSS) versão 22 para o cálculo de RLM e o Software GeoMS 1.0 para os processos
geoestatísticos de cálculo de semivariogramas experimentais, ajuste de curvas teóricas e
Krigagem. O software ArcGIS 10.1 foi manipulado a fim de se obter representações gráficas
dos resultados.
4.2 Método
O trabalho aqui apresentado seguiu os passos propostos pela Figura 3.
Figura 3: Representação do método proposto.
A Pesquisa O/D proveu de informações necessárias para a aplicação da Regressão Logística
Múltipla (RLM).
Deste ponto em diante, foram separados dois conjuntos de amostras. A amostra de 70% dos
dados foi reservada para a calibração de dois métodos: de Regressão Logística Múltipla (RLM)
e o método geoestatístico. A amostra de 30% foi delimitada com o propósito de prover a
validação dos métodos. Por conseguinte, pode-se resumir este trabalho em duas etapas: (1)
abordagem clássica: aplicação da RLM e (2) abordagem espacial: aplicação de Geoestatística.
4.2.1 Regressão Logística Múltipla
A partir da variável preferência por modo motorizado e do conjunto de calibração, foi feita a
RLM. O output trata de uma equação que estima valores de probabilidade de escolha do
transporte público em relação ao transporte individual motorizado.
Esta equação foi, então, utilizada ao conjunto de 30% para ser realizada a validação do método,
através da proporção de acertos obtida pela comparação com os valores binários observados. A
equação foi também aplicada ao conjunto de 70%, gerando resultados de probabilidade a serem
utilizados na etapa de Geoestatística.
4.2.2 Geoestatística
O produto da etapa anterior, aplicado ao conjunto de 70%, valeu-se como dado de entrada para
a modelagem geoestatística. A utilização deste método é interessante, pois permite que sejam
estimados valores da variável em domicílios com coordenadas diferentes das amostradas.
Desta forma, esta etapa gerou, ao invés de uma equação, um mapa de valores estimados em
área. Baseado neste mapa, permitiu-se extrair valores referentes ao conjunto de 30%, para que
houvesse a validação deste método.
A validação se deu pela análise de medidas de desempenho considerando valores observados
(probabilidades obtidas na abordagem clássica) e valores estimados pela krigagem em
coordenadas geográficas de valores conhecidos. As medidas adotadas foram: medidas sugeridas
no trabalho de Hollander e Liu (2008) sobre princípios de calibração de modelos de
microssimulação de tráfego (média do erro absoluto, erro quadrático médio, desvio do erro
quadrático médio) e desvio padrão, erro padrão e correlação, descritas na Tabela 1.
Tabela 1: Medidas estatísticas avaliadas nas modelagens.
Média do erro absoluto Erro quadrático médio Desvio do erro quadrático médio
1
N∑|xi − yi|
N
i=1
(5)
1
N∑(xi − yi)
2
N
i=1
(6)
√1
N∑(xi − yi)2
N
i=1
(7)
Desvio padrão Erro padrão Correlação de Pearson
√∑ (xi − yi)2𝑁
𝑖=1
𝑁 − 1 (8)
𝐷𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜
√𝑁 (9)
∑ (xi − �̅�) × (yi − �̅�)𝑁𝑖=1
√∑ (xi − �̅�)2𝑁𝑖=1 × ∑ (yi − �̅�)2𝑁
𝑖=1
(10)
Em que N: número de valores da amostra, x: valor calculado, y: valor observado, �̅�: média dos
valores calculados e �̅�: média dos valores observados.
5. RESULTADOS E DISCUSSÕES
5.1 Regressão Logística Múltipla
A equação de calibração da variável de probabilidade de escolha do transporte público em
relação ao transporte individual motorizado é apresentada pela Equação 11.
π =1
1 + e−(g(x))
g(x) = −0,547 + 0,271β1 + 0,318β2 − 0,878β3 − 1,180β4 − 0,172β5
+ 0,000193β6 − 0,000177β7 + 0,00003β8 (11)
Onde:
1-número de pessoas,
2-critério de renda,
3-quantidade de motocicletas,
4-quantidade de automóveis,
5-total de viagens,
6-distância de viagens transporte público,
7-distância de viagens por transporte individual motorizado,
8-distância de viagens por transporte não motorizado.
A qualidade do ajuste pode ser mensurada através de medidas estatísticas, como erro padrão e
significância; e também por medidas estatísticas apropriadas apenas para a análise de RLM, tais
como: valor Wald, valor da verossimilhança (-2LL), testes de regressão de Cox & Snell e
Nagelkerke, chi-quadrado avaliado pelo teste de Hosner e Lemeshow. Tais medidas encontram-
se na Tabela 2.
Tabela 2: Resultados para qualidade do ajuste da Regressão Logística Múltipla
Valor
Observado Valor Previsto Wald -2LL
Cox &
Snell Nagelkerke
Hosner &
Lemeshow
Erro
padrão Significância
0 1
130,9 4.214 0,652 0,873 7,25 0,018 0,000 0 5.662 294
1 264 6.947
% acertos 95,5 95,9
A análise da Tabela 2 indica que houve um ótimo ajuste pela RLM. Os valores de erro padrão
e significância foram extremamente baixos. Tais medidas estatísticas têm caráter genérico.
Entretanto, para as medidas de caráter específico, resultados igualmente satisfatórios foram
obtidos.
Similar ao coeficiente de determinação R2 utilizado para casos de Regressão Linear, por
exemplo, as medidas Cox & Snell e Nagelkerke têm valor ótimo quando tendem a “1”. No caso
da RLM atual, obtiveram-se valores próximos ao valor ótimo.
As estatísticas Wald, -2LL e Hosner e Lemeshow também atenderam às expectativas. Contudo,
a estatística que deixa mais evidente a qualidade do ajuste é a matriz de classificação, onde a
contagem de valores previstos e observados é comparada e a taxa de acertos é mensurada. A
taxa de acertos foi superior a 95%.
A Equação 11 foi, então, utilizada ao conjunto de 30% para ser realizada a validação do método.
Esta validação resultou em uma taxa de acertos alta, sendo esta, também, igual a 96%.
A Equação 11, aplicada ao conjunto de 70%, gerou resultados de probabilidade a serem
utilizados na etapa de Geoestatística.
5.2 Geoestatística
A etapa de geoestatística utilizou os valores estimados do conjunto de 70% pela Equação 8 para
um novo processo de estimação. A modelagem pelo método geoestatístico pode ser sumarizada
pela: 1) Análise variográfica e 2) Krigagem.
5.2.1 Análise variográfica
Em função da análise dos dados referentes à variável de preferência por transporte público em
relação ao transporte individual motorizado por domicílio, algumas características espaciais
puderam ser determinadas. Estas características são representadas pelos parâmetros de cálculo
do semivariograma, demonstrados na Tabela 3.
Tabela 3: Parâmetros para cálculo do semivariograma experimental.
Direção de teste Lag Tolerância Número de lags Distância de corte
90° 748 1° 13
10.000
0° 752 2° 13
75° 413 1° 24
-15° 329 1° 30
60° 398 1° 25
-30° 225 1° 44
45° 420 1° 23
-45° 125 1° 80
30° 608 1° 16
-60° 253 1° 39
15° 527 1° 18
-75° 264 1° 37
A partir dos semivariogramas experimentais calculados em função dos parâmetros da Tabela 3
no software Geoms, foi detectado o par de direção com maior amplitude de variância. Dessa
forma, pode-se concluir que a estrutura espacial da variável é anisotrópica. A direção principal
se deu para o ângulo de 60° e a consequente direção ortogonal foi de -30°.
A curva teórica exponencial apresentou melhor ajuste para os pontos do semivariograma
experimental das direções. O patamar foi equivalente à média de variância e o alcance foi
ajustado para os dados. Os semivariogramas ajustados da direção principal e da direção
ortogonal estão demonstrados na Figura 4.
Direção Principal (60°) Direção Ortogonal (-30°)
Figura 4: Semivariogramas ajustados para a direção principal e ortogonal.
A Tabela 4 resume os parâmetros gráficos obtidos pelos semivariogramas experimentais
ajustados. A partir destes parâmetros, é realizada a interpolação e ponderação de novos valores
em um mapa de estimação por krigagem.
Tabela 4: Parâmetros gráficos obtidos pela análise variográfica.
Direção Ângulo Curva Patamar
(C)
Efeito Pepita
(C0)
Variação espacial
(C1)
Alcance
(a)
Principal 60° Exponencial 0,202 0,134 0,068
9.047
Ortogonal -30° 3.636
5.2.2 Krigagem
Os valores de direção principal e ortogonal, bem como os relativos efeito pepita (Co), variação
espacial’ (C1) e amplitude (a) da Tabela 4 foram utilizados para a definição dos ponderadores
de krigagem. O resultado da estimação é apresentado pelo mapa da Figura 5.
Figura 5: Mapa krigado para a probabilidade de preferência por transporte público em relação
ao transporte individual motorizado.
O mapa apresentado na Figura 5 representa a superfície de probabilidades de escolha do modo
de transporte motorizado. Interessante de observar uma tendência central ao uso do automóvel
e motocicleta e uma tendência periférica ao uso de transporte público. Pode-se pressupor,
possivelmente, maiores distâncias de viagens no entorno do município.
Verifica-se ainda que, através da superfície obtida, é possível estimar probabilidades de escolha
modal em diversos pontos, bem como associar erros de estimativa, sendo uma forma espacial
e confirmatória de observar tendências ou “manchas” urbanas de escolha modal.
5.2.3 Validação
Esta validação se deu pela extração de medidas de desempenho através da comparação de
valores observados e valores estimados a partir de modelagem geoestatística em coordenadas
geográficas de valores conhecidos. Vale ressaltar que os valores observados são provenientes
da abordagem tradicional, ou seja, são as probabilidades de escolha modal estimadas pela RLM.
Os resultados estão expressos na Tabela 5.
Tabela 5: Medidas de desempenho entre a RLM e os valores estimados por método
Geoestatístico.
Erro quadrático
médio
Desvio do erro
quadrático médio
Desvio
padrão
Erro
padrão
Média do erro
absoluto
Coeficiente de
correlação
0,16 0,40 0,23 0,00 0,01 0,46
Os resultados demonstram que os erros foram baixos, o que é atestado pelo valor aceitável de
desvio do erro quadrático médio. O coeficiente de correlação pode ser considerado razoável,
demonstrando correlação moderada entre valores observados e estimados pela interpolação
espacial. Pelos resultados de validação, pode-se afirmar que a técnica é adequada para as
finalidades propostas neste trabalho com um poder preditivo razoável.
6. CONCLUSÕES
Este trabalho teve como propósito o estudo e a aplicação da Geoestatística na área de demanda
por transportes em combinação a uma ferramenta tradicional de estimação. A variável objeto
de estudo qualitativa dicotômica utilizada foi a preferência por modo motorizado por domicílio,
em que o valor “1” é referente à preferência por transporte público e o valor “0” se refere à
preferência por transporte individual motorizado por domicílio.
O método sequencial proposto teve como primeira etapa a estimação da variável objeto de
estudo. Foram estimadas probabilidades de escolha do transporte público em relação ao
transporte individual motorizado, por meio da RLM. O modelo foi considerado bem ajustado
através de coeficientes de Cox & Snell e Nagelkerke satisfatórios. Este método foi validado por
meio de cálculo de taxas de acertos com a utilização da amostra de validação. A taxa de acertos
foi de 96%, demonstrando o bom poder preditivo da abordagem clássica não espacial.
Este trabalho utilizou como segunda etapa a interpolação espacial, com a finalidade de obter
uma superfície contínua de preferência modal no município de São Paulo.
A etapa de estimação geoestatística, baseada nos resultados da Regressão Logística, originou
um mapa estimado de probabilidades de escolha do modo de transporte motorizado (individual
ou público) condizente com a prática. Observou-se maior probabilidade de preferência por
transporte individual motorizado, realizado por automóveis e motocicletas, no centro da cidade
de São Paulo. À medida em que se afasta do centro, o domicílio tende a ter preferência pelo
transporte público. As Zonas de Tráfego mais periféricas, como Cantareira, Estação de
tratamento de água do Guaraú, Reserva do Cantareira, Vista Alegre, Cidade Universitária,
Marsilac, Parelheiros, Bororé, e consequentemente menos habitadas, demonstram essa
tendência.
Além da obtenção dos mapas krigados e valores observados, verificou-se baixos valores de
erros das medidas de desempenho utilizadas para validação da modelagem geoestatística. Além
disso, o coeficiente de correlação que mensura a proporcionalidade entre valores teve valor
razoável, assumindo associação entre valores observados e interpolados.
A partir do método sequencial proposto, demonstrou-se ser possível a obtenção de valores de
escolha modal interpolados espacialmente, com a utilização de ferramentas e variáveis
tradicionais (Regressão Logística) e posterior uso de interpolador espacial (Krigagem).
AGRADECIMENTOS O presente trabalho foi realizado com apoio da CAPES, CNPq e FAPESP. As autoras agradecem também à
Companhia do Metropolitano de São Paulo pela cessão dos dados da Pesquisa Origem/Destino de 2007.
REFERÊNCIAS BIBLIOGRÁFICAS Bhat, C.; H. Zhao (2002) The spatial analysis of activity stop generation. Transp. Res. B36, 557–575.
Boulos, M. N. K. (2004) Towards evidence-based, GIS-driven national spatial health information infrastructure
and surveillance services in the United Kingdom. International Journal of Health Geographics, v. 3, n. 1,
p. 1, 2004.
Cervero, R.; C. Radisch (1996) Pedestrian versus automobile oriented neighborhoods. Transport Policy 3, 127–
141.
Croner, C. M.; L. de Cola (2001) Visualization of disease surveillance data with geostatistics, Statistical Division
of the United Nations Economic Commission on Europe (UNECE), Tallinn, Estonia, 25 a 28 de Setembro
de 2001, p. 97-6.
Goovaerts, P. (2006) Geostatistical analysis of disease data: visualization and propagation of spatial uncertainty in
cancer mortality risk using Poisson kriging and p-field simulation. International Journal of Health
Geographics, v. 5, n. 1, p. 7, 2006.
Hair Jr., J. F.; W. C. Black; B. J. Babin; R. E. Anderson (2010) Multivariate Data Analysis. Prentice Hall. 7ed.
Hollander, Y.; Liu, R. (2008) The principles of calibrating traffic microsimulation models. Transportation, vol.
35, n° 3, p. 347-362.
Kitamura, R.; P. L. Mokhtarian; L. Laidet (1997) A micro-analysis of land use and travel in five neighborhoods in
the San Francisco Bay Area. Transportation 24, 125–158.
Lindner, A. (2015) Análise desagregada de dados de demanda por transportes através de modelagem
geoestatística e tradicional. Dissertação (Mestrado em Ciências) - Departamento de Engenharia de
Transportes, Escola de Engenharia de São Carlos, Universidade de São Paulo, São Carlos, 2015.
Matheron, G. (1971) The theory of regionalized variables and its applications. Les Cahiers du Centre de
Morphologie Mathématique de Fontainebleau. École Nationale Supérieure dês Mines de Paris nº 5. 211 p.
Metrô - Companhia do Metropolitano de São Paulo (2007) Pesquisa Origem-Destino 2007 - Região Metropolitana
de São Paulo: Síntese das informações.
Ortúzar, J. D.; L. G. Willumsen (2011) Modelling Transport. Londres: Wiley. 4ª ed. 586p.
Páez, A.; F. A. López; M. Ruiz; C. Morency (2013) Development of an indicator to assess the spatial fit of discrete
choice models. Transp. Res. B56, 217–233.
Pitombo, C. S.; A. S. G. Costa; A. R. Salgueiro (2015b) Proposal of a sequential method for spatial interpolation
of mode choice. Boletim de Ciências Geodésicas (Impresso) JCR v. 21, p. 3, 2015.
Pitombo, C. S.; A. R. Salgueiro; A. S. G. Costa; C. A. Isler (2015a) A Two-step method for mode choice estimation
with socioeconomic and spatial information. Spatial Statistics, v. 11, p. 45-64, 2015.