Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
Mineração de Dados em Tuberculose Pleural
Bernardo Martins Costa
Projeto de Graduação apresentado ao Curso de
Engenharia de Computação e Informação da
Escola Politécnica, Universidade Federal do Rio de
Janeiro, como parte dos requisitos necessários à
obtenção do título de Engenheiro.
Orientador: José Manoel de Seixas
Rio de Janeiro
Março de 2014
MINERAÇÃO DE DADOS EM TUBERCULOSE PLEURAL
Bernardo Martins Costa
PROJETO DE GRADUAÇÃO SUBMETIDO AO CORPO DOCENTE DO CURSO
DE ENGENHARIA DE COMPUTAÇÃO E INFORMAÇÃO DA ESCOLA
POLITÉCNICA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO
PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE
ENGENHEIRO DE COMPUTAÇÃO E INFORMAÇÃO.
Examinada por:
______________________________________________
Prof. José Manoel de Seixas, D.Sc.
______________________________________________
Prof. Sergio Lima Netto, Ph.D.
______________________________________________
Profa. Anete Trajman, D.Sc.
______________________________________________
Prof. Henrique Cukierman, D.Sc.
RIO DE JANEIRO, RJ – BRASIL
Março de 2014
1
Bernardo Martins Costa
Mineração de Dados em Tuberculose Pleural /
Bernardo Martins Costa. – Rio de Janeiro: UFRJ/ Escola
Politécnica, 2014.
XIII, 59 p.: il.; 29,7 cm.
Orientador: José Manoel de Seixas
Projeto de Graduação – UFRJ/ Escola Politécnica/
Curso de Engenharia de Computação e Informação, 2014.
Referências Bibliográficas: p.68
1. Mineração de Dados 2. Tuberculose pleural 3.
Redes Neurais Artificiais I. Seixas, José Manoel II.
Universidade Federal do Rio de Janeiro, Escola Politécnica,
Curso de Engenharia de Computação e Informação. III.
Título.
2
Aos que são loucos o suficiente
para mudar o mundo
3
AGRADECIMENTOS
A minha família, meus pais, meus irmãos, tios, primos e avós, pelo apoio
incondicional e o suporte de todos os dias. Só vocês para comprarem minhas ideias nada
convencionais. Obrigado pelo carinho, pela atenção e por me aturarem desde que nasci.
Aos amigos da ECI, por compartilharem os momentos mais difíceis e os mais
alegres. Foram incontáveis noites de desespero e trabalho duro, impossíveis de serem
concluídas sem a presença de vocês. Obrigado pela cumplicidade de sempre.
Aos amigos da Fluxo Consultoria, por terem sido uma escola dentro da
universidade. Com vocês aprendi a sonhar grande e a correr atrás dos sonhos, com
vocês fui testado além dos limites diversas vezes e com vocês quis ser um melhor
engenheiro. Obrigado pelas risadas, pelos apelidos e por acreditarem em mim.
Aos amigos que fiz na Bélgica, onde ousamos aprender engenharia em francês,
obrigado por estarem lá quando tudo o que me era fundamental esteve a um oceano de
distância. Obrigado por terem sido o meu pedacinho do Brasil naquela terra fria e
cinzenta, e por compartilharem comigo as melhores cervejas do mundo.
Aos amigos da Intratec Solutions, obrigado pela confiança, e por me ensinarem
a aprender e a fazer trabalhos excelentes.
Ao meu orientador, professor José Manoel de Seixas, por toda a paciência, toda
a ajuda e a cobrança que fizeram desse trabalho ser possível. Ao pessoal do LPS,
especialmente Junior Moura e Luiz Évora, por aturarem minhas perguntas e estarem
sempre dispostos a ajudar mesmo tendo tempo escasso.
4
Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ como parte
dos requisitos necessários para a obtenção do grau de Engenheira de Computação e
Informação.
Mineração de Dados em Tuberculose Pleural
Bernardo Martins Costa
Março/2014
Orientador: José Manoel de Seixas
Curso: Engenharia de Computação e Informação
A tuberculose é uma doença conhecida pela comunidade médica, com
diagnóstico, exames, tratamento e métodos preventivos acessíveis. No entanto seus
números ainda assustam, principalmente depois da epidemia de AIDS nos anos 1980. É
uma doença altamente contagiosa, e em uma de suas formas extrapulmonares, como a
pleural, apresenta diagnóstico não trivial. Os exames que são acessíveis como a
baciloscopia não detectam o bacilo da micobactéria no caso pleural, e os de melhor
performance são invasivos, apresentando riscos e não estando disponíveis em muitos
lugares. Nesse contexto, sistemas de apoio ao diagnóstico se tornam uma ferramenta
importante para o auxílio a decisão para triagem e diagnóstico. Um bom desempenho
nessas duas etapas implica melhor utilização de recursos hospitalares, de equipamento e
laboratoriais, necessários para exames e tratamento. Este trabalho tem o objetivo de,
através do uso de redes neurais artificiais, analisar características de pacientes suspeitos
de tuberculose pleural em busca daquelas mais relevantes, com o intuito de selecioná-
las para elaborar modelos de melhor performance.
5
Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillment of
the requirements for the degree of Computer and Information Engineer.
Data Mining on Pleural Tuberculosis
Bernardo Martins Costa
March/2014
Advisor: José Manoel de Seixas
Major: Computer and Information Engineering
Tuberculosis is a well-known disease, with accessible diagnosis, tests and treatment.
However the number of infected people is large, and became larger after the HIV
pandemic in the 1980’s. It is highly infectious, and one of its extra pulmonary forms,
like pleural tuberculosis, doesn’t have an easy diagnosis. The tests that are affordable
like sputum smear don’t detect the mycobacteria in the pleural case, and those that
perform better are invasive, presenting risks and requiring special equipment, thus not
being available. In this context, decision-support systems become an important tool to
help decision making for screening and diagnosis. A good performance on these two
steps means better use of health-care resources, equipments and laboratories needed for
examination and treatment. The goal of this work is to analyze, by the use of Artificial
Neural Networks, characteristics of patients suspicious of having pleural tuberculosis,
searching for those that are the most relevant, intending to select the best of them to
design models of better performance.
6
SUMÁRIO
CAPÍTULO 1 - INTRODUÇÃO ....................................................................................... 11 1.1. MOTIVAÇÃO ....................................................................................................................... 12 1.2. OBJETIVO ............................................................................................................................ 14 1.3. ORGANIZAÇÃO DO TEXTO .................................................................................................. 15
CAPÍTULO 2 - REVISÃO DA LITERATURA .............................................................. 16 2.1. TUBERCULOSE .................................................................................................................... 16 2.2. TUBERCULOSE PLEURAL ..................................................................................................... 17 2.3. REDES NEURAIS ARTIFICIAIS .............................................................................................. 19
CAPÍTULO 3 - BASE DE DADOS E MÉTODO DE TRABALHO ............................. 24 3.1. BASE DE DADOS .................................................................................................................. 24 3.2. IMPUTAÇÃO MÚLTIPLA ....................................................................................................... 28 3.3. MÉTODO ............................................................................................................................. 32 3.3.1. PREPARAÇÃO DOS DADOS .................................................................................................. 32 3.3.2. MODELOS PROPOSTOS ........................................................................................................ 32 3.3.3. ESCOLHA DA TOPOLOGIA ................................................................................................... 34 3.3.4. VALIDAÇÃO CRUZADA ....................................................................................................... 34 3.3.5. ÍNDICES DE DESEMPENHO ................................................................................................... 35 3.3.6. SELEÇÃO DA REDE DE OPERAÇÃO ....................................................................................... 36 3.3.7. ANÁLISE DE RELEVÂNCIA ................................................................................................... 37 3.3.8. NOVO TREINAMENTO ......................................................................................................... 38
CAPÍTULO 4 - RESULTADOS ....................................................................................... 38 4.1. REDES MLP ........................................................................................................................ 38
4.1.1. MODELO I – REDE SOBRE DADOS PESSOAIS .................................................................. 39 4.1.2. MODELO II – REDE SOBRE DADOS SOCIAIS ................................................................... 42 4.1.3. MODELO III – REDE SOBRE DADOS PESSOAIS E SOCIAIS ................................................ 44 4.1.4. MODELO IV – REDE SOBRE OS MODELOS I E II ............................................................. 47
4.2. ANÁLISE DE RELEVÂNCIA ................................................................................................... 51 4.3. REDES MLP RETREINADAS ................................................................................................. 52
4.3.1. MODELO V – REDE SOBRE DADOS PESSOAIS ................................................................. 52 4.3.2. MODELO VI – REDE SOBRE DADOS SOCIAIS .................................................................. 54 4.3.3. MODELO VII – REDE SOBRE DADOS PESSOAIS E SOCIAIS .............................................. 56 4.3.4. MODELO VIII – REDE SOBRE MODELOS V E VI ............................................................. 58 4.3.5. MODELO IX – REDE SOBRE DADOS PESSOAIS E SOCIAIS ................................................ 60
4.4. COMPARAÇÃO ENTRE AS REDES MLP ................................................................................ 64 CAPÍTULO 5 - CONCLUSÃO E TRABALHOS FUTUROS ....................................... 66
REFERÊNCIAS ...................................................................................................................... 68
7
LISTA DE FIGURAS
Figura 2.3-1 – Neurônio artificial ............................................................................................................... 20
Figura 2.3-2 – Rede Neural Artificial Multicamada (MLP) ....................................................................... 20
Figura 3.1-1 – Porcentagem de dados faltantes na totalidade de dados ...................................................... 27
Figura 3.1-2 – Porcentagem de amostras com dados faltantes ................................................................... 27
Figura 3.1-3 – Porcentagem de variáveis com dados faltantes ................................................................... 27
Figura 3.2-1 – Média de cada variável entre os conjuntos original e IM ................................................... 29
Figura 3.2-2 - Desvio padrão de cada variável entre os conjuntos original e IM ....................................... 30
Figura 3.2-3 - Curtose de cada variável entre os conjuntos original e IM .................................................. 30
Figura 3.2-4 - Obliquidade de cada variável entre os conjuntos original e IM ........................................... 31
Figura 3.2-5 - Distância KL de cada variável entre os conjuntos original e IM ......................................... 31
Figura 3.3.2-1 – Modelo I ........................................................................................................................... 33
Figura 3.3.2-2 – Modelo II .......................................................................................................................... 33
Figura 3.3.2-3 – Modelo III ........................................................................................................................ 33
Figura 3.3.2-4 – Modelo IV ........................................................................................................................ 33
Figura 4.1.1-1 – Modelo I – SP médio das 50 melhores redes para cada topologia ................................... 39
Figura 4.1.1-2 – Modelo I – Curva ROC e Curvas de Performance de Treinamento da Rede de Operação
..................................................................................................................................................................... 40
Figura 4.1.1-3 – Modelo I – Histograma de Saída e Matrizes de Confusão da Rede de Operação ............ 41
Figura 4.1.2-1 – Modelo II – SP médio das 50 melhores redes para cada topologia .................................. 42
Figura 4.1.2-2 – Modelo II – Curva ROC e Curvas de Performance de Treinamento da Rede de Operação
..................................................................................................................................................................... 43
Figura 4.1.2-3 – Modelo II – Histograma de Saída e Matrizes de Confusão da Rede de Operação ........... 43
Figura 4.1.3-1 – Modelo III – SP médio das 50 melhores redes para cada topologia ................................ 45
Figura 4.1.3-2 – Modelo III – Curva ROC e Curvas de Performance do Treinamento da Rede de Operação
..................................................................................................................................................................... 46
Figura 4.1.3-3 – Modelo III – Histograma de saída e Matrizes de Confusão da Rede de Operação .......... 46
Figura 4.1.4-1 – Modelo IV – SP médio das 50 melhores redes para cada topologia ................................ 48
8
Figura 4.1.4-2 – Modelo IV – Curva ROC e Curvas de Performance de Treinamento para Rede de
Operação ..................................................................................................................................................... 49
Figura 4.1.4-3 – Modelo IV – Histograma de saída e Matrizes de Confusão da Rede de Operação .......... 49
Figura 4.3.1-1 – Modelo V – SP médio das 50 melhores redes para cada topologia ................................. 52
Figura 4.3.1-2 – Modelo V – Curva ROC e Curvas de Performance de Treinamento da Rede de Operação
..................................................................................................................................................................... 53
Figura 4.3.1-3 – Modelo V – Histograma de saída e Matrizes de Confusão da Rede de Operação ........... 54
Figura 4.3.2-1 – Modelo VI – SP médio das 50 melhores redes para cada topologia ................................ 54
Figura 4.3.2-2 – Modelo VI – Curva ROC e Curvas de Performance de Treinamento da Rede de Operação
..................................................................................................................................................................... 55
Figura 4.3.2-3 – Modelo VI – Histograma de saída e Matrizes de Confusão da Rede de Operação .......... 56
Figura 4.3.3-1 – Modelo VII – SP médio das 50 melhores redes para cada topologia ............................... 56
Figura 4.3.3-2 – Modelo VII – Curva ROC e Curvas de Performance de Treinamento da Rede de
Operação ..................................................................................................................................................... 57
Figura 4.3.3-3 – Modelo VII – Histograma de saída e Matrizes de Confusão da Rede de Operação ........ 58
Figura 4.3.4-1 – Modelo VIII – SP médio das 50 melhores redes para cada topologia ............................. 58
Figura 4.3.4-2 – Modelo VIII – Curva ROC e Curvas de Performance de Treinamento da Rede de
Operação ..................................................................................................................................................... 59
Figura 4.3.4-3 – Modelo VIII – Histograma de saída e Matrizes de Confusão da Rede de Operação ....... 60
Figura 4.3.5-1 – Modelo IX – SP médio das 50 melhores redes para cada topologia ................................ 60
Figura 4.3.5-2 – Modelo IX – Curva ROC e Curvas de Performance de Treinamento da Rede de Operação
..................................................................................................................................................................... 61
Figura 4.3.5-3 – Modelo IX – Histograma de saída e Matrizes de Confusão da Rede de Operação .......... 62
Figura 4.3.5-4 – Modelo III – Relevância de variáveis no conjunto de treinamento .................................. 62
Figura 4.3.5-5 – Modelo III – Relevância de variáveis no conjunto de teste ............................................. 63
Figura 4.4-1 – Comparação do desempenho médio dos modelos segundo o índice SP ............................. 64
9
LISTA DE TABELAS
Tabela 3.1-1 – Relação de variáveis do tipo Dados Pessoais ..................................................................... 26
Tabela 3.1-2 – Relação de variáveis do tipo Dados Sociais ....................................................................... 26
Tabela 4.1.1-1 – Modelo I - Estatísticas para as 50 melhores redes e Rede de Operação .......................... 40
Tabela 4.1.2-1 – Modelo II – Estatísticas para as 50 melhores redes e Rede de Operação ........................ 43
Tabela 4.1.3-1 – Modelo III – Estatísticas para as 50 melhores redes e Rede de Operação ....................... 45
Tabela 4.1.4-1 – Modelo IV – Estatísticas para as 50 melhores redes e Rede de Operação ...................... 48
Tabela 4.3.1-1 – Modelo V – Estatísticas das 50 melhores redes e Rede de Operação .............................. 53
Tabela 4.3.2-1 – Modelo VI – Estatísticas das 50 melhores redes e Rede de Operação ............................ 55
Tabela 4.3.3-1 – Modelo VII – Estatística das 50 melhores redes e Rede de Operação ............................. 57
Tabela 4.3.4-1 – Modelo VIII – Estatística para as 50 melhores redes da melhor topologia e Rede de
Operação ..................................................................................................................................................... 59
Tabela 4.3.5-1 – Modelo IX – Estatísticas das 50 melhores redes da melhor topologia e Rede de Operação
..................................................................................................................................................................... 61
Tabela 4.4-1 – Comparação entre os modelos propostos e retreinados ...................................................... 64
10
LISTA DE SIGLAS
ADA – Adenosina desaminase
AIDS – Síndrome da imunodeficiência adquirida
HIV – Vírus da imunodeficiência humana
IFN-y – Interferon gama
IM – Imputação Múltipla
MLP – Multi-layer perceptron
OMS – Organização Mundial da Saúde
RNA – Redes Neurais Artificiais
ROC – Receiver operating characteristic
SAD – Sistemas de Apoio à Decisão
SP – Índice Soma-Produto
SUS – Sistema Único de Saúde
UFRJ – Universidade Federal do Rio de Janeiro
11
Capítulo 1 - Introdução
No mundo informatizado, onde a tecnologia da informação nos permite ter
acesso a cada vez mais dados e de forma mais rápida, juntamente com a necessidade de
se obter resultados melhores e em menos tempo, em várias áreas de aplicação faz-se
necessário o desenvolvimento e a utilização de Sistemas de Apoio à Decisão (SAD).
Esses sistemas servem como suporte para escolhas que especialistas precisam fazer e
são baseados em dados disponíveis no domínio em que se inserem, extraindo desses
dados informações que, muitas vezes, não são perceptíveis aos seres humanos num
curto espaço de tempo, devido, eventualmente, à alta dimensionalidade desses dados.
Um fator importante na tomada de decisão com base nesses dados é a
capacidade que temos de visualizar a informação, o que não é possível se tentarmos
enxergar altas dimensões. Para isso, faz-se necessário o uso de conceitos e ferramentas
que nos permitam visualizar e, principalmente, interpretar a informação que nos é
apresentada. Poder visualizar as informações traz conforto e é eficiente para a tomada
de decisões.
Além da visualização, quando se fala em auxílio à tomada de decisões, um fator
de extrema importância é a performance que os SAD devem apresentar. Por exemplo,
na área médica, um SAD de baixa performance não tem condição de prestar auxílio a
um especialista, uma vez que este precisa ter confiança nos resultados do sistema,
fazendo com que ele se atenha às fontes clássicas de auxílio, como exames, avaliação e
escores clínicos. Por alta performance nesta área, entende-se que o sistema deve detectar
o melhor possível a presença de uma determinada doença, apresentando também uma
taxa baixa de falsos-positivos. Espera-se que um SAD com boa performance auxilie a
tomada de decisão, no entanto sem substituir os demais recursos disponíveis.
12
De forma a alcançar o que se espera de um SAD, em termos de capacidade de
extração de informação, visualização de dados e performance, vêm se destacando o
emprego de técnicas de Inteligência Computacional no desenvolvimento de tais
sistemas. Essas técnicas podem ser empregadas em diferentes fases do
desenvolvimento, como, por exemplo, em etapas de mineração de dados, visando prover
entradas de qualidade para alimentar o sistema, bem como na elaboração dos modelos
que irão trabalhar sobre essas entradas para gerar os resultados pretendidos.
Dentre as técnicas existentes, as Redes Neurais Artificiais (RNA) são bastante
utilizadas, sendo um modelo criado com inspiração no funcionamento dos nossos
neurônios biológicos. As RNA possuem propriedades interessantes, como a capacidade
de aproximar funções complexas, por serem capazes de aprender as correlações de alto
nível presentes nos dados, o que se mostra conveniente, quando tratamos dados de alta
dimensionalidade. As RNA têm mostrado bom desempenho frente a outros tipos de
modelo de inteligência computacional.
1.1. Motivação
Devido a fatores sociais e econômicos, busca-se cada vez mais melhorar a
eficiência de processos, sobretudo na área médica, onde decisões impactam diretamente
na utilização de recursos hospitalares, na evolução do quadros clínicos e na exposição
de pacientes a riscos de infecção. A situação se torna mais crítica quando se fala em
doenças de difícil diagnóstico, como é o caso da tuberculose (TB), em especial em suas
formas extrapulmonares.
A TB é uma das principais doenças que atingem a população mundial,
configurando um problema grave de saúde pública. Segundo a Organização Mundial da
Saúde (OMS), um terço da população mundial está infectada pelo agente causador da
13
doença, o Mycobacterium tuberculosis, e no ano de 2011 foram registrados 8,7 milhões
de casos, com 1,4 milhões de óbitos, apesar de existir tratamento eficaz e de a doença
ser conhecida há bastante tempo.
No Brasil, segundo o Ministério da Saúde, foram registrados 70.047 casos em
2012, com uma taxa de incidência de 36,1 casos para cada 100 mil habitantes. A região
Sudeste lidera os casos de tuberculose no país com 44,1% da sua totalidade em 2012.
Segundo a Secretaria Estadual da Saúde, em 2012, no estado do Rio de Janeiro, o pior
junto com o estado do Amazonas, foram identificados 14.039 casos de tuberculose,
totalizando 15% dos casos do país naquele ano.
A partir dos anos 1980, a coinfecção pelo o vírus da imunodeficiência humana
(HIV) fez aumentar a incidência da TB e se mostrou como uma séria associação,
podendo levar ao aumento da mortalidade em razão de TB. Outros fatores estão
associados à alta prevalência da TB, como a elevada desigualdade social e a ineficácia
de sistemas públicos de saúde.
A TB pulmonar é a forma mais frequente da doença, e é transmitida a partir da
inalação do agente causador, presente no ar por ter sido expelido por uma pessoa
infectada. No entanto, existem outras formas de TB, extrapulmonares, que representam
25% [18] do total de casos de TB. Dentre elas, as mais frequentes são a TB pleural e a
ganglionar, mas pode ocorrer também nos ossos e articulações, pele, meninges, no
sistema nervoso central, no sistema urogenital, no fígado e no baço.
A TB pleural (pTB), em particular, é a segunda forma de maior incidência de TB
e uma das maiores causas de efusão pleural no mundo. Seu diagnóstico se mostra difícil
pois o paciente geralmente não apresenta tosse com escarro. Dessa forma, caso não haja
a indução do escarro, não é possível realizar a baciloscopia, nem a cultura para
micobactéria, exames estes que são utilizados para a TB pulmonar [6]. Para a pTB,
14
fazem-se necessários exames como a análise do líquido pleural e a biópsia da pleura,
este último apresentando maior risco ao paciente. Bons resultados foram obtidos ao se
procurar, por exemplo, por marcadores de resposta imunológica ou inflamatória como a
adenosina desaminase (ADA) no líquido pleural [6] [14] [18], ou ainda pelo próprio
agente causador M. tuberculosis, através de técnicas que detectam seu material genético.
Ambos tipos de exame são invasivos e podem trazer complicações ao paciente, além de
necessitarem de laboratórios equipados para a sua realização, o que nem sempre está a
disposição em regiões mais pobres.
Tendo esse cenário em vista, a utilização dos SAD de base estatística para apoio
à decisão médica se faz importante, pois os testes diagnósticos disponíveis apresentam
limitação em sensibilidade, exigindo em muitos casos a análise de outros testes, que
podem ser mais caros, mais demorados, mais invasivos ou mesmo podem não estar
disponíveis na região em questão. Um SAD empregado na situação de triagem ou
diagnóstico poderia evitar que pacientes sejam expostos a condições ou a testes que não
se fazem necessários, ajudando também a economizar recursos para os casos em que
houver maior probabilidade de ocorrência da doença.
1.2. Objetivo
Este trabalho tem como objetivo analisar dados de pacientes suspeitos de pTB,
dentre dados pessoais e de informações sociais, que não são comumente utilizados em
estudos deste tipo, de forma a identificar variáveis relevantes para a confecção de SADs
que futuramente irão auxiliar a tomada de decisão de médicos nas fases de triagem ou
diagnóstico desses pacientes. Essa identificação se dará por meio de modelos de Redes
Neurais Artificiais, supervisionadas e não-supervisionadas. Ao final, serão propostos
15
modelos de RNA baseados somente nas variáveis identificadas como mais relevantes, e
feita uma comparação com os modelos baseados nos dados completos.
1.3. Organização do Texto
No Capítulo 2 deste trabalho, serão apresentados, de maneira mais detalhada, os
conceitos tratados e o domínio em que este trabalho está inserido, por meio de uma
revisão bibliográfica. A seguir, no Capítulo 3, a base de dados utilizada será descrita,
bem como serão descritas as técnicas utilizadas para o melhor aproveitamento de todas
as amostras coletadas. Nesse capítulo, também será apresentada a metodologia para a
obtenção dos resultados.
O Capítulo 4 tratará dos resultados obtidos, bem como da escolha dos melhores
modelos, da visualização dos dados e das análises das variáveis através das técnicas
escolhidas. Também contará com a proposição e avaliação de modelos baseados nas
variáveis que mais contribuem para um melhor resultado.
O Capítulo 5 conclui o trabalho, destacando a contribuição dos resultados e das
análises para o domínio do problema, além de dar luz a desenvolvimentos futuros,
baseados nos resultados apresentados.
16
Capítulo 2 - Revisão da Literatura
2.1. Tuberculose
A tuberculose (TB) é uma das doenças mais antigas que atinge a humanidade,
sendo conhecida desde o século XIX. Apesar de ter prevenção em forma de vacina e de
ter tratamento eficaz, ainda aflige bastante a população mundial, sobretudo em áreas de
baixos índices socioeconômicos.
O indivíduo, geralmente com a forma pulmonar da doença, capaz de transmitir o
bacilo do Mycobacterium tuberculosis, agente causador, é a principal fonte de infecção,
podendo também a doença ser transmitida pelo gado bovino. Estima-se que 2 bilhões de
pessoas no mundo estão infectadas com o bacilo do agente causador, sendo assim 30%
da população mundial. Segundo a OMS, em 2011, 1,4 milhão de pessoas morreram em
decorrência da doença.
No Brasil, segundo o Ministério da Saúde, foram registrados 70.047 casos em
2012, com uma taxa de incidência de 36,1 casos para cada 100 mil habitantes. A região
Sudeste lidera os casos de tuberculose no país com 44,1% da sua totalidade em 2012.
Segundo a Secretaria Estadual da Saúde, em 2012, no estado do Rio de Janeiro, o pior
junto com o estado do Amazonas, foram identificados 14.039 casos de tuberculose,
totalizando 15% dos casos do país naquele ano.
Sua forma mais frequente é a pulmonar, e é de grande importância uma vez que
sua forma de transmissão se dá por via aérea. Indivíduos com a forma ativa da doença
elimina o agente causador no ar, que depois é inalado pelo indivíduo sadio. No entanto a
tuberculose pode se manifestar em qualquer área do corpo humano, tendo maior
frequência na pleura e nos linfonodos.
17
Entende-se diversos eventos como contribuintes para o atual quadro de TB no
mundo, dentre eles pode-se destacar a coinfecção com o vírus HIV, a degradação das
condições socioeconômicas em determinados países, o elevado índice de abandono do
tratamento, o aparecimento da variante multirresistente da doença e a falta de interesse
público e da comunidade científica tanto na criação ou melhoria das políticas públicas
de combate à doença, quanto em inovações em ferramentas de controle da TB.
Fatores que estão associados ao risco de contrair TB são as condições
socioeconômicas, a desnutrição, as más condições de higiene e a ineficiência dos
sistemas públicos de saúde [1]. Esse risco aumenta caso o indivíduo tenha contato direto
e frequente com portadores da doença na forma pulmonar, ou ainda em lugares de
grande concentração de pessoas e de insalubridade. Há ainda, e não menos importante, a
situação dos indivíduos imunodeprimidos, que tem risco ainda maior de desenvolver a
doença. Crianças e idosos também são mais susceptíveis à doença.
2.2. Tuberculose Pleural
A tuberculose pleural (pTB) é a forma mais frequente de TB extrapulmonar.
Diferencia-se da forma pulmonar da TB pela localização do agente causador, alojado na
pleura e não na cavidade pulmonar. O pulmão é a porta de entrada do agente causador, o
M. tuberculosis, que passa para o espaço pleural, geralmente, pela ruptura de um foco
subpleural [15]. A presença do agente causador no espaço pleural gera uma reação de
hipersensibilidade. [10]
A pTB atinge todas as faixas etárias, com certo predomínio entre jovens e
adultos [8]. Estima-se que até 25% do total de casos de TB sejam extrapulmonares,
número que aumenta para até 60% nos casos de indivíduos imunodeprimidos.
18
A pTB é uma das maiores causas de derrame pleural [9] e seus principais
sintomas são febre, dor torácica, perda de apetite, emagrecimento, tosse seca, e dispneia.
A intensidade dos sintomas pode variar de acordo com o volume do derrame pleural.
Em áreas de grande prevalência de tuberculose, como o Brasil, deve-se sempre levar em
consideração a etiologia tuberculosa, em caso de constatação de derrame na pleura. [7]
Uma diferença importante do diagnóstico da pTB para o da TB pulmonar é uma
maior dificuldade em se obter, de forma não invasiva, a confirmação da infecção pelo
bacilo do M. tuberculosis, pois na pTB muitas vezes o paciente apresenta tosse não-
produtiva, impossibilitando a realização da baciloscopia e da cultura para micobactéria,
exames comumente usados para o diagnóstico da TB pulmonar, de fácil execução e
disponíveis. É possível, no entanto, obter material para esses exames através da indução
do escarro, por meio de nebulização, porém ainda é um teste de baixa sensibilidade
[15].
Dessa maneira, é muitas vezes necessária a realização de exames como a biópsia
da pleura ou a análise do líquido pleural, que são invasivos, custosos e difíceis de
realizar. A procura pelo bacilo no fluido pleural, por meio de baciloscopia ou cultura
tem baixa sensibilidade, menor que 5% no primeiro caso e entre 24 e 58% no último
[15]. Uma melhor sensibilidade pode ser obtida combinando a biópsia do tecido pleural
com a cultura para micobactéria no fluido ou no tecido pleural, porém tem como
restrições tanto o risco de complicações quanto o tempo de obtenção do resultado pela
cultura (até 8 semanas).
Novas técnicas tem se mostrado promissoras, como a procura por marcadores de
resposta imunológica ou inflamatória no líquido pleural, bem como a identificação do
agente causador através de material genético presente no líquido através da técnica de
PCR (polymerase chain reaction). Marcadores como a ADA e o IFN-y (interferon
19
gama) tem apresentado boa sensibilidade na identificação da pTB como causa de
derrames pleurais. Algumas destas técnicas necessitam de equipamento especializado,
que é bastante custoso e tem baixa disponibilidade, não estando ao alcance das regiões
mais afastadas, como é o caso da tecnologia Xpert, que apresenta bons resultados e que
está em fase de implantação pelo SUS em algumas capitais brasileiras. [19]
Uma alternativa aos métodos convencionais, visando auxiliar o diagnóstico sem
substituir os demais recursos, é a utilização de redes neurais artificiais para a extração
de informações relevantes de conjuntos de dados, mesmo sem relação biológica, mas
relevantes para a tomada de decisão. Modelos de redes neurais tem sido propostos para
o caso da TB pulmonar, apresentando bons resultados. [1] [3] [4] [5] [6] [11]
2.3. Redes Neurais Artificiais
As Redes Neurais Artificias (RNA) são modelos estatísticos não-lineares,
compostos por unidades interconectadas chamadas neurônios. O neurônio artificial é
inspirado no neurônio biológico, de forma que a RNA como um todo é inspirada no
funcionamento do cérebro humano. Assim como o nosso cérebro, as RNA também
armazenam conhecimento, e o adquirem através de um processo de aprendizagem, que
processa a informação apresentada a ela.
Através de um algoritmo de aprendizagem, as RNA conseguem capturar a
informação, e com base nela, adaptar-se para atingir um determinado objetivo [2].
Nesse processo de adaptação, os neurônios tem seus pesos sinápticos modificados a
cada iteração, de modo a se aproximarem do alvo. A rede recebe uma amostra de
entrada e tem uma saída desejada, a qual tenta atingir, constituindo assim um processo
de aprendizado chamado de supervisionado. As RNA podem aprender também de modo
20
não-supervisionado, ou seja, sem um alvo a ser atingido, e isso é possível pois as redes
tentam identificar semelhanças entre os dados de entrada [2].
Figura 2.3-1 – Neurônio artificial
Figura 2.3-2 – Rede Neural Artificial Multicamada (MLP)
Para cada conexão de um neurônio existe um peso ou uma força associada a ela.
A informação que chega ao neurônio é combinada linearmente com os pesos (sinapses)
e, após essa etapa, alimenta uma função, chamada função de ativação, que restringe o
sinal de saída do neurônio. Esta função, se não-linear, torna o neurônio não-linear e dá a
ele capacidade de capturar não-linearidades nas entradas, o que torna a RNA uma
ferramenta poderosa para a execução de determinadas tarefas, como a classificação de
padrões e a regressão [2].
21
As RNA também diferem entre si pela sua arquitetura ou topologia. Seus
neurônios podem se organizar em várias camadas e se conectar de formas diferentes,
podendo ainda haver realimentação dos sinais. As redes completamente conectadas são
modelos mais complexos, mais gerais, enquanto redes com menos conexões são mais
simples, mais especializadas num determinado problema.
As redes de múltiplas camadas (MLP) são uma importante classe de RNA, pois
a elas pode ser aplicado o teorema da aproximação universal, o que quer dizer que elas
tem a capacidade de aproximar qualquer função, pois, dentre outras propriedades,
consegue realizar um mapeamento entrada-saída generalista. De fato, vai existir uma
rede que aproxima bem uma determinada função, porém não necessariamente é uma
tarefa fácil encontrar esta rede, pois o ajuste de parâmetros frente às entradas determina
o seu desempenho, e o número de parâmetros a ajustar pode ser grande o suficiente para
dificultar a resolução desse problema [2].
Para encontrar uma rede com desempenho satisfatório, é necessário observar
algumas medidas que permitem avaliar a qualidade do aprendizado (treinamento), se a
rede está atingindo os alvos desejados, e da generalização, se a rede consegue avaliar
bem novas amostras, que não fazem parte da informação utilizada no aprendizado.
Dentre diversas medidas, pode-se destacar o erro médio quadrático (MSE), a
sensibilidade, a especificidade, a área debaixo da curva ROC (Reciever operating
characteristic), o índice SP (soma-produto) e a acurácia.
As RNA são ferramentas poderosas, contudo apresentam dificuldades inerentes
à forma como se organizam: em rede. As não-linearidades do modelo estão distribuídas
entre suas unidades, os neurônios, que por sua vez estão conectados entre si. Os
neurônios se organizam em camadas, como visto na Figura 2.3-2, e o fato de ter uma
camada escondida (oculta) já dificulta a interpretação do aprendizado contido nesses
22
neurônios, e também torna o aprendizado mais difícil, pois o ajuste dos pesos deve ser
propagado pelas camadas. O algoritmo de aprendizado é capaz de realizar este ajuste, e
é chamado de algoritmo de retropropagação, cuja proposição bem sucedida tornou
possível a utilização das RNA de múltiplas camadas (MLP). O algoritmo de
retropropagação foi sofrendo modificações ao longo do tempo que melhoraram a sua
performance, tanto no tempo de conversão, quanto para evitar os mínimos locais.
Outro problema frequentemente encontrado pelas RNA é o de generalização. É
dito que uma RNA generaliza bem quando ela gera um mapeamento entrada-saída que é
correto para amostras não apresentadas na fase de treinamento, ou seja, amostras de
teste e validação. Porém, as RNA podem ser modelos complexos o suficientes para,
além de aprender as relações não-lineares necessárias para um bom desempenho,
aprender também os ruídos que os dados de entrada apresentam, especializando-se
nesses dados de treinamento. A partir desse momento, a rede perde poder de
generalização. Uma técnica utilizada para tentar sanar este problema é realizar uma
parada antecipada no algoritmo de retropropagação assim que o erro sobre o conjunto
de validação começar a aumentar.
Ainda sobre o problema de generalização, uma possível causa para um
desempenho aquém do aceitável se deve ao modo como separamos o conjunto de dados
em conjunto de treinamento e conjunto de validação. Existe a possibilidade de o
conjunto de treinamento ser muito fácil de a rede aprender e o mesmo pode acontecer
com o conjunto de validação, caso se escolha os conjuntos de maneira aleatória. Em
casos onde o conjunto de dados é pequeno, esse problema se torna ainda mais evidente,
pois a representatividade estatística dos conjuntos de treinamento e validação pode
variar mais. Para tentar solucionar este problema, duas técnicas podem ser empregadas:
o agrupamento (clusterização) dos dados, e a validação cruzada múltipla.
23
Na primeira, são procurados agrupamentos entre os dados baseados em alguma
métrica de distância, por exemplo, a distância euclidiana. A partir desses agrupamentos,
podemos formar conjuntos de treinamento e validação que englobem parte de cada um
dos agrupamentos, mantendo boa representatividade estatística nos dois conjuntos. Um
algoritmo bastante utilizado para executar a tarefa de encontrar agrupamentos é o k-
means.
A segunda técnica dividimos o conjunto de dados em K partições e fazemos K
validações cruzadas, nas quais K-1 partições formam o conjunto de treinamento e a
restante forma o conjunto de validação. A cada validação cruzada, os conjuntos se
alternam até que todos tenham sido uma vez o conjunto de validação. Por fim seleciona-
se a rede de melhor performance, segundo a medida avaliada no caso.
No desenvolvimento deste trabalhou, procurou-se utilizar todas as técnicas
descritas acima, tidas como boas práticas em projetos de redes neurais, de modo a
potencializar o desempenho dos modelos treinados.
24
Capítulo 3 - Base de Dados e Método de Trabalho
3.1. Base de Dados
A base de dados utilizada neste trabalho refere-se a dados pessoais e sociais de
pacientes atendidos na Santa Casa de Misericórdia do Rio de Janeiro.
Foram utilizados dados de 62 pacientes atendidos na Santa Casa. Dentre esses
pacientes 83,8% são homens e 16,2% mulheres, a idade média é de aproximadamente
49 anos e 56% dos pacientes foram diagnosticados com tuberculose pleural.
Os dados foram coletados com autorização dos pacientes por meio de um
questionário. Nem sempre foi possível coletar todas as informações para todos os
pacientes, de forma que a base possui um número considerável de dados faltantes,
conforme as Figura 3.1-1, Figura 3.1-2 e Figura 3.1-3. Como o número de amostras
disponível não é muito grande do ponto de vista estatístico, faz-se necessário tentar
utilizar a totalidade de amostras, completando os dados faltantes de modo a alterar o
mínimo possível a distribuição das variáveis, evitando comprometer o resultado. Isso é
possível através da técnica da Imputação Múltipla, que será explicada no próximo
tópico.
A seguir, nas Tabela 3.1-1 e Tabela 3.1-2, são apresentadas as variáveis
consideradas neste trabalho, separadas por tipo de informação: Dados Pessoais e Dados
Sociais.
25
Dados Pessoais Identificação Descrição Valores possíveis Dados
faltantes idade Idade Números naturais 0% sexo Gênero 1=Masculino; 2=Feminino 0% estcivil Estado civil 1=vive só;
2=vive com companheiro 3%
estuda É estudante 1=sim; 2=não 2% escolari Escolaridade 1=analfabeto;
2=primeiro grau incompleto; 3=primeiro grau completo; 4=segundo grau incompleto; 5=segundo grau completo; 6=superior; 7=pós-graduação
11%
emprego Situação ocupacional 1=empregado; 2=desempregado; 3=autônomo; 4=empregador; 5=dono de negócio familiar; 6=faz bicos; 7=outros; 8=não sabe informar
3%
hcw Profissional da saúde 1=sim; 2=não 0% trabalho Atividade principal 0=não se aplica;
1=indústria; 2=comercio; 3=prestação de serviço; 4=agropecuária; 5=construção civil; 6=serviço público; 7=não sabe ou não quer informar
5%
renda Renda em faixas 1=sem rendimentos; 2=menos que 1 salário mínimo; 3=1 a 4 salários mínimos; 4=4 a 8 salários mínimos; 5=8 a 12 salários mínimos; 6=12 ou mais;
8%
26
7=não sei rendaant Renda há 2 anos 1=maior; 2=igual;
3=menor; 4=não sabe informar
8%
instchef Grau de instrução do chefe de família
1=não frequentou escola; 2=primeiro grau incompleto; 3=primeiro grau completo; 4=segundo grau incompleto; 5=segundo grau completo; 6=superior; 7=pós-graduação; 8=não sabe informar
8%
Tabela 3.1-1 – Relação de variáveis do tipo Dados Pessoais
Dados Sociais Identificação Descrição Valores
possíveis Dados faltantes
asppo Número de aspiradores de pó
0=0;
1=1;
2=2;
3=3;
4=4 ou mais.
15%
carro Número de carros banheiro Número de banheiros freezer Número de freezers (duplex) geladeira Número de geladeiras duplex gel Número de geladeiras simples maquina Número de máquinas de lavar radio Número de rádios tv Número de TVs em cores vídeo Número de reprodutores de vídeo pessoas Número de pessoas que convive com
você nos últimos 2 anos 11%
comodos Número de cômodos 15% dorm Número de cômodos usados como
dormitório 16%
morua Morador de rua (ex- ou não) 1=sim; 2=não 5% preso Foi detento nos últimos 2 anos 1=sim; 2=não 6%
Tabela 3.1-2 – Relação de variáveis do tipo Dados Sociais
27
Figura 3.1-1 – Porcentagem de dados faltantes na totalidade de dados
Figura 3.1-2 – Porcentagem de amostras com dados faltantes
Figura 3.1-3 – Porcentagem de variáveis com dados faltantes
Completo 91%
Incompleto 9%
Total de dados
�Completo 77%
Incompleto
23%
Amostras
Completo 12%
Incompleto 88%
Variáveis
28
3.2. Imputação Múltipla
Em todo projeto que envolve análise de dados, deseja-se fazer inferências sobre
a população de interesse. No entanto, podem haver dados faltantes e em alguns casos
essa falta altera bastante as características originais da população que gerou os dados.
A Imputação Múltipla (IM) é um método proposto por Rubin (1987) para tratar
dados faltantes que tem sido estudado e utilizado desde então. Um método mais simples
de imputação utiliza variáveis correlacionadas presentes no conjunto de dados e sem
dados faltantes para realizar uma estimativa dos valores faltantes nas variáveis-alvo.
Como a imputação é um processo de estimação, Rubin propõe realizar diversas
imputações para que a incerteza inerente a esse processo seja levada em conta.
O objetivo da IM não é adivinhar um valor para o dado faltante, e sim manter a
variabilidade do conjunto original e a relação entre as variáveis. Espera-se que o
conjunto imputado não se distancie do conjunto original em termos de média, variância,
por exemplo, que é o grande problema da imputação única, por não considerar a questão
da variabilidade. [16]
A IM é um processo simples e de fácil computação, podendo ser brevemente
descrita nos seguintes passos:
1- São obtidos m bancos de dados completos por meio de técnicas de
imputação;
2- Cada banco gerado é então analisado, utilizando-se técnicas estatísticas
comuns, usadas na maioria dos projetos de análise.
3- Os resultados encontrados são combinados de uma maneira simples (a média
das imputações, por exemplo), possibilitando a inferência a partir dos
conjuntos imputados.
29
Para mitigar a influência dos dados faltantes, vistos na seção 3.1 deste trabalho,
a IM foi utilizada de modo que fosso possível aproveitar ao máximo a base de dados
disponível. Foram geradas 5 imputações (m = 5), e, a partir delas, gerado uma nova
base imputada contendo, para cada valor faltante, o valor mediano referente das 5
imputações.
A IM foi avaliada segundo comuns de análise estatística. O intuito é identificar
grandes desvios em relação à variabilidade do conjunto original. Foram avaliadas a
média, o desvio padrão, a curtose, a obliquidade (skewness) e a distância de Kullback-
Leibler (KL), que é uma medida de distância entre distribuições. As Figura 3.2-2,
Figura 3.2-3, Figura 3.2-4 e Figura 3.2-5 apresentam as avaliações feitas.
Figura 3.2-1 – Média de cada variável entre os conjuntos original e IM
É possível afirmar que, na totalidade das variáveis, as médias variaram pouco, o
que indica que a imputação múltipla pouco afetou esta medida estatística. As variáveis
‘pessoas’ e ‘comodos’ sofreram as maiores variações na média, sugerindo talvez que
um aprofundamento em sua análise deva ser feito, a partir de outras medidas
estatísticas.
0.000
1.000
2.000
3.000
4.000
5.000
est civil
estuda
escolarid
ade
emprego
hcw
trabalho
rend
a rend
a ant
inst che
f asp pó
carro
banh
eiro
freezer
gelade
ira
gel
maquina
radio tv
vide
o pe
ssoas
comod
os
dorm
mo rua
preso
Média Orig.
Média IM
30
Figura 3.2-2 - Desvio padrão de cada variável entre os conjuntos original e IM
O desvio padrão manteve-se praticamente estável para todas as variáveis, não
havendo considerações relevantes a serem feitas sobre a maioria das variáveis. A maior
variação se deu na variável ‘tv’, ocorrendo um leve aumento, o que indica que a IM
tornou sua distribuição mais dispersa.
Figura 3.2-3 - Curtose de cada variável entre os conjuntos original e IM
A curtose é uma medida sobre o pico ou achatamento de uma distribuição. As
maiores variações da curtose ocorreram justamente naquelas variáveis que possuem
muitos valores de um tipo, e poucos valores de outro tipo, como é o caso de ‘mo rua’ e
‘preso’. De fato, poucas pessoas se declararam como ex-moradores de rua ou ex-
detentos, o que leva a IM a alterar significativamente a curtose nesses dois casos.
0.000 0.500 1.000 1.500 2.000 2.500
est civil
estuda
escolarid
ade
emprego
hcw
trabalho
rend
a rend
a ant
inst che
f asp pó
carro
banh
eiro
freezer
gelade
ira
gel
maquina
radio tv
vide
o pe
ssoas
comod
os
dorm
mo rua
preso
Desv.Pd. Orig.
Desv.Pd. IM
-‐5.000
0.000
5.000
10.000
15.000
20.000
25.000
30.000
est civil
estuda
escolarid
ade
emprego
hcw
trabalho
rend
a rend
a ant
inst che
f asp pó
carro
banh
eiro
freezer
gelade
ira
gel
maquina
radio tv
vide
o pe
ssoas
comod
os
dorm
mo rua
preso
Curtose Orig.
Curtose IM
31
Figura 3.2-4 - Obliquidade de cada variável entre os conjuntos original e IM
A obliquidade, ou skewness, é uma medida de assimetria de uma distribuição.
Distribuições simétricas possuem obliquidade zero, ao passo que distribuições com
caudas longas tem alta obliquidade. O sinal da medida de obliquidade indica se a cauda
fica à direta (>1) ou à esquerda (<1). Novamente, as maiores variações foram nas
variáveis ‘mo rua’ e ‘preso’, e podem ser explicadas pelo mesmo motivo de alteração da
curtose.
Figura 3.2-5 - Distância KL de cada variável entre os conjuntos original e IM
A distância ou divergência de Kullbach-Leibler (KL) é uma medida da diferença
entre duas distribuições. A KL foi utilizada para comparar as distribuições de cada
variável. Em termos gerais, houve pouca variação na distribuição das variáveis, o que
-‐6.000 -‐5.000 -‐4.000 -‐3.000 -‐2.000 -‐1.000 0.000 1.000 2.000 3.000 4.000
est civil
estuda
escolarid
ade
emprego
hcw
trabalho
rend
a rend
a ant
inst che
f asp pó
carro
banh
eiro
freezer
gelade
ira
gel
maquina
radio tv
vide
o pe
ssoas
comod
os
dorm
mo rua
preso Skewness Orig.
Skewness IM
0 0.1 0.2 0.3 0.4 0.5 0.6
est civil
estuda
escolarid
ade
emprego
hcw
trabalho
rend
a rend
a ant
inst che
f asp pó
carro
banh
eiro
freezer
gelade
ira
gel
maquina
radio tv
vide
o pe
ssoas
comod
os
dorm
mo rua
preso
KL
32
indica uma boa performance da IM. Verificou-se, no entanto, que a variável que mais se
distanciou da sua distribuição original foi a ‘freezer’, que indica o número de freezers
que o paciente possui.
3.3. Método
Este trabalho visa prioritariamente identificar variáveis relevantes dentre as
disponíveis, de modo a saber quais as que mais contribuem para o desempenho dos
modelos que irão avalia-las. Nesta seção será descrito o método de trabalho que foi
seguido para tentar identificar essas variáveis.
3.3.1. Preparação dos dados
Após a IM, as variáveis foram normalizadas, estando a partir de então dentro do
intervalo -1 a 1. Cada variável foi subtraída de sua média e dividida pela sua variância.
Dessa forma obtém-se média 0 (zero) e variância 1 (um). Esse passo é importante para
que os modelos de RNA não privilegiem variáveis que estão em escalas maiores, dando
oportunidade para todas as variáveis estimularem os neurônios das redes.
3.3.2. Modelos propostos
Foram treinadas 4 topologias diferentes de redes neurais do tipo MLP, segundo a
descrição a seguir. Todas as topologias são feedforward e completamente conectadas.
I. Modelo sobre dados Pessoais;
II. Modelo sobre dados Sociais;
III. Modelo sobre ambos dados Pessoais e Sociais;
IV. Modelo sobre a saída da camada escondida dos modelos I e II.
O modelo IV é diferente dos demais, pois sua entrada não são os dados
derivados da base original e sim a saída da camada escondida dos dois primeiros
33
modelos. A camada escondida das redes neurais MLP é responsável pela descorrelação
não-linear das entradas. É ela que realiza a partição dos dados em um dimensão maior,
cabendo à camada de saída espaçar ao máximo os dados particionados. Ao propor essa
rede, estamos, na verdade, propondo um modelo de maior complexidade que os 3
primeiros, pois seria equivalente a uma rede MLP com mais de uma camada escondida,
enquanto os demais possuem apenas uma camada escondida. As Figuras 3.3.2-1 a 3.3.2-
4 ilustram a diferença entre os modelos propostos.
Figura 3.3.2-1 – Modelo I
Figura 3.3.2-2 – Modelo II
Figura 3.3.2-3 – Modelo III
Figura 3.3.2-4 – Modelo IV
34
3.3.3. Escolha da topologia
Um parâmetro importante a ser ajustado, que influi diretamente na complexidade
do modelo de rede neural, é o número de neurônios na camada escondida. A quantidade
de neurônios na camada escondida determina o número de pesos sinápticos que o
algoritmo de retropropagação deve ajustar, número este que também é atrelado à
quantidade de variáveis de entrada que a rede recebe. Neste trabalho, o número de
neurônios na camada escondida é determinado empiricamente, no processo de validação
cruzada múltipla, abordado a seguir.
3.3.4. Validação cruzada
De modo a mitigar deficiências dos modelos de rede neural, como a dependência
da inicialização dos parâmetros e a escolha dos conjuntos de treinamento e validação,
utilizou-se a técnica da validação cruzada múltipla, brevemente descrita na seção 2.3.
As amostras de entrada foram permutadas em 50 blocos diferentes e cada bloco foi
separado em conjunto de treinamento e conjunto de validação, numa proporção de 70%
do total de dados para treinamento e os 30% restantes para validação. Variou-se então o
número de neurônios na camada escondida, de 1 até 10, e para cada topologia, foram
feitas 100 inicializações, de modo a evitar o problema do mínimo local. Esse
procedimento foi aplicado a cada um dos 50 blocos de dados, numa busca por uma
configuração de treinamento e validação favorável a uma boa generalização.
Logo, para cada modelo foram treinadas 50 mil redes com configurações
diferentes, variando-se o número de neurônios, os dados que compõem os conjuntos de
treinamento e validação, e a inicialização dos pesos sinápticos. Desse total de redes, é
feita uma busca pelas mais performantes, de modo a encontrar a melhor topologia.
35
Para cada topologia, em cada bloco, estão disponíveis 100 redes com diferentes
inicializações. É escolhida a melhor entre elas, para cada bloco, de modo que ao final
existam 50 redes selecionadas para cada topologia. A melhor topologia será aquela que
possui as 50 redes de maior desempenho médio. O índice de desempenho utilizado
nesse momento é o índice Soma-Produto (SP), descrito a seguir, assim como os demais
índices utilizados neste trabalho. Para a escolha da melhor topologia, é utilizado ainda o
critério de parcimônia, havendo preferencia por redes menos complexas com
desempenho equivalente à rede de melhor desempenho.
3.3.5. Índices de desempenho
Para a avaliação do desempenho dos modelos empregados neste trabalho, alguns
índices foram considerados. Alguns deles são propriedades da curva ROC (reciever
operating characteristic), como a sensibilidade, a especificidade e o índice Soma-
Produto (SP).
A curva ROC é formada fazendo variar o limiar de decisão de um classificador
binário, variando assim também as probabilidades de detecção (sensibilidade) e de falso
alarme (1-especificidade). No caso estudado neste trabalho, a sensibilidade é
probabilidade de o modelo identificar como suspeito um paciente que realmente possui
a doença, enquanto a especificidade é a probabilidade de o modelo classificar como não
suspeito um paciente que realmente não possui tuberculose pleural.
O índice SP é definido por [1]:
𝑆𝑃 = 𝑺 × 𝑬 ×𝑺+ 𝑬2
O índice SP representa numa única medida o desempenho geral de um
classificador para duas classes, de maneira balanceada. Esse índice é sensível a
36
pequenas variações, tanto na sensibilidade (S), quanto na especificidade (E) do
classificador, sendo uma boa métrica para se adotar na escolha dos modelos, de uma
forma geral.
O índice SP é utilizado ainda na escolha do limiar de decisão entre as classes.
Em projetos de classificação, é desejável que o classificador acerte o alvo na maioria
dos casos, porém há vezes em que o problema é de difícil solução pois as classes se
encontram sobrepostas. Ao fazer variar o limiar de decisão, observa-se o valor do SP,
até que se encontre o limiar que resulta no maior SP possível para a distribuição das
estimativas do classificador.
A própria saída do classificador pode ser analisada, de forma qualitativa,
comparando-se o desempenho do conjunto de treinamento e do conjunto de teste, e
verificando, ainda, se as classes estão bem espaçadas, se acertam o alvo, se estão
sobrepostas, configurando um problema não trivial, ou se estão mais próximas do
centro, possivelmente devido a um mau treinamento. De forma quantitativa, a matriz de
confusão pode ser avaliada, cruzando-se a estimativa do classificador, segundo o melhor
limiar de decisão, com os alvos esperados. A partir dela é possível saber diretamente
medidas como a quantidade de falsos alarmes, por exemplo.
3.3.6. Seleção da rede de operação
Ainda, no caso do processo decisório na área da saúde, há duas fases em que os
SAD se mostram como boa ferramenta no auxílio à tomada de decisão, que são a
triagem de pacientes e o diagnóstico. Em fase de triagem, é interessante que todos os
pacientes portadores da doença sejam selecionados, portanto um modelo com alta
sensibilidade é recomendado, enquanto que em fase de diagnóstico, faz-se necessário
evitar que recursos da saúde sejam empregados em pacientes que não são portadores da
doença, logo um modelo de alta especificidade é recomendado.
37
Para este trabalho, considerou-se a fase de triagem como motivação na escolha
da melhor rede, dentre as 50 até aqui selecionadas. Dessa maneira, a sensibilidade será o
critério adotado, e a rede de maior sensibilidade, à luz de todo o conjunto de dados, será
a escolhida como rede de operação. As redes selecionadas nesta fase, uma para cada
modelo apresentado no início desta seção, serão as utilizadas para a Análise de
Relevância.
3.3.7. Análise de relevância
Após as redes terem sido selecionadas, pode-se verificar quais são as variáveis
que mais ou que menos contribuem para o desempenho geral dos modelos, e isso é
possível ao analisar a variação do índice SP. Esse índice apresenta forte variação mesmo
quando pequenas variações na sensibilidade ou especificidade acontecem, tornando-se
indicado para esse tipo de análise.
Para cada variável, substituiu-se o valor de cada amostra pelo seu valor mediano,
e propagou-se o sinal de entrada pela rede, obtendo-se uma nova saída. Foi calculado o
SP desta saída e comparado ao desempenho original, verificando o quanto o SP variou.
∆𝑆𝑃 = 𝑆𝑃!"#$ − 𝑆𝑃! ! !!
Grandes variações positivas no SP indicam que a variável em questão contribui
bastante para o desempenho do modelo, visto que o desempenho diminuiu
consideravelmente quando ela é forçada a assumir seu valor médio. No caso em que não
há variação do SP, ou, se por acaso essa variação for negativa, indica que a variável em
questão não contribui para o desempenho do modelo, ou, ainda, atrapalha-o. Dessa
forma é possível identificar as variáveis mais e menos relevantes para o modelo
estudado. Foram consideradas variáveis que não contribuem para o modelo aquelas com
variação do SP menor ou igual a 0,02.
38
3.3.8. Novo treinamento
Foi verificado neste trabalho, se, ao retirarmos completamente da base as
variáveis consideradas de menor relevância para os modelos, estes modelos retreinados
apresentariam melhor desempenho. Isso seria um forte indicativo de que, de fato, as
variáveis removidas são de menor importância na confecção de modelos para a amostra
de população estudada. Esta etapa foi realizada para todos os modelos propostos no
início desta seção.
Capítulo 4 - Resultados
4.1. Redes MLP
Conforme a seção 3.3.4, cada modelo proposto foi treinado 50 mil vezes, em
busca de uma bom desempenho de generalização, tentando ainda evitar o problema do
mínimo local, e também com o intuito de encontrar uma boa topologia de rede
possuindo boa performance. Esse número de treinos se dá pelo fato de, para cada
topologia, entre 1 a 10 neurônios, iterar-se por 100 inicializações diferentes sobre cada
arranjo do conjunto de dados, de um total de 50 arranjos de treinamento e validação.
São propostos inicialmente quatro modelos de rede neural. Após o treinamento,
o desempenho de cada um é representado pelo desempenho das 50 melhores redes da
melhor topologia. Dessa forma, é apresentado como desempenho a média e o desvio
padrão do SP, da sensibilidade, da especificidade e da acurácia das 50 redes.
Além disso, foi selecionada, para cada modelo, uma rede para operação, tendo
em vista o auxilio à triagem de pacientes. Para operar nesta etapa, a rede precisa ter a
maior sensibilidade possível, pois se um paciente realmente é portador de tuberculose
39
pleural, ele tem que ser detectado. Assim sendo, todos os eventos da base de dados
foram propagados pelas 50 melhores redes, e a rede de melhor sensibilidade foi
escolhida como rede de operação.
4.1.1. Modelo I – Rede sobre dados pessoais
Este modelo é a aplicação direta de uma rede neural sobre as variáveis do tipo
“pessoal” da base de dados, sendo 11 variáveis no total. A Figura 4.1.1-1 apresenta o
gráfico do desempenho médio de cada topologia, segundo o SP, cada uma contendo
suas 50 melhores redes.
Figura 4.1.1-1 – Modelo I – SP médio das 50 melhores redes para cada topologia
A topologia de maior média é a de 4 neurônios, com SPm = 0.821 ± 0.044. De
posse das 50 melhores redes dessa topologia, é possível extrair outras medidas
estatísticas como a sensibilidade, especificidade e a acurácia, expostas na Tabela
4.1.1-1, bem como a Rede de Operação selecionada pela maior sensibilidade.
40
Índice de Desempenho Rede de Operação Média 50 val Std 50 val
SP 0.825 0.821 0.044
Sensibilidade 1.000 0.822 0.112
Especificidade 0.667 0.827 0.109
Acurácia 0.857 0.824 0.047
Tabela 4.1.1-1 – Modelo I - Estatísticas para as 50 melhores redes e Rede de Operação
Em relação à média da melhor topologia deste modelo, a rede de operação apresenta
excelente sensibilidade, porém com baixa especificidade. O SP e a acurácia estão dentro
do intervalo do desvio padrão. Avaliou-se mais a fundo o desempenho da rede de
operação, segundo a curva ROC, o histograma de saída, a matriz de confusão e a
performance do treinamento, resultados expostos nas Figura 4.1.1-2Figura 4.1.1-3.
Figura 4.1.1-2 – Modelo I – Curva ROC e Curvas de Performance de Treinamento da Rede de
Operação
A curva ROC foi gerada a partir de todo o conjunto de dados para a rede de
operação em triagem. A sensibilidade de 100% apresentada confirma a pertinência
dessa rede para operar nessa etapa. Além da alta sensibilidade, a rede apresentou
especificidade de 88.9%, e também acertou 95.2% da totalidade de casos.
41
A curva de performance ilustra bem a tentativa de evitar os mínimos locais, pelo
fato de o erro de validação variar bastante antes de atingir o mínimo. O erro médio
quadrático (MSE) de validação foi alto, o que sugere que a rede não acertou o alvo em
algumas ocasiões, embora tenha classificado corretamente a grande maioria dos casos.
Pode-se verificar essa sugestão na Figura 4.1.1-3, a partir do histograma de saída e da
matriz de confusão.
Na Figura 4.1.1-4 podemos ver a relevância das variáveis deste modelo,
calculadas a partir da variação do índice SP quando propagou-se o conjunto de dados
pela rede de operação, com cada variável tendo, por sua vez, sua distribuição anulada ao
substituir seus valores pelo valor mediano. Nota-se que as variáveis ‘estuda’ e ‘hcw’
tiveram baixa contribuição para o desempenho do modelo.
Figura 4.1.1-3 – Modelo I – Histograma de Saída e Matrizes de Confusão da Rede de Operação
42
Vale notar também que as variáveis ‘idade’, ‘inst chef’ e trabalho mostraram boa
relevância para este caso, fazendo o índice SP variar acima de 0.15.
4.1.2. Modelo II – Rede sobre dados sociais
Este modelo é análogo ao Modelo I, porém, a base que alimentou a rede era
composta apenas de dados sociais dos pacientes, num total de 15 variáveis. Ao analisar
o gráfico da Figura 4.1.2-1, percebe-se que a melhor topologia é a de 3 neurônios na
camada escondida, pois apresentou a maior média entre todas as topologias.
Figura 4.1.2-1 – Modelo II – SP médio das 50 melhores redes para cada topologia
ΔSP
Figura 4.1.1-4 – Modelo I – Relevância das variáveis da Rede de Operação pela
variação do índice SP
43
Índice de Desempenho Rede de Operação Média 50 val Std 50 val
SP 0.903 0.869 0.046
Sensibilidade 0.971 0.855 0.108
Especificidade 0.889 0.889 0.105
Acurácia 0.905 0.869 0.047
Tabela 4.1.2-1 – Modelo II – Estatísticas para as 50 melhores redes e Rede de Operação
Desta vez, a rede de operação em triagem selecionada teve sensibilidade
ligeiramente abaixo da máxima, porém com especificidade elevada, mostrando-se uma
rede mais balanceada, como indica o SP. Em média esse modelo também performa
ligeiramente melhor que o Modelo I.
Figura 4.1.2-2 – Modelo II – Curva ROC e Curvas de Performance de Treinamento da Rede de
Operação
Figura 4.1.2-3 – Modelo II – Histograma de Saída e Matrizes de Confusão da Rede de Operação
44
A curva ROC, representada na Figura 4.1.2-2, referente ao desempenho da rede
de operação quando ela avalia todo o conjunto de dados apresenta boa sensibilidade e
boa especificidade. A curva de performance denota um MSE relativamente baixo, o que
sugere distribuições da saída mais próximas do alvo, o que de fato pode ser comprovado
no histograma de saída da Figura 4.1.2-3.
Quanto à relevância das variáveis sociais, pode-se destacar a baixa contribuição
trazida pelas variáveis ‘asp p’, ‘tv’ e ‘mo rua’. Em geral, a maioria das variáveis
contribuiu pouco para o desempenho do modelo, caracterizado pela baixa variação do
índice SP. A contribuição mais alta veio da variável ‘pessoas’, sendo que nenhuma
outra variável chega perto de gerar a mesma variação no índice SP que ela.
4.1.3. Modelo III – Rede sobre dados pessoais e sociais
Nesse modelo, a rede neural foi aplicada sobre ambos dados pessoais e sociais,
totalizando 26 variáveis: 11 pessoais e 15 sociais. Podem existir correlações não-
ΔSP
Figura 4.1.2-4 – Modelo II – Relevância das variáveis da Rede de Operação pela
variação do índice SP
45
lineares entre as variáveis dos dois tipos, que, os modelos I e II, especialistas em cada
tipo, respectivamente, não conseguiriam identificar, ao passo que uma rede que trata de
ambos dados poderia realizar com sucesso.
Figura 4.1.3-1 – Modelo III – SP médio das 50 melhores redes para cada topologia
Ao procurar pela melhor topologia quantitativamente, os números mostram que
a de 9 neurônios tem a maior média, porém, não muito distante está a topologia de 2
neurônios na camada escondida. Pelo critério da parcimônia, foi escolhida a topologia
de menor complexidade, sendo eleita, então, aquela com 2 neurônios.
Índice de Desempenho Rede de Operação Média 50 val Std 50 val
SP 0.949 0.853 0.036
Sensibilidade 1.000 0.822 0.108
Especificidade 0.900 0.891 0.095
Acurácia 0.955 0.852 0.039
Tabela 4.1.3-1 – Modelo III – Estatísticas para as 50 melhores redes e Rede de Operação
As melhores redes para esse modelo, de maneira geral, seguem os resultados
obtidos pelos 2 modelos anteriores, com algumas variações. A rede de operação em
46
triagem apresenta bom desempenho, detectando todos os casos de tuberculose pleural e,
ao mesmo tempo, apresentando um bom balanceamento evidenciado pelo alto SP.
Figura 4.1.3-2 – Modelo III – Curva ROC e Curvas de Performance do Treinamento da Rede de
Operação
A curva ROC relativa à totalidade dos dados confirma o bom desempenho do
modelo, que consegue acertar 96,6% dos casos. A curva de performance de treinamento
possui menos variações que a dos modelos anteriores e o MSE indica que alguns
eventos foram mapeados longe dos seus alvos, como pode-se ver na Figura 4.1.3-3.
Alguns eventos foram mapeados próximos do zero, o que significa que o
treinamento não foi tão satisfatório. Os eventos devem estar o mais próximo possível
dos seus alvos.
Figura 4.1.3-3 – Modelo III – Histograma de saída e Matrizes de Confusão da Rede de Operação
47
Desta vez a relevância foi calculada com a totalidade de variáveis disponíveis na
base de dados. Um total de 6 variáveis não resultaram em variação do índice SP quando
suprimidas para verificação da relevância, configurando um quadro de baixa
contribuição para o desempenho do modelo. A variável ‘gel’, que indica o número de
geladeiras simples do paciente, foi a que mais contribuiu para o desempenho do modelo,
neste caso.
4.1.4. Modelo IV – Rede sobre os modelos I e II
Neste caso utilizou-se um modelo bem diferente dos já apresentados. Ao invés
de aplicar esse tendo a base de dados diretamente como entrada, optou-se por conectá-lo
com a saída da camada escondida das redes dos modelos I e II. De maneira geral, esse
arranjo configura um modelo mais complexo, equivalente a uma rede com mais de uma
camada escondida.
O gráfico das médias das melhores redes por topologia indica a de 4 neurônios
como a topologia de maior média.
Figura 4.1.3-4 – Modelo III – Relevância das variáveis da Rede de Operação pela
variação do índice SP
ΔSP
48
Figura 4.1.4-1 – Modelo IV – SP médio das 50 melhores redes para cada topologia
Índice de Desempenho Rede de Operação Média 50 val Std 50 val
SP 0.954 0.792 0.074
Sensibilidade 0.909 0.775 0.134
Especificidade 1.000 0.817 0.131
Acurácia 0.950 0.794 0.074
Tabela 4.1.4-1 – Modelo IV – Estatísticas para as 50 melhores redes e Rede de Operação
Os resultados médios encontrados estão abaixo dos 3 modelos já apresentados.
No entanto, foi possível extrair uma rede de boa performance para servir como rede de
operação de triagem. Apesar de a sensibilidade dessa rede ser menor que as já avaliadas,
a rede selecionada apresentou bom balanceamento entre sensibilidade e estabilidade,
indicado por um alto SP.
A curva ROC para todo o conjunto de dados apresenta bons resultados, porem
inferiores aos modelos precedentes. Apesar disso, o modelo consegue acertar 95.2% dos
casos. A curva de performance de validação oscilou bastante, e o MSE indica que
alguns dados erraram o alvo.
49
Figura 4.1.4-2 – Modelo IV – Curva ROC e Curvas de Performance de Treinamento para Rede de
Operação
De fato, ao observar a Figura 4.1.4-3, nota-se que no histograma de saída,
muitos eventos foram mapeados longe do alvo, alguns ainda em torno do zero, o que
indica que o treinamento não tão bom. Para um bom treinamento, espera-se, dentro do
possível, que as classes estejam bem espaçadas no espectro de saída. As matrizes de
confusão mostram um bom resultado, pois, apesar de as classes estarem mais próximas
na saída dessa rede de operação, ainda foi possível encontrar um limiar de decisão
satisfatório, o que justifica os bons índices de desempenho apresentados.
Figura 4.1.4-3 – Modelo IV – Histograma de saída e Matrizes de Confusão da Rede de Operação
50
Para esse modelo, foram feitos dois gráficos de relevância: um verificando
variável por variável e outro verificando o conjunto de variáveis por vez. Como nesse
modelo existe a separação entre dados pessoais e sociais, cada um alimentando uma
rede diferente que serve de base para a rede de operação, pensou-se em avaliar a
relevância dos dois conjuntos.
ΔSP
Figura 4.1.4-4 – Modelo IV – Relevância das variáveis da Rede de Operação pela
variação do índice SP
ΔSP
Figura 4.1.4-5 – Modelo IV – Relevância de cada grupo de variáveis da
Rede de Operação pela variação do índice SP
51
O gráfico de relevância para cada variável indicou como de baixa relevância
algumas variáveis em comum com o modelo III, bem como variáveis que não tinham
sido dadas como de baixa contribuição anteriormente. A relevância por conjunto de
dados indicou que os dados sociais trazem maior contribuição para o desempenho do
modelo estudado.
4.2. Análise de Relevância
Este trabalho é pautado em dados que não são comumente utilizados para
alimentar modelos de RNA com o intuito de produzir SAD para a área da saúde.
Geralmente são utilizados dados sintomáticos e de resultados de exames, pois estão
diretamente ligados à condição do paciente.
É interessante encontrar bons resultados para a classificação de pacientes
baseados somente em dados que, a priori, não estão diretamente relacionados à doença
em questão. Seria de se esperar que a grande maioria das variáveis não contribuísse com
o desempenho dos modelos, o que não se confirma nos resultados obtidos neste
trabalho.
Dando continuidade à avaliação das variáveis, uma vez que se sabe quais delas
não contribuem para uma boa classificação dos casos, espera-se que, sem elas, os
modelos de RNA tenham um desempenho superior. Dessa forma, as variáveis
consideradas de baixa relevância foram eliminadas da base de dados e os modelos
propostos até aqui foram retreinados a partir dessa nova base.
Num primeiro momento, apenas as variáveis consideradas de baixa relevância
para ambos os modelos III e IV foram removidas. Num segundo momento, todas as
variáveis de baixa relevância do modelo III foram removidas, com o intuito de causar
maior variação na performance do novo modelo.
52
As variáveis removidas no primeiro momento foram ‘sexo’, ‘estuda’, ‘hcw’ e
‘mo rua’. Num segundo momento, além das já citadas, foram removidas ‘escolaridade’,
‘emprego’, ‘renda’, ‘tv’, ‘video’ e ‘comodos’.
4.3. Redes MLP retreinadas
4.3.1. Modelo V – Rede sobre dados pessoais
Esse modelo é análogo ao Modelo I, porém treinado sem as variáveis removidas
no primeiro momento do retreino.
Figura 4.3.1-1 – Modelo V – SP médio das 50 melhores redes para cada topologia
O gráfico das topologias indica a de 3 neurônios na camada escondida como a
de melhor média do índice SP, assim esta foi a topologia selecionada.
53
Métrica Rede de Operação Média 50 val Std 50 val
SP 0.892 0.815 0.043
Sensibilidade 0.909 0.783 0.109
Especificidade 0.875 0.855 0.111
Acurácia 0.895 0.814 0.042
Tabela 4.3.1-1 – Modelo V – Estatísticas das 50 melhores redes e Rede de Operação
É possível observar na Tabela 4.3.1-1, uma relativa piora na sensibilidade da
rede de operação de triagem escolhida em relação à rede de operação de triagem do
Modelo I, embora a rede tenha ganho bastante em especificidade, estando mais
balanceada.
Figura 4.3.1-2 – Modelo V – Curva ROC e Curvas de Performance de Treinamento da Rede de
Operação
A curva ROC apresentou bons índices para sensibilidade e especificidade
relativos a todo o conjunto de dados. O modelo mostrou acurácia de 95.2%, a mesma
apresentada pelo Modelo I. O histograma de saída possui mais eventos afastados do
alvo que o modelo anterior, e também apresenta uma distribuição mais alongada ao
redor do alvo.
54
Figura 4.3.1-3 – Modelo V – Histograma de saída e Matrizes de Confusão da Rede de Operação
4.3.2. Modelo VI – Rede sobre dados sociais
Esse modelo é um espelho do Modelo II, porém alimentado por uma base de
dados sem as variáveis de baixa relevância consideradas neste primeiro momento.
Figura 4.3.2-1 – Modelo VI – SP médio das 50 melhores redes para cada topologia
Quantitativamente, a topologia de 8 neurônios na camada escondida tem a maior
média das topologias. No entanto, pelo critério de parcimônia, foi escolhida a topologia
de 5 neurônios, pois tem média próxima à de 8 e é menos complexa.
55
Índice de Desempenho Rede de Operação Média 50 val Std 50 val
SP 0.885 0.856 0.035
sensibilidade 1.000 0.849 0.105
especificidade 0.778 0.870 0.105
acurácia 0.900 0.857 0.036
Tabela 4.3.2-1 – Modelo VI – Estatísticas das 50 melhores redes e Rede de Operação
A rede de operação de triagem selecionada neste modelo apresentou leve
melhora na sensibilidade em relação ao Modelo II, porém teve queda acentuada em sua
especificidade, tornando-se uma rede menos balanceada.
Figura 4.3.2-2 – Modelo VI – Curva ROC e Curvas de Performance de Treinamento da Rede de
Operação
A curva ROC, no entanto, indica um desempenho bem melhor do modelo em
relação à especificidade. Como a curva ROC foi calculada com base na totalidade dos
dados, significa que a especificação do modelo no conjunto de treinamento foi bastante
superior à do conjunto de validação. Isso pode ser comprovado pelas matrizes de
confusão da Figura 4.3.2-3.
56
Figura 4.3.2-3 – Modelo VI – Histograma de saída e Matrizes de Confusão da Rede de Operação
4.3.3. Modelo VII – Rede sobre dados pessoais e sociais
Esse modelo foi construído da mesma maneira que o Modelo III, porém sem as
4 variáveis removidas em razão da baixa relevância neste primeiro momento.
Figura 4.3.3-1 – Modelo VII – SP médio das 50 melhores redes para cada topologia
O gráfico de comparação das topologias indica que as redes com 7 neurônios na
camada escondida tem melhor desempenho médio segundo o índice SP.
57
Índice de Desempenho Rede de Operação Média 50 val Std 50 val
SP 0.949 0.856 0.039
Sensibilidade 1.000 0.844 0.083
Especificidade 0.900 0.872 0.115
Acurácia 0.955 0.856 0.036
Tabela 4.3.3-1 – Modelo VII – Estatística das 50 melhores redes e Rede de Operação
A rede de operação em triagem do modelo retreinado possui o mesmo
desempenho que o modelo proposto inicialmente com todas as variáveis. No
desempenho médio, este modelo teve uma leve melhora no desempenho pelo índice SP,
porém perdeu um pouco em especificidade.
Figura 4.3.3-2 – Modelo VII – Curva ROC e Curvas de Performance de Treinamento da Rede de
Operação
A curva ROC apresentou bons resultados para a totalidade dos dados, tendo a
rede de operação em triagem acertado 98,4% dos casos. O novo modelo também
apresentou uma pequena diferença no histograma de saída: não há mais eventos sendo
mapeados exatamente no zero, o que significa que a rede conseguiu espaçar mais os
eventos, garantindo uma melhor separabilidade.
58
Figura 4.3.3-3 – Modelo VII – Histograma de saída e Matrizes de Confusão da Rede de Operação
4.3.4. Modelo VIII – Rede sobre modelos V e VI
Esse modelo é análogo ao modelo IV. Na ocasião do retreino, este modelo tem
como requisito o retreino dos dois modelos aos quais ele está atrelado. Os modelos I e II
foram retreinados e referenciados como modelos V e VI, que são agora a base para o
treinamento deste modelo VIII.
Figura 4.3.4-1 – Modelo VIII – SP médio das 50 melhores redes para cada topologia
A topologia de 6 neurônios na camada escondida foi escolhida por apresentar a
maior média dos índices SP entre as melhores redes de cada topologia.
59
Índice de Desempenho Rede de Operação Média 50 val Std 50 val
SP 0.798 0.768 0.054
Sensibilidade 0.818 0.762 0.111
Especificidade 0.778 0.783 0.132
Acurácia 0.800 0.771 0.052
Tabela 4.3.4-1 – Modelo VIII – Estatística para as 50 melhores redes da melhor topologia e Rede de
Operação
Este modelo, segundo os dados apresentados na Tabela 4.3.4-1, teve uma piora
significativa em seu desempenho segundo todos os índices listados, tanto no
desempenho médio, quanto na rede de operação de triagem selecionada.
Figura 4.3.4-2 – Modelo VIII – Curva ROC e Curvas de Performance de Treinamento da Rede de
Operação
Pelo fato de este modelo ser mais complexo, torna a tarefa de encontrar um bom
desempenho e uma boa generalização difícil. A curva de performance de treinamento
oscila bastante e segundo as matrizes de confusão, a rede não generalizou tão bem,
apesar de ter tido um bom desempenho no treinamento. Esse bom desempenho no
treinamento explica os resultados da curva ROC, uma vez que ela está sendo
apresentada com base em todo o conjunto de dados, tanto validação quanto treinamento.
60
Figura 4.3.4-3 – Modelo VIII – Histograma de saída e Matrizes de Confusão da Rede de Operação
4.3.5. Modelo IX – Rede sobre dados pessoais e sociais
Esse modelo é análogo aos modelos III e VII, porém agora trata-se do segundo
momento em relação à quantidade de variáveis removidas da base. Agora foi removido
um total de 10 variáveis, deixando a nova base com 16 variáveis entre dados pessoais e
sociais.
Figura 4.3.5-1 – Modelo IX – SP médio das 50 melhores redes para cada topologia
A melhor topologia é a de 3 neurônios, pois é a que possui maior média do
índice SP dentre as suas 50 melhores redes que as demais topologias.
61
Índice de Desempenho Rede de Operação Média 50 val Std 50 val
SP 0.949 0.892 0.045
Sensibilidade 1.000 0.870 0.092
Especificidade 0.900 0.919 0.090
Acurácia 0.955 0.890 0.045
Tabela 4.3.5-1 – Modelo IX – Estatísticas das 50 melhores redes da melhor topologia e Rede de
Operação
A rede de operação em triagem deste modelo tem os mesmos valores para os
índices listados que os modelos III e VII. No entanto, agora é possível observar com
mais clareza o aumento do desempenho médio do modelo, corroborando com o que foi
pensado anteriormente no sentido de ter melhor performance, já que mais variáveis de
baixa relevância deixaram de fazer parte da base de dados.
Figura 4.3.5-2 – Modelo IX – Curva ROC e Curvas de Performance de Treinamento da Rede de
Operação
Quando a relevância das variáveis foi verificada, antes do retreino, para o
modelo II, foi visto que as variáveis de baixa relevância, analisadas uma a uma, não
produziam melhora explícita no índice SP, sendo que no máximo apenas não
contribuíam para qualquer variação. Quando todas foram removidas do modelo, teve-se
uma melhora considerável no desempenho médio geral.
62
Figura 4.3.5-3 – Modelo IX – Histograma de saída e Matrizes de Confusão da Rede de Operação
Como o gráfico de relevância da Figura 4.1.3-4 foi feito com base na totalidade
dos dados, uma ideia seria verificar se para o conjunto de treinamento e para o conjunto
de teste, separadamente, existe alguma variável que contribua explicitamente para uma
melhora no desempenho, ou seja, ΔSP < 0.
Figura 4.3.5-4 – Modelo III – Relevância de variáveis no conjunto de treinamento
63
Figura 4.3.5-5 – Modelo III – Relevância de variáveis no conjunto de teste
De fato, a variável ‘comodos’ gera variação negativa do SP, o que significa que
essa é uma variável que confunde o modelo, e que, sem ela, seu desempenho ficaria
maior, como pode ser visto na Figura 4.3.5-5. No entanto essa variável tem uma leve
relevância no conjunto de treinamento, e por essa razão não foi acusada possibilidade de
melhora, apenas de baixa relevância, quando foi feita a análise sobre todo o conjunto de
dados.
64
4.4. Comparação entre as Redes MLP
Para efeito de comparação, os modelos análogos foram agrupados. Os modelos
retreinados estão marcados em negrito.
Tabela 4.4-1 – Comparação entre os modelos propostos e retreinados
Figura 4.4-1 – Comparação do desempenho médio dos modelos segundo o índice SP
0.7
0.75
0.8
0.85
0.9
0.95
I -‐ V II -‐ VI III -‐ VII -‐ IX IV -‐ VIII
SP
Compara5vo entre modelos
Primeiro treino
Retreino (-‐4 var.)
Retreino (-‐10 var.)
Modelo SP Sensibilidade Especificidade Acurácia
I 0.821 ± 0.044 0.822 ± 0.112 0.827 ± 0.109 0.824 ± 0.047
V 0.815 ± 0.043 0.783 ± 0.109 0.855 ± 0.111 0.814 ± 0.042
II 0.869 ± 0.046 0.855 ± 0.108 0.889 ± 0.105 0.869 ± 0.047
VI 0.856 ± 0.035 0.849 ± 0.105 0.870 ± 0.105 0.857 ± 0.036
III 0.853 ± 0.036 0.822 ± 0.108 0.891 ± 0.095 0.852 ± 0.039
VII 0.856 ± 0.039 0.844 ± 0.083 0.872 ± 0.115 0.856 ± 0.036
IX 0.892 ± 0.045 0.870 ± 0.092 0.919 ± 0.090 0.890 ± 0.045
IV 0.792 ± 0.074 0.775 ± 0.134 0.817 ± 0.131 0.794 ± 0.074
VIII 0.768 ± 0.054 0.762 ± 0.111 0.783 ± 0.132 0.771 ± 0.052
65
O primeiro momento de retreino, retirando-se 4 variáveis, não foi bem sucedido,
com exceção ao modelo III, que teve uma leve melhora segundo o índice SP. O segundo
momento de retreino, retirando-se 10 variáveis da base, mostrou uma melhora ainda
maior para o caso do modelo III, porém, neste trabalho só houve retreino, nessas
condições, para esse modelo. Seria interessante, como continuação desse trabalho,
retreinar os demais modelos sem as 10 variáveis, de modo a verificar se são obtidos
melhores desempenhos ou se foi somente um caso isolado.
O modelo IV teve uma piora significativa, quando poderia se esperar uma leve
melhora, mesmo tendo sido retreinados apenas com a base sem as 4 variáveis do
primeiro momento. Isso pode ser devido à maior complexidade desse modelo, que torna
difícil o seu treinamento e prejudica portanto o seu desempenho de generalização.
66
Capítulo 5 - Conclusão e Trabalhos Futuros
Em diversas áreas, os sistemas de apoio à decisão tem se mostrado
importantes no suporte a processos decisórios que levam em conta uma grande
quantidade de dados, que, muitas vezes, são de alta dimensionalidade. Sobretudo na
área médica, onde os impactos das decisões afetam os recursos dos sistemas de saúde e
a própria saúde dos pacientes e da população em geral, e onde também há muitos
desafios a serem superados, ter apoio tecnológico de qualidade se torna cada dia mais
necessário.
A tuberculose pleural é uma doença de difícil diagnóstico, necessitando de
alto poder de detecção, de modo a evitar que a doença evolua nos pacientes infectados.
Ao mesmo tempo, os exames comuns para tuberculose pulmonar tem baixo
desempenho frente ao caso pleural, e os demais são ou caros, ou invasivos, ou
demorados.
Este trabalho teve como objetivo avaliar a relevância das variáveis contidas
na base de dados de pacientes suspeitos de tuberculose pleural, com o intuito de prover
melhores informações para alimentar sistemas classificadores que irão atuar no processo
de triagem de pacientes. Trabalhou-se com dados que não são comumente utilizados,
mas que estão disponíveis, de modo extrair deles informação útil mas que é
subutilizada. Por outro lado, procurou-se identificar também as variáveis que tem baixa
relevância para o problema descrito, visando elaborar modelos com base apenas em
dados que irão contribuir para um bom desempenho.
67
Foram utilizados modelos de Redes Neurais Artificiais para verificar a relevância de
variáveis relacionadas a dados pessoais e a dados sociais, ao passo que geralmente os
SAD para apoio à área da saúde se utilizam de dados sintomáticos e de resultados de
exames. Após análise da relevância, os modelos foram retreinados, eliminando-se as
variáveis de baixa contribuição, no sentido de obter modelos mais robustos ou ainda de
melhor desempenho.
Dentre as variáveis estudadas, algumas apresentaram baixa relevância,
como o gênero, a renda, o tipo de emprego, se foi morador de rua, ou ainda confundiram
os modelos, atrapalhando seu desempenho, como foi o caso da variável número de
cômodos. Por outro lado, variáveis como o número de pessoas com que convive se
mostraram bastante relevantes, assim como o grau de instrução do chefe de família.
Ao se remover as variáveis consideradas de baixa relevância, pode-se
elaborar modelos para reavaliar o problema de classificação. Num primeiro momento,
retirando-se apenas 4 variáveis, os resultados não foram satisfatórios. Já num segundo
momento, retirando-se 10 variáveis, obteve-se um bom resultado, melhorando o
desempenho do modelo. Foi possível, ainda, propor modelos de redes neurais que
tiveram bom desempenho no problema de classificação de pacientes com tuberculose
pleural, tendo o melhor modelo proposto 100% de sensibilidade e 90% de
especificidade. Vale ressaltar que os resultados obtidos estão restritos à população de
estudo, devendo haver cuidado na aplicação destes resultados a outras populações.
Como trabalhos futuros, podem ser feitas extensões deste trabalho, por
exemplo, reavaliando treinamentos de mais modelos e retirando-se um número mais
adequado de variáveis, ou ainda, utilizando-se de técnicas que permitem visualização
dos dados, como as Redes Neurais do tipo Self-Organizing Maps (SOM). Outras
variáveis poderiam ser avaliadas, como, por exemplo, variáveis sintomáticas.
68
Referências
[1] CASCÃO, L. V. C. Modelos de Inteligência Computacional para Apoio à Triagem de Pacientes e Diagnóstico Clínico de Tuberculose Pulmonar. Dissertação de M. Sc., Programa de Engenharia Elétrica, COPPE/UFRJ, Rio de Janeiro, RJ, Brasil – 2011.
[2] HAYKIN, S. Neural Networks and Learning Machines. Prentice Hall, Inc., 2008. [3] EL-SOLH, A. A., HSIAO, C., GOODNOUGH, S., et al. “Predicting active
pulmonary tuberculosis using an artificial neuronal network”, Chest, n. 4, pp. 968-973 – 1999.
[4] SANTOS, A. M. Redes Neurais e Árvores de Classificação Aplicadas ao
Diagnóstico de Tuberculose Pulmonar Paucibacilar. Tese de D. Sc., COPPE / UFRJ, Rio de Janeiro, RJ, Brasil, 2003.
[5] SANTOS, A. M., PEREIRA, B., SEIXAS, J. M., et al. “Neural Networks: An
Application for Predicting Smear Negative Pulmonary Tuberculosis”, Advances in Statistical Methods for the Health Sciences, pp. 279-289 – 2007.
[6] SEIXAS, J. M., FARIA, J., SOUZA FILHO, J. B. O., VIEIRA, A.F.M., KRITSKI,
A., TRAJMAN, A. “Artificial neural network models to support the diagnosis of pleural tuberculosis in adult patients”, The International Journal of Tuberculosis and Lung Disease, pp. 682-686 – 2013.
[7] BETHLEM, E. P. “Manifestações Clínicas da Tuberculose Pleural, Ganglionar,
Geniturinária e do Sistema Nervoso Central”, Pulmão RJ, 21(1), pp. 19-22 – 2012.
[8] CAPONE, D. et al. “Tuberculose Extrapulmonar”, Revista do Hospital
Universitário Pedro Ernesto UERJ, Ano 5, Julho / Dezembro – 2006. [9] ARUN GOPI, M.B.B.S. et al. “Diagnosis and Treatment of Tuberculous Pleural
Effusion in 2006”, Chest, 131(3), Março – 2007. [10] SEISCENTO, M. et al. “Tuberculose Pleural”, Jornal Brasileiro de
Pneumologia, 32(4), pp. 174-181 – 2006. [11] OHRAN, E. et al. “Tuberculosis Disease Diagnosis Using Artificial Neural
Networks”, Journal of Medical Systems, 34, pp. 299-302 – 2010. [12] WHO. “Diagnóstico de Tuberculose Extrapulmonar em Adultos e Crianças”,
TB / HIV: Manual Clínico, Cap. 5, pp. 79-94 – 2004. [13] NEVES, D. D. et al., “Rendimento de variáveis clínicas, radiológicas e
laboratoriais para o diagnostico de tuberculose pleural”. Jornal Brasileiro de Pneumologia, 30, 4, Julho / Agosto – 2004.
69
[14] NEVES, D. D. et al., “Predictive Model for the Diagnosis of Tuberculous Pleural Effusion”, The Brazilian Journal of Infectious Diseases, 11(1), pp. 83-88 – 2007.
[15] TRAJMAN, A. et al., “Novel tests for diagnosing tuberculous pleural effusion:
what works and what does not?” European Respiratory Journal, pp. 1098-1106 – 2008.
[16] NUNES, L. N. et al. “Uso da imputação múltipla de dados faltantes: uma
simulação utilizando dados epidemiológicos”, Cad. Saúde Pública, Rio de Janeiro, 25(2), pp. 268-278 – fevereiro 2009.
[17] RUBIN, D. B. “Multiple imputation for nonresponse in surveys”. Nova Iorque:
Wiley – 1987. [18] KALANTRI, Y. et al. “Evaluation of real-time polymerase chain reaction,
interferon-gamma, adenosine deaminase, and immunoglobulin A for the efficient diagnosis of pleural tuberculosis”, International Journal of Infectious Diseases, pp.226-231 – 2011.
[19] Portal Brasil – “Teste rápido para diagnosticar tuberculose sera oferecido no
SUS” – Disponível em: http://www.brasil.gov.br/saude/2013/03/teste-rapido-para-diagnosticar-tuberculose-sera-oferecido-no-sus - Acessado em: 10/02/2014