Mineração de Dados em Tuberculose Pleural...Mineração de Dados em Tuberculose Pleural Bernardo Martins Costa Projeto de Graduação apresentado ao Curso de Engenharia de Computação

Mineração de Dados em Tuberculose Pleural

Bernardo Martins Costa

Projeto de Graduação apresentado ao Curso de

Engenharia de Computação e Informação da

Escola Politécnica, Universidade Federal do Rio de

Janeiro, como parte dos requisitos necessários à

obtenção do título de Engenheiro.

Orientador: José Manoel de Seixas

Rio de Janeiro

Março de 2014

MINERAÇÃO DE DADOS EM TUBERCULOSE PLEURAL


PROJETO DE GRADUAÇÃO SUBMETIDO AO CORPO DOCENTE DO CURSO

DE ENGENHARIA DE COMPUTAÇÃO E INFORMAÇÃO DA ESCOLA

POLITÉCNICA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO

PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE

ENGENHEIRO DE COMPUTAÇÃO E INFORMAÇÃO.

Examinada por:

______________________________________________

Prof. José Manoel de Seixas, D.Sc.

______________________________________________

Prof. Sergio Lima Netto, Ph.D.

______________________________________________

Profa. Anete Trajman, D.Sc.

______________________________________________

Prof. Henrique Cukierman, D.Sc.

RIO DE JANEIRO, RJ – BRASIL

Março de 2014

1


Mineração de Dados em Tuberculose Pleural /

Bernardo Martins Costa. – Rio de Janeiro: UFRJ/ Escola

Politécnica, 2014.

XIII, 59 p.: il.; 29,7 cm.


Projeto de Graduação – UFRJ/ Escola Politécnica/

Curso de Engenharia de Computação e Informação, 2014.

Referências Bibliográficas: p.68

1. Mineração de Dados 2. Tuberculose pleural 3.

Redes Neurais Artificiais I. Seixas, José Manoel II.

Universidade Federal do Rio de Janeiro, Escola Politécnica,

Curso de Engenharia de Computação e Informação. III.

Título.

2

Aos que são loucos o suficiente

para mudar o mundo

3

AGRADECIMENTOS

A minha família, meus pais, meus irmãos, tios, primos e avós, pelo apoio

incondicional e o suporte de todos os dias. Só vocês para comprarem minhas ideias nada

convencionais. Obrigado pelo carinho, pela atenção e por me aturarem desde que nasci.

Aos amigos da ECI, por compartilharem os momentos mais difíceis e os mais

alegres. Foram incontáveis noites de desespero e trabalho duro, impossíveis de serem

concluídas sem a presença de vocês. Obrigado pela cumplicidade de sempre.

Aos amigos da Fluxo Consultoria, por terem sido uma escola dentro da

universidade. Com vocês aprendi a sonhar grande e a correr atrás dos sonhos, com

vocês fui testado além dos limites diversas vezes e com vocês quis ser um melhor

engenheiro. Obrigado pelas risadas, pelos apelidos e por acreditarem em mim.

Aos amigos que fiz na Bélgica, onde ousamos aprender engenharia em francês,

obrigado por estarem lá quando tudo o que me era fundamental esteve a um oceano de

distância. Obrigado por terem sido o meu pedacinho do Brasil naquela terra fria e

cinzenta, e por compartilharem comigo as melhores cervejas do mundo.

Aos amigos da Intratec Solutions, obrigado pela confiança, e por me ensinarem

a aprender e a fazer trabalhos excelentes.

Ao meu orientador, professor José Manoel de Seixas, por toda a paciência, toda

a ajuda e a cobrança que fizeram desse trabalho ser possível. Ao pessoal do LPS,

especialmente Junior Moura e Luiz Évora, por aturarem minhas perguntas e estarem

sempre dispostos a ajudar mesmo tendo tempo escasso.

4

Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ como parte

dos requisitos necessários para a obtenção do grau de Engenheira de Computação e

Informação.

Mineração de Dados em Tuberculose Pleural


Março/2014


Curso: Engenharia de Computação e Informação

A tuberculose é uma doença conhecida pela comunidade médica, com

diagnóstico, exames, tratamento e métodos preventivos acessíveis. No entanto seus

números ainda assustam, principalmente depois da epidemia de AIDS nos anos 1980. É

uma doença altamente contagiosa, e em uma de suas formas extrapulmonares, como a

pleural, apresenta diagnóstico não trivial. Os exames que são acessíveis como a

baciloscopia não detectam o bacilo da micobactéria no caso pleural, e os de melhor

performance são invasivos, apresentando riscos e não estando disponíveis em muitos

lugares. Nesse contexto, sistemas de apoio ao diagnóstico se tornam uma ferramenta

importante para o auxílio a decisão para triagem e diagnóstico. Um bom desempenho

nessas duas etapas implica melhor utilização de recursos hospitalares, de equipamento e

laboratoriais, necessários para exames e tratamento. Este trabalho tem o objetivo de,

através do uso de redes neurais artificiais, analisar características de pacientes suspeitos

de tuberculose pleural em busca daquelas mais relevantes, com o intuito de selecioná-

las para elaborar modelos de melhor performance.

5

Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillment of

the requirements for the degree of Computer and Information Engineer.

Data Mining on Pleural Tuberculosis


March/2014

Advisor: José Manoel de Seixas

Major: Computer and Information Engineering

Tuberculosis is a well-known disease, with accessible diagnosis, tests and treatment.

However the number of infected people is large, and became larger after the HIV

pandemic in the 1980’s. It is highly infectious, and one of its extra pulmonary forms,

like pleural tuberculosis, doesn’t have an easy diagnosis. The tests that are affordable

like sputum smear don’t detect the mycobacteria in the pleural case, and those that

perform better are invasive, presenting risks and requiring special equipment, thus not

being available. In this context, decision-support systems become an important tool to

help decision making for screening and diagnosis. A good performance on these two

steps means better use of health-care resources, equipments and laboratories needed for

examination and treatment. The goal of this work is to analyze, by the use of Artificial

Neural Networks, characteristics of patients suspicious of having pleural tuberculosis,

searching for those that are the most relevant, intending to select the best of them to

design models of better performance.

6

SUMÁRIO

CAPÍTULO 1 - INTRODUÇÃO ....................................................................................... 11 1.1. MOTIVAÇÃO ....................................................................................................................... 12 1.2. OBJETIVO ............................................................................................................................ 14 1.3. ORGANIZAÇÃO DO TEXTO .................................................................................................. 15

CAPÍTULO 2 - REVISÃO DA LITERATURA .............................................................. 16 2.1. TUBERCULOSE .................................................................................................................... 16 2.2. TUBERCULOSE PLEURAL ..................................................................................................... 17 2.3. REDES NEURAIS ARTIFICIAIS .............................................................................................. 19

CAPÍTULO 3 - BASE DE DADOS E MÉTODO DE TRABALHO ............................. 24 3.1. BASE DE DADOS .................................................................................................................. 24 3.2. IMPUTAÇÃO MÚLTIPLA ....................................................................................................... 28 3.3. MÉTODO ............................................................................................................................. 32 3.3.1. PREPARAÇÃO DOS DADOS .................................................................................................. 32 3.3.2. MODELOS PROPOSTOS ........................................................................................................ 32 3.3.3. ESCOLHA DA TOPOLOGIA ................................................................................................... 34 3.3.4. VALIDAÇÃO CRUZADA ....................................................................................................... 34 3.3.5. ÍNDICES DE DESEMPENHO ................................................................................................... 35 3.3.6. SELEÇÃO DA REDE DE OPERAÇÃO ....................................................................................... 36 3.3.7. ANÁLISE DE RELEVÂNCIA ................................................................................................... 37 3.3.8. NOVO TREINAMENTO ......................................................................................................... 38

CAPÍTULO 4 - RESULTADOS ....................................................................................... 38 4.1. REDES MLP ........................................................................................................................ 38

4.1.1. MODELO I – REDE SOBRE DADOS PESSOAIS .................................................................. 39 4.1.2. MODELO II – REDE SOBRE DADOS SOCIAIS ................................................................... 42 4.1.3. MODELO III – REDE SOBRE DADOS PESSOAIS E SOCIAIS ................................................ 44 4.1.4. MODELO IV – REDE SOBRE OS MODELOS I E II ............................................................. 47

4.2. ANÁLISE DE RELEVÂNCIA ................................................................................................... 51 4.3. REDES MLP RETREINADAS ................................................................................................. 52

4.3.1. MODELO V – REDE SOBRE DADOS PESSOAIS ................................................................. 52 4.3.2. MODELO VI – REDE SOBRE DADOS SOCIAIS .................................................................. 54 4.3.3. MODELO VII – REDE SOBRE DADOS PESSOAIS E SOCIAIS .............................................. 56 4.3.4. MODELO VIII – REDE SOBRE MODELOS V E VI ............................................................. 58 4.3.5. MODELO IX – REDE SOBRE DADOS PESSOAIS E SOCIAIS ................................................ 60

4.4. COMPARAÇÃO ENTRE AS REDES MLP ................................................................................ 64 CAPÍTULO 5 - CONCLUSÃO E TRABALHOS FUTUROS ....................................... 66

REFERÊNCIAS ...................................................................................................................... 68

7

LISTA DE FIGURAS

Figura 2.3-1 – Neurônio artificial ............................................................................................................... 20

Figura 2.3-2 – Rede Neural Artificial Multicamada (MLP) ....................................................................... 20

Figura 3.1-1 – Porcentagem de dados faltantes na totalidade de dados ...................................................... 27

Figura 3.1-2 – Porcentagem de amostras com dados faltantes ................................................................... 27

Figura 3.1-3 – Porcentagem de variáveis com dados faltantes ................................................................... 27

Figura 3.2-1 – Média de cada variável entre os conjuntos original e IM ................................................... 29

Figura 3.2-2 - Desvio padrão de cada variável entre os conjuntos original e IM ....................................... 30

Figura 3.2-3 - Curtose de cada variável entre os conjuntos original e IM .................................................. 30

Figura 3.2-4 - Obliquidade de cada variável entre os conjuntos original e IM ........................................... 31

Figura 3.2-5 - Distância KL de cada variável entre os conjuntos original e IM ......................................... 31

Figura 3.3.2-1 – Modelo I ........................................................................................................................... 33

Figura 3.3.2-2 – Modelo II .......................................................................................................................... 33

Figura 3.3.2-3 – Modelo III ........................................................................................................................ 33

Figura 3.3.2-4 – Modelo IV ........................................................................................................................ 33

Figura 4.1.1-1 – Modelo I – SP médio das 50 melhores redes para cada topologia ................................... 39

Figura 4.1.1-2 – Modelo I – Curva ROC e Curvas de Performance de Treinamento da Rede de Operação

..................................................................................................................................................................... 40

Figura 4.1.1-3 – Modelo I – Histograma de Saída e Matrizes de Confusão da Rede de Operação ............ 41

Figura 4.1.2-1 – Modelo II – SP médio das 50 melhores redes para cada topologia .................................. 42

Figura 4.1.2-2 – Modelo II – Curva ROC e Curvas de Performance de Treinamento da Rede de Operação

..................................................................................................................................................................... 43

Figura 4.1.2-3 – Modelo II – Histograma de Saída e Matrizes de Confusão da Rede de Operação ........... 43

Figura 4.1.3-1 – Modelo III – SP médio das 50 melhores redes para cada topologia ................................ 45

Figura 4.1.3-2 – Modelo III – Curva ROC e Curvas de Performance do Treinamento da Rede de Operação

..................................................................................................................................................................... 46

Figura 4.1.3-3 – Modelo III – Histograma de saída e Matrizes de Confusão da Rede de Operação .......... 46

Figura 4.1.4-1 – Modelo IV – SP médio das 50 melhores redes para cada topologia ................................ 48

8

Figura 4.1.4-2 – Modelo IV – Curva ROC e Curvas de Performance de Treinamento para Rede de

Operação ..................................................................................................................................................... 49

Figura 4.1.4-3 – Modelo IV – Histograma de saída e Matrizes de Confusão da Rede de Operação .......... 49

Figura 4.3.1-1 – Modelo V – SP médio das 50 melhores redes para cada topologia ................................. 52

Figura 4.3.1-2 – Modelo V – Curva ROC e Curvas de Performance de Treinamento da Rede de Operação

..................................................................................................................................................................... 53

Figura 4.3.1-3 – Modelo V – Histograma de saída e Matrizes de Confusão da Rede de Operação ........... 54

Figura 4.3.2-1 – Modelo VI – SP médio das 50 melhores redes para cada topologia ................................ 54

Figura 4.3.2-2 – Modelo VI – Curva ROC e Curvas de Performance de Treinamento da Rede de Operação

..................................................................................................................................................................... 55

Figura 4.3.2-3 – Modelo VI – Histograma de saída e Matrizes de Confusão da Rede de Operação .......... 56

Figura 4.3.3-1 – Modelo VII – SP médio das 50 melhores redes para cada topologia ............................... 56

Figura 4.3.3-2 – Modelo VII – Curva ROC e Curvas de Performance de Treinamento da Rede de

Operação ..................................................................................................................................................... 57

Figura 4.3.3-3 – Modelo VII – Histograma de saída e Matrizes de Confusão da Rede de Operação ........ 58

Figura 4.3.4-1 – Modelo VIII – SP médio das 50 melhores redes para cada topologia ............................. 58

Figura 4.3.4-2 – Modelo VIII – Curva ROC e Curvas de Performance de Treinamento da Rede de

Operação ..................................................................................................................................................... 59

Figura 4.3.4-3 – Modelo VIII – Histograma de saída e Matrizes de Confusão da Rede de Operação ....... 60

Figura 4.3.5-1 – Modelo IX – SP médio das 50 melhores redes para cada topologia ................................ 60

Figura 4.3.5-2 – Modelo IX – Curva ROC e Curvas de Performance de Treinamento da Rede de Operação

..................................................................................................................................................................... 61

Figura 4.3.5-3 – Modelo IX – Histograma de saída e Matrizes de Confusão da Rede de Operação .......... 62

Figura 4.3.5-4 – Modelo III – Relevância de variáveis no conjunto de treinamento .................................. 62

Figura 4.3.5-5 – Modelo III – Relevância de variáveis no conjunto de teste ............................................. 63

Figura 4.4-1 – Comparação do desempenho médio dos modelos segundo o índice SP ............................. 64

9

LISTA DE TABELAS

Tabela 3.1-1 – Relação de variáveis do tipo Dados Pessoais ..................................................................... 26

Tabela 3.1-2 – Relação de variáveis do tipo Dados Sociais ....................................................................... 26

Tabela 4.1.1-1 – Modelo I - Estatísticas para as 50 melhores redes e Rede de Operação .......................... 40

Tabela 4.1.2-1 – Modelo II – Estatísticas para as 50 melhores redes e Rede de Operação ........................ 43

Tabela 4.1.3-1 – Modelo III – Estatísticas para as 50 melhores redes e Rede de Operação ....................... 45

Tabela 4.1.4-1 – Modelo IV – Estatísticas para as 50 melhores redes e Rede de Operação ...................... 48

Tabela 4.3.1-1 – Modelo V – Estatísticas das 50 melhores redes e Rede de Operação .............................. 53

Tabela 4.3.2-1 – Modelo VI – Estatísticas das 50 melhores redes e Rede de Operação ............................ 55

Tabela 4.3.3-1 – Modelo VII – Estatística das 50 melhores redes e Rede de Operação ............................. 57

Tabela 4.3.4-1 – Modelo VIII – Estatística para as 50 melhores redes da melhor topologia e Rede de

Operação ..................................................................................................................................................... 59

Tabela 4.3.5-1 – Modelo IX – Estatísticas das 50 melhores redes da melhor topologia e Rede de Operação

..................................................................................................................................................................... 61

Tabela 4.4-1 – Comparação entre os modelos propostos e retreinados ...................................................... 64

10

LISTA DE SIGLAS

ADA – Adenosina desaminase

AIDS – Síndrome da imunodeficiência adquirida

HIV – Vírus da imunodeficiência humana

IFN-y – Interferon gama

IM – Imputação Múltipla

MLP – Multi-layer perceptron

OMS – Organização Mundial da Saúde

RNA – Redes Neurais Artificiais

ROC – Receiver operating characteristic

SAD – Sistemas de Apoio à Decisão

SP – Índice Soma-Produto

SUS – Sistema Único de Saúde

UFRJ – Universidade Federal do Rio de Janeiro

11

Capítulo 1 - Introdução

No mundo informatizado, onde a tecnologia da informação nos permite ter

acesso a cada vez mais dados e de forma mais rápida, juntamente com a necessidade de

se obter resultados melhores e em menos tempo, em várias áreas de aplicação faz-se

necessário o desenvolvimento e a utilização de Sistemas de Apoio à Decisão (SAD).

Esses sistemas servem como suporte para escolhas que especialistas precisam fazer e

são baseados em dados disponíveis no domínio em que se inserem, extraindo desses

dados informações que, muitas vezes, não são perceptíveis aos seres humanos num

curto espaço de tempo, devido, eventualmente, à alta dimensionalidade desses dados.

Um fator importante na tomada de decisão com base nesses dados é a

capacidade que temos de visualizar a informação, o que não é possível se tentarmos

enxergar altas dimensões. Para isso, faz-se necessário o uso de conceitos e ferramentas

que nos permitam visualizar e, principalmente, interpretar a informação que nos é

apresentada. Poder visualizar as informações traz conforto e é eficiente para a tomada

de decisões.

Além da visualização, quando se fala em auxílio à tomada de decisões, um fator

de extrema importância é a performance que os SAD devem apresentar. Por exemplo,

na área médica, um SAD de baixa performance não tem condição de prestar auxílio a

um especialista, uma vez que este precisa ter confiança nos resultados do sistema,

fazendo com que ele se atenha às fontes clássicas de auxílio, como exames, avaliação e

escores clínicos. Por alta performance nesta área, entende-se que o sistema deve detectar

o melhor possível a presença de uma determinada doença, apresentando também uma

taxa baixa de falsos-positivos. Espera-se que um SAD com boa performance auxilie a

tomada de decisão, no entanto sem substituir os demais recursos disponíveis.

12

De forma a alcançar o que se espera de um SAD, em termos de capacidade de

extração de informação, visualização de dados e performance, vêm se destacando o

emprego de técnicas de Inteligência Computacional no desenvolvimento de tais

sistemas. Essas técnicas podem ser empregadas em diferentes fases do

desenvolvimento, como, por exemplo, em etapas de mineração de dados, visando prover

entradas de qualidade para alimentar o sistema, bem como na elaboração dos modelos

que irão trabalhar sobre essas entradas para gerar os resultados pretendidos.

Dentre as técnicas existentes, as Redes Neurais Artificiais (RNA) são bastante

utilizadas, sendo um modelo criado com inspiração no funcionamento dos nossos

neurônios biológicos. As RNA possuem propriedades interessantes, como a capacidade

de aproximar funções complexas, por serem capazes de aprender as correlações de alto

nível presentes nos dados, o que se mostra conveniente, quando tratamos dados de alta

dimensionalidade. As RNA têm mostrado bom desempenho frente a outros tipos de

modelo de inteligência computacional.

1.1. Motivação

Devido a fatores sociais e econômicos, busca-se cada vez mais melhorar a

eficiência de processos, sobretudo na área médica, onde decisões impactam diretamente

na utilização de recursos hospitalares, na evolução do quadros clínicos e na exposição

de pacientes a riscos de infecção. A situação se torna mais crítica quando se fala em

doenças de difícil diagnóstico, como é o caso da tuberculose (TB), em especial em suas

formas extrapulmonares.

A TB é uma das principais doenças que atingem a população mundial,

configurando um problema grave de saúde pública. Segundo a Organização Mundial da

Saúde (OMS), um terço da população mundial está infectada pelo agente causador da

13

doença, o Mycobacterium tuberculosis, e no ano de 2011 foram registrados 8,7 milhões

de casos, com 1,4 milhões de óbitos, apesar de existir tratamento eficaz e de a doença

ser conhecida há bastante tempo.

No Brasil, segundo o Ministério da Saúde, foram registrados 70.047 casos em

2012, com uma taxa de incidência de 36,1 casos para cada 100 mil habitantes. A região

Sudeste lidera os casos de tuberculose no país com 44,1% da sua totalidade em 2012.

Segundo a Secretaria Estadual da Saúde, em 2012, no estado do Rio de Janeiro, o pior

junto com o estado do Amazonas, foram identificados 14.039 casos de tuberculose,

totalizando 15% dos casos do país naquele ano.

A partir dos anos 1980, a coinfecção pelo o vírus da imunodeficiência humana

(HIV) fez aumentar a incidência da TB e se mostrou como uma séria associação,

podendo levar ao aumento da mortalidade em razão de TB. Outros fatores estão

associados à alta prevalência da TB, como a elevada desigualdade social e a ineficácia

de sistemas públicos de saúde.

A TB pulmonar é a forma mais frequente da doença, e é transmitida a partir da

inalação do agente causador, presente no ar por ter sido expelido por uma pessoa

infectada. No entanto, existem outras formas de TB, extrapulmonares, que representam

25% [18] do total de casos de TB. Dentre elas, as mais frequentes são a TB pleural e a

ganglionar, mas pode ocorrer também nos ossos e articulações, pele, meninges, no

sistema nervoso central, no sistema urogenital, no fígado e no baço.

A TB pleural (pTB), em particular, é a segunda forma de maior incidência de TB

e uma das maiores causas de efusão pleural no mundo. Seu diagnóstico se mostra difícil

pois o paciente geralmente não apresenta tosse com escarro. Dessa forma, caso não haja

a indução do escarro, não é possível realizar a baciloscopia, nem a cultura para

micobactéria, exames estes que são utilizados para a TB pulmonar [6]. Para a pTB,

14

fazem-se necessários exames como a análise do líquido pleural e a biópsia da pleura,

este último apresentando maior risco ao paciente. Bons resultados foram obtidos ao se

procurar, por exemplo, por marcadores de resposta imunológica ou inflamatória como a

adenosina desaminase (ADA) no líquido pleural [6] [14] [18], ou ainda pelo próprio

agente causador M. tuberculosis, através de técnicas que detectam seu material genético.

Ambos tipos de exame são invasivos e podem trazer complicações ao paciente, além de

necessitarem de laboratórios equipados para a sua realização, o que nem sempre está a

disposição em regiões mais pobres.

Tendo esse cenário em vista, a utilização dos SAD de base estatística para apoio

à decisão médica se faz importante, pois os testes diagnósticos disponíveis apresentam

limitação em sensibilidade, exigindo em muitos casos a análise de outros testes, que

podem ser mais caros, mais demorados, mais invasivos ou mesmo podem não estar

disponíveis na região em questão. Um SAD empregado na situação de triagem ou

diagnóstico poderia evitar que pacientes sejam expostos a condições ou a testes que não

se fazem necessários, ajudando também a economizar recursos para os casos em que

houver maior probabilidade de ocorrência da doença.

1.2. Objetivo

Este trabalho tem como objetivo analisar dados de pacientes suspeitos de pTB,

dentre dados pessoais e de informações sociais, que não são comumente utilizados em

estudos deste tipo, de forma a identificar variáveis relevantes para a confecção de SADs

que futuramente irão auxiliar a tomada de decisão de médicos nas fases de triagem ou

diagnóstico desses pacientes. Essa identificação se dará por meio de modelos de Redes

Neurais Artificiais, supervisionadas e não-supervisionadas. Ao final, serão propostos

15

modelos de RNA baseados somente nas variáveis identificadas como mais relevantes, e

feita uma comparação com os modelos baseados nos dados completos.

1.3. Organização do Texto

No Capítulo 2 deste trabalho, serão apresentados, de maneira mais detalhada, os

conceitos tratados e o domínio em que este trabalho está inserido, por meio de uma

revisão bibliográfica. A seguir, no Capítulo 3, a base de dados utilizada será descrita,

bem como serão descritas as técnicas utilizadas para o melhor aproveitamento de todas

as amostras coletadas. Nesse capítulo, também será apresentada a metodologia para a

obtenção dos resultados.

O Capítulo 4 tratará dos resultados obtidos, bem como da escolha dos melhores

modelos, da visualização dos dados e das análises das variáveis através das técnicas

escolhidas. Também contará com a proposição e avaliação de modelos baseados nas

variáveis que mais contribuem para um melhor resultado.

O Capítulo 5 conclui o trabalho, destacando a contribuição dos resultados e das

análises para o domínio do problema, além de dar luz a desenvolvimentos futuros,

baseados nos resultados apresentados.

16

Capítulo 2 - Revisão da Literatura

2.1. Tuberculose

A tuberculose (TB) é uma das doenças mais antigas que atinge a humanidade,

sendo conhecida desde o século XIX. Apesar de ter prevenção em forma de vacina e de

ter tratamento eficaz, ainda aflige bastante a população mundial, sobretudo em áreas de

baixos índices socioeconômicos.

O indivíduo, geralmente com a forma pulmonar da doença, capaz de transmitir o

bacilo do Mycobacterium tuberculosis, agente causador, é a principal fonte de infecção,

podendo também a doença ser transmitida pelo gado bovino. Estima-se que 2 bilhões de

pessoas no mundo estão infectadas com o bacilo do agente causador, sendo assim 30%

da população mundial. Segundo a OMS, em 2011, 1,4 milhão de pessoas morreram em

decorrência da doença.

No Brasil, segundo o Ministério da Saúde, foram registrados 70.047 casos em

2012, com uma taxa de incidência de 36,1 casos para cada 100 mil habitantes. A região

Sudeste lidera os casos de tuberculose no país com 44,1% da sua totalidade em 2012.

Segundo a Secretaria Estadual da Saúde, em 2012, no estado do Rio de Janeiro, o pior

junto com o estado do Amazonas, foram identificados 14.039 casos de tuberculose,

totalizando 15% dos casos do país naquele ano.

Sua forma mais frequente é a pulmonar, e é de grande importância uma vez que

sua forma de transmissão se dá por via aérea. Indivíduos com a forma ativa da doença

elimina o agente causador no ar, que depois é inalado pelo indivíduo sadio. No entanto a

tuberculose pode se manifestar em qualquer área do corpo humano, tendo maior

frequência na pleura e nos linfonodos.

17

Entende-se diversos eventos como contribuintes para o atual quadro de TB no

mundo, dentre eles pode-se destacar a coinfecção com o vírus HIV, a degradação das

condições socioeconômicas em determinados países, o elevado índice de abandono do

tratamento, o aparecimento da variante multirresistente da doença e a falta de interesse

público e da comunidade científica tanto na criação ou melhoria das políticas públicas

de combate à doença, quanto em inovações em ferramentas de controle da TB.

Fatores que estão associados ao risco de contrair TB são as condições

socioeconômicas, a desnutrição, as más condições de higiene e a ineficiência dos

sistemas públicos de saúde [1]. Esse risco aumenta caso o indivíduo tenha contato direto

e frequente com portadores da doença na forma pulmonar, ou ainda em lugares de

grande concentração de pessoas e de insalubridade. Há ainda, e não menos importante, a

situação dos indivíduos imunodeprimidos, que tem risco ainda maior de desenvolver a

doença. Crianças e idosos também são mais susceptíveis à doença.

2.2. Tuberculose Pleural

A tuberculose pleural (pTB) é a forma mais frequente de TB extrapulmonar.

Diferencia-se da forma pulmonar da TB pela localização do agente causador, alojado na

pleura e não na cavidade pulmonar. O pulmão é a porta de entrada do agente causador, o

M. tuberculosis, que passa para o espaço pleural, geralmente, pela ruptura de um foco

subpleural [15]. A presença do agente causador no espaço pleural gera uma reação de

hipersensibilidade. [10]

A pTB atinge todas as faixas etárias, com certo predomínio entre jovens e

adultos [8]. Estima-se que até 25% do total de casos de TB sejam extrapulmonares,

número que aumenta para até 60% nos casos de indivíduos imunodeprimidos.

18

A pTB é uma das maiores causas de derrame pleural [9] e seus principais

sintomas são febre, dor torácica, perda de apetite, emagrecimento, tosse seca, e dispneia.

A intensidade dos sintomas pode variar de acordo com o volume do derrame pleural.

Em áreas de grande prevalência de tuberculose, como o Brasil, deve-se sempre levar em

consideração a etiologia tuberculosa, em caso de constatação de derrame na pleura. [7]

Uma diferença importante do diagnóstico da pTB para o da TB pulmonar é uma

maior dificuldade em se obter, de forma não invasiva, a confirmação da infecção pelo

bacilo do M. tuberculosis, pois na pTB muitas vezes o paciente apresenta tosse não-

produtiva, impossibilitando a realização da baciloscopia e da cultura para micobactéria,

exames comumente usados para o diagnóstico da TB pulmonar, de fácil execução e

disponíveis. É possível, no entanto, obter material para esses exames através da indução

do escarro, por meio de nebulização, porém ainda é um teste de baixa sensibilidade

[15].

Dessa maneira, é muitas vezes necessária a realização de exames como a biópsia

da pleura ou a análise do líquido pleural, que são invasivos, custosos e difíceis de

realizar. A procura pelo bacilo no fluido pleural, por meio de baciloscopia ou cultura

tem baixa sensibilidade, menor que 5% no primeiro caso e entre 24 e 58% no último

[15]. Uma melhor sensibilidade pode ser obtida combinando a biópsia do tecido pleural

com a cultura para micobactéria no fluido ou no tecido pleural, porém tem como

restrições tanto o risco de complicações quanto o tempo de obtenção do resultado pela

cultura (até 8 semanas).

Novas técnicas tem se mostrado promissoras, como a procura por marcadores de

resposta imunológica ou inflamatória no líquido pleural, bem como a identificação do

agente causador através de material genético presente no líquido através da técnica de

PCR (polymerase chain reaction). Marcadores como a ADA e o IFN-y (interferon

19

gama) tem apresentado boa sensibilidade na identificação da pTB como causa de

derrames pleurais. Algumas destas técnicas necessitam de equipamento especializado,

que é bastante custoso e tem baixa disponibilidade, não estando ao alcance das regiões

mais afastadas, como é o caso da tecnologia Xpert, que apresenta bons resultados e que

está em fase de implantação pelo SUS em algumas capitais brasileiras. [19]

Uma alternativa aos métodos convencionais, visando auxiliar o diagnóstico sem

substituir os demais recursos, é a utilização de redes neurais artificiais para a extração

de informações relevantes de conjuntos de dados, mesmo sem relação biológica, mas

relevantes para a tomada de decisão. Modelos de redes neurais tem sido propostos para

o caso da TB pulmonar, apresentando bons resultados. [1] [3] [4] [5] [6] [11]

2.3. Redes Neurais Artificiais

As Redes Neurais Artificias (RNA) são modelos estatísticos não-lineares,

compostos por unidades interconectadas chamadas neurônios. O neurônio artificial é

inspirado no neurônio biológico, de forma que a RNA como um todo é inspirada no

funcionamento do cérebro humano. Assim como o nosso cérebro, as RNA também

armazenam conhecimento, e o adquirem através de um processo de aprendizagem, que

processa a informação apresentada a ela.

Através de um algoritmo de aprendizagem, as RNA conseguem capturar a

informação, e com base nela, adaptar-se para atingir um determinado objetivo [2].

Nesse processo de adaptação, os neurônios tem seus pesos sinápticos modificados a

cada iteração, de modo a se aproximarem do alvo. A rede recebe uma amostra de

entrada e tem uma saída desejada, a qual tenta atingir, constituindo assim um processo

de aprendizado chamado de supervisionado. As RNA podem aprender também de modo

20

não-supervisionado, ou seja, sem um alvo a ser atingido, e isso é possível pois as redes

tentam identificar semelhanças entre os dados de entrada [2].

Figura 2.3-1 – Neurônio artificial

Figura 2.3-2 – Rede Neural Artificial Multicamada (MLP)

Para cada conexão de um neurônio existe um peso ou uma força associada a ela.

A informação que chega ao neurônio é combinada linearmente com os pesos (sinapses)

e, após essa etapa, alimenta uma função, chamada função de ativação, que restringe o

sinal de saída do neurônio. Esta função, se não-linear, torna o neurônio não-linear e dá a

ele capacidade de capturar não-linearidades nas entradas, o que torna a RNA uma

ferramenta poderosa para a execução de determinadas tarefas, como a classificação de

padrões e a regressão [2].

21

As RNA também diferem entre si pela sua arquitetura ou topologia. Seus

neurônios podem se organizar em várias camadas e se conectar de formas diferentes,

podendo ainda haver realimentação dos sinais. As redes completamente conectadas são

modelos mais complexos, mais gerais, enquanto redes com menos conexões são mais

simples, mais especializadas num determinado problema.

As redes de múltiplas camadas (MLP) são uma importante classe de RNA, pois

a elas pode ser aplicado o teorema da aproximação universal, o que quer dizer que elas

tem a capacidade de aproximar qualquer função, pois, dentre outras propriedades,

consegue realizar um mapeamento entrada-saída generalista. De fato, vai existir uma

rede que aproxima bem uma determinada função, porém não necessariamente é uma

tarefa fácil encontrar esta rede, pois o ajuste de parâmetros frente às entradas determina

o seu desempenho, e o número de parâmetros a ajustar pode ser grande o suficiente para

dificultar a resolução desse problema [2].

Para encontrar uma rede com desempenho satisfatório, é necessário observar

algumas medidas que permitem avaliar a qualidade do aprendizado (treinamento), se a

rede está atingindo os alvos desejados, e da generalização, se a rede consegue avaliar

bem novas amostras, que não fazem parte da informação utilizada no aprendizado.

Dentre diversas medidas, pode-se destacar o erro médio quadrático (MSE), a

sensibilidade, a especificidade, a área debaixo da curva ROC (Reciever operating

characteristic), o índice SP (soma-produto) e a acurácia.

As RNA são ferramentas poderosas, contudo apresentam dificuldades inerentes

à forma como se organizam: em rede. As não-linearidades do modelo estão distribuídas

entre suas unidades, os neurônios, que por sua vez estão conectados entre si. Os

neurônios se organizam em camadas, como visto na Figura 2.3-2, e o fato de ter uma

camada escondida (oculta) já dificulta a interpretação do aprendizado contido nesses

22

neurônios, e também torna o aprendizado mais difícil, pois o ajuste dos pesos deve ser

propagado pelas camadas. O algoritmo de aprendizado é capaz de realizar este ajuste, e

é chamado de algoritmo de retropropagação, cuja proposição bem sucedida tornou

possível a utilização das RNA de múltiplas camadas (MLP). O algoritmo de

retropropagação foi sofrendo modificações ao longo do tempo que melhoraram a sua

performance, tanto no tempo de conversão, quanto para evitar os mínimos locais.

Outro problema frequentemente encontrado pelas RNA é o de generalização. É

dito que uma RNA generaliza bem quando ela gera um mapeamento entrada-saída que é

correto para amostras não apresentadas na fase de treinamento, ou seja, amostras de

teste e validação. Porém, as RNA podem ser modelos complexos o suficientes para,

além de aprender as relações não-lineares necessárias para um bom desempenho,

aprender também os ruídos que os dados de entrada apresentam, especializando-se

nesses dados de treinamento. A partir desse momento, a rede perde poder de

generalização. Uma técnica utilizada para tentar sanar este problema é realizar uma

parada antecipada no algoritmo de retropropagação assim que o erro sobre o conjunto

de validação começar a aumentar.

Ainda sobre o problema de generalização, uma possível causa para um

desempenho aquém do aceitável se deve ao modo como separamos o conjunto de dados

em conjunto de treinamento e conjunto de validação. Existe a possibilidade de o

conjunto de treinamento ser muito fácil de a rede aprender e o mesmo pode acontecer

com o conjunto de validação, caso se escolha os conjuntos de maneira aleatória. Em

casos onde o conjunto de dados é pequeno, esse problema se torna ainda mais evidente,

pois a representatividade estatística dos conjuntos de treinamento e validação pode

variar mais. Para tentar solucionar este problema, duas técnicas podem ser empregadas:

o agrupamento (clusterização) dos dados, e a validação cruzada múltipla.

23

Na primeira, são procurados agrupamentos entre os dados baseados em alguma

métrica de distância, por exemplo, a distância euclidiana. A partir desses agrupamentos,

podemos formar conjuntos de treinamento e validação que englobem parte de cada um

dos agrupamentos, mantendo boa representatividade estatística nos dois conjuntos. Um

algoritmo bastante utilizado para executar a tarefa de encontrar agrupamentos é o k-

means.

A segunda técnica dividimos o conjunto de dados em K partições e fazemos K

validações cruzadas, nas quais K-1 partições formam o conjunto de treinamento e a

restante forma o conjunto de validação. A cada validação cruzada, os conjuntos se

alternam até que todos tenham sido uma vez o conjunto de validação. Por fim seleciona-

se a rede de melhor performance, segundo a medida avaliada no caso.

No desenvolvimento deste trabalhou, procurou-se utilizar todas as técnicas

descritas acima, tidas como boas práticas em projetos de redes neurais, de modo a

potencializar o desempenho dos modelos treinados.

24

Capítulo 3 - Base de Dados e Método de Trabalho

3.1. Base de Dados

A base de dados utilizada neste trabalho refere-se a dados pessoais e sociais de

pacientes atendidos na Santa Casa de Misericórdia do Rio de Janeiro.

Foram utilizados dados de 62 pacientes atendidos na Santa Casa. Dentre esses

pacientes 83,8% são homens e 16,2% mulheres, a idade média é de aproximadamente

49 anos e 56% dos pacientes foram diagnosticados com tuberculose pleural.

Os dados foram coletados com autorização dos pacientes por meio de um

questionário. Nem sempre foi possível coletar todas as informações para todos os

pacientes, de forma que a base possui um número considerável de dados faltantes,

conforme as Figura 3.1-1, Figura 3.1-2 e Figura 3.1-3. Como o número de amostras

disponível não é muito grande do ponto de vista estatístico, faz-se necessário tentar

utilizar a totalidade de amostras, completando os dados faltantes de modo a alterar o

mínimo possível a distribuição das variáveis, evitando comprometer o resultado. Isso é

possível através da técnica da Imputação Múltipla, que será explicada no próximo

tópico.

A seguir, nas Tabela 3.1-1 e Tabela 3.1-2, são apresentadas as variáveis

consideradas neste trabalho, separadas por tipo de informação: Dados Pessoais e Dados

Sociais.

25

Dados Pessoais Identificação Descrição Valores possíveis Dados

faltantes idade Idade Números naturais 0% sexo Gênero 1=Masculino; 2=Feminino 0% estcivil Estado civil 1=vive só;

2=vive com companheiro 3%

estuda É estudante 1=sim; 2=não 2% escolari Escolaridade 1=analfabeto;

2=primeiro grau incompleto; 3=primeiro grau completo; 4=segundo grau incompleto; 5=segundo grau completo; 6=superior; 7=pós-graduação

11%

emprego Situação ocupacional 1=empregado; 2=desempregado; 3=autônomo; 4=empregador; 5=dono de negócio familiar; 6=faz bicos; 7=outros; 8=não sabe informar

3%

hcw Profissional da saúde 1=sim; 2=não 0% trabalho Atividade principal 0=não se aplica;

1=indústria; 2=comercio; 3=prestação de serviço; 4=agropecuária; 5=construção civil; 6=serviço público; 7=não sabe ou não quer informar

5%

renda Renda em faixas 1=sem rendimentos; 2=menos que 1 salário mínimo; 3=1 a 4 salários mínimos; 4=4 a 8 salários mínimos; 5=8 a 12 salários mínimos; 6=12 ou mais;

8%

26

7=não sei rendaant Renda há 2 anos 1=maior; 2=igual;

3=menor; 4=não sabe informar

8%

instchef Grau de instrução do chefe de família

1=não frequentou escola; 2=primeiro grau incompleto; 3=primeiro grau completo; 4=segundo grau incompleto; 5=segundo grau completo; 6=superior; 7=pós-graduação; 8=não sabe informar

8%

Tabela 3.1-1 – Relação de variáveis do tipo Dados Pessoais

Dados Sociais Identificação Descrição Valores

possíveis Dados faltantes

asppo Número de aspiradores de pó

0=0;

1=1;

2=2;

3=3;

4=4 ou mais.

15%

carro Número de carros banheiro Número de banheiros freezer Número de freezers (duplex) geladeira Número de geladeiras duplex gel Número de geladeiras simples maquina Número de máquinas de lavar radio Número de rádios tv Número de TVs em cores vídeo Número de reprodutores de vídeo pessoas Número de pessoas que convive com

você nos últimos 2 anos 11%

comodos Número de cômodos 15% dorm Número de cômodos usados como

dormitório 16%

morua Morador de rua (ex- ou não) 1=sim; 2=não 5% preso Foi detento nos últimos 2 anos 1=sim; 2=não 6%

Tabela 3.1-2 – Relação de variáveis do tipo Dados Sociais

27

Figura 3.1-1 – Porcentagem de dados faltantes na totalidade de dados

Figura 3.1-2 – Porcentagem de amostras com dados faltantes

Figura 3.1-3 – Porcentagem de variáveis com dados faltantes

Completo 91%

Incompleto 9%

Total de dados

�Completo 77%

Incompleto

23%

Amostras

Completo 12%

Incompleto 88%

Variáveis

28

3.2. Imputação Múltipla

Em todo projeto que envolve análise de dados, deseja-se fazer inferências sobre

a população de interesse. No entanto, podem haver dados faltantes e em alguns casos

essa falta altera bastante as características originais da população que gerou os dados.

A Imputação Múltipla (IM) é um método proposto por Rubin (1987) para tratar

dados faltantes que tem sido estudado e utilizado desde então. Um método mais simples

de imputação utiliza variáveis correlacionadas presentes no conjunto de dados e sem

dados faltantes para realizar uma estimativa dos valores faltantes nas variáveis-alvo.

Como a imputação é um processo de estimação, Rubin propõe realizar diversas

imputações para que a incerteza inerente a esse processo seja levada em conta.

O objetivo da IM não é adivinhar um valor para o dado faltante, e sim manter a

variabilidade do conjunto original e a relação entre as variáveis. Espera-se que o

conjunto imputado não se distancie do conjunto original em termos de média, variância,

por exemplo, que é o grande problema da imputação única, por não considerar a questão

da variabilidade. [16]

A IM é um processo simples e de fácil computação, podendo ser brevemente

descrita nos seguintes passos:

1- São obtidos m bancos de dados completos por meio de técnicas de

imputação;

2- Cada banco gerado é então analisado, utilizando-se técnicas estatísticas

comuns, usadas na maioria dos projetos de análise.

3- Os resultados encontrados são combinados de uma maneira simples (a média

das imputações, por exemplo), possibilitando a inferência a partir dos

conjuntos imputados.

29

Para mitigar a influência dos dados faltantes, vistos na seção 3.1 deste trabalho,

a IM foi utilizada de modo que fosso possível aproveitar ao máximo a base de dados

disponível. Foram geradas 5 imputações (m = 5), e, a partir delas, gerado uma nova

base imputada contendo, para cada valor faltante, o valor mediano referente das 5

imputações.

A IM foi avaliada segundo comuns de análise estatística. O intuito é identificar

grandes desvios em relação à variabilidade do conjunto original. Foram avaliadas a

média, o desvio padrão, a curtose, a obliquidade (skewness) e a distância de Kullback-

Leibler (KL), que é uma medida de distância entre distribuições. As Figura 3.2-2,

Figura 3.2-3, Figura 3.2-4 e Figura 3.2-5 apresentam as avaliações feitas.

Figura 3.2-1 – Média de cada variável entre os conjuntos original e IM

É possível afirmar que, na totalidade das variáveis, as médias variaram pouco, o

que indica que a imputação múltipla pouco afetou esta medida estatística. As variáveis

‘pessoas’ e ‘comodos’ sofreram as maiores variações na média, sugerindo talvez que

um aprofundamento em sua análise deva ser feito, a partir de outras medidas

estatísticas.

0.000

1.000

2.000

3.000

4.000

5.000

est civil

estuda

escolarid

ade

emprego

hcw

trabalho

rend

a rend

a ant

inst che

f asp pó

carro

banh

eiro

freezer

gelade

ira

gel

maquina

radio tv

vide

o pe

ssoas

comod

os

dorm

mo rua

preso

Média Orig.

Média IM

30

Figura 3.2-2 - Desvio padrão de cada variável entre os conjuntos original e IM

O desvio padrão manteve-se praticamente estável para todas as variáveis, não

havendo considerações relevantes a serem feitas sobre a maioria das variáveis. A maior

variação se deu na variável ‘tv’, ocorrendo um leve aumento, o que indica que a IM

tornou sua distribuição mais dispersa.

Figura 3.2-3 - Curtose de cada variável entre os conjuntos original e IM

A curtose é uma medida sobre o pico ou achatamento de uma distribuição. As

maiores variações da curtose ocorreram justamente naquelas variáveis que possuem

muitos valores de um tipo, e poucos valores de outro tipo, como é o caso de ‘mo rua’ e

‘preso’. De fato, poucas pessoas se declararam como ex-moradores de rua ou ex-

detentos, o que leva a IM a alterar significativamente a curtose nesses dois casos.

0.000 0.500 1.000 1.500 2.000 2.500

est civil

estuda

escolarid

ade

emprego

hcw

trabalho

rend

a rend

a ant

inst che

f asp pó

carro

banh

eiro

freezer

gelade

ira

gel

maquina

radio tv

vide

o pe

ssoas

comod

os

dorm

mo rua

preso

Desv.Pd. Orig.

Desv.Pd. IM

-‐5.000

0.000

5.000

10.000

15.000

20.000

25.000

30.000

est civil

estuda

escolarid

ade

emprego

hcw

trabalho

rend

a rend

a ant

inst che

f asp pó

carro

banh

eiro

freezer

gelade

ira

gel

maquina

radio tv

vide

o pe

ssoas

comod

os

dorm

mo rua

preso

Curtose Orig.

Curtose IM

31

Figura 3.2-4 - Obliquidade de cada variável entre os conjuntos original e IM

A obliquidade, ou skewness, é uma medida de assimetria de uma distribuição.

Distribuições simétricas possuem obliquidade zero, ao passo que distribuições com

caudas longas tem alta obliquidade. O sinal da medida de obliquidade indica se a cauda

fica à direta (>1) ou à esquerda (<1). Novamente, as maiores variações foram nas

variáveis ‘mo rua’ e ‘preso’, e podem ser explicadas pelo mesmo motivo de alteração da

curtose.

Figura 3.2-5 - Distância KL de cada variável entre os conjuntos original e IM

A distância ou divergência de Kullbach-Leibler (KL) é uma medida da diferença

entre duas distribuições. A KL foi utilizada para comparar as distribuições de cada

variável. Em termos gerais, houve pouca variação na distribuição das variáveis, o que

-‐6.000 -‐5.000 -‐4.000 -‐3.000 -‐2.000 -‐1.000 0.000 1.000 2.000 3.000 4.000

est civil

estuda

escolarid

ade

emprego

hcw

trabalho

rend

a rend

a ant

inst che

f asp pó

carro

banh

eiro

freezer

gelade

ira

gel

maquina

radio tv

vide

o pe

ssoas

comod

os

dorm

mo rua

preso Skewness Orig.

Skewness IM

0 0.1 0.2 0.3 0.4 0.5 0.6

est civil

estuda

escolarid

ade

emprego

hcw

trabalho

rend

a rend

a ant

inst che

f asp pó

carro

banh

eiro

freezer

gelade

ira

gel

maquina

radio tv

vide

o pe

ssoas

comod

os

dorm

mo rua

preso

KL

32

indica uma boa performance da IM. Verificou-se, no entanto, que a variável que mais se

distanciou da sua distribuição original foi a ‘freezer’, que indica o número de freezers

que o paciente possui.

3.3. Método

Este trabalho visa prioritariamente identificar variáveis relevantes dentre as

disponíveis, de modo a saber quais as que mais contribuem para o desempenho dos

modelos que irão avalia-las. Nesta seção será descrito o método de trabalho que foi

seguido para tentar identificar essas variáveis.

3.3.1. Preparação dos dados

Após a IM, as variáveis foram normalizadas, estando a partir de então dentro do

intervalo -1 a 1. Cada variável foi subtraída de sua média e dividida pela sua variância.

Dessa forma obtém-se média 0 (zero) e variância 1 (um). Esse passo é importante para

que os modelos de RNA não privilegiem variáveis que estão em escalas maiores, dando

oportunidade para todas as variáveis estimularem os neurônios das redes.

3.3.2. Modelos propostos

Foram treinadas 4 topologias diferentes de redes neurais do tipo MLP, segundo a

descrição a seguir. Todas as topologias são feedforward e completamente conectadas.

I. Modelo sobre dados Pessoais;

II. Modelo sobre dados Sociais;

III. Modelo sobre ambos dados Pessoais e Sociais;

IV. Modelo sobre a saída da camada escondida dos modelos I e II.

O modelo IV é diferente dos demais, pois sua entrada não são os dados

derivados da base original e sim a saída da camada escondida dos dois primeiros

33

modelos. A camada escondida das redes neurais MLP é responsável pela descorrelação

não-linear das entradas. É ela que realiza a partição dos dados em um dimensão maior,

cabendo à camada de saída espaçar ao máximo os dados particionados. Ao propor essa

rede, estamos, na verdade, propondo um modelo de maior complexidade que os 3

primeiros, pois seria equivalente a uma rede MLP com mais de uma camada escondida,

enquanto os demais possuem apenas uma camada escondida. As Figuras 3.3.2-1 a 3.3.2-

4 ilustram a diferença entre os modelos propostos.

Figura 3.3.2-1 – Modelo I

Figura 3.3.2-2 – Modelo II

Figura 3.3.2-3 – Modelo III

Figura 3.3.2-4 – Modelo IV

34

3.3.3. Escolha da topologia

Um parâmetro importante a ser ajustado, que influi diretamente na complexidade

do modelo de rede neural, é o número de neurônios na camada escondida. A quantidade

de neurônios na camada escondida determina o número de pesos sinápticos que o

algoritmo de retropropagação deve ajustar, número este que também é atrelado à

quantidade de variáveis de entrada que a rede recebe. Neste trabalho, o número de

neurônios na camada escondida é determinado empiricamente, no processo de validação

cruzada múltipla, abordado a seguir.

3.3.4. Validação cruzada

De modo a mitigar deficiências dos modelos de rede neural, como a dependência

da inicialização dos parâmetros e a escolha dos conjuntos de treinamento e validação,

utilizou-se a técnica da validação cruzada múltipla, brevemente descrita na seção 2.3.

As amostras de entrada foram permutadas em 50 blocos diferentes e cada bloco foi

separado em conjunto de treinamento e conjunto de validação, numa proporção de 70%

do total de dados para treinamento e os 30% restantes para validação. Variou-se então o

número de neurônios na camada escondida, de 1 até 10, e para cada topologia, foram

feitas 100 inicializações, de modo a evitar o problema do mínimo local. Esse

procedimento foi aplicado a cada um dos 50 blocos de dados, numa busca por uma

configuração de treinamento e validação favorável a uma boa generalização.

Logo, para cada modelo foram treinadas 50 mil redes com configurações

diferentes, variando-se o número de neurônios, os dados que compõem os conjuntos de

treinamento e validação, e a inicialização dos pesos sinápticos. Desse total de redes, é

feita uma busca pelas mais performantes, de modo a encontrar a melhor topologia.

35

Para cada topologia, em cada bloco, estão disponíveis 100 redes com diferentes

inicializações. É escolhida a melhor entre elas, para cada bloco, de modo que ao final

existam 50 redes selecionadas para cada topologia. A melhor topologia será aquela que

possui as 50 redes de maior desempenho médio. O índice de desempenho utilizado

nesse momento é o índice Soma-Produto (SP), descrito a seguir, assim como os demais

índices utilizados neste trabalho. Para a escolha da melhor topologia, é utilizado ainda o

critério de parcimônia, havendo preferencia por redes menos complexas com

desempenho equivalente à rede de melhor desempenho.

3.3.5. Índices de desempenho

Para a avaliação do desempenho dos modelos empregados neste trabalho, alguns

índices foram considerados. Alguns deles são propriedades da curva ROC (reciever

operating characteristic), como a sensibilidade, a especificidade e o índice Soma-

Produto (SP).

A curva ROC é formada fazendo variar o limiar de decisão de um classificador

binário, variando assim também as probabilidades de detecção (sensibilidade) e de falso

alarme (1-especificidade). No caso estudado neste trabalho, a sensibilidade é

probabilidade de o modelo identificar como suspeito um paciente que realmente possui

a doença, enquanto a especificidade é a probabilidade de o modelo classificar como não

suspeito um paciente que realmente não possui tuberculose pleural.

O índice SP é definido por [1]:

𝑆𝑃 = 𝑺 × 𝑬 ×𝑺+ 𝑬2

O índice SP representa numa única medida o desempenho geral de um

classificador para duas classes, de maneira balanceada. Esse índice é sensível a

36

pequenas variações, tanto na sensibilidade (S), quanto na especificidade (E) do

classificador, sendo uma boa métrica para se adotar na escolha dos modelos, de uma

forma geral.

O índice SP é utilizado ainda na escolha do limiar de decisão entre as classes.

Em projetos de classificação, é desejável que o classificador acerte o alvo na maioria

dos casos, porém há vezes em que o problema é de difícil solução pois as classes se

encontram sobrepostas. Ao fazer variar o limiar de decisão, observa-se o valor do SP,

até que se encontre o limiar que resulta no maior SP possível para a distribuição das

estimativas do classificador.

A própria saída do classificador pode ser analisada, de forma qualitativa,

comparando-se o desempenho do conjunto de treinamento e do conjunto de teste, e

verificando, ainda, se as classes estão bem espaçadas, se acertam o alvo, se estão

sobrepostas, configurando um problema não trivial, ou se estão mais próximas do

centro, possivelmente devido a um mau treinamento. De forma quantitativa, a matriz de

confusão pode ser avaliada, cruzando-se a estimativa do classificador, segundo o melhor

limiar de decisão, com os alvos esperados. A partir dela é possível saber diretamente

medidas como a quantidade de falsos alarmes, por exemplo.

3.3.6. Seleção da rede de operação

Ainda, no caso do processo decisório na área da saúde, há duas fases em que os

SAD se mostram como boa ferramenta no auxílio à tomada de decisão, que são a

triagem de pacientes e o diagnóstico. Em fase de triagem, é interessante que todos os

pacientes portadores da doença sejam selecionados, portanto um modelo com alta

sensibilidade é recomendado, enquanto que em fase de diagnóstico, faz-se necessário

evitar que recursos da saúde sejam empregados em pacientes que não são portadores da

doença, logo um modelo de alta especificidade é recomendado.

37

Para este trabalho, considerou-se a fase de triagem como motivação na escolha

da melhor rede, dentre as 50 até aqui selecionadas. Dessa maneira, a sensibilidade será o

critério adotado, e a rede de maior sensibilidade, à luz de todo o conjunto de dados, será

a escolhida como rede de operação. As redes selecionadas nesta fase, uma para cada

modelo apresentado no início desta seção, serão as utilizadas para a Análise de

Relevância.

3.3.7. Análise de relevância

Após as redes terem sido selecionadas, pode-se verificar quais são as variáveis

que mais ou que menos contribuem para o desempenho geral dos modelos, e isso é

possível ao analisar a variação do índice SP. Esse índice apresenta forte variação mesmo

quando pequenas variações na sensibilidade ou especificidade acontecem, tornando-se

indicado para esse tipo de análise.

Para cada variável, substituiu-se o valor de cada amostra pelo seu valor mediano,

e propagou-se o sinal de entrada pela rede, obtendo-se uma nova saída. Foi calculado o

SP desta saída e comparado ao desempenho original, verificando o quanto o SP variou.

∆𝑆𝑃 = 𝑆𝑃!"#$ − 𝑆𝑃! ! !!

Grandes variações positivas no SP indicam que a variável em questão contribui

bastante para o desempenho do modelo, visto que o desempenho diminuiu

consideravelmente quando ela é forçada a assumir seu valor médio. No caso em que não

há variação do SP, ou, se por acaso essa variação for negativa, indica que a variável em

questão não contribui para o desempenho do modelo, ou, ainda, atrapalha-o. Dessa

forma é possível identificar as variáveis mais e menos relevantes para o modelo

estudado. Foram consideradas variáveis que não contribuem para o modelo aquelas com

variação do SP menor ou igual a 0,02.

38

3.3.8. Novo treinamento

Foi verificado neste trabalho, se, ao retirarmos completamente da base as

variáveis consideradas de menor relevância para os modelos, estes modelos retreinados

apresentariam melhor desempenho. Isso seria um forte indicativo de que, de fato, as

variáveis removidas são de menor importância na confecção de modelos para a amostra

de população estudada. Esta etapa foi realizada para todos os modelos propostos no

início desta seção.

Capítulo 4 - Resultados

4.1. Redes MLP

Conforme a seção 3.3.4, cada modelo proposto foi treinado 50 mil vezes, em

busca de uma bom desempenho de generalização, tentando ainda evitar o problema do

mínimo local, e também com o intuito de encontrar uma boa topologia de rede

possuindo boa performance. Esse número de treinos se dá pelo fato de, para cada

topologia, entre 1 a 10 neurônios, iterar-se por 100 inicializações diferentes sobre cada

arranjo do conjunto de dados, de um total de 50 arranjos de treinamento e validação.

São propostos inicialmente quatro modelos de rede neural. Após o treinamento,

o desempenho de cada um é representado pelo desempenho das 50 melhores redes da

melhor topologia. Dessa forma, é apresentado como desempenho a média e o desvio

padrão do SP, da sensibilidade, da especificidade e da acurácia das 50 redes.

Além disso, foi selecionada, para cada modelo, uma rede para operação, tendo

em vista o auxilio à triagem de pacientes. Para operar nesta etapa, a rede precisa ter a

maior sensibilidade possível, pois se um paciente realmente é portador de tuberculose

39

pleural, ele tem que ser detectado. Assim sendo, todos os eventos da base de dados

foram propagados pelas 50 melhores redes, e a rede de melhor sensibilidade foi

escolhida como rede de operação.

4.1.1. Modelo I – Rede sobre dados pessoais

Este modelo é a aplicação direta de uma rede neural sobre as variáveis do tipo

“pessoal” da base de dados, sendo 11 variáveis no total. A Figura 4.1.1-1 apresenta o

gráfico do desempenho médio de cada topologia, segundo o SP, cada uma contendo

suas 50 melhores redes.

Figura 4.1.1-1 – Modelo I – SP médio das 50 melhores redes para cada topologia

A topologia de maior média é a de 4 neurônios, com SPm = 0.821 ± 0.044. De

posse das 50 melhores redes dessa topologia, é possível extrair outras medidas

estatísticas como a sensibilidade, especificidade e a acurácia, expostas na Tabela

4.1.1-1, bem como a Rede de Operação selecionada pela maior sensibilidade.

40

Índice de Desempenho Rede de Operação Média 50 val Std 50 val

SP 0.825 0.821 0.044

Sensibilidade 1.000 0.822 0.112

Especificidade 0.667 0.827 0.109

Acurácia 0.857 0.824 0.047

Tabela 4.1.1-1 – Modelo I - Estatísticas para as 50 melhores redes e Rede de Operação

Em relação à média da melhor topologia deste modelo, a rede de operação apresenta

excelente sensibilidade, porém com baixa especificidade. O SP e a acurácia estão dentro

do intervalo do desvio padrão. Avaliou-se mais a fundo o desempenho da rede de

operação, segundo a curva ROC, o histograma de saída, a matriz de confusão e a

performance do treinamento, resultados expostos nas Figura 4.1.1-2Figura 4.1.1-3.

Figura 4.1.1-2 – Modelo I – Curva ROC e Curvas de Performance de Treinamento da Rede de

Operação

A curva ROC foi gerada a partir de todo o conjunto de dados para a rede de

operação em triagem. A sensibilidade de 100% apresentada confirma a pertinência

dessa rede para operar nessa etapa. Além da alta sensibilidade, a rede apresentou

especificidade de 88.9%, e também acertou 95.2% da totalidade de casos.

41

A curva de performance ilustra bem a tentativa de evitar os mínimos locais, pelo

fato de o erro de validação variar bastante antes de atingir o mínimo. O erro médio

quadrático (MSE) de validação foi alto, o que sugere que a rede não acertou o alvo em

algumas ocasiões, embora tenha classificado corretamente a grande maioria dos casos.

Pode-se verificar essa sugestão na Figura 4.1.1-3, a partir do histograma de saída e da

matriz de confusão.

Na Figura 4.1.1-4 podemos ver a relevância das variáveis deste modelo,

calculadas a partir da variação do índice SP quando propagou-se o conjunto de dados

pela rede de operação, com cada variável tendo, por sua vez, sua distribuição anulada ao

substituir seus valores pelo valor mediano. Nota-se que as variáveis ‘estuda’ e ‘hcw’

tiveram baixa contribuição para o desempenho do modelo.

Figura 4.1.1-3 – Modelo I – Histograma de Saída e Matrizes de Confusão da Rede de Operação

42

Vale notar também que as variáveis ‘idade’, ‘inst chef’ e trabalho mostraram boa

relevância para este caso, fazendo o índice SP variar acima de 0.15.

4.1.2. Modelo II – Rede sobre dados sociais

Este modelo é análogo ao Modelo I, porém, a base que alimentou a rede era

composta apenas de dados sociais dos pacientes, num total de 15 variáveis. Ao analisar

o gráfico da Figura 4.1.2-1, percebe-se que a melhor topologia é a de 3 neurônios na

camada escondida, pois apresentou a maior média entre todas as topologias.

Figura 4.1.2-1 – Modelo II – SP médio das 50 melhores redes para cada topologia

ΔSP

Figura 4.1.1-4 – Modelo I – Relevância das variáveis da Rede de Operação pela

variação do índice SP

43


SP 0.903 0.869 0.046



Acurácia 0.905 0.869 0.047

Tabela 4.1.2-1 – Modelo II – Estatísticas para as 50 melhores redes e Rede de Operação

Desta vez, a rede de operação em triagem selecionada teve sensibilidade

ligeiramente abaixo da máxima, porém com especificidade elevada, mostrando-se uma

rede mais balanceada, como indica o SP. Em média esse modelo também performa

ligeiramente melhor que o Modelo I.

Figura 4.1.2-2 – Modelo II – Curva ROC e Curvas de Performance de Treinamento da Rede de

Operação

Figura 4.1.2-3 – Modelo II – Histograma de Saída e Matrizes de Confusão da Rede de Operação

44

A curva ROC, representada na Figura 4.1.2-2, referente ao desempenho da rede

de operação quando ela avalia todo o conjunto de dados apresenta boa sensibilidade e

boa especificidade. A curva de performance denota um MSE relativamente baixo, o que

sugere distribuições da saída mais próximas do alvo, o que de fato pode ser comprovado

no histograma de saída da Figura 4.1.2-3.

Quanto à relevância das variáveis sociais, pode-se destacar a baixa contribuição

trazida pelas variáveis ‘asp p’, ‘tv’ e ‘mo rua’. Em geral, a maioria das variáveis

contribuiu pouco para o desempenho do modelo, caracterizado pela baixa variação do

índice SP. A contribuição mais alta veio da variável ‘pessoas’, sendo que nenhuma

outra variável chega perto de gerar a mesma variação no índice SP que ela.

4.1.3. Modelo III – Rede sobre dados pessoais e sociais

Nesse modelo, a rede neural foi aplicada sobre ambos dados pessoais e sociais,

totalizando 26 variáveis: 11 pessoais e 15 sociais. Podem existir correlações não-

ΔSP

Figura 4.1.2-4 – Modelo II – Relevância das variáveis da Rede de Operação pela


45

lineares entre as variáveis dos dois tipos, que, os modelos I e II, especialistas em cada

tipo, respectivamente, não conseguiriam identificar, ao passo que uma rede que trata de

ambos dados poderia realizar com sucesso.

Figura 4.1.3-1 – Modelo III – SP médio das 50 melhores redes para cada topologia

Ao procurar pela melhor topologia quantitativamente, os números mostram que

a de 9 neurônios tem a maior média, porém, não muito distante está a topologia de 2

neurônios na camada escondida. Pelo critério da parcimônia, foi escolhida a topologia

de menor complexidade, sendo eleita, então, aquela com 2 neurônios.


SP 0.949 0.853 0.036



Acurácia 0.955 0.852 0.039

Tabela 4.1.3-1 – Modelo III – Estatísticas para as 50 melhores redes e Rede de Operação

As melhores redes para esse modelo, de maneira geral, seguem os resultados

obtidos pelos 2 modelos anteriores, com algumas variações. A rede de operação em

46

triagem apresenta bom desempenho, detectando todos os casos de tuberculose pleural e,

ao mesmo tempo, apresentando um bom balanceamento evidenciado pelo alto SP.

Figura 4.1.3-2 – Modelo III – Curva ROC e Curvas de Performance do Treinamento da Rede de

Operação

A curva ROC relativa à totalidade dos dados confirma o bom desempenho do

modelo, que consegue acertar 96,6% dos casos. A curva de performance de treinamento

possui menos variações que a dos modelos anteriores e o MSE indica que alguns

eventos foram mapeados longe dos seus alvos, como pode-se ver na Figura 4.1.3-3.

Alguns eventos foram mapeados próximos do zero, o que significa que o

treinamento não foi tão satisfatório. Os eventos devem estar o mais próximo possível

dos seus alvos.

Figura 4.1.3-3 – Modelo III – Histograma de saída e Matrizes de Confusão da Rede de Operação

47

Desta vez a relevância foi calculada com a totalidade de variáveis disponíveis na

base de dados. Um total de 6 variáveis não resultaram em variação do índice SP quando

suprimidas para verificação da relevância, configurando um quadro de baixa

contribuição para o desempenho do modelo. A variável ‘gel’, que indica o número de

geladeiras simples do paciente, foi a que mais contribuiu para o desempenho do modelo,

neste caso.

4.1.4. Modelo IV – Rede sobre os modelos I e II

Neste caso utilizou-se um modelo bem diferente dos já apresentados. Ao invés

de aplicar esse tendo a base de dados diretamente como entrada, optou-se por conectá-lo

com a saída da camada escondida das redes dos modelos I e II. De maneira geral, esse

arranjo configura um modelo mais complexo, equivalente a uma rede com mais de uma

camada escondida.

O gráfico das médias das melhores redes por topologia indica a de 4 neurônios

como a topologia de maior média.

Figura 4.1.3-4 – Modelo III – Relevância das variáveis da Rede de Operação pela


ΔSP

48

Figura 4.1.4-1 – Modelo IV – SP médio das 50 melhores redes para cada topologia


SP 0.954 0.792 0.074



Acurácia 0.950 0.794 0.074

Tabela 4.1.4-1 – Modelo IV – Estatísticas para as 50 melhores redes e Rede de Operação

Os resultados médios encontrados estão abaixo dos 3 modelos já apresentados.

No entanto, foi possível extrair uma rede de boa performance para servir como rede de

operação de triagem. Apesar de a sensibilidade dessa rede ser menor que as já avaliadas,

a rede selecionada apresentou bom balanceamento entre sensibilidade e estabilidade,

indicado por um alto SP.

A curva ROC para todo o conjunto de dados apresenta bons resultados, porem

inferiores aos modelos precedentes. Apesar disso, o modelo consegue acertar 95.2% dos

casos. A curva de performance de validação oscilou bastante, e o MSE indica que

alguns dados erraram o alvo.

49

Figura 4.1.4-2 – Modelo IV – Curva ROC e Curvas de Performance de Treinamento para Rede de

Operação

De fato, ao observar a Figura 4.1.4-3, nota-se que no histograma de saída,

muitos eventos foram mapeados longe do alvo, alguns ainda em torno do zero, o que

indica que o treinamento não tão bom. Para um bom treinamento, espera-se, dentro do

possível, que as classes estejam bem espaçadas no espectro de saída. As matrizes de

confusão mostram um bom resultado, pois, apesar de as classes estarem mais próximas

na saída dessa rede de operação, ainda foi possível encontrar um limiar de decisão

satisfatório, o que justifica os bons índices de desempenho apresentados.

Figura 4.1.4-3 – Modelo IV – Histograma de saída e Matrizes de Confusão da Rede de Operação

50

Para esse modelo, foram feitos dois gráficos de relevância: um verificando

variável por variável e outro verificando o conjunto de variáveis por vez. Como nesse

modelo existe a separação entre dados pessoais e sociais, cada um alimentando uma

rede diferente que serve de base para a rede de operação, pensou-se em avaliar a

relevância dos dois conjuntos.

ΔSP

Figura 4.1.4-4 – Modelo IV – Relevância das variáveis da Rede de Operação pela


ΔSP

Figura 4.1.4-5 – Modelo IV – Relevância de cada grupo de variáveis da

Rede de Operação pela variação do índice SP

51

O gráfico de relevância para cada variável indicou como de baixa relevância

algumas variáveis em comum com o modelo III, bem como variáveis que não tinham

sido dadas como de baixa contribuição anteriormente. A relevância por conjunto de

dados indicou que os dados sociais trazem maior contribuição para o desempenho do

modelo estudado.

4.2. Análise de Relevância

Este trabalho é pautado em dados que não são comumente utilizados para

alimentar modelos de RNA com o intuito de produzir SAD para a área da saúde.

Geralmente são utilizados dados sintomáticos e de resultados de exames, pois estão

diretamente ligados à condição do paciente.

É interessante encontrar bons resultados para a classificação de pacientes

baseados somente em dados que, a priori, não estão diretamente relacionados à doença

em questão. Seria de se esperar que a grande maioria das variáveis não contribuísse com

o desempenho dos modelos, o que não se confirma nos resultados obtidos neste

trabalho.

Dando continuidade à avaliação das variáveis, uma vez que se sabe quais delas

não contribuem para uma boa classificação dos casos, espera-se que, sem elas, os

modelos de RNA tenham um desempenho superior. Dessa forma, as variáveis

consideradas de baixa relevância foram eliminadas da base de dados e os modelos

propostos até aqui foram retreinados a partir dessa nova base.

Num primeiro momento, apenas as variáveis consideradas de baixa relevância

para ambos os modelos III e IV foram removidas. Num segundo momento, todas as

variáveis de baixa relevância do modelo III foram removidas, com o intuito de causar

maior variação na performance do novo modelo.

52

As variáveis removidas no primeiro momento foram ‘sexo’, ‘estuda’, ‘hcw’ e

‘mo rua’. Num segundo momento, além das já citadas, foram removidas ‘escolaridade’,

‘emprego’, ‘renda’, ‘tv’, ‘video’ e ‘comodos’.

4.3. Redes MLP retreinadas

4.3.1. Modelo V – Rede sobre dados pessoais

Esse modelo é análogo ao Modelo I, porém treinado sem as variáveis removidas

no primeiro momento do retreino.

Figura 4.3.1-1 – Modelo V – SP médio das 50 melhores redes para cada topologia

O gráfico das topologias indica a de 3 neurônios na camada escondida como a

de melhor média do índice SP, assim esta foi a topologia selecionada.

53

Métrica Rede de Operação Média 50 val Std 50 val

SP 0.892 0.815 0.043



Acurácia 0.895 0.814 0.042

Tabela 4.3.1-1 – Modelo V – Estatísticas das 50 melhores redes e Rede de Operação

É possível observar na Tabela 4.3.1-1, uma relativa piora na sensibilidade da

rede de operação de triagem escolhida em relação à rede de operação de triagem do

Modelo I, embora a rede tenha ganho bastante em especificidade, estando mais

balanceada.

Figura 4.3.1-2 – Modelo V – Curva ROC e Curvas de Performance de Treinamento da Rede de

Operação

A curva ROC apresentou bons índices para sensibilidade e especificidade

relativos a todo o conjunto de dados. O modelo mostrou acurácia de 95.2%, a mesma

apresentada pelo Modelo I. O histograma de saída possui mais eventos afastados do

alvo que o modelo anterior, e também apresenta uma distribuição mais alongada ao

redor do alvo.

54

Figura 4.3.1-3 – Modelo V – Histograma de saída e Matrizes de Confusão da Rede de Operação

4.3.2. Modelo VI – Rede sobre dados sociais

Esse modelo é um espelho do Modelo II, porém alimentado por uma base de

dados sem as variáveis de baixa relevância consideradas neste primeiro momento.

Figura 4.3.2-1 – Modelo VI – SP médio das 50 melhores redes para cada topologia

Quantitativamente, a topologia de 8 neurônios na camada escondida tem a maior

média das topologias. No entanto, pelo critério de parcimônia, foi escolhida a topologia

de 5 neurônios, pois tem média próxima à de 8 e é menos complexa.

55


SP 0.885 0.856 0.035

sensibilidade 1.000 0.849 0.105

especificidade 0.778 0.870 0.105

acurácia 0.900 0.857 0.036

Tabela 4.3.2-1 – Modelo VI – Estatísticas das 50 melhores redes e Rede de Operação

A rede de operação de triagem selecionada neste modelo apresentou leve

melhora na sensibilidade em relação ao Modelo II, porém teve queda acentuada em sua

especificidade, tornando-se uma rede menos balanceada.

Figura 4.3.2-2 – Modelo VI – Curva ROC e Curvas de Performance de Treinamento da Rede de

Operação

A curva ROC, no entanto, indica um desempenho bem melhor do modelo em

relação à especificidade. Como a curva ROC foi calculada com base na totalidade dos

dados, significa que a especificação do modelo no conjunto de treinamento foi bastante

superior à do conjunto de validação. Isso pode ser comprovado pelas matrizes de

confusão da Figura 4.3.2-3.

56

Figura 4.3.2-3 – Modelo VI – Histograma de saída e Matrizes de Confusão da Rede de Operação

4.3.3. Modelo VII – Rede sobre dados pessoais e sociais

Esse modelo foi construído da mesma maneira que o Modelo III, porém sem as

4 variáveis removidas em razão da baixa relevância neste primeiro momento.

Figura 4.3.3-1 – Modelo VII – SP médio das 50 melhores redes para cada topologia

O gráfico de comparação das topologias indica que as redes com 7 neurônios na

camada escondida tem melhor desempenho médio segundo o índice SP.

57


SP 0.949 0.856 0.039



Acurácia 0.955 0.856 0.036

Tabela 4.3.3-1 – Modelo VII – Estatística das 50 melhores redes e Rede de Operação

A rede de operação em triagem do modelo retreinado possui o mesmo

desempenho que o modelo proposto inicialmente com todas as variáveis. No

desempenho médio, este modelo teve uma leve melhora no desempenho pelo índice SP,

porém perdeu um pouco em especificidade.

Figura 4.3.3-2 – Modelo VII – Curva ROC e Curvas de Performance de Treinamento da Rede de

Operação

A curva ROC apresentou bons resultados para a totalidade dos dados, tendo a

rede de operação em triagem acertado 98,4% dos casos. O novo modelo também

apresentou uma pequena diferença no histograma de saída: não há mais eventos sendo

mapeados exatamente no zero, o que significa que a rede conseguiu espaçar mais os

eventos, garantindo uma melhor separabilidade.

58

Figura 4.3.3-3 – Modelo VII – Histograma de saída e Matrizes de Confusão da Rede de Operação

4.3.4. Modelo VIII – Rede sobre modelos V e VI

Esse modelo é análogo ao modelo IV. Na ocasião do retreino, este modelo tem

como requisito o retreino dos dois modelos aos quais ele está atrelado. Os modelos I e II

foram retreinados e referenciados como modelos V e VI, que são agora a base para o

treinamento deste modelo VIII.

Figura 4.3.4-1 – Modelo VIII – SP médio das 50 melhores redes para cada topologia

A topologia de 6 neurônios na camada escondida foi escolhida por apresentar a

maior média dos índices SP entre as melhores redes de cada topologia.

59


SP 0.798 0.768 0.054



Acurácia 0.800 0.771 0.052

Tabela 4.3.4-1 – Modelo VIII – Estatística para as 50 melhores redes da melhor topologia e Rede de

Operação

Este modelo, segundo os dados apresentados na Tabela 4.3.4-1, teve uma piora

significativa em seu desempenho segundo todos os índices listados, tanto no

desempenho médio, quanto na rede de operação de triagem selecionada.

Figura 4.3.4-2 – Modelo VIII – Curva ROC e Curvas de Performance de Treinamento da Rede de

Operação

Pelo fato de este modelo ser mais complexo, torna a tarefa de encontrar um bom

desempenho e uma boa generalização difícil. A curva de performance de treinamento

oscila bastante e segundo as matrizes de confusão, a rede não generalizou tão bem,

apesar de ter tido um bom desempenho no treinamento. Esse bom desempenho no

treinamento explica os resultados da curva ROC, uma vez que ela está sendo

apresentada com base em todo o conjunto de dados, tanto validação quanto treinamento.

60

Figura 4.3.4-3 – Modelo VIII – Histograma de saída e Matrizes de Confusão da Rede de Operação

4.3.5. Modelo IX – Rede sobre dados pessoais e sociais

Esse modelo é análogo aos modelos III e VII, porém agora trata-se do segundo

momento em relação à quantidade de variáveis removidas da base. Agora foi removido

um total de 10 variáveis, deixando a nova base com 16 variáveis entre dados pessoais e

sociais.

Figura 4.3.5-1 – Modelo IX – SP médio das 50 melhores redes para cada topologia

A melhor topologia é a de 3 neurônios, pois é a que possui maior média do

índice SP dentre as suas 50 melhores redes que as demais topologias.

61


SP 0.949 0.892 0.045



Acurácia 0.955 0.890 0.045

Tabela 4.3.5-1 – Modelo IX – Estatísticas das 50 melhores redes da melhor topologia e Rede de

Operação

A rede de operação em triagem deste modelo tem os mesmos valores para os

índices listados que os modelos III e VII. No entanto, agora é possível observar com

mais clareza o aumento do desempenho médio do modelo, corroborando com o que foi

pensado anteriormente no sentido de ter melhor performance, já que mais variáveis de

baixa relevância deixaram de fazer parte da base de dados.

Figura 4.3.5-2 – Modelo IX – Curva ROC e Curvas de Performance de Treinamento da Rede de

Operação

Quando a relevância das variáveis foi verificada, antes do retreino, para o

modelo II, foi visto que as variáveis de baixa relevância, analisadas uma a uma, não

produziam melhora explícita no índice SP, sendo que no máximo apenas não

contribuíam para qualquer variação. Quando todas foram removidas do modelo, teve-se

uma melhora considerável no desempenho médio geral.

62

Figura 4.3.5-3 – Modelo IX – Histograma de saída e Matrizes de Confusão da Rede de Operação

Como o gráfico de relevância da Figura 4.1.3-4 foi feito com base na totalidade

dos dados, uma ideia seria verificar se para o conjunto de treinamento e para o conjunto

de teste, separadamente, existe alguma variável que contribua explicitamente para uma

melhora no desempenho, ou seja, ΔSP < 0.

Figura 4.3.5-4 – Modelo III – Relevância de variáveis no conjunto de treinamento

63

Figura 4.3.5-5 – Modelo III – Relevância de variáveis no conjunto de teste

De fato, a variável ‘comodos’ gera variação negativa do SP, o que significa que

essa é uma variável que confunde o modelo, e que, sem ela, seu desempenho ficaria

maior, como pode ser visto na Figura 4.3.5-5. No entanto essa variável tem uma leve

relevância no conjunto de treinamento, e por essa razão não foi acusada possibilidade de

melhora, apenas de baixa relevância, quando foi feita a análise sobre todo o conjunto de

dados.

64

4.4. Comparação entre as Redes MLP

Para efeito de comparação, os modelos análogos foram agrupados. Os modelos

retreinados estão marcados em negrito.

Tabela 4.4-1 – Comparação entre os modelos propostos e retreinados

Figura 4.4-1 – Comparação do desempenho médio dos modelos segundo o índice SP

0.7

0.75

0.8

0.85

0.9

0.95

I -‐ V II -‐ VI III -‐ VII -‐ IX IV -‐ VIII

SP

Compara5vo entre modelos

Primeiro treino

Retreino (-‐4 var.)

Retreino (-‐10 var.)

Modelo SP Sensibilidade Especificidade Acurácia

I 0.821 ± 0.044 0.822 ± 0.112 0.827 ± 0.109 0.824 ± 0.047

V 0.815 ± 0.043 0.783 ± 0.109 0.855 ± 0.111 0.814 ± 0.042

II 0.869 ± 0.046 0.855 ± 0.108 0.889 ± 0.105 0.869 ± 0.047

VI 0.856 ± 0.035 0.849 ± 0.105 0.870 ± 0.105 0.857 ± 0.036

III 0.853 ± 0.036 0.822 ± 0.108 0.891 ± 0.095 0.852 ± 0.039

VII 0.856 ± 0.039 0.844 ± 0.083 0.872 ± 0.115 0.856 ± 0.036

IX 0.892 ± 0.045 0.870 ± 0.092 0.919 ± 0.090 0.890 ± 0.045

IV 0.792 ± 0.074 0.775 ± 0.134 0.817 ± 0.131 0.794 ± 0.074

VIII 0.768 ± 0.054 0.762 ± 0.111 0.783 ± 0.132 0.771 ± 0.052

65

O primeiro momento de retreino, retirando-se 4 variáveis, não foi bem sucedido,

com exceção ao modelo III, que teve uma leve melhora segundo o índice SP. O segundo

momento de retreino, retirando-se 10 variáveis da base, mostrou uma melhora ainda

maior para o caso do modelo III, porém, neste trabalho só houve retreino, nessas

condições, para esse modelo. Seria interessante, como continuação desse trabalho,

retreinar os demais modelos sem as 10 variáveis, de modo a verificar se são obtidos

melhores desempenhos ou se foi somente um caso isolado.

O modelo IV teve uma piora significativa, quando poderia se esperar uma leve

melhora, mesmo tendo sido retreinados apenas com a base sem as 4 variáveis do

primeiro momento. Isso pode ser devido à maior complexidade desse modelo, que torna

difícil o seu treinamento e prejudica portanto o seu desempenho de generalização.

66

Capítulo 5 - Conclusão e Trabalhos Futuros

Em diversas áreas, os sistemas de apoio à decisão tem se mostrado

importantes no suporte a processos decisórios que levam em conta uma grande

quantidade de dados, que, muitas vezes, são de alta dimensionalidade. Sobretudo na

área médica, onde os impactos das decisões afetam os recursos dos sistemas de saúde e

a própria saúde dos pacientes e da população em geral, e onde também há muitos

desafios a serem superados, ter apoio tecnológico de qualidade se torna cada dia mais

necessário.

A tuberculose pleural é uma doença de difícil diagnóstico, necessitando de

alto poder de detecção, de modo a evitar que a doença evolua nos pacientes infectados.

Ao mesmo tempo, os exames comuns para tuberculose pulmonar tem baixo

desempenho frente ao caso pleural, e os demais são ou caros, ou invasivos, ou

demorados.

Este trabalho teve como objetivo avaliar a relevância das variáveis contidas

na base de dados de pacientes suspeitos de tuberculose pleural, com o intuito de prover

melhores informações para alimentar sistemas classificadores que irão atuar no processo

de triagem de pacientes. Trabalhou-se com dados que não são comumente utilizados,

mas que estão disponíveis, de modo extrair deles informação útil mas que é

subutilizada. Por outro lado, procurou-se identificar também as variáveis que tem baixa

relevância para o problema descrito, visando elaborar modelos com base apenas em

dados que irão contribuir para um bom desempenho.

67

Foram utilizados modelos de Redes Neurais Artificiais para verificar a relevância de

variáveis relacionadas a dados pessoais e a dados sociais, ao passo que geralmente os

SAD para apoio à área da saúde se utilizam de dados sintomáticos e de resultados de

exames. Após análise da relevância, os modelos foram retreinados, eliminando-se as

variáveis de baixa contribuição, no sentido de obter modelos mais robustos ou ainda de

melhor desempenho.

Dentre as variáveis estudadas, algumas apresentaram baixa relevância,

como o gênero, a renda, o tipo de emprego, se foi morador de rua, ou ainda confundiram

os modelos, atrapalhando seu desempenho, como foi o caso da variável número de

cômodos. Por outro lado, variáveis como o número de pessoas com que convive se

mostraram bastante relevantes, assim como o grau de instrução do chefe de família.

Ao se remover as variáveis consideradas de baixa relevância, pode-se

elaborar modelos para reavaliar o problema de classificação. Num primeiro momento,

retirando-se apenas 4 variáveis, os resultados não foram satisfatórios. Já num segundo

momento, retirando-se 10 variáveis, obteve-se um bom resultado, melhorando o

desempenho do modelo. Foi possível, ainda, propor modelos de redes neurais que

tiveram bom desempenho no problema de classificação de pacientes com tuberculose

pleural, tendo o melhor modelo proposto 100% de sensibilidade e 90% de

especificidade. Vale ressaltar que os resultados obtidos estão restritos à população de

estudo, devendo haver cuidado na aplicação destes resultados a outras populações.

Como trabalhos futuros, podem ser feitas extensões deste trabalho, por

exemplo, reavaliando treinamentos de mais modelos e retirando-se um número mais

adequado de variáveis, ou ainda, utilizando-se de técnicas que permitem visualização

dos dados, como as Redes Neurais do tipo Self-Organizing Maps (SOM). Outras

variáveis poderiam ser avaliadas, como, por exemplo, variáveis sintomáticas.

68

Referências

[1] CASCÃO, L. V. C. Modelos de Inteligência Computacional para Apoio à Triagem de Pacientes e Diagnóstico Clínico de Tuberculose Pulmonar. Dissertação de M. Sc., Programa de Engenharia Elétrica, COPPE/UFRJ, Rio de Janeiro, RJ, Brasil – 2011.

[2] HAYKIN, S. Neural Networks and Learning Machines. Prentice Hall, Inc., 2008. [3] EL-SOLH, A. A., HSIAO, C., GOODNOUGH, S., et al. “Predicting active

pulmonary tuberculosis using an artificial neuronal network”, Chest, n. 4, pp. 968-973 – 1999.

[4] SANTOS, A. M. Redes Neurais e Árvores de Classificação Aplicadas ao

Diagnóstico de Tuberculose Pulmonar Paucibacilar. Tese de D. Sc., COPPE / UFRJ, Rio de Janeiro, RJ, Brasil, 2003.

[5] SANTOS, A. M., PEREIRA, B., SEIXAS, J. M., et al. “Neural Networks: An

Application for Predicting Smear Negative Pulmonary Tuberculosis”, Advances in Statistical Methods for the Health Sciences, pp. 279-289 – 2007.

[6] SEIXAS, J. M., FARIA, J., SOUZA FILHO, J. B. O., VIEIRA, A.F.M., KRITSKI,

A., TRAJMAN, A. “Artificial neural network models to support the diagnosis of pleural tuberculosis in adult patients”, The International Journal of Tuberculosis and Lung Disease, pp. 682-686 – 2013.

[7] BETHLEM, E. P. “Manifestações Clínicas da Tuberculose Pleural, Ganglionar,

Geniturinária e do Sistema Nervoso Central”, Pulmão RJ, 21(1), pp. 19-22 – 2012.

[8] CAPONE, D. et al. “Tuberculose Extrapulmonar”, Revista do Hospital

Universitário Pedro Ernesto UERJ, Ano 5, Julho / Dezembro – 2006. [9] ARUN GOPI, M.B.B.S. et al. “Diagnosis and Treatment of Tuberculous Pleural

Effusion in 2006”, Chest, 131(3), Março – 2007. [10] SEISCENTO, M. et al. “Tuberculose Pleural”, Jornal Brasileiro de

Pneumologia, 32(4), pp. 174-181 – 2006. [11] OHRAN, E. et al. “Tuberculosis Disease Diagnosis Using Artificial Neural

Networks”, Journal of Medical Systems, 34, pp. 299-302 – 2010. [12] WHO. “Diagnóstico de Tuberculose Extrapulmonar em Adultos e Crianças”,

TB / HIV: Manual Clínico, Cap. 5, pp. 79-94 – 2004. [13] NEVES, D. D. et al., “Rendimento de variáveis clínicas, radiológicas e

laboratoriais para o diagnostico de tuberculose pleural”. Jornal Brasileiro de Pneumologia, 30, 4, Julho / Agosto – 2004.

69

[14] NEVES, D. D. et al., “Predictive Model for the Diagnosis of Tuberculous Pleural Effusion”, The Brazilian Journal of Infectious Diseases, 11(1), pp. 83-88 – 2007.

[15] TRAJMAN, A. et al., “Novel tests for diagnosing tuberculous pleural effusion:

what works and what does not?” European Respiratory Journal, pp. 1098-1106 – 2008.

[16] NUNES, L. N. et al. “Uso da imputação múltipla de dados faltantes: uma

simulação utilizando dados epidemiológicos”, Cad. Saúde Pública, Rio de Janeiro, 25(2), pp. 268-278 – fevereiro 2009.

[17] RUBIN, D. B. “Multiple imputation for nonresponse in surveys”. Nova Iorque:

Wiley – 1987. [18] KALANTRI, Y. et al. “Evaluation of real-time polymerase chain reaction,

interferon-gamma, adenosine deaminase, and immunoglobulin A for the efficient diagnosis of pleural tuberculosis”, International Journal of Infectious Diseases, pp.226-231 – 2011.

[19] Portal Brasil – “Teste rápido para diagnosticar tuberculose sera oferecido no

SUS” – Disponível em: http://www.brasil.gov.br/saude/2013/03/teste-rapido-para-diagnosticar-tuberculose-sera-oferecido-no-sus - Acessado em: 10/02/2014

Documents

Mineração de Dados em Tuberculose Pleural...Mineração de Dados em Tuberculose Pleural Bernardo Martins Costa Projeto de Graduação apresentado ao Curso de Engenharia de Computação