65
ANDRÉ AUGUSTO DEL GROSSI COMPARAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZADO DE MÁQUINA PARA INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DE PRÓSTATA LONDRINA–PR 2013

COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

  • Upload
    phamanh

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Page 1: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

ANDRÉ AUGUSTO DEL GROSSI

COMPARAÇÃO E AVALIAÇÃO DE TÉCNICASDE APRENDIZADO DE MÁQUINA PARA

INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DEPRÓSTATA

LONDRINA–PR

2013

Page 2: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 3: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

ANDRÉ AUGUSTO DEL GROSSI

COMPARAÇÃO E AVALIAÇÃO DE TÉCNICASDE APRENDIZADO DE MÁQUINA PARA

INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DEPRÓSTATA

Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

Orientador: Prof(a). Ms. Helen C. de MattosSenefonteCoorientador: Prof(a). Dr(a). Maria Angélicade O. C. Brunetto

LONDRINA–PR

2013

Page 4: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

André Augusto Del GrossiComparação e avaliação de técnicas de aprendizado de máquina para indicação

de biópsia para o câncer de próstata/ André Augusto Del Grossi. – Londrina–PR,2013-

63 p. : il. (algumas color.) ; 30 cm.

Orientador: Prof(a). Ms. Helen C. de Mattos Senefonte

– Universidade Estadual de Londrina, 2013.

1. aprendizado de máquina. 2. câncer de próstata. 3. biópsia. I. Helen C. deMattos Senefonte. II. Universidade Estadual de Londrina. III. Curso de Ciênciada Computação.

CDU 02:141:005.7

Page 5: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

ANDRÉ AUGUSTO DEL GROSSI

COMPARAÇÃO E AVALIAÇÃO DE TÉCNICASDE APRENDIZADO DE MÁQUINA PARA

INDICAÇÃO DE BIÓPSIA PARA O CÂNCER DEPRÓSTATA

Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

BANCA EXAMINADORA

Prof(a). Ms. Helen C. de Mattos SenefonteUniversidade Estadual de Londrina

Orientador

Prof(a). Dr(a). Cinthyan Renata Sachs C.de Barbosa

Universidade Estadual de Londrina

Prof. Dr. Bruno Bogaz ZarpelãoUniversidade Estadual de Londrina

Londrina–PR, 21 de novembro de 2013

LONDRINA–PR2013

Page 6: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 7: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

Dedico este trabalho aos meus familiares e ao meugrande amigo Vínicius Quaglio que me acompanhou

durante o ano nesta jornada.

Page 8: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 9: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

AGRADECIMENTOS

Agradeço primeiramente aos meus pais Meire e Osvaldo, pelo apoio, suporte eamor incondicional especialmente durante a execução deste trabalho.

À minha irmã Ana Paula, pela energia positiva e confortante que a sua companhiame fornece, em particular neste ano, repleto de conquistas e realizações para ambos.

À minha orientadora Helen, pessoa extraordinária que tive o prazer de conhecer ecompartilhar o desenvolvimento deste trabalho.

Agradeço também aos meus colegas de trabalho, pelo aprendizado e paciência.

E por fim a todos os meus amigos, que acompanharam de alguma forma o sucessoe as dificuldades que enfrentei durante o ano.

Page 10: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 11: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

Todos os homens sonham, mas não da mesma forma.Aqueles que sonham durante a noite, nos recessos

empoeirados da mente, acordam na manhã seguintee descobrem que foi algo efêmero, passageiro;

mas os sonhadores do dia são homens perigosos,porque ao criar seus sonhos com os olhos abertos,

podem torná-los reais.(T. E. Lawrence)

Page 12: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 13: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

DEL GROSSI, A. A.. Comparação e avaliação de técnicas de aprendi-zado de máquina para indicação de biópsia para o câncer de próstata.63 p. Trabalho de Conclusão de Curso (Graduação). Bacharelado em Ciênciada Computação – Universidade Estadual de Londrina, 2013.

RESUMO

Este estudo propõe a investigação de técnicas de aprendizado de máquinaaplicadas ao problema de diagnóstico de câncer de próstata, com o intuito de au-xiliar na seleção de pacientes a serem encaminhados ao procedimento de biópsia.O trabalho possui como objetivo investigar quais técnicas, dentre as selecionadas,alcançam melhores taxas de classificação para o problema. As variáveis anteceden-tes ao tratamento de pacientes do Hospital Universitário da Universidade Estadualde Londrina (HU-UEL), no período de 2005 a 2009 foram utilizadas para constru-ção e validação dos classificadores. Por fim, as métricas de desempenho para osmodelos construídos a partir das técnicas e algoritmos descritos são comparados econtrastados, juntamente com um resumo dos resultados no geral.

Palavras-chave: câncer de próstata. aprendizado de máquina. biópsia. clas-sificação

Page 14: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 15: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

DEL GROSSI, A. A.. Comparison and evaluation of machine learningtechniques for recommending patients to prostate cancer biopsy. 63p. Final Project (Undergraduation). Bachelor of Science in Computer Science –State University of Londrina, 2013.

ABSTRACT

This study proposes the investigation of machine learning techniques ap-plied to prostate cancer diagnosis with the goal of determining patients that shouldundergo biopsy for prostate cancer screening. This work intends to investigate whichtechniques provide best classification rates for the problem. Pre-treatment variablesgathered from patients of the Academic Hospital of State University of Londrina(HU-UEL) from 2005 to 2009 are used for construction and validation of classifiers.Lastly, accuracy and performance indicators for the obtained models are comparedbased on similarities and divergences, along with general observed results.

Keywords: prostate cancer. machine learning. biopsy. classification

Page 16: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 17: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

LISTA DE ILUSTRAÇÕES

Figura 1 – Gráfico da função logística . . . . . . . . . . . . . . . . . . . . . . . . . 30Figura 2 – Visão simplificada das camadas uma rede neural artificial multi-layer

perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33Figura 3 – Função backpropagation simples . . . . . . . . . . . . . . . . . . . . . . 34Figura 4 – Árvore de decisão para a avaliação de compra de computador . . . . . 35Figura 5 – Um exemplo de curva ROC . . . . . . . . . . . . . . . . . . . . . . . . 40

Figura 6 – Seletor de interface do Weka . . . . . . . . . . . . . . . . . . . . . . . . 43Figura 7 – Weka Explorer após o carregamento de um conjunto de dados . . . . . 44Figura 8 – Forma de cálculo para o obtenção do valor do atributo Ajuste . . . . . 45

Figura 9 – Indicadores de desempenho para o modelo de regressão logística . . . . 49Figura 10 –Desempenho do modelo construído com o algoritmo MultiLayerPercep-

tron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50Figura 11 –Desempenho do modelo construído com o algoritmo MLPClassifier (n

= 305) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51Figura 12 –Desempenho do modelo construído com o algoritmo MLPClassifier (n

= 500) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52Figura 13 –Desempenho do modelo construído com o algoritmo ADTree (n = 500) 52Figura 14 –Estrutura de árvore gerada pelo classificador ADTree . . . . . . . . . . 53Figura 15 –Desempenho do modelo construído com o algoritmo PART (n = 305) . 54Figura 16 –Regras de decisão geradas pelo classficador PART . . . . . . . . . . . . 54Figura 17 –Comparação de desempenho entre classificadores . . . . . . . . . . . . 55

Page 18: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 19: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

LISTA DE TABELAS

Tabela 1 – Matriz de confusão para dois valores de classe . . . . . . . . . . . . . . 38Tabela 2 – Métricas de desempenho derivadas da matriz de confusão . . . . . . . . 39

Tabela 3 – Sumário dos atributos númericos do conjunto de dados (n = 500) . . . 46Tabela 4 – Sumário dos atributos booleanos do conjunto de dados (n = 500) . . . 46Tabela 5 – Parâmetros para o algoritmo de regressão logística . . . . . . . . . . . 47Tabela 6 – Parâmetros para o algoritmo MultiLayerPerceptron . . . . . . . . . . . 47Tabela 7 – Parâmetros para o algoritmo MLPClassifier . . . . . . . . . . . . . . . 47Tabela 8 – Parâmetros para o algoritmo ADTree . . . . . . . . . . . . . . . . . . . 48Tabela 9 – Parâmetros para o algoritmo PART . . . . . . . . . . . . . . . . . . . 48

Tabela 10 –Coefiecientes obtidos a partir do modelo de regressão logística . . . . . 50Tabela 11 –Valores das conexões para o modelo construído com o algoritmo MLP-

Classifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

Page 20: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 21: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

LISTA DE ABREVIATURAS E SIGLAS

ANN Rede neural artificial (artificial neural network)

ARFF Formato de arquivo atributo-relação (attribute-relation file format)

AUC Área sob a curva (area under curve)

CART Árvore de classificação e regressão (classification and regression tree)

CSPC Câncer de próstata clinicamente significativo (clinically significativeprostate cancer)

CSV Valores separados por vírgula (comma separated values)

DRE Exame de toque retal (digital rectal examination)

FN Falsos negativos

FP Falsos positivos

kNN k vizinhos mais próximos (k-nearest neighbors)

MLE Estimativa por máxima verossimilhança (maximum likelihood estimate)

MLP Perceptron de múltiplas camadas (multi-layer perceptron)

NSPC Câncer de próstata não significativo (non-significant prostate cancer)

PSA Antígeno específico da próstata (prostate-specific antigen)

RBF Função de base radial (radial basis function)

ROC Característica de operação do receptor (receiver operating characteris-tic)

SCG Gradiente conjugado ajustado (scaled conjugate gradient)

SQL Linguagem estruturada de consultas (structured query language)

SVM Máquina de vetores de suporte (support vector machines)

VN Verdadeiros negativos

VP Verdadeiros positivos

WEKA Ambiente Waikato para análise de informação (Waikato environmentfor knowledge analysis)

Page 22: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 23: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

LISTA DE SÍMBOLOS

∈ Pertence

R Conjunto dos números reais

Page 24: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 25: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

SUMÁRIO

1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2 Fundamentação Teórica . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.1 Câncer de próstata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2 Aprendizado de máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2.1 Regressão logística . . . . . . . . . . . . . . . . . . . . . . . . . . 292.2.2 Redes neurais artificiais . . . . . . . . . . . . . . . . . . . . . . . 322.2.3 Árvores de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . 352.2.4 Avaliação de classificadores . . . . . . . . . . . . . . . . . . . . . . 37

2.3 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3 Materiais e métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.1 O ambiente Weka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2 Conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.3 Experimentos e testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.1 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.2 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.2.1 MultiLayerPerceptron . . . . . . . . . . . . . . . . . . . . . . . . 504.2.2 MLPClassifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.3 Árvores de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.3.1 ADTree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.3.2 PART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.4 Comparação de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Page 26: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 27: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

25

1 INTRODUÇÃO

A confirmação do diagnóstico de câncer de próstata em pacientes é uma tarefa com-plicada que requer na maioria dos casos a realização de biópsia, procedimento que auxiliana detecção da doença. Este procedimento consiste na coleta de uma amostra das célulasprostáticas para análise laboratorial, e é um procedimento invasivo e inconveniente– 50%dos homens relatam incômodo durante a biópsia [1]. Na tentativa de reduzir a chance queum paciente tem de ser submetido ao procedimento, existem técnicas que se baseam emdados clínicos, obtidos desde a primeira suspeita para a construção de modelos determi-nadores da necessidade de biópsia. No entanto, mesmo com a utilização de informaçõesobtidas através de exames, o diagnóstico não é livre de incertezas; Djavan et al. [2] afir-mam que níveis elevados de PSA não confirmam o câncer de próstata, pois estes tambémpodem occorer em casos de doenças prostáticas benignas. Sendo assim, testes efetuadossomente com o marcador de PSA mostraram-se ineficazes pois recomendavam pacientespara a biópsia sem que houvesse necessidade [3].

Pesquisas mais recentes sugerem a incorporação de métodos matemáticos e com-putacionais para auxiliar na solução do problema, como a construção de nomogramas1

[6] baseados em atributos como estágio clínico, PSA e pontuação de Gleason2 para inferirum diagnóstico (nomograma proposto por Kattan et al. [7]). Outra técnica fortementeutilizada é a regressão logística, um tipo de análise de regressão que possui como objetivoprever a saída de uma variável binária ou multinomial a partir de variáveis independentesdiscretas e/ou contínuas. Por fim, métodos de classificação mais generalizáveis e flexíveisbaseados em técnicas de aprendizado de máquina, como por exemplo redes neurais arti-ficiais e máquinas de vetores de suporte surgiram como alternativas, propondo vantagensdevido à capacidade de reconhecer padrões e inter-relações não lineares entre variáveis [2].

A proposta deste trabalho consiste no estudo e aplicação de técnicas de aprendi-zado de máquina para inferir a necessidade de biópsia para câncer de próstata, usandocomo estudo de caso dados coletados de pacientes do Hospital Universitário da Universi-dadade Estadual de Londrina, Paraná, acompanhados pelo médico professor de Urologia,Dr. Horácio Alvarenga Moreira. Os indicadores de desempenho e eficácia de classificaçãodas técnicas e algoritmos selecionados são calculados e ao final são estabelecidas compa-rações entre si.

O trabalho segue estruturado da seguinte forma: no capítulo 2, a fundamentação

1 Diagrama que representa as relações entre valores de uma ou mais variáveis [4] de forma que umalinha reta tocando as escalas interceptem nos valores apropriados de cada variável [5].

2 Classificação que avalia o prognóstico do tumor prostático através do procedimento de biópsia; quantomaior a pontuação, mais acentuada é a agressividade do tumor.

Page 28: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

26 Capítulo 1. Introdução

téorica é apresentada, onde as seções individuais descrevem aspectos do câncer de próstatae motivação do problema, técnicas e métodos de classificação no campo de aprendizadode máquina e trabalhos correlatos à proposta. No capítulo 3 são fornecidas informaçõesa respeito do ambiente configurado para realização de testes, explicação do conjunto dedados e dos atributos relevantes e experimentos efetuados com os algoritmos e técnicasapresentados no capítulo anterior. Em seguida, os resultados de classificação obtidos apartir dos modelos gerados são dispostos no capítulo 4 categorizados pelos algoritmos, eao fim do capítulo um sumário dos resultados gerais é compilado. Por fim, as consideraçõesfinais do trabalho são apresentadas no capítulo 5 juntamente com dificuldades encontradase sugestões para pesquisas futuras.

Page 29: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

27

2 FUNDAMENTAÇÃO TEÓRICA

Para uma melhor compreensão do campo de estudo, são apresentados nas seçõesa seguir conceitos pertinentes ao problema proposto. Na seção 2.1, é descrita a funda-mentação médica a respeito ao câncer de próstata, incluindo características da doença,dificuldades no diagnóstico e tratamentos mais comuns. Em seguida, a área de aprendi-zado de máquina é introduzida englobando conceitos básicos e técnicas computacionaispertinentes ao campo de estudo. Por fim, é efetuado um levantamento e breve análise detrabalhos relacionados acerca do tema com ênfase às técnicas descritas na seção 2.2.

2.1 Câncer de próstata

O câncer de próstata é a sexta principal causa de mortalidade relacionada ao cân-cer [8], com fatores de risco como idade, histórico familiar e etnia [2]. Devido à grandeheterogeneidade biológica da doença [9], o câncer de próstata possui como característicagrande dificuldade em sua detecção e diagnóstico. Muito se deve ao fato que grande partedos portadores de câncer prostático não exibem sintomas e devido a isso, não são subme-tidos a nenhum tipo de terapia [10]. Outro motivo recorrente é a falta de palpabilidadedo tumor, imperceptível muitas vezes por exames de ultrassom ou ressonância magnética[7]. Além disso, dentre os diagnósticos confirmados, somente uma pequena parcela de pa-cientes correm sérios riscos: apesar de um em cada seis homens desenvolverem câncer depróstata durante sua vida, destes, apenas um em dez casos manifestam tumores agressivos[11]. Pacientes que não apresentam uma combinação de dados clínicos indicando alto risconão são beneficiados pelo procedimento de biópsia, o qual requer anestesia local e podecausar ansiedade, dor, sangramentos e infecções, assim como custos e despesas médicasadicionais.

O marcador do antígeno específico da próstata (prostate specific antigen, abreviadocomo PSA) é o parâmetro mais amplamente utilizado para o diagnóstico precoce de câncerde próstata [12]– o antígeno está presente em pequenas quantidades em homens comboa saúde prostática, porém mostra-se elevado com frequência na presença de câncer depróstata e outras doenças prostáticas [13].

Devido ao grande número de falsos positivos obtidos através do uso exclusivo dovalor de PSA, este é considerado ineficaz no processo de inferência do diagnóstico [14].Apesar da existência de valores de referência para o PSA de acordo com a faixa etária,valores superiores a 4ng/mL sugerem alguma anomalia prostática, em sua maioria nãorelacionadas ao câncer, como por exemplo, retenção urinária, prostatite, ejaculação e hi-perplasia prostática benigna (BPH, do inglês benign prostatic hyperplasia) [15], as quais

Page 30: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

28 Capítulo 2. Fundamentação Teórica

causam inflamação da próstata são responsáveis por um aumento na produção de PSA[16] De forma análoga, estima-se que 20% de pacientes diagnosticados com câncer de prós-tata clinicamente significativo possuem um valor de PSA inferior a 4ng/mL [17]. Outrasvariáveis indicativas de biópsia incluem o exame de toque, responsável por identificar al-teração no volume prostático e taxa de percentual de PSA livre em relação ao PSA total,calculado através da razão dos valores obtidos por meio de hemogramas.

Assim como para o PSA, um aumento no volume da próstata não indica neces-sariamente um tumor cancerígeno– a métrica de densidade (razão entre PSA e volumetotal), introduzida para efetuar um ajuste discriminatório entre os pacientes, possui umvalor de corte de aproximadamente 0.15 para distinguir entre uma hipertrofia benigna eum possível tumor [18]. No entanto, a variação diária do valor de PSA assim como umainexatidão de 10% a 30% no cálculo do volume prostático limitam a utilidade clínica desteparâmetro [15]– leituras de PSA que permanecem elevadas por um período de no mínimotrês meses são altamente indicativas de suspeita de câncer de próstata, enquanto oscila-ções constantes sugerem um processo benigno [19]. Para a métrica de PSA livre/total,valores inferiores a 0.15 (15%) sugerem presença de câncer com probabilidade maior que50%; a faixa de 0.15 a 0.25 é definida como faixa de incerteza e valores acima de 0.25indicam probabilidade inferior a 10% [20].

Tratamentos possíveis para o diagnóstico de câncer de próstata localizado incluemespera e monitoramento cuidadoso, prostectomia radical1, braquiterapia2, radiação ex-terna, entre outros [7]. A seleção do tratamento apropriado para cada paciente dependedo diagnóstico– fatores como estágio clínico do câncer, outras complicações de saúde(problemas cardiovasculares, diabetes, entre outras doenças), idade e disponibilidade detratamento são os principais motivos considerados no momento em que o médico deter-mina o tipo de tratamento mais adequado ao paciente [21].

2.2 Aprendizado de máquina

Subcampo da inteligência artificial, o aprendizado de máquina é a área que englobao estudo e a construção de sistemas inteligentes a partir de dados [22]. Após efetuado oaprendizado, também denominado treinamento, um sistema pode ser utilizado para clas-sificar ou estimar saídas para instâncias desconhecidas. Arthur Samuel, norte-americanopioneiro na área de inteligência artificial aplicada a jogos, definiu o aprendizado de má-quina como "o campo de estudos que fornece a computadores a habilidade de aprenderemsem serem explicitamente programados"[23].

1 Remoção cirúrgica parcial ou total da glándula prostática.2 Forma de radioterapia onde a fonte de radiação é posicionada internamente ou próxima à região

necessitada de tratamento.

Page 31: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

2.2. Aprendizado de máquina 29

Witten e Frank [24] descreveram quatro conceitos caracterizando os vários algo-ritmos de aprendizado de máquina: aprendizado por classificação, onde um conjunto deexemplos pertencentes à classes são utilizados para construir modelos; aprendizado porassociação, onde deseja-se identificar grupos de um ou mais atributos que determinam ovalor de classe de uma instância; aprendizado por agrupamento, no qual exemplos seme-lhantes de acordo com um critério estabelecido são agrupados; e aprendizado por regressão,que possui como objetivo desenvolver um modelo matemático correlacionando atributoscom o valor de classe [23].

Dentre as diversas técnicas desenvolvidas na área de aprendizado de máquina,foram consideradas para este estudo as técnicas mais recorrentes em pesquisas correlataspara tarefas relacionadas ao problema incluindo como por exemplo dedução de diagnósticoda doença, avaliação de prognóstico em pacientes portadores e inferência da necessidadede biópsia para câncer de próstata.

2.2.1 Regressão logística

A regressão logística é um tipo de modelo de classificação probabilístico que possuicomo objetivo estimar o valor de classe de uma variável dependente a partir de outrasvariáveis discretas e/ou contínuas [25]. A classe que se deseja estimar é frequentementebinária– no caso onde existam mais que duas classes, a regressão logística multinomialdeve ser usada.

Apesar de compartilhar pequenas semelhanças com técnicas estatísticas, a regres-são logística é uma técnica originada no campo de aprendizado de máquina, pois possuicomo objetivo classificar instâncias de acordo com um conjunto de atributos; desta forma,a análise de regressão tem como tarefa não somente identificar quais variáveis indepen-dentes influenciam o resultado da variável dependente mas também como estas o fazem.No entanto, deve-se evitar a inferência de causalidade entre as variáveis no modelo, poiseste configura um conceito distinto da correlação entre variáveis [26].

Para uma melhor compreensão da técnica de regressão logística, alguns conceitosmatemáticos são necessários; a função logística (eq. 2.1, ilustrada graficamente na figura 1é a fundamentação elementar deste tipo de análise de regressão.

𝑓(𝑡) = 𝑒𝑡

𝑒𝑡 + 1 = 11 + 𝑒−𝑡

f : R ↦→ [0, 1] (2.1)

Também denominada de função ou curva sigmóide, é delimitada no intervalo entre0 e 1 para qualquer t ∈ R; esta delimitação garante que o valor de saída estimado pelomodelo permaneça no intervalo, permitindo a interpretação do valor como uma figuraprobabilística.

Page 32: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

30 Capítulo 2. Fundamentação Teórica

0

0.5

1

−6 −4 −2 0 2 4 6

Figura 1: Gráfico da função logística

A construção básica de um modelo de regressão logística é similar ao mecanismodesenvolvido para a regressão linear:

Definição 1. Suponha um conjunto de dados contendo N pontos observados. Cada pontoconsiste em um conjunto de M variáveis explanatórias 𝑥1,𝑖, 𝑥2,𝑖, . . . , 𝑥𝑀,𝑖, 0 ≤ i < N (tam-bém denominadas variáveis independentes, características ou atributos) e uma variáveldependente binária 𝑌𝑖, isto é, limitada aos valores 0 e 1.

Como dito anteriormente, as variáveis independentes podem ser do tipo reais,binárias ou categóricas. Estas podem ser classificadas como contínuas, atributos como porexemplo salário, idade e altura, ou discretas, tais como sexo ou tipo sanguíneo. Variáveisdiscretas expressas de forma textual podem ser codificadas numericamente em categoriasou em atributos binários adicionais.

A variável dependente de saída assume a forma de uma distribuição Bernoulli,descrita na equação 2.2.

𝑃𝑟(𝑌𝑖|𝑥1,𝑖, 𝑥2,𝑖, . . . , 𝑥𝑚,𝑖) = 𝑝𝑦𝑖𝑖 (1− 𝑝𝑖)1−𝑦𝑖 =

⎧⎨⎩ 𝑝𝑖 se 𝑦𝑖 = 11− 𝑝𝑖 se 𝑦𝑖 = 0

(2.2)

A probabilidade de sucesso 𝑌𝑖 = 1 é denotada por 𝑝𝑖, e seu complemento 1 -𝑝𝑖 indica 𝑌𝑖 = 0. O objetivo da regressão logística é encontrar os coeficientes de umacombinação linear das variáveis explicativas que preveja a variável de saída corretamente.Esta função 𝑔(𝑖) é escrita da seguinte forma:

𝑔(𝑖) = 𝛽0 + 𝛽1𝑥1,𝑖 + · · ·+ 𝛽𝑀𝑥𝑚,𝑖 (2.3)

onde 𝛽0, 𝛽1, . . . , 𝛽𝑀 ∈ R são os coeficientes de regressão e 𝑥1,𝑖, 𝑥2,𝑖, . . . , 𝑥𝑀,𝑖 asvariáveis independentes. g(i) pode ser reescrita de forma compacta usando a notação de

Page 33: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

2.2. Aprendizado de máquina 31

produto escalar entre os vetores 𝛽 e 𝑋𝑖.

𝑔(𝑖) = 𝛽 ·𝑋𝑖 (2.4)

No entanto, o valor calculado por g(i) pode assumir valores arbitrários no con-junto dos números reais, dadas as entradas 𝑥1,𝑖, 𝑥2,𝑖, . . . , 𝑥𝑀,𝑖 fornecidas. Para contornareste problema, a combinação linear de coeficientes e variáveis explanatórias é fornecida àfunção logística (eq. 2.1) como parâmetro. A probabilidade de sucesso 𝜋𝑖 é equivalente acomposição 𝑓 ∘ 𝑔, dada na eq. 2.5.

𝜋𝑖 = 𝑓(𝑔(𝑖))

= 11 + 𝑒−𝑔(𝑖)

= 11 + 𝑒−(𝛽·𝑋𝑖)

(2.5)

Ao aplicar g(i) à função logística, é possível observar as mesmas propriedades quecaracterizam a eq. 2.1 e que reforçam o comportamento probabilístico [27]:

lim𝑔(𝑖)→+∞

𝜋𝑖 = 1 lim𝑔(𝑖)→−∞

𝜋𝑖 = 0 (2.6)

Para estimar os coeficientes, utiliza-se a estimativa por máxima verossimilhança(MLE) (equação 2.7).

𝑃 (𝜋𝑖|𝑋, 𝛽) ≈𝑁∏

𝑖=1𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑦𝑖|𝜋𝑖(𝛽 ·𝑋𝑖))

=𝑁∏

𝑖=1𝜋𝑦𝑖

𝑖 (1− 𝜋𝑖)1−𝑦𝑖

=𝑁∏

𝑖=1

[ 11 + 𝑒−(𝛽·𝑋𝑖)

]𝑦𝑖[1− 1

1 + 𝑒−(𝛽·𝑋𝑖)

]1−𝑦𝑖

(2.7)

No entanto, devido a grande quantidade de expressões exponenciais em 2.7, apli-camos o logaritmo negativo– desta forma, o produtório torna-se um somatório e algumasexpressões exponenciais são substituídas por logaritmos [25]. A função log-verossimilhançanegativa L(𝛽) a ser minimizada é descrita em 2.8.

L(𝛽) = − log 𝑃 (𝜋𝑖|𝑋, 𝛽)

= −𝑁∑

𝑖=1𝑦𝑖 log 𝜋𝑖 + (1− 𝑦𝑖) log(1− 𝜋𝑖) (2.8)

Page 34: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

32 Capítulo 2. Fundamentação Teórica

Para efetuar a minimização de L(𝛽), utiliza-se um método numérico iterativo.

A motivação no uso da técnica se deve não somente à interpretabilidade do modelo,uma vez que a magnitude dos coeficientes em 2.3 influenciam o resultado da probabilidadeestimada, mas também o pequeno número de parâmetros desconhecidos: um conjunto dedados de dimensão R𝑚 resultará em m + 1 coeficientes.

As tabelas de Partin, propostas por [28] originalmente em 1993, são um tipo denomograma comumente utilizado para prever o estado patológico de um paciente apóso procedimento de prostactemia radical. As tabelas foram obtidas através de regressãologística baseado nos atributos PSA, estágio clínico do câncer de próstata e soma deGleason. Eifler et al. [29] propuseram uma atualização ao nomograma devido à mudançano sistema de pontuação de Gleason e da natureza do diagnóstico da doença dezenoveanos após ao nomograma primário.

2.2.2 Redes neurais artificiais

Com o funcionamento análogo à redes ou circuito de neurônios reais [30], umarede neural artificial consiste em um grupo de neurônios artificiais interconectados, utili-zando um modelo matemático para processamento de informações através da modelagemde relações complexas não lineares entre as variáveis de entrada sem outras informaçõespreviamente fornecidas [9]. Redes neurais são sistemas adaptáveis, onde o fluxo de infor-mações internas ou externas à rede alteram sua estrutura.

Considerada como uma das representações mais comuns de redes neurais artificiais,o multi-layer perceptron é dividido em três partes: neurônios de entrada, neurônios ocultose neurônios de saída. Um grupo de neurônios é denominado uma camada, onde o númerode neurônios na camada de entrada é igual ao número de variáveis da entrada e o númerode neurônios na camada de saída é igual ao número de variáveis de saída [31]. O númerode neurônios nas camadas ocultas pode ser escolhido arbitrariamente, porém algumaspesquisas [32][33][34] sugerem o uso de uma relação entre a quantidade de neurônios nascamadas de entrada e saída para determinar a quantidade ideal de neurônios para umacamada oculta– esta relação é dada em 2.9 como a raiz quadrada entre o produto daquantidade de neurônios das camadas de entrada e saída.

𝑁ℎ =√

𝑁𝑖 ×𝑁𝑜 (2.9)

A figura 2 ilustra uma rede neural simples feedforward 3– os neurônios são repre-sentados através de círculos, cada um conectado aos neurônios da camada subsequente,exceto pela camada final. As arestas representam as conexões entre neurônios e possuem

3 Rede neural artificial onde a direção do fluxo de dados é única, i.e. não existem ciclos.

Page 35: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

2.2. Aprendizado de máquina 33

um valor arbitrário inicial, o peso da conexão. As setas indicam a direção do fluxo dedados, a partir da camada de entrada até a camada de saída.

Entrada

Oculta

Saída

Figura 2: Visão simplificada das camadas uma rede neural artificial multi-layer perceptron

O funcionamento de uma rede neural artificial dá-se por meio de dois processos:treinamento e teste. O treinamento é realizado para ‘ensinar’a rede, com o intuito deobter os valores de saída corretos de acordo com as variáveis de entrada. A técnica detreinamento mais simples, o backpropagation, emprega o cálculo da variação do erro; esteé então propagado na direção oposta da computação dos dados, alterando os pesos dasconexões de forma que um novo valor de saída seja ainda mais próximo ao valor real [35].O treinamento é encerrado assim que a taxa de erro cai abaixo do valor de tolerânciaespecificado. A etapa de teste avalia o desempenho de classificação da rede: utilizando umconjunto de dados distinto, calculam-se os valores de saída sem que o erro obtido ao finalseja propagado– esta taxa de erro representa o quão próximo os valores reais de saída sesituam comparados aos valores calculados pela rede neural [36].

Existem, no entanto, algumas complicações presentes nas fases de treinamentoe teste de uma rede neural artificial. O overfitting ocorre quando uma rede é treinadademasiadamente, gerando valores especializados somente no conjunto de dados do trei-namento, assim quaisquer outras entradas desconhecidas à rede apresentam taxa de erromaior que a tolerância estabelecida [31]. Outro ponto a ser observado é a interpretaçãodo erro obtido nas saídas da rede; geralmente calcula-se uma estimativa média do errosobre todas os valores processados. Caso as saídas sejam discretas ou até mesmo binárias,é necessário definir critérios adicionais para avaliação do erro. Em casos onde o conjuntode dados gera mais de uma saída, como por exemplo na Figura 2 em que a rede neuralpossui duas saídas para três valores de entrada, calcula-se a média do erro sobre todas osvalores de saída obtidos e subsequentemente a média sobre todos os registros processados.

A forma de retropropagação do erro em uma rede neural é determinado pelo algo-ritmo utilizado; a função ilustrada na figura 3, descrita por Russell e Norvig [31] efetua

Page 36: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

34 Capítulo 2. Fundamentação Teórica

uma otimização por meio de descida do gradiente, técnica que possui como objetivo mi-nimizar a soma dos quadrados dos erros utilizando a derivada de primeira ordem. A idéiapor trás do algoritmo é dividir o erro calculado e distribuí-los de acordo com o peso dasconexões aos neurônios das camadas precedentes. A atualização dos pesos é efetuada as-sim que o gradiente de erro é obtido entre os neurônios que compartilham a conexão.

função Backpropagation(exemplos, rede) retorna uma rede neuralparâmetros exemplos, conjunto de exemplos com vetores de entrada x e saída y

rede, rede neural com L camadas, pesos 𝑊𝑖,𝑗, função de ativação grepita

para cada e em exemplos façapara cada nó j na camada de entrada faça 𝑎𝑗 ← 𝑥𝑗[𝑒]para l = 2 até L faça

𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑖 ←∑𝑗

𝑊𝑗,𝑖𝑎𝑗

𝑎𝑖 ← 𝑔(𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑖) ◁ Valor calculado é fornecido à função de ativaçãopara cada nó i na camada de saída faça

Δ𝑖 ← 𝑔′(𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑖)× (𝑦𝑖[𝑒]− 𝑎𝑖) ◁ Gradiente de erro na camada Lpara l = L - 1 até 1 faça

para cada nó j na camada l façaΔ𝑗 ← 𝑔′(𝑒𝑛𝑡𝑟𝑎𝑑𝑎𝑗)×

∑𝑖

𝑊𝑗,𝑖Δ𝑖 ◁ Cálculo do gradiente de erropara cada nó i na camada l + 1 faça

𝑊𝑗,𝑖 ← 𝑊𝑗,𝑖 + 𝜂 × 𝑎𝑗 ×Δ𝑖 ◁ Atualização de pesosaté que algum critério de parada seja satisfeito

fim função

Figura 3: Função backpropagation simples

Existem variações do algoritmo padrão de backpropagation que incluem parâmetrosadicionais para controle dos pesos como por exemplo a constante de momento (momentumrate) e a taxa de declínio (decay) [37] com o intuito de reduzir a presença de mínimoslocais assim como um ajuste mais refinado dos pesos. Outros algoritmos para treinamentoutilizam métodos numéricos alternativos, como por exemplo gradiente conjugado (SCG), oqual efetua buscas em direções conjugadas ao gradiente providenciando uma convergênciamais rápida [9]. Adicionalmente, o algoritmo de Levenberg-Marquadt consiste em umacombinação dos métodos de descida de gradiente e o algoritmo de Gauss-Newton; destaforma, é possível determinar diferentes valores de ajuste dadas variações no gradiente [38].

Apesar da alta popularidade de redes do tipo multi-layer perceptron, existem diver-sos outros modelos de redes com o mesmo princípio básico de interconexão entre neurôniosporém com estruturas e propósitos distintos– as redes Hopfield são um tipo de rede neuralartificial recorrente (conexões entre neurônios assumem mais de uma direção) utilizadaspara o reconhecimento de padrões devido a capacidade de agirem como memórias associa-tivas recuperando padrões próximos aos que lhe foram apresentados durante o treinamento

Page 37: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

2.2. Aprendizado de máquina 35

[39]. Redes neurais RBF são utilizadas para problemas de grande número de dimensões,e mesclam conceitos de máquinas de vetores suporte por meio da utilização de funçõesque constituem uma base arbitrária para os vetores de entrada assim que transferidos àcamada oculta [40]. Redes RBF não apresentam mínimos locais pois os únicos parâme-tros ajustados são as conexões do mapeamento entre a camada oculta e camada de saída,porém este tipo de rede necessita que o conjunto de entradas esteja contido no espaçodefinido pelas funções de base radial.

2.2.3 Árvores de decisão

Árvores de decisão são ferramentas de aprendizado supervisionado para problemasde classificação. Como o próprio nome da técnica sugere, esta possui como objetivo aconstrução de uma árvore que represente explicitamente a estrutura do conjunto de dados[41]. Em outras palavras, uma árvore de decisão fornece, através da disposição de seusnós, uma interpretação intuitiva do conjunto de variáveis explicativas para o critério declassificação.

Munido de uma tupla e seus valores para as variáveis independentes, o percursopela árvore encerrando em uma folha determina o valor da classe para a instância– osnós são rotulados com um dos atributos e os ramos partindo destes indicam seus valorespossíveis. Os valores para os atributos em uma árvore de decisão são categóricos– variáveiscontínuas são discretizadas precedendo a construção da árvore. A figura 4 ilustra umaárvore de decisão elaborada para determinar indivíduos que possam vir a comprar umcomputador [42].

Idade

<= 3031 - 40

> 40

Estudante?

Não Sim

SimAvaliação

de crédito?

NãoSim

Não SimExcelente Razoável

Figura 4: Árvore de decisão para a avaliação de compra de computador

Uma árvore de decisão é construída a partir da divisão do conjunto de dadosoriginal em subconjuntos resultantes de um teste de valores de um dos atributos. Esteprocesso é repetido para cada subconjunto de maneira recursiva até que os valores de saídade um subconjunto sejam iguais ao valor esperado [43]. O critério utilizado para seleção

Page 38: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

36 Capítulo 2. Fundamentação Teórica

dos atributos mais relevantes para a construção do modelo classificação ou regressãovaria de acordo com o algoritmo usado, porém compartilham semelhanhanças, como porexemplo, a redução de impureza (entropia) e a homogeneidade da variável dependentenos subconjuntos gerados.

A métrica mais amplamente utilizada para a seleção de atributos relevantes noprocesso de construção de uma árvore de decisão é o ganho de informação, cálculo queindica a quantidade de informação ganha após a inserção de um nó na árvore que efetuauma decisão a partir de um atributo, isto é, o ‘benefício’obtido ao se utilizar este atributoao invés dos outros no conjunto. Eberle [42] descreve o cálculo do ganho de informaçãoda seguinte forma:

Definição 2. Seja 𝑝𝑖, dada pela equação 2.10 a probabilidade que uma tupla do conjuntoD com m valores possíveis, possui de pertencer a classe 𝐶𝑖.

𝑝𝑖 = 𝐶𝑖,𝐷

𝐷(2.10)

A entropia do conjunto D é determinada na equação 2.11 e representa a informaçãoesperada para classificar uma tupla do conjunto.

𝐼𝑛𝑓𝑜(𝐷) =∑

𝑖

−𝑝𝑖𝑙𝑜𝑔2𝑝𝑖 (2.11)

A informação necessária após a utilização de um atributo A para a divisão de Dé obtida pelo somatório do produto entre a probabilidade de cada subconjunto 𝐷𝑗 e aentropia de 𝐷𝑗. Este cálculo é obtido por meio da equação 2.12.

𝐼𝑛𝑓𝑜𝐴(𝐷) =𝑣∑

𝑗=1

𝐷𝑗

𝐷× 𝐼(𝐷𝑗) (2.12)

O ganho de informação (eq. 2.13) é dado como a diferença entre a entropia doconjunto e a informação calculada após a decisão efetuada pelo atributo A.

𝐺𝑎𝑛ℎ𝑜(𝐴) = 𝐼𝑛𝑓𝑜(𝐷)− 𝐼𝑛𝑓𝑜𝐴(𝐷) (2.13)

Após o cálculo do ganho de informação para todos os atributos de um subjconjunto,escolhe-se o atributo com o maior ganho de informação, o que equivale à capacidade doatributo em decidir o valor de classe para a maior quantidade de instâncias. Como ditoanteriormente, o processo de construção de uma árvore de decisão é recursivo, sendo assim,o cálculo de ganho de informação é repetido até que todas as tuplas sejam devidamenteatribuídas seu valor de classe.

Page 39: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

2.2. Aprendizado de máquina 37

No entanto, a utilização do cálculo de ganho de informação possui uma propensãoa considerar atributos com grande quantidade de valores possíveis. Para superar estalimitação, a proporção de ganho (gain ratio) é obtida pela subtração entre o ganho deinformação e um novo cálculo de informação obtido após divisão pelo atributo (eq. 2.14).

𝐼𝑛𝑓𝑜𝐷𝑖𝑣𝑖𝑠𝑎𝑜𝐴(𝐷) = −𝑣∑

𝑗=1

𝐷𝑗

𝐷× 𝑙𝑜𝑔2

(𝐷𝑗

𝐷

)(2.14)

Assim, a proporção do ganho de informação obtém-se por meio da equação 2.15.

𝑃𝑟𝑜𝑝𝑜𝑟𝑐𝑎𝑜𝐺𝑎𝑛ℎ𝑜(𝐴) = 𝐺𝑎𝑛ℎ𝑜(𝐴)− 𝐼𝑛𝑓𝑜𝐷𝑖𝑣𝑖𝑠𝑎𝑜(𝐴) (2.15)

Ao passo que algoritmos como ID3 [44] e C4.5 [45] utilizam os indicadores deganho de informação e proporção de ganho para a construção de árvores de decisão,outras técnicas como por exemplo CART [46] e IBM IntelligentMiner [47] empregam ouso do coeficiente Gini, outra métrica popular para construção recursiva de árvores dedecisão.

2.2.4 Avaliação de classificadores

Dadas as diversas técnicas pertencentes ao campo de aprendizado de máquina, atarefa de classificação consiste na construção de um modelo classificador utilizando dadosconhecidos com o objetivo de determinar o valor de classe para instâncias não rotuladas[48]. Para contrastar divergências e similaridades entre modelos classificadores, definiram-se métricas e critérios para que subsequente a elaboração do modelo, o desempenho entreoutros aspectos adicionais sejam analisados. Alguns destes critérios, senão os mais impor-tantes, estão dispostos abaixo.

Acurácia/ExatidãoCapacidade do modelo em determinar rótulos de classe corretos para instâncias novas oudesconhecidas.

RapidezCustos computacionais envolvidos na elaboração e utilização do classificador.

RobustezCapacidade de classificar instâncias corretamente com dados omissos ou ruído.

EscalabilidadeConstrução eficiente de um classificador utilizando um maior volume de instâncias.

InterpretabilidadeNível de compreensão e abstração provido pelo modelo.

SimplicidadeGrau de complexidade da estrutura construída (ex. tamanho de uma árvore de decisão,

Page 40: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

38 Capítulo 2. Fundamentação Teórica

número de camadas em uma rede neural e quantidade de coeficientes em um modelo deregressão logística).

Para avaliar a exatidão de um classificador, alguns parâmetros podem ser calcu-lados utilizando o conjunto de teste: sejam 𝑛𝑡 o número total de instâncias para testee 𝑛𝑐 o número de instâncias de teste classificadas corretamente. A acurácia 𝜂 e erro declassificação 𝜀 podem ser calculados através de 2.16a e 2.16b respectivamente.

𝜂 = 𝑛𝑐

𝑛𝑡

(2.16a)

𝜀 = 𝑛𝑡 − 𝑛𝑐

𝑛𝑡

= 1− 𝜂 (2.16b)

Além destas medidas, é possível elaborar uma matriz de confusão, fornecendo aindamais informações sobre a acurácia do modelo. Em uma matriz de confusão, o eixo hori-zontal determina os valores de classe corretos enquanto o eixo vertical denota os valoresde classe atribuídos pelo classificador. Desta forma, as quantidades de instâncias classi-ficadas corretamente são dispostas na diagonal principal, enquanto os outros elementosrepresentam os exemplos classificados incorretamente. A tabela 1 exemplifica resultadosde classificação para dois valores distintos de classe.

𝑐1 𝑐2𝑐1

′ 23 10𝑐2

′ 7 68

Tabela 1: Matriz de confusão para dois valores de classe

A partir da tabela 1 com as classes 𝑐1 = sim e 𝑐2 = não, obtemos os valores:

Verdadeiros positivos (VP) Esperado = 𝑐1, classificados como 𝑐1

Falsos positivos (FP) Esperado = 𝑐2, classificados como 𝑐1

Falsos negativos (FN) Esperado = 𝑐1, classificados como 𝑐2

Verdadeiros negativos (VN) Esperado = 𝑐2, classificados como 𝑐2

Uma matriz de confusão fornece informações para o cálculo de outras métricasimportantes. Algumas delas estão dispostas na tabela 2.

As métricas descritas na tabela 2 para a matriz de confusão em ( 1) podem sercalculadas.

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 = 𝑉 𝑃

𝑉 𝑃 + 𝐹𝑁= 23

23 + 7 = 0.7666 (2.17a)

Page 41: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

2.2. Aprendizado de máquina 39

Nomenclaturas Cálculo Descrição

Sensibilidade; taxa de ver-dadeiros positivos; recall 𝑇𝑃𝑅 = 𝑉 𝑃

𝑉 𝑃 +𝐹 𝑁

Proporção de verdadeirospositivos corretamenteidentificados

Especificidade; taxa de ver-dadeiros negativos 𝑇𝑁𝑅 = 𝑉 𝑁

𝑉 𝑁+𝐹 𝑃

Proporção de verdadeirosnegativos corretamenteidentificados

Fall-out; taxa de falsos po-sitivos 𝐹𝑃𝑅 = 𝐹 𝑃

𝐹 𝑃 +𝑉 𝑁

Proporção de instânciasclassificadas incorretamentecomo verdadeiros

Exatidão; acurácia 𝐴𝐶𝐶 = 𝑉 𝑃 +𝑉 𝑁𝑉 𝑃 +𝑉 𝑁+𝐹 𝑃 +𝐹 𝑁

Proporção de instânciasclassificadas corretamente

Tabela 2: Métricas de desempenho derivadas da matriz de confusão

𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = 𝑉 𝑁

𝑉 𝑁 + 𝐹𝑃= 68

68 + 10 = 0.8717 (2.17b)

𝐹𝑎𝑙𝑙 − 𝑜𝑢𝑡 = 𝐹𝑃

𝐹𝑃 + 𝑉 𝑁= 10

10 + 68 = 0.1282 (2.17c)

𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = 𝑉 𝑃 + 𝑉 𝑁

𝑉 𝑃 + 𝑉 𝑁 + 𝐹𝑃 + 𝐹𝑁= 23 + 68

23 + 68 + 10 + 7 = 0.8425 (2.17d)

É possível observar que o teste possui maior exatidão para as instâncias comclasse negativa, uma vez que a especificidade é maior que a sensibilidade. Como ilustradona tabela 2, a taxa de verdadeiros positivos determina o quão sensível o modelo é parainstâncias de classe positiva ao passo que a taxa de verdadeiros negativos determina o quãoespecífico o modelo é para a classificação de instâncias negativas [49]. Um classificadorperfeito possui valores de sensibilidade e especificidade iguais a 1: sendo assim, o índicede acurácia é diretamente proporcional à alterações nas métricas de verdadeiros positivose negativos.

Uma técnica amplamente adotada para avaliar o valor que maximiza a acuráciado modelo é a construção de uma curva de limiar, também denominada de curva ROC(receiver operating characteristic), a qual foi inicialmente desenvolvida para detecção desinais de radares durante a segunda guerra mundial. A figura 5 ilustra um exemplo destaferramenta. Uma curva ROC busca estabelecer uma comparação entre modelos de classi-ficação avaliando diferentes pontos de limiar para discriminação; enquanto o eixo verticaldo gráfico indica a sensibilidade (taxa de verdadeiros positivos), o eixo horizontal indica ataxa de falsos positivos (1 - especificidade), onde cada ponto no espaço representa os res-pectivos valores obtidos de uma matriz de confusão. A diagonal que corta o espaço ROC

Page 42: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

40 Capítulo 2. Fundamentação Teórica

ao meio é conhecido como a linha de zero discriminação, onde permanecem resultadosde decisões aleatórias– pontos acima desta linha indicam desempenho superior à decisõesaleatórias, ao passo que pontos abaixo da linha indicam desempenho inferior. Caso ospontos na curva ROC estejam presentes abaixo da linha de zero discriminação, a inversãodos rótulos de classe das instâncias resultará em uma curva com a concavidade invertida,isto é, com pontos acima da linha de discriminação. No entanto, esta prática é tido comoúltimo recurso para aperfeiçoar um classificador, pois pode causar overfitting [50].

10 0.5

1

0

0.5

Taxa de falsos positivos (1 - especicidade)

Taxa

de

verd

adei

ros

posi

tivos

(sen

sibi

lidad

e)

(0,1) Classicação perfeita

Decisão aleatória

Figura 5: Um exemplo de curva ROC

O cálculo da área sob a curva obtida, também conhecida como AUC (area undercurve) é uma forma de agregação de uma curva ROC em um valor escalar. Dado queo espaço ROC é limitado entre 0 e 1 em ambos os eixos, os valores da área calculadase mantém neste alcance. A área abaixo da linha de zero discriminação é 0.5, portantoespera-se que qualquer classificador possua uma área acima deste limiar. A métrica deárea sob a curva pode ser interpretada como a probabilidade a que um modelo possuide discriminar um exemplo positivo escolhido aleatoriamente de um exemplo positivoescolhido aleatoriamente [51]. O valor da área sob a curva pode ser calculado por meio damédia de aproximações trapezoidais.

2.3 Trabalhos relacionados

A aplicação de conceitos e técnicas originadas na área de aprendizado de máquinapara auxílio em tarefas relacionadas ao câncer é um tema recorrente em estudos recentes.

Page 43: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

2.3. Trabalhos relacionados 41

Estima-se que mais de 500 publicações acadêmicas em periódicos médicos são geradas acada ano [52]. No entanto, ensaios clínicos são publicados com menor frequência, assimcomo estudos que avaliam o desempenho de redes neurais em contraste com métodosestatísticos [53].

Entre estes estudos, destaca-se Cinar et al. [9], que propuseram um comparativoentre redes neurais artificiais e máquinas de vetor de suporte (SVM) utilizando dadosde 300 pacientes do Departamento de Urologia do Hospital de Bornova Sifa na Turquia.Atributos utilizados incluiram peso, altura, índice de massa corpórea, valores de PSA ePSA livre, volume prostático, densidade PSA/volume, fumante ou não-fumante, pressãoarterial (sistólica e diastólica), batimento cardíaco e pontuação de Gleason. Os autoresatingiram através da empregação de três técnicas de treinamento em redes neurais ar-tificiais, uma taxa de acurácia média de 79%; com o uso de funções de núcleo linear,polinomial e gaussiana, obtiveram percentuais de classificação 77.2%, 81.1% e 78.9%,respectivamente.

Pesquisas mais recentes, como a de Regnier-Coudert et al. [54], apresentam umaanálise detalhada do uso de técnicas estatísticas, redes neurais artificiais e redes bayesia-nas. Foram utilizados dados clínicos padronizados pela Associação Britância de CirurgiõesUrologistas (BAUS) contendo os atributos PSA, pontuação de Gleason e estágio clínicopara inferir a variável de estado patológico; o conjunto inicial continha dados de mais de7500 pacientes obtidos entre 1999 e 2008, porém apenas 1701 registros foram selecionadosdevido à grande quantidade de atributos omissos e dados errôneos no conjunto original.Um aspecto notável do estudo foi a avaliação do desempenho das tabelas de Partin, quetêm como base pacientes americanos, em indivíduos britânicos; concluiu-se que as dife-renças demográficas comprometem o desempenho da regressão logística. A eficácia no usode tabelas de Partin mostrou-se baixa, por volta de 61%. A introdução de redes bayesia-nas e redes neurais artificiais mostrou um desempenho de classificação próximo a 67% e65% respectivamente. Lisboa et al. [55] sugerem a incorporação de técnicas de validaçãotemporal e externa para avaliar a eficiência dos métodos. Estas variações são baseadasna clássica validação cruzada, onde os dados são divididos em conjuntos de treinamentoe teste e utilizados distintamente.

O estudo conduzido por Lawrentschuk et al. [56] utilizando uma amostra de 3025pacientes da Rede de Saúde Universitária (UHN) em Toronto, Canadá, e contendo atri-butos idade, exame de toque, ultrassom transretal e volume prostático apresenta umacomparação entre métodos de regressão logística e redes neurais artificiais para classificaros pacientes em quatro categorias de resultado de biópsia. Os resultados obtidos não foramsatisfatórios: ao passo que os tumores benignos foram identificados com eficácia média de87%, o câncer de próstata significativo (CSPC) e não-significativo (NSPC) foram classifi-cados com taxas de 22% e 2% respectivamente. O conjunto inicial de dados continha 7758

Page 44: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

42 Capítulo 2. Fundamentação Teórica

registros, onde mais da metade foi descartado devido a falta de integridade. Marin et al.[57] propuseram através de sua pesquisa meios para reduzir os problemas gerados pelafalta de integridade em um conjunto de dados contendo 950 amostras de testes para di-agnóstico de câncer de próstata. Após efetuarem a discretização de variáveis linguísticas,percebeu-se que somente 44 dos 950 registros possuíam todos os atributos com valoresnão-nulos. Os autores descrevem então técnicas para corrigir as amostras restantes, comopor exemplo, preenchimento de campos vazios com valor médio do atributo, normaliza-ção por meio de histograma de frequência, remoção de entradas com valores altamentediscriminantes e seleção de atributos relevantes.

Garzotto et al. [58] conduziram e compararam resultados de testes com árvoresde classificação e regressão (CART) e regressão logística, obtendo precisão similar comáreas sob a curva ROC iguais a 0.74 e 0.72 respectivamente. O conjunto de dados foicomposto de 1433 pacientes com PSA inferior a 10ng/mL e incluiu fatores como idade,região demográfica, histórico familiar e dados laboratoriais como exame de toque, vasec-tomia, densidade de PSA e pontuação Gleason; a árvore de decisão obtida classificou asinstâncias com valores de sensibilidade e especificidade 95.5% e 37.9% respectivamente.A pesquisa conduzida por Gülkesen et al. [59] baseou-se no algoritmo QUEST (Quick,Unbiased and Efficient Statistical Tree), uma variação do algortimo CART onde os cri-térios para seleção de atributos são mais maleáveis e dados omissos são tratados comimputação. Com dados de 1830 pacientes coletados entre 2001 e 2007, a análise por meiode árvores de decisão resultou em um modelo com sensibilidade e especificidade iguais a0.99 e 0.97 respectivamente, estimando que por volta de 13% dos casos analisados forampoupados do procedimento de biópsia. No entanto, verificou-se que os resultados obtidospossuiam acurácia similar ao modelo construído utilizando regressão logística, com umaAUC levemente maior.

Page 45: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

43

3 MATERIAIS E MÉTODOS

Neste capítulo, são apresentados as ferramentas e algoritmos utilizados, assim comoas configurações e parâmetros associados a cada técnica. O ambiente de testes de algo-ritmos de aprendizado de máquina Weka é descrito na seção 3.1, onde uma visão geralsobre as funcionalidades da ferramenta é dada. Em 3.1, o conjunto de dados obtido para arealização dos experimentos é apresentado, incluindo atributos e estatísticas pertinentes.Por fim, as configurações para os algoritmos selecionados são dadas na seção 3.3 a partirde variações nos valores padronizados pelo ambiente de testes.

3.1 O ambiente Weka

Weka, acrônimo para Waikato Environment for Knowledge Analysis, é uma coleçãode algoritmos e ferramentas de aprendizado de máquina para tarefas de mineração dedados [60]. Atualmente, é considerado como sistema de referência [61] tanto no meioacadêmico quanto comercial pois é open-source além de altamente modular e extensível,permitindo a integração de novos algoritmos com a interface por meio de plugins e APIs.A interface gráfica inicial do ambiente é ilustrada na figura 6.

Figura 6: Seletor de interface do Weka

A partir da versão 3.4, o Weka providencia o acesso (figura 6) às diferentes in-terfaces que compõem o programa. As aplicações principais são o Explorer, ferramentaprincipal do Weka para processamento e análise de conjuntos de dados assim como testescom os diversos algoritmos; o Experimenter, modo que oferece controles e opções maisrígidos para a condução de experimentos sob condições específicas; KnowledgeFlow, fer-ramenta que permite ao usuário especificar graficamente por meio de um diagrama uma

Page 46: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

44 Capítulo 3. Materiais e métodos

sequência de algoritmos, filtros e opções disponíveis no Weka para a construção de testesmais robustos e detalhados não possíveis no modo Explorer [62]; e por fim, o Simple CLI,a interface por linha de comando.

Figura 7: Weka Explorer após o carregamento de um conjunto de dados

Ao iniciar o modo Explorer e providenciar um conjunto de dados no formato ARFFou outro igualmente suportado como CSV ou uma tabela obtida via SQL, a interface ilus-trada na figura 7 é apresentada ao usuário. As seções principais são categorizadas pormeio das abas na parte superior: no preprocessamento (Preprocess), os atributos na rela-ção são identificados e estatísticas como valores máximo, mínimo, média e desvio padrãosão ilustrados à direita; a aba de classificação (Classify) fornece acesso à algoritmos declassificação e regressão, com opções para escolha de conjuntos de treinamento e teste–os resultados são armazenados na lista no canto inferior esquerdo com opções para visu-alização do modelo representativo caso possível e também do erro obtido; a seção Clusterinclui os algoritmos de agregação como k-nearest neighbors e k-means; em Associate épossível aplicar técnicas de associação de regras para a identificação de interrelações nosatributos do conjunto; a aba de seleção Select attributes providencia algoritmos e técnicaspara determinar os atributos com maior importância preditiva, auxiliando o processo deseleção de características (feature selection); e por último, o painel de visualização (Visu-alize) exibe gráficos de dispersão que ilustram a correlação entre os atributos presentesno conjunto.

Page 47: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

3.2. Conjunto de dados 45

3.2 Conjunto de dados

Os casos para este estudo foram obtidos através do Dr. Horário Alvarenga Moreira,urologista do Hospital Universitário de Londrina. 500 pacientes foram acompanhadospelo profissional no período de 2005 à 2009 com exames para investigação de tumoresprostáticos. Devido a questões de privacidade, o conjunto de dados não inclui pacientes queforam submetidos a exames, porém não foram encaminhados para biópsia. Sendo assim,todas as instâncias do conjunto são rotuladas com o resultado obtido após o procedimento.

A compilação dos atributos do conjunto deu-se a partir dos seguintes exames:toque retal (1 - alterado, 0 - normal), PSA total (via hemograma), volume prostático (viaultrassom), dosagem de PSA livre (hemograma) e biópsia prostática. O atributo ‘Ajuste’éuma métrica calculada pelo médico com o intuito de adequar a dosagem de PSA totalpara a idade do paciente, independente do volume prostático calculado– este é calculadopor meio das verificações apresentadas na figura 8.

Os atributos númericos são apresentados por meio da tabela 3, juntamente comalgumas estatísticas.

se 45 ≤ idade ≤ 55 entãose PSA Total ≤ 2,5 então

Ajuste = 1senão

Ajuste = 0senão se 55 < idade ≤ 65 então

se PSA Total ≤ 3,5 entãoAjuste = 1

senãoAjuste = 0

senão se 65 < idade ≤ 75 entãose PSA Total ≤ 4,5 então

Ajuste = 1senão

Ajuste = 0senão se idade > 75 então

se PSA Total ≤ 6,5 entãoAjuste = 1

senãoAjuste = 0

Figura 8: Forma de cálculo para o obtenção do valor do atributo Ajuste

A partir dos 500 casos, estima-se que aproximadamente 40% dos pacientes não fo-ram submetidos a todos os exames, especialmente ao indicador de PSA livre que apresentaa maior quantidade de valores omissos, devido ao fato que foram encaminhados para a

Page 48: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

46 Capítulo 3. Materiais e métodos

Atributo Mínimo Máximo Média Desvio Padrão FaltantesIdade 30 100 64.4 8.4 1Volume prostático 10 405 59.26 32.38 2PSA 1.8 809.1 19.12 61.4 -% PSA livre/total 0.01 0.94 0.18 0.17 183

Tabela 3: Sumário dos atributos númericos do conjunto de dados (n = 500)

biópsia prematuramente durante o tratamento exame subsequentes não foram registrados.Além disto, atributos adicionais como histórico familiar e etnia não puderam ser obtidos.

Na tabela 4, a distribuição das características booleanas para as 500 instâncias édada.

Atributo V F FaltantesAjuste 458 42 -Toque 168 306 26Diagnóstico 193 307 -

Tabela 4: Sumário dos atributos booleanos do conjunto de dados (n = 500)

O conjunto contendo os 500 pacientes será utilizado como padrão, porém técnicaspara preenchimento dos valores nulos serão necessários. O subconjunto contendo somenteas instâncias com valores não nulos inclui 305 casos, o qual também será aplicado aos testescom o objetivo de verificar o impacto da quantidade de exemplos sob o desempenho geraldos algoritmos.

3.3 Experimentos e testes

A partir das técnicas descritas na seção 2.2, foram escolhidos algoritmos maisfrequentemente utilizados em pesquisas similares, assim como algoritmos que apresenta-ram maior desempenho de classificação a partir do conjunto de dados. A configuração,parâmetros e ajustes de cada algoritmo, assim como as representações gráficas (quandoaplicáveis) dos classificadores são apresentadas na seção a seguir.

Para a técnica de regressão logística, o algoritmo utilizado pelo Weka é descritopor [63] e possui o uso de um estimador de ‘cume’ (ridge estimator), parâmetro paraestabilização e regularização de instâncias, penalizando coeficientes grandes para evitaroverfitting. A estimativa dos coeficientes é obtida por meio de um método numérico Quasi-Newton. Durante os testes efetuados, a alteração dos parâmetros não causou variação nodesempenho do modelo, portanto os valores padrão foram mantidos (tabela 5).

Page 49: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

3.3. Experimentos e testes 47

Parâmetro ValorNúmero máximo de iterações −1 (ilimitado)Cume (ridge) 1.0× 10−8

Tabela 5: Parâmetros para o algoritmo de regressão logística

Para a técnica de redes neurais artificiais, foram selecionados duas variações:

MultiLayerPerceptronAlgoritmo padrão que utiliza backpropagation para atualização dos pesos e possui comoparâmetros taxa de aprendizado, momento, declínio (decay) e opções para normalizaçãoe categorização de atributos numéricos (tabela 6).

MLPClassifierRede neural artificial baseada no método Quasi-Newton BFGS (Broyden-Fletcher-Goldfarb-Shanno) para a minimização da soma dos quadrados do erro, juntamente com o parâmetrode ‘cume’ para penalizar o cálculo dos pesos (tabela 7).

Parâmetro ValorDeclínio (decay) FalsoNúmero de camadas ocultas (hiddenLayers) 1 a 3Taxa de aprendizado (learningRate) 0.08 a 0.4Momento (momentum) 0.1 a 0.3Número de épocas (trainingTime) 500 a 750

Tabela 6: Parâmetros para o algoritmo MultiLayerPerceptron

Parâmetro ValorNeurônios na camada oculta (numFunctions) 2 a 5Cume (ridge) 0.01 a 0.1Tolerância do erro (delta) 1.0× 10−10 a 1.0× 10−6

Tabela 7: Parâmetros para o algoritmo MLPClassifier

Por fim, os dois algoritmos selecionados para a construção de modelos baseadosna concepção de árvores de decisão incluem:

ADTreeAlgoritmo proposto por Freund e Mason através da aplicação de técnicas de boosting1

em árvores de decisão para a obtenção de regras de classificação mais compactas e de1 Combinação de classificadores gerados por um mesmo algoritmo de aprendizado no qual o funciona-

mento é ajustado de acordo com os erros cometidos pelo classificador anterior [64]

Page 50: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

48 Capítulo 3. Materiais e métodos

fácil interpretação quando comparadas a outros algoritmos de árvores de decisão [65]. Opercurso pelos nós de decisão de atributos retorna uma pontuação, a qual é acumulada eao final do trajeto é utilizada para definir o rótulo de classe da instância. Os parâmetrosdo algoritmo ADTree encontram-se na tabela 8.

PARTAbreviação de PARTial decision tree, é uma variação do algoritmo C4.5 [45] que extrairegras if-then a partir das folhas com ‘melhor’ decisão. Por meio do método de separaçãoe consquista, as regras de decisão são calculadas a partir dos subconjuntos de casos ge-rados até que todas as instâncias sejam abrangidas pelas regras [66]. A tabela 9 inclui osparâmetros variáveis para a geração dos classificadores.

Parâmetro ValorNúmero de iterações (numOfBoostingIterations) 3 a 10Caminho de busca (searchPath) Melhor caminho z-pure

Tabela 8: Parâmetros para o algoritmo ADTree

Parâmetro ValorFator de confiança (confidenceFactor) 0.05 a 0.4Mínimo de instâncias por regra (minNumObj) 2 a 7Quantidade de dados para poda (numFolds) 3 a 8Não efetuar poda (unpruned) Falso

Tabela 9: Parâmetros para o algoritmo PART

Adotou-se por padrão a técnica de validação cruzada com k=10, no qual o con-junto inicial de dados é separado em 10 partes iguais. Para a construção do modelo, sãorealizadas dez iterações onde uma das partes é tomada como o conjunto de teste e asrestantes para o treinamento, assim cada parte é utilizada como teste uma vez. Ao finaldas iterações, calcula-se a média das estatísticas e métricas de desempenho para todas asdez iterações, obtendo um valor geral para cada indicador.

Page 51: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

49

4 RESULTADOS

Uma vez definidos os valores dos parâmetros utilizados para cada algoritmo des-crito na seção 3.3, modelos de classificação foram construídos utilizando o conjunto dedados fornecido pelo Dr. Horácio A. Moreira. Os classificadores descritos neste capítulorefletem o maior desempenho obtido resultantes de testes efetuados por meio da variaçãodos parâmetros de configuração. Curvas ROC e percentuais derivados da matriz de con-fusão são dados para cada algoritmo usado, assim como o valor de corte (threshold) paraa definição do rótulo de classe para as instâncias.

4.1 Regressão Logística

O classificador obtido com a técnica de regressão logística apresentou desempenhorelativamente fraco; 69.4%, o que equivale a 347 dos 500 casos foram corretamente classi-ficados. O valor de corte que gerou este percentual de acurácia foi de 0.4642. Sendo assim,o modelo pode ser considerado mais conservador pois escolhe um aumento na quantidadede falsos positivos sob a quantidade de falsos negativos. A figura 9 apresenta as métricasde desempenho calculadas.

10 0.5

1

0

0.5

(a) Curva ROC (AUC = 0.7159)

11.6%

49.8%

19%

19.6%

Verdadeiros positivosFalsos positivos

Verdadeiros negativos

Falsos negativos

(b) Percentual de VP, VN, FN e FP

Figura 9: Indicadores de desempenho para o modelo de regressão logística

Os coeficientes e razão de chances1 (com intervalo de confiança de 95%) calculadaspelo algoritmo são dispostos na tabela 10.

1 Também conhecida como razão de possibilidades, ou odds ratio em inglês, indica a razão entre aschances relativas da ocorrência da saída esperada, dado o valor do atributo analisado

Page 52: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

50 Capítulo 4. Resultados

Atributo Valor Razão de chancesIdade 0.0424 1.0433Volume -0.0237 0.9766PSA 0.0054 1.0054PSA Livre/Total 0.7547 2.127Ajuste -0.7381 0.478Toque -0.9931 0.3704Coeficiente livre -1.4102 N/A

Tabela 10: Coefiecientes obtidos a partir do modelo de regressão logística

4.2 Redes Neurais Artificiais

4.2.1 MultiLayerPerceptron

Dentre os modelos gerados utilizando os valores especificados na tabela 6, o clas-sificador baseado no algoritmo MultiLayerPerceptron que obteve melhor desempenho foiconstruído com três camadas ocultas, taxa de aprendizado igual a 0.5 e momento iguala 0.2– o número de épocas, quando maior que 500 causou redução na performance. Aavaliação do classificador obtido é apresentado na figura 10.

Utilizando o conjunto com as 500 instâncias, o desempenho obtido foi de 68.8%.Utilizando somente os casos que não possuíam valores nulos (n = 305), a acurácia subiupara 70.49%. Com isso, foi possível perceber que o algoritmo MultiLayerPerceptron ésensível a dados faltantes, mesmo com a aplicação de um filtro para correção destesvalores.

10 0.5

1

0

0.5

(a) Curva ROC (AUC = 0.6438)

13.11%

50.16%

16.39%

20.33%

Verdadeiros positivosFalsos positivos

Verdadeiros negativos

Falsos negativos

(b) Percentual de VP, VN, FN e FP

Figura 10: Desempenho do modelo construído com o algoritmo MultiLayerPerceptron

Certos pontos da curva ROC (fig. 10a) apresentaram comportamento próximo àdecisão aleatória, quando o valor no eixo horizontal se aproxima de 0.15. Nesta região, oponto de corte para a atribuição do valor de classe permanece alto por volta de 0.68; ovalor de corte que gerou a melhor taxa de exatidão foi de 0.49.

Page 53: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

4.2. Redes Neurais Artificiais 51

4.2.2 MLPClassifier

A utilização do algoritmo MLPClassifier apresentou desempenho levemente supe-rior ao classificador gerado com o algoritmo MultiLayerPerceptron para ambos os con-juntos com 500 e 305 instâncias. O classificador obtido com o conjunto de dados ondeos casos com valores nulos foram desconsiderados resultou em acurácia de classificaçãoigual a 71.14% com 0.51 para o ponto de corte. A figura 11 exibe detalhes adicionais dodesempenho.

10 0.5

1

0

0.5

(a) Curva ROC (AUC = 0.6782)

Verdadeiros positivos

Falsos positivos

Verdadeiros negativos

Falsos negativos

8.2%

55.08%

20.66%

16.07%

(b) Percentual de VP, VN, FN e FP

Figura 11: Desempenho do modelo construído com o algoritmo MLPClassifier (n = 305)

Na tabela 11, são dispostos os pesos das conexões entre os neurônios da camadade entrada e a camada oculta. Adicionalmente, três neurônios de bias para cada neurôniona camada oculta foram criados, com pesos 1.68314, 0.30868 e -1.58390 respectivamente.

Atributo Peso (neurônio 1) Peso (neurônio 2) Peso (neurônio 3)Idade 0.99678 0.97959 -3.63784Volume 1.715815 1.38124 1.00791PSA -0.23637 0.25022 -0.11938PSA Livre/Total 0.39286 -0.78210 -0.64545Ajuste -0.74715 1.37455 0.55101Toque -0.36268 2.29051 -0.07021

Tabela 11: Valores das conexões para o modelo construído com o algoritmo MLPClassifier

Observou-se por meio do classificador gerado a partir do conjunto de dados queengloba todas as 500 instâncias um pequeno aumento na métrica de acurácia (de 71.14%para 71.4%). Ao passo que as taxas de falsos positivos e negativos permaneceu inalterada,houve um aumento na taxa de verdadeiros positivos aliado a uma diminuição na taxade verdadeiros negativos. A curva ROC, dada pela figura 12a, apresenta-se mais robusta,com um pequeno aumento na área sob a curva. Os percentuais da matriz de confusão sãodispostos na figura 12b.

Page 54: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

52 Capítulo 4. Resultados

10 0.5

1

0

0.5

(a) Curva ROC (AUC = 0.7223)

Verdadeiros positivos

Falsos positivos

Verdadeiros negativos

Falsos negativos

8%

53.4%

20.6%

18%

(b) Percentual de VP, VN, FN e FP

Figura 12: Desempenho do modelo construído com o algoritmo MLPClassifier (n = 500)

4.3 Árvores de Decisão

4.3.1 ADTree

O classificador construído por meio do algoritmo ADTree obteve uma taxa de exa-tidão de 71.8%– um leve ganho de desempenho sob as técnicas de redes neurais artificiaise regressão logística. A figura 13 ilustra as medidas calculadas para o modelo obtido.

10 0.5

1

0

0.5

(a) Curva ROC (AUC = 0.7277)

Verdadeiros positivos

Falsos positivos

Verdadeiros negativos

Falsos negativos

15.4%

46%

12.8%25.8%

(b) Percentual de VP, VN, FN e FP

Figura 13: Desempenho do modelo construído com o algoritmo ADTree (n = 500)

É possível perceber por meio da figura 13b que o classificador apresenta umaredução da taxa de verdadeiros negativos, porém isso é refletido em um aumento nataxa de verdadeiros positivos. Isto se deve a um valor de corte estabelecido em 0.4687, oque causa um aumento na taxa de falsos positivos, atribuindo um comportamento maisconservativo ao modelo.

Na figura 14, a representação gráfica do classificador ADTree é exibida. Um per-curso pela árvore passa por todos os nós, com a busca feita em profundidade pré-fixa(nós da subárvore esquerda são explorados primeiro). Para cada decisão efetuada, o valorassociado ao resultado da decisão é somado e o total obtido representa a probabilidade

Page 55: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

4.3. Árvores de Decisão 53

do valor de classe positivo para a instância.

Figura 14: Estrutura de árvore gerada pelo classificador ADTree

Page 56: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

54 Capítulo 4. Resultados

4.3.2 PART

A aplicação do algoritmo PART para extração de regras a partir de uma árvorede decisão apresentou desempenho similar ao uso de redes neurais, porém produziu ummodelo mais sucinto– as seis regras obtidas para a classificação são dispostas na figura 16.O classificador construído a partir do conjunto inicial de 500 instâncias obteve desempenhode 66.4%; ao utilizar somente os 305 casos sem valores nulos, a taxa de exatidão elevou-separa 71.48%. Na figura 15, os indicadores calculados são exibidos.

10 0.5

1

0

0.5

(a) Curva ROC (AUC = 0.6808)

10.82%

52.46%

17.7%

19.02%

Verdadeiros positivosFalsos positivos

Verdadeiros negativos

Falsos negativos

(b) Percentual de VP, VN, FN e FP

Figura 15: Desempenho do modelo construído com o algoritmo PART (n = 305)

As regras na figura 16 são avaliadas sequencialmente; caso o resultado do teste deuma condição for verdadeiro, o rótulo de classe correspondente é atribuído. Caso contrárioa próxima regra é avaliada até a última condição, onde a instância é classificada com umvalor padrão.

se Toque = F e Volume > 53 e PSA ≤ 14.2 entãoBiópsia = F

senão se Idade ≤ 59 entãoBiópsia = F

senão se Toque = V e 0.21 < PSA Livre/Total ≤ 0.58 entãoBiópsia = F

senão se Toque = T entãoBiópsia = V

senão se Volume ≤ 46 entãoBiópsia = F

senãoBiópsia = V

Figura 16: Regras de decisão geradas pelo classficador PART

Observa-se por meio das regras obtidas, similaridades entre as convenções adota-das por médicos para delinear a provável necessidade de biópsia. Na segunda condiçãoavaliada, um paciente que obteve ausência de tumor pelo exame de toque e indicador dePSA Livre/Total entre 0.21 e 0.58 (zona de incerteza e baixa probabilidade), atribui-se F

Page 57: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

4.4. Comparação de Resultados 55

(falso) para o valor de classe, isto é, possui pequena necessidade de submeter-se à biópsia.Em contraste, a terceira regra obtida atribui V (verdadeiro) com a detecção de um tumore recomenda o paciente ao procedimento, independente de outros indicadores.

4.4 Comparação de Resultados

Os classificadores obtidos por meio do uso dos algoritmos descritos obtiveram taxasde exatidão próximas a 70%. Na figura 17, é estabelecida uma comparação gráfica entreestes valores.

67 67.5 68 68.5 69 69.5 70 70.5 71 71.5 72 72.5

Regressão Logística (n=500)

MultiLayerPerceptron (n=500)

MultiLayerPerceptron (n=305)

MLPClassifier (n=305)

MLPClassifier (n=500)

ADTree (n=500)

PART (n=305)

Figura 17: Comparação de desempenho entre classificadores

A técnica de regressão logística produziu o menor desempenho de classificaçãodentre todas as outras técnicas, devido ao baixo valor do ponto de corte estabelecidopara decisão entre as classes. Verificou-se por meio da tabela 10 que os maiores valoresde coeficiente e razão de chances correspondem ao indicador de PSA/Livre. Dados estesindicadores, o modelo atribui maiores valores probabilísticos de recomendação à biópsiapara quantidades maiores de PSA Livre/Total.

Os dois algoritmos baseados em redes neurais artificiais escolhidos resultaram emclassificadores com desempenho similar, porém ao passo que o MultiLayerPerceptron so-freu uma queda de aproximadamente 1.7% no desempenho ao utilizar o conjunto originalcom valores omissos corrigidos, o algoritmo MLPClassifier mostrou-se mais robusto no

Page 58: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

56 Capítulo 4. Resultados

quesito acurácia geral, entretanto a classificação de verdadeiros positivos sofreu uma re-dução enquanto a taxa de verdadeiros negativos (maior parte do conjunto) cresceu namesma proporção. A escolha entre os modelos de redes neurais artificiais gerados develevar em consideração esta variação nas taxas, pois para a tarefa em questão, é preferívelque o classificador possua uma maior taxa de falsos positivos do que falsos negativos,priorizando um comportamento conservador sobre um comportamento liberal.

Por fim, algoritmos de classificação embasados em árvores de decisão obtiveram asmaiores taxas de desempenho entre todos os outras técnicas. Com a aplicação do algoritmoADTree, houve um aumento notável na taxa de verdadeiros positivos, assim como umaredução nos falsos negativos, características tipicamente conservadoras. A área sob a curvatambém mostrou-se mais consistente em relação aos outros algoritmos, resultado de umamaior concavidade. No entanto, a estrutura obtida ADTree possui complexidade médiapois efetua todas as 16 decisões antes de calcular o valor de probabilidade final para comisso, atribuir o valor de classe para a instância. O algoritmo PART, por sua vez, elaborouum conjunto de regras pequeno e sucinto, porém priorizando os verdadeiros negativossobre os verdadeiros positivos.

Page 59: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

57

5 CONCLUSÃO

O campo de pesquisa para aplicação de técnicas de aprendizado de máquina emtarefas médicas relacionadas ao câncer de próstata embora atrativo e de grande utilidade,permanece com alto nível de complexidade devido aos vários fatores envolvidos no processode inferência de diagnósticos, detecção e identificação de tumores e riscos associados,entre outros. Os trabalhos revisados abrangem diversas técnicas, onde o foco inicial daspesquisas foi dado em redes neurais artificiais, porém testes preliminares resultaram embaixos indicadores de desempenho. Sendo assim, a experimentação por meio de outrostipos de algoritmos de classificação permitiu interpretações diversas, de acordo com ascaracterísticas próprias a cada técnica estudada.

Os resultados obtidos com a aplicação do conjunto de dados proposto obtiveramtaxas de desempenho próximas a maioria dos casos clínicos analisados utilizando algorit-mos equivalentes. Alguns fatores limitantes tanto para o desempenho dos classificadores,assim como para testes adicionais elaborados, foram originados do conjunto de dados,o qual incluiu uma quantidade pequena de instâncias para um problema diversificado erepleto de incerteza como a recomendação de pacientes para biópsia. Adicionalmente, coma baixa dimensionalidade do conjunto, não foi possível elaborar conclusões sólidas sobre apopulação analisada assim como correlação entre as variáveis antecedentes ao tratamento–apenas os indicadores mais frequentemente utilizados durante o monitoramento e acom-panhamento da suspeita de câncer de próstata foram disponibilizados. Para contornar oproblema, alguns estudos de caso sugerem a incorporação de atributos adicionais consi-derados fatores de risco para o câncer de próstata, com a premissa de um aumento nopercentual de desemepenho.

Dado o desempenho levemente superior por meio do uso de algoritmos de árvoresde decisão, aliando recursos adicionais do campo de aprendizado de máquina como boostinge extração de regras, espera-se que classificadores elaborados a partir da combinação deduas ou mais técnicas possam vir a beneficiar das vantagens presentes nos algoritmosindividuais. Além disto, técnicas avançadas de validação, como por exemplo validaçãotemporal, validação externa ou até mesmo a partição do conjunto original em treinamento,teste e validação, oferecem uma estimativa mais fiel do real desempenho dos classificadores,quando fornecidos novos casos.

Page 60: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente
Page 61: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

59

REFERÊNCIAS

1 ESSINK-BOT, M. L. et al. Short-term effects of population-based screening forprostate cancer on health-related quality of life. Journal of National Cancer Institute,v. 90, p. 925–931, 1998.

2 DJAVAN, B. et al. Novel artificial neural network for early detection of prostatecancer. Journal of Clinical Oncology, v. 20, p. 921–929, 2002.

3 VICKERS, A. J. et al. Impact of recent screening on predicting the outcome ofprostate cancer biopsy in men with elevated psa: data from the european randomizedstudy of prostate cancer screening in gothenburg, sweden. Cancer, v. 116, p. 2612–2620,2010.

4 THE Oxford English Dictionary. [S.l.]: Oxford University Press, 2007.

5 AMERICAN Heritage Dictionary. [S.l.]: Houghton Mifflin, 2009.

6 KARAKIEWICZ, P. I. et al. Development and validation of a nomogram predictingthe outcome of prostate biopsy based on patient age, digital rectal examination andserum prostate specific antigen. The Journal of Urology, v. 173, p. 1930–1934, 2005.

7 KATTAN, M. W.; SCARDINO, P. T. Prediction of progression: nomograms of clinicalutility. Clinical Prostate Cancer, v. 1, p. 90–96, 2002.

8 BAADE, P. D.; YOULDEN, D. R.; KRNJACKI, L. J. International epidemology ofprostate cancer: geographical distribution and secular trends. Molecular Nutrition &Food Research, v. 53, p. 171–184, 2009.

9 CINAR, M. et al. Early prostate cancer diagnosis by using artificial neural networksand support vector machines. Expert Systems with Applications, v. 36, 2009.

10 CRUIJSEN-KOETER, I. W. van der et al. Comparison of screen detected andclinically diagnosed prostate cancer in the european randomized study of screening forprostate cancer, section rotterdam. Journal of Urology, v. 174, p. 121–125, 2005.

11 UNIVERSITY, O. H. . S. Presence Of High-risk Prostate Cancer Can Be PredictedWithout A Biopsy, New Study Says. 2005. Disponível em: <http://www.sciencedaily.com/releases/2005/05/050522112707.htm>. Acesso em: 29.7.2013.

12 PARTIN, A. W.; OESTERLING, J. E. The clinical usefulness of prostate specificantigen: Update 1994. Journal of Urology, v. 152, p. 1358–1368, 1994.

13 CATALONA, W. J. et al. Comparison of digital rectal examination and serumprostate specific antigen in the early detection of prostate cancer: Results of a multicenterclinical trial of 6630 men. Journal of Urology, v. 151, p. 1283–1290, 1994.

14 STEPHAN, C. et al. A (-5, -7) propsa based artificial neural network to detectprostate cancer. European Urology, v. 50, p. 1014–1020, 2006.

15 COOKSON, M. M. Prostate cancer: screening and early detection. Cancer Control,v. 8.

Page 62: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

60 Referências

16 SARITAS, I.; OZKAN, I. A.; SERT, I. U. Prognosis of prostate cancer by artificialneural networks. Expert Systems and Applications, v. 37, p. 6646–6650, 2010.

17 CATALONA, W. J.; ORNSTEIN, D. K. Prostate cancer detection in men with serumpsa concentrations of 2.6 to 4.0 ng/ml and benign prostate examination: enhancement ofspecificity with free psa measurements. Journal of American Medical Association, v. 277,p. 1452–1455, 1997.

18 BENSON, M. C.; WHANG, I. S.; PANTUC, A. e. a. Prostate specific antigendensity: a means for distinguishing benign prostatic hypertrophy and prostate cancer.Journal of Urology, v. 147, p. 815–816, 1992.

19 STRUM, S. B.; POGLIANO, D. What every doctor who treats male patients shouldknow. PCRI Insights, v. 8, p. 4–5, 2005.

20 ITO, K. et al. Free/total psa ratio is a powerful predictor of future prostate cancermorbidity in men with initial psa levels of 4.1 to 10.0 ng/ml. Journal of Urology, v. 61,p. 760–764, 2003.

21 INSTITUTE, N. C. Treatment Choices for Men with Early-Stage Prostate Cancer.2011.

22 MOHRI, M.; ROSTAMIZADEH, A.; TALWALKAR, A. Foundations of MachineLearning. [S.l.]: The MIT Press, 2012.

23 SIMON, P. Too Big To Ignore: The Business Case for Big Data. [S.l.]: Wiley, 2013.

24 WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools andTechniques with Java Implementations. San Francisco, CA: Morgan Kaufmann, 2005.

25 HOSMER, D. W.; LEMESHOW, S. Applied Logistic Regression. [S.l.]: Wiley, 2000.

26 ARMSTRONG, J. S. Illusions in regression analysis. International Journal ofForecasting, v. 28, p. 689–672, 2012.

27 ZANINI, A. Regressão logística e redes neurais artificiais: um problema de estruturade preferência do consumidor e classificação de perfis de consumo. Dissertação (Mestrado)— Faculdade de Economia e Administração, Universidade Federal de Juiz de Fora, Juizde Fora, MG, 2007.

28 PARTIN, A. W. et al. The use of prostate specific antigen, clinical stage in men withlocalized prostate cancer. Journal of Urology, v. 150, p. 110–114, 1993.

29 EIFLER, J. B. et al. An updated prostate cancer staging nomogram (partin tables)based on cases from 2006 to 2011. Urological Oncology, v. 111, p. 22–29, 2012.

30 HOPFIELD, J. J. Neural networks and physical systems with emergent collectivecomputational abilities. Proceedings of the National Academy of Science, USA, v. 79, p.2554–2558, April 1982.

31 RUSSELL, S.; NORVIG, P. Artificial Intelligence: A Modern Approach. [S.l.]:Prentice Hall, 2009.

Page 63: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

Referências 61

32 SINGH, N. K.; SINGH, A. K.; TRIPATHY, M. Selection of hidden layer neuronsand best training method for ffnn in application of long term load forecasting. Journalof Electrical Engineering, v. 63, n. 3, p. 153–161, 2012.

33 METHAPRAYOON, K. et al. Multistage artificial neural network short term loadforecasting engine with front end weather forecasting. IEEE Transactions on IndustryApplications, v. 43, n. 6, p. 1410–1416, 2007.

34 CHARYTONIUK, W.; CHEN, M. S. Neural network design for short term loadforecasting. In: International Conference on Electric Utility Deregulation and Restructingand Power Technologies. [S.l.: s.n.], 2000. p. 554–561.

35 HAYKIN, S. O. Neural Networks and Learning Machines. [S.l.]: Prentice Hall, 2008.

36 COPPIN, B. Inteligência Artificial. [S.l.]: LTC, 2010.

37 MOLLER, M. F. A scaled conjugate gradient algorithm for fast supervised learning.Neural Networks, v. 6, p. 525–533, 1993.

38 GAVIN, H. The levenberg-marquadt method for nonlinear least squares curve-fittingproblems. Departmento de Engenharia Civil e Ambiental, Duke University. 2011.

39 SILVA, J. M.; DRUMMOND, L.; WEDEMANN, R. S. Redes Neurais Artificiais:Rede Hopfield e Redes Estocásticas. Dissertação (Mestrado) — Universidade FederalFluminense, Niterói, Rio de Janeiro, 2003.

40 ROSA, J. L. G. SCC-5809 - Redes de Função de Base Radial. 2011. Palestra.Disponível em: <http://wiki.icmc.usp.br/images/e/e8/SCC5809Cap6.pdf>. Acesso em:3.11.2013.

41 SHI, H. Best-first decision tree learning. Dissertação (Mestrado) — University ofWaikato, Hamilton, New Zealand, 2007.

42 EBERLE, W. Data Mining: Concepts and Techniques. 2012. Palestra.

43 ROKACH, L.; MAIMON, O. Top-down induction of decision trees classifiers-asurvey". IEEE Transactions on Systems, Man, and Cybernetics, Part C, v. 35, p.476–487.

44 QUINLAN, J. R. Induction of decision trees. Machine Learning, p. 81–106, 1986.

45 QUINLAN, J. R. C4.5: Programs for Machine Learning by J. Ross Quinlan., Inc.,1993. [S.l.]: Morgan Kaufmann, 1993.

46 BREIMAN, L. et al. Classification and Regression Trees. [S.l.]: Chapman and Hall,1984.

47 CABENA, P. et al. Intelligent Miner for Data Applications Guide. 1999. IBMRedbooks, SG24-5252-00.

48 STEFANOWSKI, J. Data Mining: Evaluation of Classifiers. Palestra. Disponível em:<http://www.cs.put.poznan.pl/jstefanowski/sed/DM-4-evaluatingclassifiersnew.pdf>.Acesso em: 6.10.2013.

Page 64: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

62 Referências

49 METZ, C. E. Basic principles of roc analysis. Seminars in Nuclear Medicine, v. 8, p.283–298, 1978.

50 FLACH, P. Repairing concavities in roc curves. In: Proc. 2003 UK Workshop onComputational Intelligence. [S.l.]: Springer-Verlag, 2003. p. 38–44.

51 FAWCETT, T. An introduction to roc analysis. Pattern Recognition Letters, v. 27,p. 861–874, 2006.

52 GANT, V.; RODWAY, S.; WYATT, J. Artificial neural networks: Practicalconsiderations for clinical applications. [S.l.]: Cambridge University Press, 2001.

53 LISBOA, P. J. A review of evidence of health benefit from artificial neural networksin medical intervention. Neural Networks, v. 15, p. 11–39, 2002.

54 REGNIER-COUDERT, O. et al. Machine learning for improved pathologicalstaging of prostate cancer: A performance comparison on a range of classifiers. ArtificialIntelligence in Medicine, v. 55, p. 25–35, 2012.

55 LISBOA, P. J.; TAKTAK, A. F. G. The use of artificial neural networks in decisionsupport in cancer: A systematic review. Neural Networks, v. 19, p. 408–415, 2006.

56 LAWRENTSCHUK, N. et al. Predicting prostate biopsy outcome: artificial neuralnetworks and polychotomous regression are equivalente models. International Urologyand Nephrology, v. 43, p. 23–30, 2010.

57 MARIN, O. R. et al. Automatic decision using dirty databases: Application toprostate cancer diagnosis. In: 32nd Annual International Conference of the IEEE EMBS.Buenos Aires, Argentina: [s.n.], 2010.

58 GARZOTTO, M. et al. Improved detection of prostate cancer using classificationand regression tree analysis. Journal of Clinical Oncology, v. 23, p. 4322–4329, 2005.

59 GüLKESEN, K. H. et al. Prediction of prostate cancer using decision tree algorithm.Turkish Journal of Medicinal Science, v. 40, p. 681–686, 2010.

60 HALL, M. et al. The weka data mining software: An update. SIGKDD Explorations,v. 11, 2009.

61 PIATETSKY-SHAPIRO, G. KDnuggets news on SIGKDD service award. 2005.Disponível em: <http://www.kdnuggets.com/news/2005/n13/2i.html>. Acesso em:2.8.2013.

62 HALL, M.; REUTEMANN, P. WEKA KnowledgeFlow Tutorial for Version 3-5-8.[S.l.], 2008. University of Waikato, New Zealand.

63 CESSIE, S. le; HOUWELINGEN, J. C. van. Ridge estimators in logistic regression.Applied Statistics.

64 CHAVES, B. B. Estudo do algoritmo AdaBoost de aprendizagem de máquina aplicadoa sensores e sistemas embarcados. 19–20 p. Dissertação (Mestrado) — Universidade deSão Paulo, São Paulo, São Paulo, 2011.

Page 65: COMPARAÇÃOEAVALIAÇÃODETÉCNICAS ... · O objetivo da regressão logística é encontrar os coeficientes de uma combinaçãolineardasvariáveisexplicativasqueprevejaavariáveldesaídacorretamente

Referências 63

65 FREUND, Y.; MASON, L. The alternating decision tree learning algorithm. In:Proceedings of the Sixteenth International Conference on Machine Learning. [S.l.]:Morgan Kaufmann Publishers Inc., 1999. p. 124–133.

66 FRANK, E.; WITTEN, I. H. Generating accurate rule sets without globaloptimization. In: . [S.l.]: Morgan Kaufmann, 1998. p. 144–151.