UNIVERSIDADE FEDERAL DA PARAÍBA CENTRO DE ......um programa de controle de qualidade em mamografia de renome nacional devido ao seu impacto técnico-científico e social. As instituições

UNIVERSIDADE FEDERAL DA PARAÍBA

CENTRO DE CIÊNCIAS EXATAS E DA NATUREZA

BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO

SARAH SOARES DE OLIVEIRA

REFINAMENTO DOS MÉTODOS DE LOCALIZAÇÃO DE ESTRUTURAS DO

SISTEMA QUALIMAMO E CORRELAÇÃO COM O SISTEMA VISUAL

HUMANO

JOÃO PESSOA – PB

2011

2

UNIVERSIDADE FEDERAL DA PARAÍBA

CENTRO DE CIÊNCIAS EXATAS E DA NATUREZA

BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO

SARAH SOARES DE OLIVEIRA

REFINAMENTO DOS MÉTODOS DE LOCALIZAÇÃO DE ESTRUTURAS DO

SISTEMA QUALIMAMO E CORRELAÇÃO COM O SISTEMA VISUAL

HUMANO

Monografia apresentada ao grupo PET.Com

da Universidade Federal da Paraíba, em

cumprimento às exigências do Programa de

Educação Tutorial do Curso de Ciência da

Computação.

ORIENTADOR: Prof. Dr. Leonardo Vidal

Batista

JOÃO PESSOA - PB

2011

3

RESUMO

O câncer de mama é o tipo mais freqüente de câncer na população feminina

brasileira e mundial. Um dos métodos mais eficientes utilizados no diagnóstico dessa

patologia é a mamografia, que consiste no exame radiológico da mama para detecção de

lesões mamárias não palpáveis. A AGEVISA-PB mantém um programa de controle de

qualidade em mamografia de renome nacional que consiste na avaliação mensal da

qualidade de uma imagem de simulador radiográfico de mama (phantom) dos

estabelecimentos que oferecem serviços de mamografia na Paraíba. A análise das

imagens é um processo árduo, demorado e propenso a erros devido à subjetividade e

outros fatores. Especialistas da AGEVISA-PB avaliam a qualidade da imagem

principalmente pela visibilidade das estruturas do phantom (discos, fibras, massas

tumorais e microcalcificações), que simulam as estruturas reais da mama. O objetivo

deste trabalho é dar continuidade ao desenvolvimento de um sistema denominado

QualiMamo, voltado para automatização da maior parte das etapas do processo de

avaliação das imagens do controle de qualidade de mamógrafos atualmente adotado

pela AGEVISA-PB, visando ser uma ferramenta de auxílio ao controle de qualidade,

sem substituir totalmente um profissional. O sistema desenvolvido recebe uma imagem

de phantom como entrada e retorna a mesma imagem com marcações nas estruturas de

interesse, acompanhada de um laudo editável. O refinamento dos métodos de

localização das estruturas, realizado através da utilização de uma imagem de referência

para cada modelo de phantom, e a correlação da visão do software com o sistema visual

humano aumentaram a consistência dos laudos gerados, produzindo altas taxas de

acerto. A implantação do sistema na AGEVISA-PB está prevista para os próximos

meses e após testes de usabilidade com os especialistas há a possibilidade de expansão

do sistema para os estabelecimentos que oferecem serviços de mamografia, para que

efetuem seu próprio controle de qualidade de maneira eficiente.

PALAVRAS CHAVE: Mamografia, Controle de Qualidade, Phantom.

4

SUMÁRIO

INTRODUÇÃO ................................................................................................................ 5

OBJETIVOS ................................................................................................................. 6

1. FUNDAMENTAÇÃO TEÓRICA ............................................................................... 7

1.1 SIMULADOR RADIOGRÁFICO MAMA-CDM ................................................. 7

1.2 WEKA .................................................................................................................... 7

1.2.1 ALGORITMO J48 ........................................................................................... 8

1.3 CASAMENTO POR CORRELAÇÃO .................................................................. 8

1.4 TRANSFORMADA DISCRETA DE FOURIER .................................................. 9

1.5 ARTEFATOS EM IMAGENS MAMOGRÁFICAS ........................................... 10

1.6 ANÁLISE ESTATÍSTICA ................................................................................... 11

2. MATERIAIS E MÉTODOS ....................................................................................... 13

2.1 LOCALIZAÇÃO DAS ESTRUTURAS .............................................................. 13

2.2 DENSIDADES ÓTICAS DE FUNDO................................................................. 13

2.3 GRADES METÁLICAS (RESOLUÇÃO ESPACIAL) ...................................... 14

2.4 DETALHES LINEARES DE BAIXO CONTRASTE, LIMIARES DE BAIXO

CONTRASTE, DETALHES DE ALTO CONTRASTE E MASSAS TUMORAIS . 14

2.4.1 DEFINIÇÃO E SELEÇÃO DE ATRIBUTOS ............................................. 15

2.4.2 TREINAMENTO .......................................................................................... 16

2.4.3 CLASSIFICAÇÃO ........................................................................................ 17

3. RESULTADOS E DISCUSSÃO ............................................................................... 18

4. CONCLUSÃO ............................................................................................................ 22

REFERÊNCIAS ............................................................................................................. 23

5

INTRODUÇÃO

O câncer de mama é caracterizado por um tumor maligno causado pelo

desenvolvimento anormal das células da mama. Esse tipo de câncer é o mais frequente

entre a população feminina brasileira e mundial, correspondendo por 22% dos casos

novos de câncer a cada ano (INCA, 2010). Quando diagnosticado ainda no início da

formação do tumor pode ser tratado precocemente, aumentando-se as chances de cura.

O método mais eficiente para a detecção precoce dessa patologia é a mamografia, que

consiste em um exame radiológico para detecção de lesões mamárias não palpáveis

(ROVEDA JUNIOR, 2007).

A qualidade dos exames mamográficos é preocupação constante das

organizações e dos especialistas que se vêem diante do desafio da detecção precoce do

câncer de mama, com o objetivo de salvar vidas e minimizar a agressividade do

tratamento (MEDEIROS; ELIAS, 2007). Isso está diretamente relacionado à qualidade

dos equipamentos que produzem a mamografia, dentre eles o mamógrafo. A

manipulação e a manutenção dos mamógrafos interferem na qualidade da avaliação

médica e, quando realizadas de maneira incorreta, podem reproduzir filmes

radiográficos com falso diagnóstico de tumores.

Outro fator que influencia no diagnóstico do câncer de mama é a subjetividade

na interpretação humana das imagens mamográficas. A subjetividade pode ocasionar

em uma variação na análise dos especialistas, reproduzindo diferentes laudos de acordo

com a percepção visual de cada um. Questões como fadiga ocular, luz ambiente, falta de

qualidade das imagens e inexperiência do radiologista, podem influenciar no

diagnóstico final. O processo de inspeção visual deve ser demorado e cauteloso, embora

as escalas categóricas tornem difíceis as distinções de pequenas estruturas da imagem

mamográfica (BYNG et. al, 1997).

Para garantir a qualidade das mamografias realizadas no Brasil, o Instituto

Nacional de Câncer (INCA), em parceria com o Colégio Brasileiro de Radiologia

(CBR) e a Agência Nacional de Vigilância Sanitária (ANVISA), planeja a criação de

um Programa de Qualidade em Mamografia que será proposto ao Ministério da Saúde

para implantação em todo o território nacional. A metodologia de atuação do programa

exige, entre outros pontos, a avaliação mensal da qualidade da imagem de um simulador

radiográfico de mama (phantom), por via postal e sem custos para os serviços de

mamografia (INCA, 2011).

A Agência Estadual de Vigilância Sanitária da Paraíba (AGEVISA-PB) mantém

um programa de controle de qualidade em mamografia de renome nacional devido ao

seu impacto técnico-científico e social. As instituições que realizam exames

mamográficos na Paraíba enviam mensalmente uma imagem de phantom à AGEVISA-

PB, para avaliação de qualidade de serviços de mamografia (CARVALHO et. al, 2006).

O processo é árduo e demorado, com cada imagem de phantom sendo analisada

cautelosamente na média de 40 minutos por especialista. Esses técnicos classificam

todas as estruturas de interesse do phantom pelo critério de visibilidade, gerando laudos

para avaliação da qualidade das imagens produzidas pelos mamógrafos do Estado.

6

As microcalcificações são estruturas muito difíceis de serem detectadas através

da inspeção visual das imagens mamográficas. Por apresentarem tamanhos menores em

relação às outras estruturas de interesse, podem ser confundidas com artefatos

provenientes do processo de revelação do filme radiográfico. Uma possível origem

desses artefatos está na etapa de fixação do filme, em que há a remoção de sais de prata

não reduzidos pela solução reveladora. Esses sais são pouco solúveis em água e, para

que não sejam sensibilizados pela luz, é necessário o uso de uma solução fixadora para

dissolvê-los (SOARES; LOPES, 2001), caso contrário poderão simular

microcalcificações.

Os sistemas de Detecção Auxiliada por Computador (CAD – Computer Aided

Detection) são utilizados para amenizar as dificuldades encontradas na identificação de

estruturas nas imagens mamográficas por seres humanos, e fornecer uma segunda

opinião a respeito do laudo especialista. Esses sistemas, quando específicos para

imagens mamográficas, promovem a integração entre a medicina e a tecnologia na

busca da melhor detecção das estruturas de interesse (PORTO, 2010).

OBJETIVOS

O objetivo deste trabalho é dar continuidade ao desenvolvimentode um sistema

voltado para automatização da maior parte das etapas do processo de controle de

qualidade de mamógrafos atualmente adotado pela AGEVISA-PB. Esse sistema,

denominado QualiMamo, busca detectar e classificar as estruturas de interesse pelo

critério de visibilidade, realizando a correlação com o sistema visual humano com o

objetivo de reduzir a subjetividade na avaliação das imagens do phantom MAMA-CDM

(CBR, 2001).

7

1. FUNDAMENTAÇÃO TEÓRICA

Esta seção contém uma breve descrição dos principais conceitos utilizados no

desenvolvimento do software.

1.1 SIMULADOR RADIOGRÁFICO MAMA-CDM

Os simuladores radiográficos de mama (phantoms) são utilizados para aferir o

controle de qualidade dos serviços em mamografia. O propósito da utilização desses

phantoms está na avaliação dos equipamentos mamográficos, por intermédio da

produção de imagens que apresentam estruturas que simulam os tecidos mamários.

A AGEVISA-PB desenvolveu um Programa de Controle de Qualidade em

Mamografia, que utiliza como modelo o phantom MAMA-CDM para produção das

imagens radiográficas dos mamógrafos do Estado. A utilização desse simulador

radiográfico é reconhecida pelo CBR (CBR, 2001). É interessante destacar que esse

phantom é produzido artesanalmente, simulando uma mama comprimida entre 4cm e

5cm, com estruturas de teste semelhantes às estruturas anatômicas presentes na mama e

uma escala de densidades óticas.

A Figura 1 apresenta o simulador radiográfico MAMA-CDM, sua imagem

radiográfica e a representação de suas estruturas. São avaliados nas imagens (A) as

densidades óticas de fundo, (B) os detalhes de baixo contraste (tecido fibroso), (C) os

limiares de baixo contraste (discos), (D) os detalhes de alto contraste

(microcalcificações), (E) as massas tumorais e (F) a resolução espacial (grades

metálicas).

Figura 1. Simulador radiográfico MAMA-CDM, sua imagem radiográfica e a representação de

suas estruturas.

1.2 WEKA

8

O Waikato Environment for Knowledge Analysis (WEKA) é um software de

código aberto desenvolvido pela Universidade de Waikato que utiliza a linguagem de

programação JAVA. O WEKA possui uma vasta coletânea de algoritmos para

mineração de dados e aprendizagem de máquina e provê ferramentas para pré-

processamento e classificação de dados (BARBOSA FILHO, 2010).

O algoritmo de aprendizagem de máquina utilizado para avaliar um conjunto de

dados usando WEKA é denominado classificador. Ele define como será a avaliação dos

atributos para identificar a classe à qual pertence um componente de uma base de dados

por meio de seletores de atributos, implementações de regras com associação e

agrupamento de dados (clusters).

A ferramenta WEKA é frequentemente utilizada em pesquisas relacionadas a

bioinformática por dar suporte à resolução de problemas de mineração de dados (data-

minning) que são comumente encontrados nessa área (FRANK et. al, 2004).

1.2.1 ALGORITMO J48

O algoritmo J48 implementa uma versão do algoritmo de classificação C4.5,

baseado em árvores de decisão. Na etapa de treinamento uma base de dados é usada

para gerar um modelo de árvore de decisão, e esse modelo é usado para classificar as

instâncias de um conjunto teste para classificar a exatidão do classificador.

As árvores de decisão permitem a construção de modelos interpretativos e

consideram as classes disjuntas. Dessa maneira, um componente de uma base de dados

poderá receber a classificação indicada por somente uma folha, o que apresenta uma

melhora do algoritmo J48 em relação do algoritmo ID3 (MARTINEZ; SANJURJO,

2009).

1.3 CASAMENTO POR CORRELAÇÃO

Correlação é o processo de mover uma máscara sobre uma imagem e realizar a

soma dos produtos em cada posição (GONZALES; WOODS, 2002), com o objetivo de

encontrar correspondências entre elas. Considerando uma imagem f(x,y) de tamanho

M*N e uma máscara w(x,y) de tamanho J*K, sendo J≤M e K≤N, a correlação entre f(x,y)

e w(x,y) é definida por

(1)

Sendo M a altura da imagem maior e N a largura da imagem maior, tem-se s =

0,1,2,...,M-1 e t = 0,1,2,...,N-1, f(x,y) é um ponto na coordenada (x,y) da imagem maior,

f’(x,y) é o valor médio dos pixels na imagem maior que coincidem com a região da

imagem menor dentro dela, w(x,y) é um ponto na coordenada (x,y) da imagem menor,

w’ é o valor médio dos pixels na imagem menor (MASCENA, 2010). O somatório é

calculado onde w(x, y) sobrepõe f(x, y).

9

Figura 2. Posicionamento de w(x, y) sobre f(x, y) para obtenção da correlação no ponto (s, t).

A imagem w(x, y) se movimenta sobre a imagem f(x, y), resultando na função

c(s, t). O valor máximo da função c(s, t) indica a posição de melhor casamento entre

w(x, y) e f(x, y). A Figura 3 ilustra o processo de casamento por correlação.

Figura 3. A imagem w(x, y) é centralizada em cada pixel de f(x, y) e o cálculo da correlação é

computado. O resultado, c(s, t), é exibido sob a forma de imagem, onde maior intensidade de nível

de cinza indica maior correlação. Fonte: (MASCENA, 2010).

Além do problema de translação da imagem w(x, y), o casamento por correlação

também pode precisar de ajustes de escala e rotação, adicionado um custo

computacional considerável. O cálculo da correlação com a imagem w(x, y) em

diferentes posições, tamanhos e inclinações tende a tornar o processo excessivamente

custoso e impraticável. Por esta razão o uso de correlação dificilmente é utilizado

quando uma rotação arbitrária se faz necessária.

1.4 TRANSFORMADA DISCRETA DE FOURIER

A Transformada Discreta de Fourier (DFT), como as demais transformadas, gera

um conjunto de coeficientes a partir dos quais é possível restaurar as amostras originais

do sinal. Através da DFT pode-se converter sinais do domínio do espaço para o domínio

da freqüência, o facilitando a manipulação de imagens com freqüências específicas

(MASCENA, 2010).

10

A DFT, F[u], u = 0, 1, ... , N-1, de uma função amostrada f(x), com x = 0, 1, ... ,

N-1 é dada por

(2)

onde j =

Cada termo da Transformada de Fourier, F(u), é composto pela soma de todos os

valores de f(x). O domínio (valores de u) sobre o qual a função F(u) atua é chamado

domínio da freqüência. Cada termo de F(u) constitui uma componente de freqüência

(GONZALES; WOODS, 2002).

A Transformada de Fourier pode ser vista como uma operação matemática que

separa uma função em várias componentes, tomando como base suas freqüências.

1.5 ARTEFATOS EM IMAGENS MAMOGRÁFICAS

Artefatos são distorções do processamento do filme ou qualquer variação na

densidade mamográfica não causada pela atenuação real do phantom ou da mama

(CALDAS, 2005). Os artefatos em imagens mamográficas podem ter diversas origens e

comprometem a qualidade final da imagem. Características como forma, posição,

densidade e distribuição na imagem podem facilitar a identificação dos artefatos.

Os exames mamográficos podem ser realizados em equipamentos com

tecnologia convencional, onde as imagens são apresentadas em filme radiográfico, ou

em equipamentos de tecnologia digital em que a leitura deve ser em monitor específico

(CAMPOS, 2008).

Os artefatos em filme radiográfico podem estar relacionados aos rolos do

processador, ao mamógrafo e aos produtos químicos utilizados na limpeza do

equipamento e revelação do filme. As imagens mamográficas podem apresentar ruídos

como marcas de rolo, sujeiras, manchas, impressões digitais, depósitos de prata, entre

outros.

Na etapa de fixação do filme radiográfico uma solução fixadora é usada para

remover os sais de prata que não foram eliminados pela solução reveladora na etapa

anterior. Esses sais são pouco solúveis em água e caso não sejam removidos, podem ser

sensibilizados pela luz, gerando artefatos semelhantes a microcalcificações no filme

radiográfico.

11

(A) (B)

Figura 4. Filme radiográfico de um grupo de microcalcificações na ausência de artefatos (A) e na

presença deles (B), destacados em vermelho.

1.6 ANÁLISE ESTATÍSTICA

Ao desenvolver esquemas computacionais de auxílio à detecção ou ao

diagnóstico médico, é necessário validar quantitativamente os resultados obtidos. Essa

validação é utilizada para aferir o poder discriminativo do sistema como bom ou não

para uma determinada análise.

O índice de acerto do sistema é calculado por intermédio dos verdadeiros

positivos (VP - taxa que o sistema e o laudo de detecção classificam como verdadeiro) e

verdadeiros negativos (VN – taxa que o sistema e diagnóstico classificam como

negativo). Já a taxa de erro é calculada através dos falsos positivos (FP - o sistema

classifica como verdadeiro e o laudo determina como falso) e falsos negativos (FN - o

diagnóstico é dito positivo e o sistema afere como negativo).

É importante ter o conhecimento desses conceitos pois eles são utilizados como

base para o cálculo das medidas estatísticas que serão apresentadas a seguir. A Tabela 1

descreve algumas das medidas utilizadas para a discriminação de um sistema de

detecção automática.

12

Tabela 1. Medidas para aferir a qualidade de um esquema computacional de auxílio à detecção.

Significado Fórmula

Acurácia

Relação entre as predições corretas

obtidas, sem levar em consideração o que

é positivo e negativo.

Sensibilidade

Capacidade do esquema em predizer

corretamente a condição para casos que o

sistema realmente têm.

Especificidade

Capacidade do esquema em predizer

corretamente a condição para casos que o

sistema realmente não têm.

Eficiência Média aritmética da sensibilidade e

especificidade

Preditividade

Positiva

Proporção de verdadeiros positivos em

relação a todas as predições positivas

Preditividade

Negativa

Proporção de verdadeiros negativos em

relação a todas as predições negativas

Coeficiente de

Matthews (φ)

Medida de qualidade entre duas

classificações binárias. Classificadas em

um intervalo [-1 a 1] sendo valores

próximos de 1 uma predição perfeita.

A curva de Receiver Operating Characteristic (ROC) foi desenvolvida por

engenheiros elétricos de sistemas de radar durante a Segunda Guerra Mundial para

detectar objetos inimigos em campos de batalha (ZWEIG e CAMPBELL, 1993). Esse

tipo de curva é bastante utilizada na área de mineração de dados e aprendizado de

máquina.

As curvas ROC classificam e contabilizam o número de predições positivas e

negativas de um determinado sistema. São selecionados limiares, que podem ser

determinados empiricamente, para comparar o desempenho do sistema utilizado. Os

limiares para validação da performance do sistema é conhecido como “pontos de corte”.

Para cada ponto de corte são calculados os valores de sensibilidade de

especificidade do sistema e apresentados em um gráfico denominado ROC. Nestes

gráficos as abscissas representam o complemento da especificidade, as coordenadas os

valores de sensibilidade e a área da curva (AUC) a eficiência do sistema.

13

2. MATERIAIS E MÉTODOS

Para o desenvolvimento do sistema foi utilizada a linguagem de programação

Java juntamente com o ImageJ, um software de domínio público e código aberto

voltado para o desenvolvimento de aplicações de processamento e análise de imagens.

Os algoritmos desenvolvidos foram facilmente incorporados ao ImageJ na forma de

plugins e a interface do sistema foi integrada às funcionalidades do sistema.

Utilizou-se o scanner da marca Microtek modelo ScanMaker i800 para

digitalizar as imagens de phantom em níveis de cinza, com 16 bits de resolução de

contraste e 1200 x 1200 dpi de resolução espacial.

Uma das abordagens de inspeção visual do filme radiográfico consiste em

determinar a visibilidade das estruturas de interesse presentes na imagem do phantom

MAMA-CDM. Para que o sistema possa detectar essas estruturas é necessário definir

regiões de busca distintas para cada modelo de phantom, pois a localização das

estruturas de interesse varia de um phantom para outro devido à sua produção artesanal.

2.1 LOCALIZAÇÃO DAS ESTRUTURAS

As imagens utilizadas possuem alta resolução, o que acaba dificultando o

processamento devido à grande quantidade de pixels. Por esse motivo foram

delimitadas regiões de interesse para a localização das estruturas nas imagens de

phantoms. Ao receber uma imagem de entrada, o sistema ajusta sua orientação por meio

de uma rotação baseada no ângulo entre as densidades óticas de fundo mais clara e mais

escura. A partir da imagem ajustada é realizada a busca das outras estruturas através de

regiões de interesse por meio da técnica de casamento por correlação.

2.2 DENSIDADES ÓTICAS DE FUNDO

Para a produção da curva das densidades óticas, foi necessária a utilização de um

densitômetro calibrado (Mod. MRA 01-118) de modo a efetuar a varredura sobre as

regiões do filme radiográfico que contêm os seis passos de exposição. Com os valores

obtidos, foi possível determinar a relação entre as densidades óticas e a exposição do

filme. A Figura 5 mostra uma imagem das densidades com seus respectivos valores,

determinados pelo densitômetro.

Figura 5. Escala de densidades óticas indicando seus respectivos valores após a mensuração do

densitômetro.

14

A construção da curva característica dos phantoms depende da relação entre o

nível de cinza dos pontos de exposição e as medidas das densidades óticas. Essa relação

associa a média dos valores dos pixels de cada região de interesse com o valor de

densidade que tenha o mesmo passo de exposição.

2.3 GRADES METÁLICAS (RESOLUÇÃO ESPACIAL)

As grades metálicas são as estruturas que caracterizam a resolução espacial da

imagem, ou seja, os níveis de detalhes que esta comporta. Para a reprodução de imagens

radiográficas com maior quantidade de níveis de detalhes, é necessário a utilização de

equipamentos mamográficos com a posição focal adequada (OLIVEIRA JUNIOR,

2009).

O phantom MAMA-CDM possui quatro estruturas que representam as grades

metálicas, em que é possível analisar a quantidade de pares de linha por milímetro

(pl/mm) para aferir a resolução espacial da imagem. A Figura 6 ilustra o espaçamento

entre as linhas de grade de uma imagem do simulador.

Figura 6. Representação das diferentes malhas das imagens do simulador radiográficos. (A) Grade

com 12pl/mm, (B) grade com 8pl/mm, (C) grade com 6pl/mm e (D) grade com 4pl/mm.

Para determinar a quantidade de pares de linha por milímetro das grades

metálicas, foi necessário analisar cada malha no domínio da freqüência. Foi realizado

um recorte da região interna da grade e verificado o comportamento do sinal

bidimensional com a utilização da DFT.

A partir da análise do espectro da DFT, foi possível identificar um ponto

brilhante que pode ser associado à maior freqüência espacial do sinal. Por intermédio do

cálculo da distância desse ponto à origem da imagem, é definido a quantidade de pl/mm

da resolução espacial da mesma.

Esse procedimento foi realizado com 40 imagens, com uma amostragem total de

160 grades metálicas.

2.4 DETALHES LINEARES DE BAIXO CONTRASTE, LIMIARES DE BAIXO

CONTRASTE, DETALHES DE ALTO CONTRASTE E MASSAS TUMORAIS

B A C D

15

Os detalhes lineares de baixo contraste, limiares de baixo contraste, detalhes de

alto contraste e massas tumorais seguem o mesmo critério de avaliação. Para definir a

visibilidade de cada estrutura foi utilizada a ferramenta de mineração de dados WEKA,

em conjunto com o classificador J48.

2.4.1 DEFINIÇÃO E SELEÇÃO DE ATRIBUTOS

Para a construção dos modelos que serão gerados pelo classificador J48, é

necessário pré-selecionar alguns atributos da imagem para realização da etapa de

treinamento do sistema. É importante destacar que nem todos os atributos utilizados

para treinamento serão empregados para classificação das estruturas, já que algumas das

características da imagem não são consideradas relevantes pelos algoritmos.

Os atributos utilizados na etapa de treinamento do sistema podem ter natureza

global, em relação à imagem, ou local, referentes às estruturas de interesse detectadas

pelo sistema.

A Tabela 2 define os atributos utilizados para realização da etapa de treinamento do

sistema. Esses atributos serão extraídos de cada região de interesse da imagem, onde

p(i,j) é o nível de cinza do pixel na posição (i,j) e, w e h são a largura e altura da

imagem.

Tabela 2. Atributos globais extraídos das imagens dos simuladores radiográficos

Atributo Média dos pixels da

imagem

Média do módulo da

diferença entre os pixels da

imagem e a média da imagem

Variância da imagem

Desvio

Padrão da

imagem

Moda dos pixels da imagem

Equação

w

i

h

j hw

jip

1 1 )*(

),(

w

i

h

j hw

jipx

1 1 )*(

),(

w

i

h

j hw

jipv

1 1

2

)*(

),(

v

Nível de cinza

mais frequente

em p(i,j)

Os filtros utilizados nas operações de correlação são compostos por duas partes,

região interna e região externa, ilustrados na Figura 7. A região interna procura casar

com o interior da estrutura, enquanto a região externa procura casar com o plano de

fundo.

16

Figura 7. Exemplo de filtro utilizado para detecção e classificação de uma estrutura circular da

imagem.

A Tabela 3 apresenta os atributos extraídos de cada estrutura também utilizados

na etapa de treinamento, onde pe(i,j) e pb(i,j) são os níveis de cinza dos pixels da região

interna (estrutura) e externa (plano de fundo) do filtro de tamanho w * h na posição (i,j)

da imagem.

Tabela 3. Atributos extraídos da imagem após a detecção das estruturas de interesse

Atributo Média dos pixels da

estrutura

Média dos pixels do

plano de fundo

Diferença das médias dos níveis de cinza dos pixels da estrutura e plano de

fundo

Razão de Weber (GONZALES; WOODS,

2002)

Equação

w

i

h

j

ee

hw

jip

1 1 )*(

),(

w

i

h

j

bb

hw

jip

1 1 )*(

),( Δµ = µe – µb

e

W

Para a definição de quais atributos serão utilizados para etapa de treinamento,

utilizou-se o seletor automático (AtributteSelection) implementado pela própria

ferramenta WEKA.

2.4.2 TREINAMENTO

A etapa de treinamento consiste em produzir, por intermédio do algoritmo J48

do pacote WEKA, um modelo de árvore de decisão para cada estrutura de interesse, que

permanecerá estático durante o processamento das imagens pelo sistema na etapa de

classificação.

Um total de 1200 estruturas foi extraído dessas imagens para treinamento,

contendo discos de baixo contraste, fibras, massas tumorais e microcalcificações. Essas

estruturas foram classificadas por especialistas de acordo com sua visibilidade, ou seja,

se são visíveis ou não. É importante destacar que os laudos das imagens foram

elaborados por dois ou mais técnicos especializados, de maneira a diminuir a

subjetividade da inspeção visual e aumentar a consistência do sistema.

Nessa etapa são criados os arquivos do formato padrão ARFF do WEKA, com

todos os dados de entrada citados anteriormente. Em seguida utiliza-se o algoritmo J48

presente no WEKA para gerar a árvore de decisão dos atributos do sistema para cada

estrutura de interesse.

17

2.4.3 CLASSIFICAÇÃO

É nesta etapa que são implementadas as árvores de decisão baseadas nos

modelos obtidos na etapa de treinamento utilizando o algoritmo J48.

Foram utilizadas 100 imagens de simulador radiográfico laudadas para

classificação, com um total de 2400 estruturas analisadas entre discos de baixo

contraste, fibras, massas tumorais e microcalcificações. É importante destacar que as

imagens processadas na etapa de classificação são distintas das de treinamento.

A partir da classificação dessas estruturas e por meio da comparação entre o

laudo do especialista e o laudo do software, é possível determinar medidas estatísticas

como acurácia e eficiência do sistema.

O comportamento do software é visualizado através de curvas ROC (Receiver

Operating Characteristic) para cada estrutura de interesse, em que são verificadas a

sensibilidade e a especificidade do sistema. Para a construção das curvas ROC o valor

do atributo Δµ foi alterado dentro de um certo intervalo, uma vez que este foi o atributo

de maior relevância nas etapas de treinamento de todas as estruturas de interesse.

18

3. RESULTADOS E DISCUSSÃO

A relação dos níveis de cinza e passos de exposição das densidades óticas de

fundo pode ser visualizada de acordo com a Figura 8. O melhor ajuste da curva

encontrado foi realizado por intermédio de uma função exponencial. Note que o

comportamento dos valores de densidades é inversamente proporcional aos valores em

níveis de cinza, ou seja, quanto maior os valores de densidades, menor será seu valor em

nível de cinza em escala exponencial.

Figura 8. (A) Curva característica das imagens de phantoms e (B) ajuste exponencial dos pontos

utilizados. f(x) = 0.84 + 10.11e-x/6384

A Figura 9 representa o resultado do espectro do sinal da DFT após a detecção

de da grade metálica com maior freqüência. É importante destacar que no domínio

espacial, mesmo com uma grande ampliação da imagem do simulador radiográfico, não

é possível visualizar a quantidade de pares de linhas por milímetro dessa grade (12

pl/mm).

Figura 9. (A) Representação do espectro da DFT de uma grade metálica e (B) mesma representação

com a detecção do ponto mais brilhante.

O método para detecção das grades metálicas utilizando a DFT mostrou-se

eficiente no reconhecimento da quantidade de pares de linhas por milímetro de cada

malha. Como o simulador radiográfico MAMA-CDM é produzido de maneira artesanal,

A B

A B

19

o espaçamento entre cada linha de grade pode variar. Contudo, independente da

inclinação das linhas de grade, é possível reconhecer cada malha com precisão.

Após a detecção do ponto brilhante de cada grade, é possível encontrar a

distância do mesmo em relação à origem da imagem. A Tabela 4 apresenta o resultado

da média das distâncias encontradas, definindo a quantidade de pares de linha por

milímetro das malhas metálicas. É importante destacar que o sistema é preciso e as

variações ocorrem devido à fabricação artesanal dos phantoms utilizados.

Tabela 4. Resultados para classificação das grades metálicas com relação a quantidade de pares de

linhas por milímetro de cada uma.

Grade

4pl/mm

Grade

6pl/mm

Grade

8pl/mm

Grade

12pl/mm

Média das distância do

ponto à origem da imagem 30,30 45,79 66,10 84,02

Variância 0,42 1,07 14,28 12,37

Desvio Padrão 0,65 1,03 3,77 3,52

Os resultados da classificação com o algoritmo J48 produziram as tabelas de

contingência (ou matrizes de confusão) para cada tipo de estrutura de interesse,

indicando as taxas de acerto da classificação. Essas medidas podem ser visualizadas

pela Tabela 5.

Tabela 5. Tabela de Contingência das (A) microcalcificações, (B) massas tumorais, (C) discos de

baixo contraste e (D) tecido fibroso

(A) (B) (C) (D)

Classificado pelo

Algoritmo J48

Classificado pelo

Algoritmo J48

Classificado pelo

Algoritmo J48

Classificado pelo

Algoritmo J48

Visível Não Visível Visível Não Visível Visível Não Visível Visível Não Visível

Cla

ssif

ica

do

pel

o

Esp

eci

ali

sta

Vis

ível

0,99 0,01 0,95 0,05 0,93 0,07 0,93 0,07

Não

Vis

ível

0,00 1,00 0,00 1,00 0,10 0,90 0,36 0,64

A Tabela 6 apresenta as taxas de acurácia, sensibilidade, especificidade,

eficiência, preditividade positiva e negativa, e coeficiente de matthews para a

classificação de cada estrutura de interesse.

20

Tabela 6. Medidas de eficácia do software para classificação das (A) microcalcificações, (B) massas

tumorais, (C) discos de baixo contraste e (D) tecido fibroso, por intermédio do algoritmo J48.

Medida (A) (B) (C) (D)

Acurácia 0,99 0,96 0,93 0,87

Sensibilidade 0,99 0,95 0,94 0,93

Especificidade 1,00 1,00 0,90 0,64

Eficiência 0,99 0,98 0,91 0,78

Preditividade Positiva 0,99 0,95 0,93 0,93

Preditividade Negativa 1,00 1,00 0,90 0,63

Coeficiente de Matthews (φ) 0,97 0,89 0,75 0,59

A Figura 10 permite observar o comportamento do sistema para a classificação

das estruturas através de curvas ROC.

Figura 10. Curvas ROC do algoritmo J48 para classificação do tecido fibroso (AUC = 0,79), discos

de baixo contraste (AUC = 0,92), massas tumorais (AUC = 0,96) e microcalcificações (AUC = 0,98).

A curva característica do phantom encontrada segue um comportamento

exponencial. Esse comportamento é coerente à função de ajuste utilizada, pois os

valores de densidade ótica de fundo são inversamente proporcionais aos valores de

níveis de cinza em escala exponencial. Com a utilização dessa função, é possível definir

os valores de densidade ótica de fundo de cada imagem do simulador mamográfico.

A Tabela 5 apresenta o percentual de acerto do sistema para cada estrutura de

interesse após a correlação entre a análise computacional e a inspeção visual dos

especialistas. Esse percentual foi obtido através da análise da eficiência (média

aritmética da sensibilidade e da especificidade) do sistema para cada estrutura.

21

Tabela 5. Percentual de acerto do sistema

Discos Massas Microcalcificações Fibras

91,47% 97,70% 99,41% 78,42%

A Figura 11 apresenta a marcação das estruturas efetuada pelo sistema em uma

imagem de phantom, com destaque para o grupo de microcalcificações detectado

corretamente mesmo com a presença de artefatos (Figura 12).

Figura 11. Imagem de phantom com todas as estruturas marcadas após o processamento.

Figura 12. (A) Grupo de microcalcificações com ruídos próximos antes do processamento e (B) o

mesmo grupo detectado corretamente após o processamento.

A B

22

4. CONCLUSÃO

As medidas estatísticas do software apresentadas na seção anterior sugerem que

a classificação das estruturas de interesse pelo sistema se aproxima da visão dos

especialistas da AGEVISA-PB.

A decisão a respeito da visibilidade das estruturas bem definidas, como discos de

baixo contraste, massas tumorais e microcalcificações, se torna mais fácil em relação

tecido fibroso. A menor taxa de acerto do sistema (78,42%) ocorreu na classificação das

fibras. Uma proposta a ser explorada em trabalhos futuros, com o objetivo de melhorar a

detecção e a classificação dessas estruturas, consiste na criação de um modelo de

decisão específico para as fibras que obtiveram altas taxas de falsos positivos. Assim, os

resultados para classificação dessas estruturas poderão ser melhorados.

Apesar do tamanho reduzido das estruturas que simulam microcalcificações e da

possibilidade de confusão com ruído, a classificação desses grupos representou a maior

taxa de acerto do sistema (99,41%) dentre as estruturas de interesse. Esses resultados

devem-se à redução nas dimensões das regiões de busca nas imagens de cada phantom.

Com os limites das regiões bem definidos, a probabilidade de detecção e classificação

de artefatos do filme radiográfico no lugar de microcalcificações é reduzida.

Com a implantação do sistema na AGEVISA-PB, prevista para os próximos

meses, espera-se que os especialistas se familiarizem com o software e utilizem o laudo

gerado pela análise computacional das imagens de phantom como auxílio na inspeção

visual. Dessa maneira, grande parte do processo para Controle de Qualidade em

Mamografia poderá ser automatizado e a subjetividade na avaliação das imagens poderá

ser reduzida. Após testes de usabilidade com especialistas e prováveis melhorias na

interface o sistema, poderá ser implantado nos estabelecimentos que oferecem serviços

de mamografia para que efetuem seu próprio controle de qualidade de maneira eficiente

e com a periodicidade adequada.

23

REFERÊNCIAS

BARBOSA FILHO, J. R. B. et al. “Segmentação Automática de Massas

Mamográficas por Intermédio do Crescimento de Regiões e Árvore de Decisão”. XXII

Congresso Brasileiro de Engenharia Biomédica (CBEB), 2010.

BYNG, J. W.; YAFFE, M. J.; LOCKWOOD, G. A.; LITTLE, L. E.; TRITCHLER,

D. L.; BOYD, N. F. “Automated analysis of mammographic densities and breast

carcinoma risk. Cancer”. 1997 Jul 1;80(1):66-74.

CALDAS, F. A. A. et al . Controle de qualidade e artefatos em mamografia. Radiol

Bras, São Paulo, v. 38, n. 4, Agosto, 2005.

CAMPOS, L. C. H. “Avaliações de qualidade aplicadas na comparação de sistemas

mamográficos digitais e convencionais”. Dissertação de Mestrado, Escola de

Engenharia de São Carlos, 2008.

CARVALHO, J. F. G.; SILVA, M. F. M. P.; LINS, M, F. B. P.; BARBOSA, H. T.

L.; SOUSA, J. B.; SILVA, P. R.; CAMINHA, F. T.; BULCAO, S. B.; MORAIS, M. I.

“AGEVISA-PB – Relatório Anual de Atividades 2006”

CBR - Colégio Brasileiro de Radiologia. Boletim do CBR nº 165, novembro 2001.

p. 21.

FRANK, E.; HALL, M.; TRIGG, L.; HOLMES, G.; WITTEN, I.H. “Data mining

in bioinformatics using Weka”. Bioinformatics, 20 (15), pp. 2479-2481, 2004.

GONGAZES, R.C., WOODS, R.E. “Digital Image Processing”, 2nd ed. Prentice

Hall, 2002.

INCA, “Câncer de Mama: Controle de Qualidade em Mamografia”. Disponível em:

<http://www2.inca.gov.br/wps/wcm/connect/cancermama/site/home/controle_qualidade

_mamografia/>. Acessado em: 16 de julho de 2011.

INCA, “Estimativa 2010: incidência de câncer no Brasil / Instituto Nacional de

Câncer”, ISBN 978-85-7318-161-6 (98), 2009.

MARTÍNEZ, E. H.; SANJURJO, R. L. “Minera de datos aplicada a la detección de

Cáncer de Mama”. Universidad Carlos III de Madrid, 2009.

MASCENA, E. N. “Análise Computacional de Imagens de Simuladores

Radiográficos de Mama. Dissertação de Mestrado, Universidade Federal da Paraíba,

2010.

MEDEIROS, R. B.; ELIAS, S. “Diagnóstico precoce e mamografia digital”. Rev.

imagem; 29(2): III-IV, abr.-jun. 2007.

24

OLIVEIRA JUNIOR, P. D., “Esquema computacional para avaliação automática de

parâmetros de qualidade de equipamentos mamográficos”. Dissertação de Mestrado,

Universidade Estadual de São Paulo, 2009.

PORTO, F. N. “Análise de Sensibilidade de um Sistema CAD para Mamografia

Digital”. Dissertação de Mestrado, Universidade Federal de Minas Gerais, 2010.

ROVEDA JUNIOR, D. et al . Valores preditivos das categorias 3, 4 e 5 do sistema

BI-RADS em lesões mamárias nodulares não-palpáveis avaliadas por mamografia,

ultra-sonografia e ressonância magnética. Radiol Bras, São Paulo, v. 40, n. 2, abr. 2007.

SOARES, F. A. P.; LOPES H. B. M. “Filme Radiográfico e Processamento: Curso

Técnico de Radiologia”. Florianópolis: CEFET/SC, 2001.

ZWEIG, M. H.; CAMPBELL, G. “Receiver-operating Carachteristic (ROC) plots:

a fundamental evaluation tool in clinical medicine”. Clinical Chemistry, v.39, n.4,

p.361-577, 1993.

Documents

UNIVERSIDADE FEDERAL DA PARAÍBA CENTRO DE ......um programa de controle de qualidade em mamografia de renome nacional devido ao seu impacto técnico-científico e social. As instituições