Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL DA PARAÍBA
CENTRO DE CIÊNCIAS EXATAS E DA NATUREZA
BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO
SARAH SOARES DE OLIVEIRA
REFINAMENTO DOS MÉTODOS DE LOCALIZAÇÃO DE ESTRUTURAS DO
SISTEMA QUALIMAMO E CORRELAÇÃO COM O SISTEMA VISUAL
HUMANO
JOÃO PESSOA – PB
2011
2
UNIVERSIDADE FEDERAL DA PARAÍBA
CENTRO DE CIÊNCIAS EXATAS E DA NATUREZA
BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO
SARAH SOARES DE OLIVEIRA
REFINAMENTO DOS MÉTODOS DE LOCALIZAÇÃO DE ESTRUTURAS DO
SISTEMA QUALIMAMO E CORRELAÇÃO COM O SISTEMA VISUAL
HUMANO
Monografia apresentada ao grupo PET.Com
da Universidade Federal da Paraíba, em
cumprimento às exigências do Programa de
Educação Tutorial do Curso de Ciência da
Computação.
ORIENTADOR: Prof. Dr. Leonardo Vidal
Batista
JOÃO PESSOA - PB
2011
3
RESUMO
O câncer de mama é o tipo mais freqüente de câncer na população feminina
brasileira e mundial. Um dos métodos mais eficientes utilizados no diagnóstico dessa
patologia é a mamografia, que consiste no exame radiológico da mama para detecção de
lesões mamárias não palpáveis. A AGEVISA-PB mantém um programa de controle de
qualidade em mamografia de renome nacional que consiste na avaliação mensal da
qualidade de uma imagem de simulador radiográfico de mama (phantom) dos
estabelecimentos que oferecem serviços de mamografia na Paraíba. A análise das
imagens é um processo árduo, demorado e propenso a erros devido à subjetividade e
outros fatores. Especialistas da AGEVISA-PB avaliam a qualidade da imagem
principalmente pela visibilidade das estruturas do phantom (discos, fibras, massas
tumorais e microcalcificações), que simulam as estruturas reais da mama. O objetivo
deste trabalho é dar continuidade ao desenvolvimento de um sistema denominado
QualiMamo, voltado para automatização da maior parte das etapas do processo de
avaliação das imagens do controle de qualidade de mamógrafos atualmente adotado
pela AGEVISA-PB, visando ser uma ferramenta de auxílio ao controle de qualidade,
sem substituir totalmente um profissional. O sistema desenvolvido recebe uma imagem
de phantom como entrada e retorna a mesma imagem com marcações nas estruturas de
interesse, acompanhada de um laudo editável. O refinamento dos métodos de
localização das estruturas, realizado através da utilização de uma imagem de referência
para cada modelo de phantom, e a correlação da visão do software com o sistema visual
humano aumentaram a consistência dos laudos gerados, produzindo altas taxas de
acerto. A implantação do sistema na AGEVISA-PB está prevista para os próximos
meses e após testes de usabilidade com os especialistas há a possibilidade de expansão
do sistema para os estabelecimentos que oferecem serviços de mamografia, para que
efetuem seu próprio controle de qualidade de maneira eficiente.
PALAVRAS CHAVE: Mamografia, Controle de Qualidade, Phantom.
4
SUMÁRIO
INTRODUÇÃO ................................................................................................................ 5
OBJETIVOS ................................................................................................................. 6
1. FUNDAMENTAÇÃO TEÓRICA ............................................................................... 7
1.1 SIMULADOR RADIOGRÁFICO MAMA-CDM ................................................. 7
1.2 WEKA .................................................................................................................... 7
1.2.1 ALGORITMO J48 ........................................................................................... 8
1.3 CASAMENTO POR CORRELAÇÃO .................................................................. 8
1.4 TRANSFORMADA DISCRETA DE FOURIER .................................................. 9
1.5 ARTEFATOS EM IMAGENS MAMOGRÁFICAS ........................................... 10
1.6 ANÁLISE ESTATÍSTICA ................................................................................... 11
2. MATERIAIS E MÉTODOS ....................................................................................... 13
2.1 LOCALIZAÇÃO DAS ESTRUTURAS .............................................................. 13
2.2 DENSIDADES ÓTICAS DE FUNDO................................................................. 13
2.3 GRADES METÁLICAS (RESOLUÇÃO ESPACIAL) ...................................... 14
2.4 DETALHES LINEARES DE BAIXO CONTRASTE, LIMIARES DE BAIXO
CONTRASTE, DETALHES DE ALTO CONTRASTE E MASSAS TUMORAIS . 14
2.4.1 DEFINIÇÃO E SELEÇÃO DE ATRIBUTOS ............................................. 15
2.4.2 TREINAMENTO .......................................................................................... 16
2.4.3 CLASSIFICAÇÃO ........................................................................................ 17
3. RESULTADOS E DISCUSSÃO ............................................................................... 18
4. CONCLUSÃO ............................................................................................................ 22
REFERÊNCIAS ............................................................................................................. 23
5
INTRODUÇÃO
O câncer de mama é caracterizado por um tumor maligno causado pelo
desenvolvimento anormal das células da mama. Esse tipo de câncer é o mais frequente
entre a população feminina brasileira e mundial, correspondendo por 22% dos casos
novos de câncer a cada ano (INCA, 2010). Quando diagnosticado ainda no início da
formação do tumor pode ser tratado precocemente, aumentando-se as chances de cura.
O método mais eficiente para a detecção precoce dessa patologia é a mamografia, que
consiste em um exame radiológico para detecção de lesões mamárias não palpáveis
(ROVEDA JUNIOR, 2007).
A qualidade dos exames mamográficos é preocupação constante das
organizações e dos especialistas que se vêem diante do desafio da detecção precoce do
câncer de mama, com o objetivo de salvar vidas e minimizar a agressividade do
tratamento (MEDEIROS; ELIAS, 2007). Isso está diretamente relacionado à qualidade
dos equipamentos que produzem a mamografia, dentre eles o mamógrafo. A
manipulação e a manutenção dos mamógrafos interferem na qualidade da avaliação
médica e, quando realizadas de maneira incorreta, podem reproduzir filmes
radiográficos com falso diagnóstico de tumores.
Outro fator que influencia no diagnóstico do câncer de mama é a subjetividade
na interpretação humana das imagens mamográficas. A subjetividade pode ocasionar
em uma variação na análise dos especialistas, reproduzindo diferentes laudos de acordo
com a percepção visual de cada um. Questões como fadiga ocular, luz ambiente, falta de
qualidade das imagens e inexperiência do radiologista, podem influenciar no
diagnóstico final. O processo de inspeção visual deve ser demorado e cauteloso, embora
as escalas categóricas tornem difíceis as distinções de pequenas estruturas da imagem
mamográfica (BYNG et. al, 1997).
Para garantir a qualidade das mamografias realizadas no Brasil, o Instituto
Nacional de Câncer (INCA), em parceria com o Colégio Brasileiro de Radiologia
(CBR) e a Agência Nacional de Vigilância Sanitária (ANVISA), planeja a criação de
um Programa de Qualidade em Mamografia que será proposto ao Ministério da Saúde
para implantação em todo o território nacional. A metodologia de atuação do programa
exige, entre outros pontos, a avaliação mensal da qualidade da imagem de um simulador
radiográfico de mama (phantom), por via postal e sem custos para os serviços de
mamografia (INCA, 2011).
A Agência Estadual de Vigilância Sanitária da Paraíba (AGEVISA-PB) mantém
um programa de controle de qualidade em mamografia de renome nacional devido ao
seu impacto técnico-científico e social. As instituições que realizam exames
mamográficos na Paraíba enviam mensalmente uma imagem de phantom à AGEVISA-
PB, para avaliação de qualidade de serviços de mamografia (CARVALHO et. al, 2006).
O processo é árduo e demorado, com cada imagem de phantom sendo analisada
cautelosamente na média de 40 minutos por especialista. Esses técnicos classificam
todas as estruturas de interesse do phantom pelo critério de visibilidade, gerando laudos
para avaliação da qualidade das imagens produzidas pelos mamógrafos do Estado.
6
As microcalcificações são estruturas muito difíceis de serem detectadas através
da inspeção visual das imagens mamográficas. Por apresentarem tamanhos menores em
relação às outras estruturas de interesse, podem ser confundidas com artefatos
provenientes do processo de revelação do filme radiográfico. Uma possível origem
desses artefatos está na etapa de fixação do filme, em que há a remoção de sais de prata
não reduzidos pela solução reveladora. Esses sais são pouco solúveis em água e, para
que não sejam sensibilizados pela luz, é necessário o uso de uma solução fixadora para
dissolvê-los (SOARES; LOPES, 2001), caso contrário poderão simular
microcalcificações.
Os sistemas de Detecção Auxiliada por Computador (CAD – Computer Aided
Detection) são utilizados para amenizar as dificuldades encontradas na identificação de
estruturas nas imagens mamográficas por seres humanos, e fornecer uma segunda
opinião a respeito do laudo especialista. Esses sistemas, quando específicos para
imagens mamográficas, promovem a integração entre a medicina e a tecnologia na
busca da melhor detecção das estruturas de interesse (PORTO, 2010).
OBJETIVOS
O objetivo deste trabalho é dar continuidade ao desenvolvimentode um sistema
voltado para automatização da maior parte das etapas do processo de controle de
qualidade de mamógrafos atualmente adotado pela AGEVISA-PB. Esse sistema,
denominado QualiMamo, busca detectar e classificar as estruturas de interesse pelo
critério de visibilidade, realizando a correlação com o sistema visual humano com o
objetivo de reduzir a subjetividade na avaliação das imagens do phantom MAMA-CDM
(CBR, 2001).
7
1. FUNDAMENTAÇÃO TEÓRICA
Esta seção contém uma breve descrição dos principais conceitos utilizados no
desenvolvimento do software.
1.1 SIMULADOR RADIOGRÁFICO MAMA-CDM
Os simuladores radiográficos de mama (phantoms) são utilizados para aferir o
controle de qualidade dos serviços em mamografia. O propósito da utilização desses
phantoms está na avaliação dos equipamentos mamográficos, por intermédio da
produção de imagens que apresentam estruturas que simulam os tecidos mamários.
A AGEVISA-PB desenvolveu um Programa de Controle de Qualidade em
Mamografia, que utiliza como modelo o phantom MAMA-CDM para produção das
imagens radiográficas dos mamógrafos do Estado. A utilização desse simulador
radiográfico é reconhecida pelo CBR (CBR, 2001). É interessante destacar que esse
phantom é produzido artesanalmente, simulando uma mama comprimida entre 4cm e
5cm, com estruturas de teste semelhantes às estruturas anatômicas presentes na mama e
uma escala de densidades óticas.
A Figura 1 apresenta o simulador radiográfico MAMA-CDM, sua imagem
radiográfica e a representação de suas estruturas. São avaliados nas imagens (A) as
densidades óticas de fundo, (B) os detalhes de baixo contraste (tecido fibroso), (C) os
limiares de baixo contraste (discos), (D) os detalhes de alto contraste
(microcalcificações), (E) as massas tumorais e (F) a resolução espacial (grades
metálicas).
Figura 1. Simulador radiográfico MAMA-CDM, sua imagem radiográfica e a representação de
suas estruturas.
1.2 WEKA
8
O Waikato Environment for Knowledge Analysis (WEKA) é um software de
código aberto desenvolvido pela Universidade de Waikato que utiliza a linguagem de
programação JAVA. O WEKA possui uma vasta coletânea de algoritmos para
mineração de dados e aprendizagem de máquina e provê ferramentas para pré-
processamento e classificação de dados (BARBOSA FILHO, 2010).
O algoritmo de aprendizagem de máquina utilizado para avaliar um conjunto de
dados usando WEKA é denominado classificador. Ele define como será a avaliação dos
atributos para identificar a classe à qual pertence um componente de uma base de dados
por meio de seletores de atributos, implementações de regras com associação e
agrupamento de dados (clusters).
A ferramenta WEKA é frequentemente utilizada em pesquisas relacionadas a
bioinformática por dar suporte à resolução de problemas de mineração de dados (data-
minning) que são comumente encontrados nessa área (FRANK et. al, 2004).
1.2.1 ALGORITMO J48
O algoritmo J48 implementa uma versão do algoritmo de classificação C4.5,
baseado em árvores de decisão. Na etapa de treinamento uma base de dados é usada
para gerar um modelo de árvore de decisão, e esse modelo é usado para classificar as
instâncias de um conjunto teste para classificar a exatidão do classificador.
As árvores de decisão permitem a construção de modelos interpretativos e
consideram as classes disjuntas. Dessa maneira, um componente de uma base de dados
poderá receber a classificação indicada por somente uma folha, o que apresenta uma
melhora do algoritmo J48 em relação do algoritmo ID3 (MARTINEZ; SANJURJO,
2009).
1.3 CASAMENTO POR CORRELAÇÃO
Correlação é o processo de mover uma máscara sobre uma imagem e realizar a
soma dos produtos em cada posição (GONZALES; WOODS, 2002), com o objetivo de
encontrar correspondências entre elas. Considerando uma imagem f(x,y) de tamanho
M*N e uma máscara w(x,y) de tamanho J*K, sendo J≤M e K≤N, a correlação entre f(x,y)
e w(x,y) é definida por
(1)
Sendo M a altura da imagem maior e N a largura da imagem maior, tem-se s =
0,1,2,...,M-1 e t = 0,1,2,...,N-1, f(x,y) é um ponto na coordenada (x,y) da imagem maior,
f’(x,y) é o valor médio dos pixels na imagem maior que coincidem com a região da
imagem menor dentro dela, w(x,y) é um ponto na coordenada (x,y) da imagem menor,
w’ é o valor médio dos pixels na imagem menor (MASCENA, 2010). O somatório é
calculado onde w(x, y) sobrepõe f(x, y).
9
Figura 2. Posicionamento de w(x, y) sobre f(x, y) para obtenção da correlação no ponto (s, t).
A imagem w(x, y) se movimenta sobre a imagem f(x, y), resultando na função
c(s, t). O valor máximo da função c(s, t) indica a posição de melhor casamento entre
w(x, y) e f(x, y). A Figura 3 ilustra o processo de casamento por correlação.
Figura 3. A imagem w(x, y) é centralizada em cada pixel de f(x, y) e o cálculo da correlação é
computado. O resultado, c(s, t), é exibido sob a forma de imagem, onde maior intensidade de nível
de cinza indica maior correlação. Fonte: (MASCENA, 2010).
Além do problema de translação da imagem w(x, y), o casamento por correlação
também pode precisar de ajustes de escala e rotação, adicionado um custo
computacional considerável. O cálculo da correlação com a imagem w(x, y) em
diferentes posições, tamanhos e inclinações tende a tornar o processo excessivamente
custoso e impraticável. Por esta razão o uso de correlação dificilmente é utilizado
quando uma rotação arbitrária se faz necessária.
1.4 TRANSFORMADA DISCRETA DE FOURIER
A Transformada Discreta de Fourier (DFT), como as demais transformadas, gera
um conjunto de coeficientes a partir dos quais é possível restaurar as amostras originais
do sinal. Através da DFT pode-se converter sinais do domínio do espaço para o domínio
da freqüência, o facilitando a manipulação de imagens com freqüências específicas
(MASCENA, 2010).
10
A DFT, F[u], u = 0, 1, ... , N-1, de uma função amostrada f(x), com x = 0, 1, ... ,
N-1 é dada por
(2)
onde j =
Cada termo da Transformada de Fourier, F(u), é composto pela soma de todos os
valores de f(x). O domínio (valores de u) sobre o qual a função F(u) atua é chamado
domínio da freqüência. Cada termo de F(u) constitui uma componente de freqüência
(GONZALES; WOODS, 2002).
A Transformada de Fourier pode ser vista como uma operação matemática que
separa uma função em várias componentes, tomando como base suas freqüências.
1.5 ARTEFATOS EM IMAGENS MAMOGRÁFICAS
Artefatos são distorções do processamento do filme ou qualquer variação na
densidade mamográfica não causada pela atenuação real do phantom ou da mama
(CALDAS, 2005). Os artefatos em imagens mamográficas podem ter diversas origens e
comprometem a qualidade final da imagem. Características como forma, posição,
densidade e distribuição na imagem podem facilitar a identificação dos artefatos.
Os exames mamográficos podem ser realizados em equipamentos com
tecnologia convencional, onde as imagens são apresentadas em filme radiográfico, ou
em equipamentos de tecnologia digital em que a leitura deve ser em monitor específico
(CAMPOS, 2008).
Os artefatos em filme radiográfico podem estar relacionados aos rolos do
processador, ao mamógrafo e aos produtos químicos utilizados na limpeza do
equipamento e revelação do filme. As imagens mamográficas podem apresentar ruídos
como marcas de rolo, sujeiras, manchas, impressões digitais, depósitos de prata, entre
outros.
Na etapa de fixação do filme radiográfico uma solução fixadora é usada para
remover os sais de prata que não foram eliminados pela solução reveladora na etapa
anterior. Esses sais são pouco solúveis em água e caso não sejam removidos, podem ser
sensibilizados pela luz, gerando artefatos semelhantes a microcalcificações no filme
radiográfico.
11
(A) (B)
Figura 4. Filme radiográfico de um grupo de microcalcificações na ausência de artefatos (A) e na
presença deles (B), destacados em vermelho.
1.6 ANÁLISE ESTATÍSTICA
Ao desenvolver esquemas computacionais de auxílio à detecção ou ao
diagnóstico médico, é necessário validar quantitativamente os resultados obtidos. Essa
validação é utilizada para aferir o poder discriminativo do sistema como bom ou não
para uma determinada análise.
O índice de acerto do sistema é calculado por intermédio dos verdadeiros
positivos (VP - taxa que o sistema e o laudo de detecção classificam como verdadeiro) e
verdadeiros negativos (VN – taxa que o sistema e diagnóstico classificam como
negativo). Já a taxa de erro é calculada através dos falsos positivos (FP - o sistema
classifica como verdadeiro e o laudo determina como falso) e falsos negativos (FN - o
diagnóstico é dito positivo e o sistema afere como negativo).
É importante ter o conhecimento desses conceitos pois eles são utilizados como
base para o cálculo das medidas estatísticas que serão apresentadas a seguir. A Tabela 1
descreve algumas das medidas utilizadas para a discriminação de um sistema de
detecção automática.
12
Tabela 1. Medidas para aferir a qualidade de um esquema computacional de auxílio à detecção.
Significado Fórmula
Acurácia
Relação entre as predições corretas
obtidas, sem levar em consideração o que
é positivo e negativo.
Sensibilidade
Capacidade do esquema em predizer
corretamente a condição para casos que o
sistema realmente têm.
Especificidade
Capacidade do esquema em predizer
corretamente a condição para casos que o
sistema realmente não têm.
Eficiência Média aritmética da sensibilidade e
especificidade
Preditividade
Positiva
Proporção de verdadeiros positivos em
relação a todas as predições positivas
Preditividade
Negativa
Proporção de verdadeiros negativos em
relação a todas as predições negativas
Coeficiente de
Matthews (φ)
Medida de qualidade entre duas
classificações binárias. Classificadas em
um intervalo [-1 a 1] sendo valores
próximos de 1 uma predição perfeita.
A curva de Receiver Operating Characteristic (ROC) foi desenvolvida por
engenheiros elétricos de sistemas de radar durante a Segunda Guerra Mundial para
detectar objetos inimigos em campos de batalha (ZWEIG e CAMPBELL, 1993). Esse
tipo de curva é bastante utilizada na área de mineração de dados e aprendizado de
máquina.
As curvas ROC classificam e contabilizam o número de predições positivas e
negativas de um determinado sistema. São selecionados limiares, que podem ser
determinados empiricamente, para comparar o desempenho do sistema utilizado. Os
limiares para validação da performance do sistema é conhecido como “pontos de corte”.
Para cada ponto de corte são calculados os valores de sensibilidade de
especificidade do sistema e apresentados em um gráfico denominado ROC. Nestes
gráficos as abscissas representam o complemento da especificidade, as coordenadas os
valores de sensibilidade e a área da curva (AUC) a eficiência do sistema.
13
2. MATERIAIS E MÉTODOS
Para o desenvolvimento do sistema foi utilizada a linguagem de programação
Java juntamente com o ImageJ, um software de domínio público e código aberto
voltado para o desenvolvimento de aplicações de processamento e análise de imagens.
Os algoritmos desenvolvidos foram facilmente incorporados ao ImageJ na forma de
plugins e a interface do sistema foi integrada às funcionalidades do sistema.
Utilizou-se o scanner da marca Microtek modelo ScanMaker i800 para
digitalizar as imagens de phantom em níveis de cinza, com 16 bits de resolução de
contraste e 1200 x 1200 dpi de resolução espacial.
Uma das abordagens de inspeção visual do filme radiográfico consiste em
determinar a visibilidade das estruturas de interesse presentes na imagem do phantom
MAMA-CDM. Para que o sistema possa detectar essas estruturas é necessário definir
regiões de busca distintas para cada modelo de phantom, pois a localização das
estruturas de interesse varia de um phantom para outro devido à sua produção artesanal.
2.1 LOCALIZAÇÃO DAS ESTRUTURAS
As imagens utilizadas possuem alta resolução, o que acaba dificultando o
processamento devido à grande quantidade de pixels. Por esse motivo foram
delimitadas regiões de interesse para a localização das estruturas nas imagens de
phantoms. Ao receber uma imagem de entrada, o sistema ajusta sua orientação por meio
de uma rotação baseada no ângulo entre as densidades óticas de fundo mais clara e mais
escura. A partir da imagem ajustada é realizada a busca das outras estruturas através de
regiões de interesse por meio da técnica de casamento por correlação.
2.2 DENSIDADES ÓTICAS DE FUNDO
Para a produção da curva das densidades óticas, foi necessária a utilização de um
densitômetro calibrado (Mod. MRA 01-118) de modo a efetuar a varredura sobre as
regiões do filme radiográfico que contêm os seis passos de exposição. Com os valores
obtidos, foi possível determinar a relação entre as densidades óticas e a exposição do
filme. A Figura 5 mostra uma imagem das densidades com seus respectivos valores,
determinados pelo densitômetro.
Figura 5. Escala de densidades óticas indicando seus respectivos valores após a mensuração do
densitômetro.
14
A construção da curva característica dos phantoms depende da relação entre o
nível de cinza dos pontos de exposição e as medidas das densidades óticas. Essa relação
associa a média dos valores dos pixels de cada região de interesse com o valor de
densidade que tenha o mesmo passo de exposição.
2.3 GRADES METÁLICAS (RESOLUÇÃO ESPACIAL)
As grades metálicas são as estruturas que caracterizam a resolução espacial da
imagem, ou seja, os níveis de detalhes que esta comporta. Para a reprodução de imagens
radiográficas com maior quantidade de níveis de detalhes, é necessário a utilização de
equipamentos mamográficos com a posição focal adequada (OLIVEIRA JUNIOR,
2009).
O phantom MAMA-CDM possui quatro estruturas que representam as grades
metálicas, em que é possível analisar a quantidade de pares de linha por milímetro
(pl/mm) para aferir a resolução espacial da imagem. A Figura 6 ilustra o espaçamento
entre as linhas de grade de uma imagem do simulador.
Figura 6. Representação das diferentes malhas das imagens do simulador radiográficos. (A) Grade
com 12pl/mm, (B) grade com 8pl/mm, (C) grade com 6pl/mm e (D) grade com 4pl/mm.
Para determinar a quantidade de pares de linha por milímetro das grades
metálicas, foi necessário analisar cada malha no domínio da freqüência. Foi realizado
um recorte da região interna da grade e verificado o comportamento do sinal
bidimensional com a utilização da DFT.
A partir da análise do espectro da DFT, foi possível identificar um ponto
brilhante que pode ser associado à maior freqüência espacial do sinal. Por intermédio do
cálculo da distância desse ponto à origem da imagem, é definido a quantidade de pl/mm
da resolução espacial da mesma.
Esse procedimento foi realizado com 40 imagens, com uma amostragem total de
160 grades metálicas.
2.4 DETALHES LINEARES DE BAIXO CONTRASTE, LIMIARES DE BAIXO
CONTRASTE, DETALHES DE ALTO CONTRASTE E MASSAS TUMORAIS
B A C D
15
Os detalhes lineares de baixo contraste, limiares de baixo contraste, detalhes de
alto contraste e massas tumorais seguem o mesmo critério de avaliação. Para definir a
visibilidade de cada estrutura foi utilizada a ferramenta de mineração de dados WEKA,
em conjunto com o classificador J48.
2.4.1 DEFINIÇÃO E SELEÇÃO DE ATRIBUTOS
Para a construção dos modelos que serão gerados pelo classificador J48, é
necessário pré-selecionar alguns atributos da imagem para realização da etapa de
treinamento do sistema. É importante destacar que nem todos os atributos utilizados
para treinamento serão empregados para classificação das estruturas, já que algumas das
características da imagem não são consideradas relevantes pelos algoritmos.
Os atributos utilizados na etapa de treinamento do sistema podem ter natureza
global, em relação à imagem, ou local, referentes às estruturas de interesse detectadas
pelo sistema.
A Tabela 2 define os atributos utilizados para realização da etapa de treinamento do
sistema. Esses atributos serão extraídos de cada região de interesse da imagem, onde
p(i,j) é o nível de cinza do pixel na posição (i,j) e, w e h são a largura e altura da
imagem.
Tabela 2. Atributos globais extraídos das imagens dos simuladores radiográficos
Atributo Média dos pixels da
imagem
Média do módulo da
diferença entre os pixels da
imagem e a média da imagem
Variância da imagem
Desvio
Padrão da
imagem
Moda dos pixels da imagem
Equação
w
i
h
j hw
jip
1 1 )*(
),(
w
i
h
j hw
jipx
1 1 )*(
),(
w
i
h
j hw
jipv
1 1
2
)*(
),(
v
Nível de cinza
mais frequente
em p(i,j)
Os filtros utilizados nas operações de correlação são compostos por duas partes,
região interna e região externa, ilustrados na Figura 7. A região interna procura casar
com o interior da estrutura, enquanto a região externa procura casar com o plano de
fundo.
16
Figura 7. Exemplo de filtro utilizado para detecção e classificação de uma estrutura circular da
imagem.
A Tabela 3 apresenta os atributos extraídos de cada estrutura também utilizados
na etapa de treinamento, onde pe(i,j) e pb(i,j) são os níveis de cinza dos pixels da região
interna (estrutura) e externa (plano de fundo) do filtro de tamanho w * h na posição (i,j)
da imagem.
Tabela 3. Atributos extraídos da imagem após a detecção das estruturas de interesse
Atributo Média dos pixels da
estrutura
Média dos pixels do
plano de fundo
Diferença das médias dos níveis de cinza dos pixels da estrutura e plano de
fundo
Razão de Weber (GONZALES; WOODS,
2002)
Equação
w
i
h
j
ee
hw
jip
1 1 )*(
),(
w
i
h
j
bb
hw
jip
1 1 )*(
),( Δµ = µe – µb
e
W
Para a definição de quais atributos serão utilizados para etapa de treinamento,
utilizou-se o seletor automático (AtributteSelection) implementado pela própria
ferramenta WEKA.
2.4.2 TREINAMENTO
A etapa de treinamento consiste em produzir, por intermédio do algoritmo J48
do pacote WEKA, um modelo de árvore de decisão para cada estrutura de interesse, que
permanecerá estático durante o processamento das imagens pelo sistema na etapa de
classificação.
Um total de 1200 estruturas foi extraído dessas imagens para treinamento,
contendo discos de baixo contraste, fibras, massas tumorais e microcalcificações. Essas
estruturas foram classificadas por especialistas de acordo com sua visibilidade, ou seja,
se são visíveis ou não. É importante destacar que os laudos das imagens foram
elaborados por dois ou mais técnicos especializados, de maneira a diminuir a
subjetividade da inspeção visual e aumentar a consistência do sistema.
Nessa etapa são criados os arquivos do formato padrão ARFF do WEKA, com
todos os dados de entrada citados anteriormente. Em seguida utiliza-se o algoritmo J48
presente no WEKA para gerar a árvore de decisão dos atributos do sistema para cada
estrutura de interesse.
17
2.4.3 CLASSIFICAÇÃO
É nesta etapa que são implementadas as árvores de decisão baseadas nos
modelos obtidos na etapa de treinamento utilizando o algoritmo J48.
Foram utilizadas 100 imagens de simulador radiográfico laudadas para
classificação, com um total de 2400 estruturas analisadas entre discos de baixo
contraste, fibras, massas tumorais e microcalcificações. É importante destacar que as
imagens processadas na etapa de classificação são distintas das de treinamento.
A partir da classificação dessas estruturas e por meio da comparação entre o
laudo do especialista e o laudo do software, é possível determinar medidas estatísticas
como acurácia e eficiência do sistema.
O comportamento do software é visualizado através de curvas ROC (Receiver
Operating Characteristic) para cada estrutura de interesse, em que são verificadas a
sensibilidade e a especificidade do sistema. Para a construção das curvas ROC o valor
do atributo Δµ foi alterado dentro de um certo intervalo, uma vez que este foi o atributo
de maior relevância nas etapas de treinamento de todas as estruturas de interesse.
18
3. RESULTADOS E DISCUSSÃO
A relação dos níveis de cinza e passos de exposição das densidades óticas de
fundo pode ser visualizada de acordo com a Figura 8. O melhor ajuste da curva
encontrado foi realizado por intermédio de uma função exponencial. Note que o
comportamento dos valores de densidades é inversamente proporcional aos valores em
níveis de cinza, ou seja, quanto maior os valores de densidades, menor será seu valor em
nível de cinza em escala exponencial.
Figura 8. (A) Curva característica das imagens de phantoms e (B) ajuste exponencial dos pontos
utilizados. f(x) = 0.84 + 10.11e-x/6384
A Figura 9 representa o resultado do espectro do sinal da DFT após a detecção
de da grade metálica com maior freqüência. É importante destacar que no domínio
espacial, mesmo com uma grande ampliação da imagem do simulador radiográfico, não
é possível visualizar a quantidade de pares de linhas por milímetro dessa grade (12
pl/mm).
Figura 9. (A) Representação do espectro da DFT de uma grade metálica e (B) mesma representação
com a detecção do ponto mais brilhante.
O método para detecção das grades metálicas utilizando a DFT mostrou-se
eficiente no reconhecimento da quantidade de pares de linhas por milímetro de cada
malha. Como o simulador radiográfico MAMA-CDM é produzido de maneira artesanal,
A B
A B
19
o espaçamento entre cada linha de grade pode variar. Contudo, independente da
inclinação das linhas de grade, é possível reconhecer cada malha com precisão.
Após a detecção do ponto brilhante de cada grade, é possível encontrar a
distância do mesmo em relação à origem da imagem. A Tabela 4 apresenta o resultado
da média das distâncias encontradas, definindo a quantidade de pares de linha por
milímetro das malhas metálicas. É importante destacar que o sistema é preciso e as
variações ocorrem devido à fabricação artesanal dos phantoms utilizados.
Tabela 4. Resultados para classificação das grades metálicas com relação a quantidade de pares de
linhas por milímetro de cada uma.
Grade
4pl/mm
Grade
6pl/mm
Grade
8pl/mm
Grade
12pl/mm
Média das distância do
ponto à origem da imagem 30,30 45,79 66,10 84,02
Variância 0,42 1,07 14,28 12,37
Desvio Padrão 0,65 1,03 3,77 3,52
Os resultados da classificação com o algoritmo J48 produziram as tabelas de
contingência (ou matrizes de confusão) para cada tipo de estrutura de interesse,
indicando as taxas de acerto da classificação. Essas medidas podem ser visualizadas
pela Tabela 5.
Tabela 5. Tabela de Contingência das (A) microcalcificações, (B) massas tumorais, (C) discos de
baixo contraste e (D) tecido fibroso
(A) (B) (C) (D)
Classificado pelo
Algoritmo J48
Classificado pelo
Algoritmo J48
Classificado pelo
Algoritmo J48
Classificado pelo
Algoritmo J48
Visível Não Visível Visível Não Visível Visível Não Visível Visível Não Visível
Cla
ssif
ica
do
pel
o
Esp
eci
ali
sta
Vis
ível
0,99 0,01 0,95 0,05 0,93 0,07 0,93 0,07
Não
Vis
ível
0,00 1,00 0,00 1,00 0,10 0,90 0,36 0,64
A Tabela 6 apresenta as taxas de acurácia, sensibilidade, especificidade,
eficiência, preditividade positiva e negativa, e coeficiente de matthews para a
classificação de cada estrutura de interesse.
20
Tabela 6. Medidas de eficácia do software para classificação das (A) microcalcificações, (B) massas
tumorais, (C) discos de baixo contraste e (D) tecido fibroso, por intermédio do algoritmo J48.
Medida (A) (B) (C) (D)
Acurácia 0,99 0,96 0,93 0,87
Sensibilidade 0,99 0,95 0,94 0,93
Especificidade 1,00 1,00 0,90 0,64
Eficiência 0,99 0,98 0,91 0,78
Preditividade Positiva 0,99 0,95 0,93 0,93
Preditividade Negativa 1,00 1,00 0,90 0,63
Coeficiente de Matthews (φ) 0,97 0,89 0,75 0,59
A Figura 10 permite observar o comportamento do sistema para a classificação
das estruturas através de curvas ROC.
Figura 10. Curvas ROC do algoritmo J48 para classificação do tecido fibroso (AUC = 0,79), discos
de baixo contraste (AUC = 0,92), massas tumorais (AUC = 0,96) e microcalcificações (AUC = 0,98).
A curva característica do phantom encontrada segue um comportamento
exponencial. Esse comportamento é coerente à função de ajuste utilizada, pois os
valores de densidade ótica de fundo são inversamente proporcionais aos valores de
níveis de cinza em escala exponencial. Com a utilização dessa função, é possível definir
os valores de densidade ótica de fundo de cada imagem do simulador mamográfico.
A Tabela 5 apresenta o percentual de acerto do sistema para cada estrutura de
interesse após a correlação entre a análise computacional e a inspeção visual dos
especialistas. Esse percentual foi obtido através da análise da eficiência (média
aritmética da sensibilidade e da especificidade) do sistema para cada estrutura.
21
Tabela 5. Percentual de acerto do sistema
Discos Massas Microcalcificações Fibras
91,47% 97,70% 99,41% 78,42%
A Figura 11 apresenta a marcação das estruturas efetuada pelo sistema em uma
imagem de phantom, com destaque para o grupo de microcalcificações detectado
corretamente mesmo com a presença de artefatos (Figura 12).
Figura 11. Imagem de phantom com todas as estruturas marcadas após o processamento.
Figura 12. (A) Grupo de microcalcificações com ruídos próximos antes do processamento e (B) o
mesmo grupo detectado corretamente após o processamento.
A B
22
4. CONCLUSÃO
As medidas estatísticas do software apresentadas na seção anterior sugerem que
a classificação das estruturas de interesse pelo sistema se aproxima da visão dos
especialistas da AGEVISA-PB.
A decisão a respeito da visibilidade das estruturas bem definidas, como discos de
baixo contraste, massas tumorais e microcalcificações, se torna mais fácil em relação
tecido fibroso. A menor taxa de acerto do sistema (78,42%) ocorreu na classificação das
fibras. Uma proposta a ser explorada em trabalhos futuros, com o objetivo de melhorar a
detecção e a classificação dessas estruturas, consiste na criação de um modelo de
decisão específico para as fibras que obtiveram altas taxas de falsos positivos. Assim, os
resultados para classificação dessas estruturas poderão ser melhorados.
Apesar do tamanho reduzido das estruturas que simulam microcalcificações e da
possibilidade de confusão com ruído, a classificação desses grupos representou a maior
taxa de acerto do sistema (99,41%) dentre as estruturas de interesse. Esses resultados
devem-se à redução nas dimensões das regiões de busca nas imagens de cada phantom.
Com os limites das regiões bem definidos, a probabilidade de detecção e classificação
de artefatos do filme radiográfico no lugar de microcalcificações é reduzida.
Com a implantação do sistema na AGEVISA-PB, prevista para os próximos
meses, espera-se que os especialistas se familiarizem com o software e utilizem o laudo
gerado pela análise computacional das imagens de phantom como auxílio na inspeção
visual. Dessa maneira, grande parte do processo para Controle de Qualidade em
Mamografia poderá ser automatizado e a subjetividade na avaliação das imagens poderá
ser reduzida. Após testes de usabilidade com especialistas e prováveis melhorias na
interface o sistema, poderá ser implantado nos estabelecimentos que oferecem serviços
de mamografia para que efetuem seu próprio controle de qualidade de maneira eficiente
e com a periodicidade adequada.
23
REFERÊNCIAS
BARBOSA FILHO, J. R. B. et al. “Segmentação Automática de Massas
Mamográficas por Intermédio do Crescimento de Regiões e Árvore de Decisão”. XXII
Congresso Brasileiro de Engenharia Biomédica (CBEB), 2010.
BYNG, J. W.; YAFFE, M. J.; LOCKWOOD, G. A.; LITTLE, L. E.; TRITCHLER,
D. L.; BOYD, N. F. “Automated analysis of mammographic densities and breast
carcinoma risk. Cancer”. 1997 Jul 1;80(1):66-74.
CALDAS, F. A. A. et al . Controle de qualidade e artefatos em mamografia. Radiol
Bras, São Paulo, v. 38, n. 4, Agosto, 2005.
CAMPOS, L. C. H. “Avaliações de qualidade aplicadas na comparação de sistemas
mamográficos digitais e convencionais”. Dissertação de Mestrado, Escola de
Engenharia de São Carlos, 2008.
CARVALHO, J. F. G.; SILVA, M. F. M. P.; LINS, M, F. B. P.; BARBOSA, H. T.
L.; SOUSA, J. B.; SILVA, P. R.; CAMINHA, F. T.; BULCAO, S. B.; MORAIS, M. I.
“AGEVISA-PB – Relatório Anual de Atividades 2006”
CBR - Colégio Brasileiro de Radiologia. Boletim do CBR nº 165, novembro 2001.
p. 21.
FRANK, E.; HALL, M.; TRIGG, L.; HOLMES, G.; WITTEN, I.H. “Data mining
in bioinformatics using Weka”. Bioinformatics, 20 (15), pp. 2479-2481, 2004.
GONGAZES, R.C., WOODS, R.E. “Digital Image Processing”, 2nd ed. Prentice
Hall, 2002.
INCA, “Câncer de Mama: Controle de Qualidade em Mamografia”. Disponível em:
<http://www2.inca.gov.br/wps/wcm/connect/cancermama/site/home/controle_qualidade
_mamografia/>. Acessado em: 16 de julho de 2011.
INCA, “Estimativa 2010: incidência de câncer no Brasil / Instituto Nacional de
Câncer”, ISBN 978-85-7318-161-6 (98), 2009.
MARTÍNEZ, E. H.; SANJURJO, R. L. “Minera de datos aplicada a la detección de
Cáncer de Mama”. Universidad Carlos III de Madrid, 2009.
MASCENA, E. N. “Análise Computacional de Imagens de Simuladores
Radiográficos de Mama. Dissertação de Mestrado, Universidade Federal da Paraíba,
2010.
MEDEIROS, R. B.; ELIAS, S. “Diagnóstico precoce e mamografia digital”. Rev.
imagem; 29(2): III-IV, abr.-jun. 2007.
24
OLIVEIRA JUNIOR, P. D., “Esquema computacional para avaliação automática de
parâmetros de qualidade de equipamentos mamográficos”. Dissertação de Mestrado,
Universidade Estadual de São Paulo, 2009.
PORTO, F. N. “Análise de Sensibilidade de um Sistema CAD para Mamografia
Digital”. Dissertação de Mestrado, Universidade Federal de Minas Gerais, 2010.
ROVEDA JUNIOR, D. et al . Valores preditivos das categorias 3, 4 e 5 do sistema
BI-RADS em lesões mamárias nodulares não-palpáveis avaliadas por mamografia,
ultra-sonografia e ressonância magnética. Radiol Bras, São Paulo, v. 40, n. 2, abr. 2007.
SOARES, F. A. P.; LOPES H. B. M. “Filme Radiográfico e Processamento: Curso
Técnico de Radiologia”. Florianópolis: CEFET/SC, 2001.
ZWEIG, M. H.; CAMPBELL, G. “Receiver-operating Carachteristic (ROC) plots:
a fundamental evaluation tool in clinical medicine”. Clinical Chemistry, v.39, n.4,
p.361-577, 1993.