Upload
internet
View
141
Download
36
Embed Size (px)
Citation preview
Pablo Freire MatosRicardo Rodrigues Ciferri – Orientador (DC/UFSCar)Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP)
Metodologia de Pré-processamento Textual para
Extração de Informação sobre Efeitos de Doenças em
Artigos Científicos do Domínio Biomédico
Roteiro Introdução
Revisão Literária
Metodologia Proposta e Instanciação
Estudos de Caso
Conclusão
24/09/102/52
Contexto e Motivação
Quantidade imensa de
Informação disponível
Humanos não são capazes de assimilar todo esse conteúdo
Informação via e-mail, blogs, wikis, artigos... + de 80% das informações estão em formato de texto
Tan (1999) e Chen (2001)24/09/10
Gantz et al. (2007)
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
3/52
Contexto e Motivação PubMed
+ de 18 milhões de artigos (desde 1966) MEDLINE (área de ciências + biomedicina)
Entrez - Sistema integrado do NCBI 35 bases com 350 milhões de registros Sickle Cell Anemia
16.654 registros do PubMed (citações e resumos) 4.765 do PubMed Central (artigos completos)
24/09/104/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Contexto e Motivação Infinidade de meios de publicação
American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine
Leva tempo para ler e identificar as principais
informações do artigo Inviável analisar toda
a literatura relevante manualmente
24/09/105/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Contexto e Motivação Esses documentos estão em formato não estruturado
Há a necessidade de transformar esses dados de formato não estruturado para estruturado Objetivo: processo de descoberta de conhecimento
automático
24/09/106/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Objetivo Propor uma metodologia de pré-
processamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico
A metodologia é composta por quatro etapas: Entrada de Dados (Etapa 1) Classificação de Sentenças (Etapa 2) Identificação de Termos Relevantes (Etapa 3) Gerenciamento de Termos (Etapa 4)
24/09/107/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Hipóteses Hipótese 1: É possível usar abordagens de extração de informação
para identificar automaticamente termos relevantes do domínio biomédico com alta precisão e revocação
Hipótese 2: Extrair termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do seu resumo, permite obter uma maior quantidade de informação relevante
Hipótese 3: Uso de duas etapas separadas e consecutivas: Etapa 1: classificar as sentenças em classes de interesse. Etapa 2:
identificar e extrair termos apenas nas sentenças classificadas nestas classes de interesse
possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico
24/09/10
Todas as sentenças = +falsos positivos
Todas as seções = +falsos positivos
8/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Mineração de Textos Extrair informações úteis em documentos no formato
textual não-estruturado através da identificação de conhecimento e exploração de padrões Hearst (1999)
24/09/10
Imamura (2001) Martins (2003)Feldman e Sanger (2007)
9/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Abordagens para Extração de InformaçãoAbordagem Vantagem Desvantagem
Dicionário
•Casamento de padrão com informações armazenadas no dicionário
•Limitação de nomes•Variações de nome (baixa revocação)•Nomes curtos causam falsos positivos (diminui a precisão)
Regras
•Melhor precisão •Requer tempo•Restrito a um domínio•Exclui termos que não correspondem aos padrões predefinidos (diminui a revocação)
Aprendizado de Máquina
•Independência de domínio•Alto desempenho para predição
•Grande quantidade de dados de treinamento•Retreinamento após o advento de novos dados•Classificação é prejudicada com uma classe minoritária
24/09/1010/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Trabalhos Correlatos – Resumos
24/09/1011/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Trabalhos Correlatos – Artigos Completos
24/09/1012/52
1) Abordagem de AM:- Classificação de Sentenças
2) Artigos:- Algumas Seções
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Metodologia Proposta para Extração de Informação no
Domínio Biomédico
24/09/1013/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 1: Entrada de Dados
24/09/1014/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 1: Entrada de Dados (1/2)
24/09/10
Formato TXT
Formato XML
15/52
Carosia e Ciferri (2010)
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 1: Entrada de Dados (2/2)
24/09/10
Exemplo Formato XML
Exemplo Formato TXT
16/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 2: Classificação de Sentenças
24/09/10
Seções processadas: Abstract, Results e Discussion
17/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 2: Classificação de Sentenças (1/2)
Algoritmo de AM
Saída
Treinamento
Efeito Positivo
Efeito Negativo
Outros
Teste
Diversos arquivos com sentenças de efeito negativo
Diversos arquivos com sentenças de efeito positivo
Diversos arquivos com sentenças de outros
Novo textoTXT
Conjunto desentençasclassificadas em classes
Cla
sses
24/09/1018/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Modelo Bag-of-words- Medida binária- Atributos: 1 a 3 gramas- Frequência mínima: 2
Etapa 2: Classificação de Sentenças (2/2)
24/09/10
Algoritmo de AM
Efeito Negativo
Efeito Positivo
Outros
19/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Ferramenta SCA-Classifier
24/09/10
API Weka
20/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 3: Identificação de Termos Relevantes
24/09/1021/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
24/09/10
Banco de Dados Biomédico
Exemplo de Sentenças
Informação Relevante
Dicionário
Termo Variação
hemorrhagecentral nervous system hemorrhageintracranial hemorrhage
painpainful episodepain crisespain crisis
22/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Remover Falso Positivo
24/09/10
Dicionário
Lista de Exclusão de Termo (LET): Termos substantivos, compostos e siglas do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento.
Lista de Exclusão de Palavra (LEP): Palavras comuns e gerais irrelevantes que não são do domínio biomédico e palavras irrelevantes do domínio biomédico que estão associadas a algum termo. LEP com 1000 palavras: http://www.bckelk.ukfsn.org/words/uk1000.html
23/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Exemplo de Sentença Etiquetada
Part-Of-Speech (POS)
24/09/10
Regras
Etiquetador POS da Stanford: 96,86% - treinamento 86,91% - palavras novas
Padrão Tag: Penn Treebank
Exemplo de Sentença
padrão JJ_NN
24/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Termos Relevantes Extraídos:
Expressão Composta
Verbo
Expressão Composta
Verbo
Expressão Composta
Verbo
Expressão Composta
Verbo
acute chest syndromescerebrovascular eventsosteonecrosis
mycoplasmaviral pneumoniapavovirus
1
24/09/10
Regras
Estratégia 1: Verbo e Expressão com POS
Palavra Etiquetada: III - irrelevante RRR - relevante
Exemplo
2
3
4
(JJ)?_NN_(of_IN)
25/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Palavra Etiquetada: III - irrelevante RRR - relevante
Estratégia 2: POS
24/09/10
Regras
Como identificar termos nas sentenças que não contêm verbo e expressão composta
representativos?
26/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estratégia 2: POS
24/09/10
Regras
Termo na cor turquesa não selecionado pela Estratégia 1
27/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Ferramenta SCA-Extractor
24/09/1028/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 4: Gerenciamento de Termos
24/09/1029/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Etapa 4: Gerenciamento de Termos
Quatro operações: Inserir novos termos Validar termos extraídos Mover termos extraídos Hierarquizar termos
24/09/1030/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estudos de Caso: Etapa 2 e Etapa 3
24/09/10
Classificação: Efeito Negativo, Efeito Positivo e OutrosExtração: Efeito Negativo
Classificação10-Fold Cross-Validation
Classificação e ExtraçãoHoldout (p = 2/3)
Sentenças Aleatórias
31/52
6 Algoritmos de AM-SVM e NB (Estatístico)-ID3 e J48 (Árvore de Decisão)-Prism e OneR (Regra)
3 Configurações para construir a MAV
-Sem Filtro-Balanceamento-Remoção de Ruído
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estudo de Caso (1):Classificação de Sentenças (Etapa 2)
24/09/1032/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estudo de Caso (1):Classificação de Sentenças (Etapa 2)
24/09/10
Medida com10-Fold Cross-Validation
Amostra601Melhor Índice
Acurácia SVM com Balanceamento 87,19%
Medida-F da classe Efeito Negativo SVM com Balanceamento 83,16%
Medida com Holdout Amostra300 Melhor Índice
Acurácia SVM com Balan. ou Rem. 62,33%
Medida-F da classe Efeito Negativo SVM com Remoção de Ruído 71,81%
33/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estudo de Caso (2):Identificação de Termos Relevantes (Etapa 3)
24/09/10
Classificação ManualExtração Fictícia
Classificação AutomáticaExtração Real
Matriz de Confusão: Holdout Amostra300
Prec Rev Med-F
73% 71% 71,81%
34/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Nomenclatura dos Termos Extraídos
24/09/10
Verdadeiro Positivo Termo Real Termo Extraído
Termo Completo respiratory failure respiratory failure
Termo Parcial acute hepatic sequestration hepatic sequestration
Termo Adicional chronic lung diseaseresultant chronic lung disease
Falso Positivo Exemplo
Termo que foi extraído, mas que não deveria ser extraído hydroxyurea therapy
Falso Negativo Exemplo
Termo que deveria ser extraído, mas que não foi extraído thrombocytopenia
35/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Classificação Manual e Extração Fictícia
24/09/10
Extração Fictícia36/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Classificação Automática e Extração Real
24/09/10
Extração Real
37/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Extração Fictícia versus Extração Real
24/09/10
Regra e Dicionário
38/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Estudo de Caso (2):Identificação de Termos Relevantes (Etapa 3)
24/09/10
Classificação ManualExtração Fictícia
Classificação AutomáticaExtração Real
Matriz de Confusão: Holdout Amostra300
39/52
Prec Rev Med-F
73% 71% 71,81%
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Conclusão Abordagens de extração de informação auxiliam na
identificação automaticamente de termos relevantes do domínio biomédico com alta precisão e revocação
Extração de termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do resumo, permite obter uma maior quantidade de informação relevante
Uso de duas etapas separadas e consecutivas possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico
24/09/1040/52
Hipótese 2Algumas seções = -falsos positivos
Hipótese 3Algumas sentenças = -falsos positivos
Hipótese 1
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Contribuições Contribuição teórica
Metodologia de extração de informação Amostra300: Extração de Informação Real: Medida-F de 80,43% Classificação Automática: Medida-F de 71,81%
Contribuições práticas Criação e disponibilização de recursos: coleção de
documentos, dicionário e base de regras Criação e disponibilização de ferramentas:
Classificador de Sentenças (SCA-Classifier) Extrator de Informação (SCA-Extractor) Gerenciador de Termos (SCA-TermManager)
24/09/1041/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Trabalhos Futuros (1/2)
24/09/10
Criação de uma coleção de documentos anotada
42/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Trabalhos Futuros (2/2) Investigação do uso da metodologia na identificação
de outros termos: tratamento e fator de risco
Instanciação da metodologia para identificar efeitos de outras doenças: câncer, mal de Alzheimer, mal de Parkinson e glaucoma
Investigação da aplicação da metodologia em outros domínios além do domínio biomédico: erupção de vulcão e poluição ambiental
Utilizar análise semântica para identificar termos que estão implícitos nas sentenças: Sentença com termo implícito: “The recent availability of an oral iron
chelator may render prolonged transfusion more acceptable.”24/09/10
43/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Produção Científica (1/2)
MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Metodologia de pré-processamento textual para extração de informação em artigos científicos do domínio biomédico. In: WORKSHOP DE TESES E DISSERTAÇÕES EM BANCOS DE DADOS, VIII, 2009, Fortaleza, Ceará. Anais... Simpósio Brasileiro de Banco de Dados, 2009. p. 7-12.
24/09/10
Qualis B3
Evento Nacional
44/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Produção Científica (2/2) MATOS, P. F.; LOMBARDI, L. O.; PARDO, T. A. S; CIFERRI, C. D. A. ;
VIEIRA, M. T. P.; CIFERRI, R. R. An environment for data analysis in biomedical domain: information extraction for decision support systems. In: GARCÍA-PEDRAJAS, N. et al. (Ed.). International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems (IEA-AIE). 23th. Heidelberg: Springer, 2010. p. 306-316. (Lecture Notes in Computer Science; v. 6096).
24/09/10
Evento Internacional
Qualis B3
45/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Produção Técnica (1/2)Pôster e Relatório Técnico MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Methodology of textual preprocessing
for information extraction in scientific papers of the biomedical domain. In: WORKSHOP DE PÓS-GRADUAÇÃO SEMANA DE COMPUTAÇÃO, 3º, 2010, São Carlos. Anais... UFSCar, 2010. Pôster.
MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Conceitos sobre Aprendizado de Máquina". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 23.
MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Métricas de Avaliação". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 15.
PINTO, A. C. S.; MATOS, P. F.; PERLIN, C. B.; ANDRADE, C. G.; CAROSIA, A. E. O.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Technical Report "Sickle Cell Anemia". São Carlos: Department of Computer Science, Federal University of São Carlos, 2009. p. 16.
24/09/1046/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Produção Técnica (2/2) Softwares MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-TermManager: a tool
from the biomedical domain to assist the expert in term management. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-TermManager.rar>. Acesso em: 30 ago. 2010.
MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Extractor: a tool for information extraction in scientific papers of the biomedical domain. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-Extractor.rar>. Acesso em: 30 ago. 2010.
MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Classifier: a tool for sentence classification in scientific papers of the biomedical domain. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-Classifier.rar>. Acesso em: 30 ago. 2010.
24/09/1047/52
Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão
Agradecimentos
Idealizador do projeto Anemia Falciforme Médico Dr. Marco Antonio Zago
Especialista do Domínio Médica Drª. Ana Cristina Silva Pinto
24/09/1048/52
Referências Citadas na Apresentação (1/3) BREMER, E. G. et al. Text mining of full text articles and creation of a
knowledge base for analysis of microarray data. In: LÓPEZ, J. A.; BENFENATI, E.; DUBITZKY, W. (Ed.). Knowledge Exploration in Life Science Informatics (KELSI). Heidelberg: Springer, 2004. p. 84-95. (Lecture Notes in Computer Science; v. 3303).
CAROSIA, A. E. O.; CIFERRI, C. D. A. Ferramenta SCDtRanslator: conversão do formato PDF para o formato XML aplicada ao domínio de artigos médicos sobre a Doença Anemia Falciforme. São Carlos: Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, 2010. p. 40.
CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, 2001. 50 p.
CORNEY, D. P. A. et al. BioRAT: extracting biological information from full-length papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004.
FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, 2007. 391 p.
24/09/1049/52
Referências Citadas na Apresentação (2/3) GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide
information growth through 2010. IDC Whitepaper, 2007.
HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999. p. 3-10.
GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, 2009. Suppl. 2.
IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2001.
MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003.
24/09/1050/52
Referências Citadas na Apresentação (3/3) SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts
and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.
_______. Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p. 316-324, 2007.
TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76.
TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a.
_______. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13.
24/09/1051/52
Pablo Freire MatosRicardo Rodrigues Ciferri – Orientador (DC/UFSCar)Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP)
Metodologia de Pré-processamento Textual para
Extração de Informação sobre Efeitos de Doenças em
Artigos Científicos do Domínio Biomédico
Padrão POS: Estratégia 1
Número Padrão
1.0¹ (JJ_JJ_NN_NN_(NN)?)
1.1¹ (~JJ)_(JJ_NN_NN_(NN)?)
1.2¹ (JJ_JJ_NN)_(~NN)
1.3 (~JJ)_(JJ_NN)_(~NN)
1.4 ((~NN)&(~JJ))_(NN_NN)_( (~NN)&(~JJ))
1.5 (~JJ)_(JJ_NN)_(IN_NN_NN_NN)
¹ Padrão também utilizado na Estratégia 2.
24/09/1053/52
Padrão POS: Estratégia 2
Número Padrão
1.0¹ (JJ_JJ_NN_NN_(NN)?)
1.1¹ (~JJ)_(JJ_NN_NN_(NN)?)
1.2¹ (JJ_JJ_NN)_(~NN)
2.0 (~JJ)_(JJ_NN_IN_JJ_NN)_(~NN)
2.1 ((~JJ)_NN_IN)_(JJ_NN)_(~NN)
3.0 (~JJ)_(JJ_NN)_(IN_NN_NN_NN)
3.1 (~JJ)_(JJ_NN_IN_NN_NN)_(~NN)
3.2 ((~JJ)_JJ_NN_IN)_(NN)_(~NN)
¹ Padrão também utilizado na Estratégia 1.
24/09/1054/52
Baseline nas 131 Sentenças
24/09/10
Verdadeiros Positivos
Falsos Positivos
55/52
Baseline nas 128 Sentenças
24/09/10
Verdadeiros Positivos
Falsos Positivos
56/52
Regra e Dicionários nas 131 Sentenças
24/09/10
Verdadeiros Positivos
Falsos Positivos
57/52
Regra e Dicionários nas 128 Sentenças
24/09/10
Verdadeiros Positivos
Falsos Positivos
58/52
Trabalhos Futuros (3/3) Distinção dos termos extraídos Hierarquização dos termos extraídos:
parvovirus infection e infection
24/09/10
Banco de Dados Biomédico
59/52
Estudos de Caso - Considerações
24/09/10
Erro do etiquetador
1. Splenomegaly classificado como advérbio
2. Parvovirus classificado como verbo
60/52
Estudo de Caso (1):Classificação de Sentenças
24/09/10
Método de Particionamento: 10-Fold Cross-Validation
61/52
Experimento 1: Fases de Treinamento e de Teste
24/09/1062/52
Experimento 1: Fases de Treinamento e de Teste
24/09/1063/52
Experimento 2: Fase de Uso do Modelo de Classificação
24/09/10
Método de Particionamento: Holdout (p = 2/3)
64/52
Experimento 2: Fase de Uso do Modelo de Classificação
24/09/1065/52
Experimento 2: Fase de Uso do Modelo de Classificação
24/09/1066/52
LET¹
Outros
blood case cohort criteria
doppler dose period study
transcranial velocities velocity
24/09/10
¹ Termos substantivos (e.g., dose, period, cohort, criteria), compostos (e.g., sickle cell disease, sickle cell anemia) e siglas (e.g., hb, scd, tcd) do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento.
Tratamento
bronchoscopy hydroxyurea transfusion transplantation
Sigla
hb scd tcd
marrow e treatment não são LET:marrow depressiontreatment failure
Doença
sickle cell disease sickle cell anemia
67/52
Eliminar Termo com LET
24/09/10
Exemplos de Sentenças que utilizam da LET
LET
68/52
LEP¹
LEP
complication different episode history
multiple ongoing other patient
patient-year previous primary recurrence
recurrent repeated risk secondary
treatment underlying
24/09/10
¹ Palavras comuns e gerais irrelevantes que não são do domínio biomédico (e.g, other, different, underlying) e palavras irrelevantes do domínio biomédico que estão associadas a algum termo (e.g., painful episodes, recurrent splenic sequestration, stroke risk, primary stroke, multiple vaso-occlusive).
treatment está sendo uma LEP:year of treatment (VN)chooosing treatment (FP)
LEP com 1000 palavras:- http://www.bckelk.ukfsn.org/words/uk1000.html
69/52
LEP: Padrão (JJ)?_NN_(of_IN)
NN_(of_IN)
analysis of chance of episode of finding of
frequency of history of rate of years of
patient-years of
24/09/10
JJ_NN_(of_IN)
fatal episode of first occurrence of high risk of previous history of
past history of
Objetivo: Aumentar a lista LEP com os substantivos (e.g., analysis, chance, episode, finding, frequency, history, rate, years, patient-years, occurrence, risk, history)
70/52
LEPLEP
24/09/10
Identificar Falso Positivo
Remover Falso Positivo presente na LEP
71/52
Motivação
Localização no documento (%)Nº
de r
egis
tros
enc
ontr
ados
Schuemie et al. (2004)
Gene e Proteína
Corney et al. (2004)
24/09/10
Por que extrair informação de artigos completos?
Benefícios + da metade da informação
encontra-se no corpo do artigo + seção + informação a ser extraída
Problemas Conversão formato + tempo de processamento copyright
72/52
Etapa 2: Classificação de Sentenças (3/3)
24/09/10
Processo de Classificação de Sentenças Supervisionado
73/52
Classificação Manual e Extração Fictícia
24/09/10Extração Fictícia
74/52
Classificação Automática e Extração Real
24/09/10
Extração Real
75/52
Extração Fictícia versus Extração Real
24/09/10
Dicionário
76/52