Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento

Pablo Freire MatosRicardo Rodrigues Ciferri – Orientador (DC/UFSCar)Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP)

Metodologia de Pré-processamento Textual para

Extração de Informação sobre Efeitos de Doenças em

Artigos Científicos do Domínio Biomédico

Roteiro Introdução

Revisão Literária

Metodologia Proposta e Instanciação

Estudos de Caso

Conclusão

24/09/102/52

Contexto e Motivação

Quantidade imensa de

Informação disponível

Humanos não são capazes de assimilar todo esse conteúdo

Informação via e-mail, blogs, wikis, artigos... + de 80% das informações estão em formato de texto

Tan (1999) e Chen (2001)24/09/10

Gantz et al. (2007)

Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão

3/52

Contexto e Motivação PubMed

+ de 18 milhões de artigos (desde 1966) MEDLINE (área de ciências + biomedicina)

Entrez - Sistema integrado do NCBI 35 bases com 350 milhões de registros Sickle Cell Anemia

16.654 registros do PubMed (citações e resumos) 4.765 do PubMed Central (artigos completos)

24/09/104/52


Contexto e Motivação Infinidade de meios de publicação

American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine

Leva tempo para ler e identificar as principais

informações do artigo Inviável analisar toda

a literatura relevante manualmente

24/09/105/52


Contexto e Motivação Esses documentos estão em formato não estruturado

Há a necessidade de transformar esses dados de formato não estruturado para estruturado Objetivo: processo de descoberta de conhecimento

automático

24/09/106/52


Objetivo Propor uma metodologia de pré-

processamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico

A metodologia é composta por quatro etapas: Entrada de Dados (Etapa 1) Classificação de Sentenças (Etapa 2) Identificação de Termos Relevantes (Etapa 3) Gerenciamento de Termos (Etapa 4)

24/09/107/52


Hipóteses Hipótese 1: É possível usar abordagens de extração de informação

para identificar automaticamente termos relevantes do domínio biomédico com alta precisão e revocação

Hipótese 2: Extrair termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do seu resumo, permite obter uma maior quantidade de informação relevante

Hipótese 3: Uso de duas etapas separadas e consecutivas: Etapa 1: classificar as sentenças em classes de interesse. Etapa 2:

identificar e extrair termos apenas nas sentenças classificadas nestas classes de interesse

possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico

24/09/10

Todas as sentenças = +falsos positivos

Todas as seções = +falsos positivos

8/52


Mineração de Textos Extrair informações úteis em documentos no formato

textual não-estruturado através da identificação de conhecimento e exploração de padrões Hearst (1999)

24/09/10

Imamura (2001) Martins (2003)Feldman e Sanger (2007)

9/52


Abordagens para Extração de InformaçãoAbordagem Vantagem Desvantagem

Dicionário

•Casamento de padrão com informações armazenadas no dicionário

•Limitação de nomes•Variações de nome (baixa revocação)•Nomes curtos causam falsos positivos (diminui a precisão)

Regras

•Melhor precisão •Requer tempo•Restrito a um domínio•Exclui termos que não correspondem aos padrões predefinidos (diminui a revocação)

Aprendizado de Máquina

•Independência de domínio•Alto desempenho para predição

•Grande quantidade de dados de treinamento•Retreinamento após o advento de novos dados•Classificação é prejudicada com uma classe minoritária

24/09/1010/52


Trabalhos Correlatos – Resumos

24/09/1011/52


Trabalhos Correlatos – Artigos Completos

24/09/1012/52

1) Abordagem de AM:- Classificação de Sentenças

2) Artigos:- Algumas Seções


Metodologia Proposta para Extração de Informação no

Domínio Biomédico

24/09/1013/52


Etapa 1: Entrada de Dados

24/09/1014/52


Etapa 1: Entrada de Dados (1/2)

24/09/10

Formato TXT

Formato XML

15/52

Carosia e Ciferri (2010)


Etapa 1: Entrada de Dados (2/2)

24/09/10

Exemplo Formato XML

Exemplo Formato TXT

16/52


Etapa 2: Classificação de Sentenças

24/09/10

Seções processadas: Abstract, Results e Discussion

17/52


Etapa 2: Classificação de Sentenças (1/2)

Algoritmo de AM

Saída

Treinamento

Efeito Positivo

Efeito Negativo

Outros

Teste

Diversos arquivos com sentenças de efeito negativo

Diversos arquivos com sentenças de efeito positivo

Diversos arquivos com sentenças de outros

Novo textoTXT

Conjunto desentençasclassificadas em classes

Cla

sses

24/09/1018/52


Modelo Bag-of-words- Medida binária- Atributos: 1 a 3 gramas- Frequência mínima: 2


24/09/10

Algoritmo de AM

Efeito Negativo

Efeito Positivo

Outros

19/52


Ferramenta SCA-Classifier

24/09/10

API Weka

20/52


Etapa 3: Identificação de Termos Relevantes

24/09/1021/52


24/09/10

Banco de Dados Biomédico

Exemplo de Sentenças

Informação Relevante

Dicionário

Termo Variação

hemorrhagecentral nervous system hemorrhageintracranial hemorrhage

painpainful episodepain crisespain crisis

22/52


Remover Falso Positivo

24/09/10

Dicionário

Lista de Exclusão de Termo (LET): Termos substantivos, compostos e siglas do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento.

Lista de Exclusão de Palavra (LEP): Palavras comuns e gerais irrelevantes que não são do domínio biomédico e palavras irrelevantes do domínio biomédico que estão associadas a algum termo. LEP com 1000 palavras: http://www.bckelk.ukfsn.org/words/uk1000.html

23/52


http://www.bckelk.ukfsn.org/words/uk1000.html

Exemplo de Sentença Etiquetada

Part-Of-Speech (POS)

24/09/10

Regras

Etiquetador POS da Stanford: 96,86% - treinamento 86,91% - palavras novas

Padrão Tag: Penn Treebank

Exemplo de Sentença

padrão JJ_NN

24/52


Termos Relevantes Extraídos:

Expressão Composta

Verbo

Expressão Composta

Verbo

Expressão Composta

Verbo

Expressão Composta

Verbo

acute chest syndromescerebrovascular eventsosteonecrosis

mycoplasmaviral pneumoniapavovirus

1

24/09/10

Regras

Estratégia 1: Verbo e Expressão com POS

Palavra Etiquetada: III - irrelevante RRR - relevante

Exemplo

2

3

4

(JJ)?_NN_(of_IN)

25/52


Palavra Etiquetada: III - irrelevante RRR - relevante

Estratégia 2: POS

24/09/10

Regras

Como identificar termos nas sentenças que não contêm verbo e expressão composta

representativos?

26/52


Estratégia 2: POS

24/09/10

Regras

Termo na cor turquesa não selecionado pela Estratégia 1

27/52


Ferramenta SCA-Extractor

24/09/1028/52


Etapa 4: Gerenciamento de Termos

24/09/1029/52


Etapa 4: Gerenciamento de Termos

Quatro operações: Inserir novos termos Validar termos extraídos Mover termos extraídos Hierarquizar termos

24/09/1030/52


Estudos de Caso: Etapa 2 e Etapa 3

24/09/10

Classificação: Efeito Negativo, Efeito Positivo e OutrosExtração: Efeito Negativo

Classificação10-Fold Cross-Validation

Classificação e ExtraçãoHoldout (p = 2/3)

Sentenças Aleatórias

31/52

6 Algoritmos de AM-SVM e NB (Estatístico)-ID3 e J48 (Árvore de Decisão)-Prism e OneR (Regra)

3 Configurações para construir a MAV

-Sem Filtro-Balanceamento-Remoção de Ruído


Estudo de Caso (1):Classificação de Sentenças (Etapa 2)

24/09/1032/52


Estudo de Caso (1):Classificação de Sentenças (Etapa 2)

24/09/10

Medida com10-Fold Cross-Validation

Amostra601Melhor Índice

Acurácia SVM com Balanceamento 87,19%

Medida-F da classe Efeito Negativo SVM com Balanceamento 83,16%

Medida com Holdout Amostra300 Melhor Índice

Acurácia SVM com Balan. ou Rem. 62,33%

Medida-F da classe Efeito Negativo SVM com Remoção de Ruído 71,81%

33/52


Estudo de Caso (2):Identificação de Termos Relevantes (Etapa 3)

24/09/10

Classificação ManualExtração Fictícia

Classificação AutomáticaExtração Real

Matriz de Confusão: Holdout Amostra300

Prec Rev Med-F

73% 71% 71,81%

34/52


Nomenclatura dos Termos Extraídos

24/09/10

Verdadeiro Positivo Termo Real Termo Extraído

Termo Completo respiratory failure respiratory failure

Termo Parcial acute hepatic sequestration hepatic sequestration

Termo Adicional chronic lung diseaseresultant chronic lung disease

Falso Positivo Exemplo

Termo que foi extraído, mas que não deveria ser extraído hydroxyurea therapy

Falso Negativo Exemplo

Termo que deveria ser extraído, mas que não foi extraído thrombocytopenia

35/52


Classificação Manual e Extração Fictícia

24/09/10

Extração Fictícia36/52


Classificação Automática e Extração Real

24/09/10

Extração Real

37/52


Extração Fictícia versus Extração Real

24/09/10

Regra e Dicionário

38/52


Estudo de Caso (2):Identificação de Termos Relevantes (Etapa 3)

24/09/10

Classificação ManualExtração Fictícia

Classificação AutomáticaExtração Real

Matriz de Confusão: Holdout Amostra300

39/52

Prec Rev Med-F

73% 71% 71,81%


Conclusão Abordagens de extração de informação auxiliam na

identificação automaticamente de termos relevantes do domínio biomédico com alta precisão e revocação

Extração de termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do resumo, permite obter uma maior quantidade de informação relevante

Uso de duas etapas separadas e consecutivas possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico

24/09/1040/52

Hipótese 2Algumas seções = -falsos positivos

Hipótese 3Algumas sentenças = -falsos positivos

Hipótese 1


Contribuições Contribuição teórica

Metodologia de extração de informação Amostra300: Extração de Informação Real: Medida-F de 80,43% Classificação Automática: Medida-F de 71,81%

Contribuições práticas Criação e disponibilização de recursos: coleção de

documentos, dicionário e base de regras Criação e disponibilização de ferramentas:

Classificador de Sentenças (SCA-Classifier) Extrator de Informação (SCA-Extractor) Gerenciador de Termos (SCA-TermManager)

24/09/1041/52


Trabalhos Futuros (1/2)

24/09/10

Criação de uma coleção de documentos anotada

42/52


Trabalhos Futuros (2/2) Investigação do uso da metodologia na identificação

de outros termos: tratamento e fator de risco

Instanciação da metodologia para identificar efeitos de outras doenças: câncer, mal de Alzheimer, mal de Parkinson e glaucoma

Investigação da aplicação da metodologia em outros domínios além do domínio biomédico: erupção de vulcão e poluição ambiental

Utilizar análise semântica para identificar termos que estão implícitos nas sentenças: Sentença com termo implícito: “The recent availability of an oral iron

chelator may render prolonged transfusion more acceptable.”24/09/10

43/52


Produção Científica (1/2)

MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Metodologia de pré-processamento textual para extração de informação em artigos científicos do domínio biomédico. In: WORKSHOP DE TESES E DISSERTAÇÕES EM BANCOS DE DADOS, VIII, 2009, Fortaleza, Ceará. Anais... Simpósio Brasileiro de Banco de Dados, 2009. p. 7-12.

24/09/10

Qualis B3

Evento Nacional

44/52


Produção Científica (2/2) MATOS, P. F.; LOMBARDI, L. O.; PARDO, T. A. S; CIFERRI, C. D. A. ;

VIEIRA, M. T. P.; CIFERRI, R. R. An environment for data analysis in biomedical domain: information extraction for decision support systems. In: GARCÍA-PEDRAJAS, N. et al. (Ed.). International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems (IEA-AIE). 23th. Heidelberg: Springer, 2010. p. 306-316. (Lecture Notes in Computer Science; v. 6096).

24/09/10

Evento Internacional

Qualis B3

45/52


Produção Técnica (1/2)Pôster e Relatório Técnico MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Methodology of textual preprocessing

for information extraction in scientific papers of the biomedical domain. In: WORKSHOP DE PÓS-GRADUAÇÃO SEMANA DE COMPUTAÇÃO, 3º, 2010, São Carlos. Anais... UFSCar, 2010. Pôster.

MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Conceitos sobre Aprendizado de Máquina". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 23.

MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Métricas de Avaliação". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 15.

PINTO, A. C. S.; MATOS, P. F.; PERLIN, C. B.; ANDRADE, C. G.; CAROSIA, A. E. O.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Technical Report "Sickle Cell Anemia". São Carlos: Department of Computer Science, Federal University of São Carlos, 2009. p. 16.

24/09/1046/52


Produção Técnica (2/2) Softwares MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-TermManager: a tool

from the biomedical domain to assist the expert in term management. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-TermManager.rar>. Acesso em: 30 ago. 2010.

MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Extractor: a tool for information extraction in scientific papers of the biomedical domain. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-Extractor.rar>. Acesso em: 30 ago. 2010.

MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Classifier: a tool for sentence classification in scientific papers of the biomedical domain. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-Classifier.rar>. Acesso em: 30 ago. 2010.

24/09/1047/52


http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-TermManager.rar

http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-TermManager.rar

http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-Extractor.rar

http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-Extractor.rar

http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-Classifier.rar

http://gbd.dc.ufscar.br/~pablofmatos/files/SCA-Classifier.rar

Agradecimentos

Idealizador do projeto Anemia Falciforme Médico Dr. Marco Antonio Zago

Especialista do Domínio Médica Drª. Ana Cristina Silva Pinto

24/09/1048/52

Referências Citadas na Apresentação (1/3) BREMER, E. G. et al. Text mining of full text articles and creation of a

knowledge base for analysis of microarray data. In: LÓPEZ, J. A.; BENFENATI, E.; DUBITZKY, W. (Ed.). Knowledge Exploration in Life Science Informatics (KELSI). Heidelberg: Springer, 2004. p. 84-95. (Lecture Notes in Computer Science; v. 3303).

CAROSIA, A. E. O.; CIFERRI, C. D. A. Ferramenta SCDtRanslator: conversão do formato PDF para o formato XML aplicada ao domínio de artigos médicos sobre a Doença Anemia Falciforme. São Carlos: Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, 2010. p. 40.

CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, 2001. 50 p.

CORNEY, D. P. A. et al. BioRAT: extracting biological information from full-length papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004.

FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, 2007. 391 p.

24/09/1049/52

Referências Citadas na Apresentação (2/3) GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide

information growth through 2010. IDC Whitepaper, 2007.

HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999. p. 3-10.

GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, 2009. Suppl. 2.

IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2001.

MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003.

24/09/1050/52

Referências Citadas na Apresentação (3/3) SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts

and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.

_______. Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p. 316-324, 2007.

TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76.

TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a.

_______. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13.

24/09/1051/52

Pablo Freire MatosRicardo Rodrigues Ciferri – Orientador (DC/UFSCar)Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP)

Metodologia de Pré-processamento Textual para

Extração de Informação sobre Efeitos de Doenças em

Artigos Científicos do Domínio Biomédico

Padrão POS: Estratégia 1

Número Padrão

1.0¹ (JJ_JJ_NN_NN_(NN)?)

1.1¹ (~JJ)_(JJ_NN_NN_(NN)?)

1.2¹ (JJ_JJ_NN)_(~NN)

1.3 (~JJ)_(JJ_NN)_(~NN)

1.4 ((~NN)&(~JJ))_(NN_NN)_( (~NN)&(~JJ))

1.5 (~JJ)_(JJ_NN)_(IN_NN_NN_NN)

¹ Padrão também utilizado na Estratégia 2.

24/09/1053/52

Padrão POS: Estratégia 2

Número Padrão

1.0¹ (JJ_JJ_NN_NN_(NN)?)

1.1¹ (~JJ)_(JJ_NN_NN_(NN)?)

1.2¹ (JJ_JJ_NN)_(~NN)

2.0 (~JJ)_(JJ_NN_IN_JJ_NN)_(~NN)

2.1 ((~JJ)_NN_IN)_(JJ_NN)_(~NN)

3.0 (~JJ)_(JJ_NN)_(IN_NN_NN_NN)

3.1 (~JJ)_(JJ_NN_IN_NN_NN)_(~NN)

3.2 ((~JJ)_JJ_NN_IN)_(NN)_(~NN)

¹ Padrão também utilizado na Estratégia 1.

24/09/1054/52

Baseline nas 131 Sentenças

24/09/10

Verdadeiros Positivos

Falsos Positivos

55/52

Baseline nas 128 Sentenças

24/09/10


Falsos Positivos

56/52

Regra e Dicionários nas 131 Sentenças

24/09/10


Falsos Positivos

57/52

Regra e Dicionários nas 128 Sentenças

24/09/10


Falsos Positivos

58/52

Trabalhos Futuros (3/3) Distinção dos termos extraídos Hierarquização dos termos extraídos:

parvovirus infection e infection

24/09/10

Banco de Dados Biomédico

59/52

Estudos de Caso - Considerações

24/09/10

Erro do etiquetador

1. Splenomegaly classificado como advérbio

2. Parvovirus classificado como verbo

60/52

Estudo de Caso (1):Classificação de Sentenças

24/09/10

Método de Particionamento: 10-Fold Cross-Validation

61/52

Experimento 1: Fases de Treinamento e de Teste

24/09/1062/52

Experimento 1: Fases de Treinamento e de Teste

24/09/1063/52

Experimento 2: Fase de Uso do Modelo de Classificação

24/09/10

Método de Particionamento: Holdout (p = 2/3)

64/52


24/09/1065/52


24/09/1066/52

LET¹

Outros

blood case cohort criteria

doppler dose period study

transcranial velocities velocity

24/09/10

¹ Termos substantivos (e.g., dose, period, cohort, criteria), compostos (e.g., sickle cell disease, sickle cell anemia) e siglas (e.g., hb, scd, tcd) do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento.

Tratamento

bronchoscopy hydroxyurea transfusion transplantation

Sigla

hb scd tcd

marrow e treatment não são LET:marrow depressiontreatment failure

Doença

sickle cell disease sickle cell anemia

67/52

Eliminar Termo com LET

24/09/10

Exemplos de Sentenças que utilizam da LET

LET

68/52

LEP¹

LEP

complication different episode history

multiple ongoing other patient

patient-year previous primary recurrence

recurrent repeated risk secondary

treatment underlying

24/09/10

¹ Palavras comuns e gerais irrelevantes que não são do domínio biomédico (e.g, other, different, underlying) e palavras irrelevantes do domínio biomédico que estão associadas a algum termo (e.g., painful episodes, recurrent splenic sequestration, stroke risk, primary stroke, multiple vaso-occlusive).

treatment está sendo uma LEP:year of treatment (VN)chooosing treatment (FP)

LEP com 1000 palavras:- http://www.bckelk.ukfsn.org/words/uk1000.html

69/52

http://www.bckelk.ukfsn.org/words/uk1000.html

LEP: Padrão (JJ)?_NN_(of_IN)

NN_(of_IN)

analysis of chance of episode of finding of

frequency of history of rate of years of

patient-years of

24/09/10

JJ_NN_(of_IN)

fatal episode of first occurrence of high risk of previous history of

past history of

Objetivo: Aumentar a lista LEP com os substantivos (e.g., analysis, chance, episode, finding, frequency, history, rate, years, patient-years, occurrence, risk, history)

70/52

LEPLEP

24/09/10

Identificar Falso Positivo

Remover Falso Positivo presente na LEP

71/52

Motivação

Localização no documento (%)Nº

de r

egis

tros

enc

ontr

ados

Schuemie et al. (2004)

Gene e Proteína

Corney et al. (2004)

24/09/10

Por que extrair informação de artigos completos?

Benefícios + da metade da informação

encontra-se no corpo do artigo + seção + informação a ser extraída

Problemas Conversão formato + tempo de processamento copyright

72/52


24/09/10

Processo de Classificação de Sentenças Supervisionado

73/52

Classificação Manual e Extração Fictícia

24/09/10Extração Fictícia

74/52

Classificação Automática e Extração Real

24/09/10

Extração Real

75/52

Extração Fictícia versus Extração Real

24/09/10

Dicionário

76/52

Documents

Pablo Freire Matos Ricardo Rodrigues Ciferri – Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo – Coorientador (ICMC/USP) Metodologia de Pré-processamento