Upload
internet
View
106
Download
1
Embed Size (px)
Citation preview
Extração Automática de Candidatos a Termos:
Uma visão geral sobre os termos e a extração automática
Leandro HenriqueNILC-ICMC/USP & EMBRAPA
Abril 2009
Roteiro
Um pouco de Terminologia
Um breve histórico
Termos e Terminologia
O que é um Termo?
Dimensões dos Termos
Extração Automática de Candidatos a Termos
O reconhecimento terminológico
Método Estatístico
Método Linguístico
Método Híbrido
NSP – N-Gram Statistic Package
Conclusão
Um pouco de Terminologia
Breve Histórico (1) Subárea do Curso de Letras
Não existe curso de Terminologia
É uma área Aplicada e Teórica Aplicada: mais antiga, ligada aos saberes técnicos e científicos (séc. XVII)
Vocabulários específicos e nomenclaturas técnico-científicas
Teórica: mais recente, estudos dos termos nas comunicações especializadas
(séc. XX) Formação dos termos técnico-científicos
Demarcação do Léxico Geral e Léxico das Ciências
Terminologia nos aspectos Disciplinar, Social e Político
Um pouco de Terminologia
Breve Histórico (2) A Terminologia:
estuda os Léxicos Especializados
relação direta com os avanços da ciência
denominações das novas descobertas e invenções do homem
relação com a Globalização agente de intercâmbios culturais, científicos e tecnológicos
tradução e uso correto dos termos
interesse do Público Geral
busca e ampliação do conhecimento específico
Um pouco de Terminologia
A Terminologia é fundamental na sociedade atual pois trabalha na ampliação e difusão do
conhecimento, baseando-se na linguagem especializada, sobretudo sobre os termos como veículo transmissor do conhecimento específico.
Um pouco de Terminologia
Terminologia no Brasil Início em 1986 ANPOLL
Crescimento de 1990 em diante: UnB: Lexterm MCT: IBICT USP/FFLCH: Citrat PUC-Rio ABNT UFPE UFRGS: Termisul UFCE UFG UNESP: Ibilce UFSCar: GETerm UFU
Termos e Terminologia
Questões:
O que é um Termo?
Qual o papel dos Termos?
O que diferencia um Termo de uma Palavra?
Termo é uma unidade lexical de significação especializada.
Expressar e transferir o conhecimento de caráter especializado
Propriedades:da dimensão conceitual e invariabilidade semântica
Termos e Terminologia
Isso quer dizer que:
Que o significado de uma determinada palavra do léxico geral está associada, na maioria das vezes, ao contexto discursivo em que está inserida, diferentemente do que ocorre com os termos, que se limitam a expressar conceitos específicos.
Termos e Terminologia
Exemplos:
1 Casa
João foi para casa depois do trabalho.
A Justiça Federal protege a casa de João.
Língua Geral
Casa Domínio Jurídico
Casa: Bem inviolável...
Termos e Terminologia
Exemplos:
2 Lençol
Joana estendeu o lençol de sua cama.
A torcida vibrou com o lençol do atacante sobre o goleiro.
Língua Geral
Lençol Domínio Futebol
Lençol: Lance no qual o jogador encobre o adversário com a bola. O mesmo que Chapéu.
Termos e Terminologia
Exemplos:
3 Letra
Ninguém consegue entender a letra do Francisco.
O Pelé fez um gol de letra.
Língua Geral
Letra Domínio Futebol
Letra: Toque na bola após a mesma passar entre as pernas do jogador .
Termos e Terminologia
Percepções:
Os Termos nascem como Palavras Antes de ser Termo ele é uma Palavra
O Termo participa o léxico geral Possui contextos linguísticos e pragmáticos
Processo da “Terminologização” Valorização terminológica de uma determinada Palavra
Avanços da Ciência
Globalização
Ampliação do Conhecimento
PALAVRA TERMOTerminologização
Termos e Terminologia
Terminologização é processo pelo qual as palavras da língua geral adquirem significados específicos, pertinentes a uma determinada área do saber científico, tornando-se então, elementos integrantes dos repertórios terminológicos. Desse ponto de vista, uma unidade lexical pode assumir o valor de termo fazendo parte da representação dos princípios e propósitos de uma área.
Termos e Terminologia
Dimensões dos Termos:
Termo
Dimensão Conceitual
Dimensão Linguística
Dimensão Comunicacional
Representa a estrutura morfológica do termo e as
diferentes possibilidades de formação e combinação
lexical.
Representa a vertente comunicativa, na tarefa de comunicar e transmitir o
conhecimento especializado de forma eficiente.
Representa o conceito e o conhecimento especializado o qual se
refere.
Extração Automática de Candidatos a Termos
É a obtenção do conjunto terminológico que compõe a nomenclatura do produto terminológico (do glossário, dicionário ou base de dados).
Em Terminologia:
É o processo automático de reconhecer e extrair os candidatos a termos presentes em um determinado córpus de especialidade.
Em Computação:
A Extração de Termos é:
Extração Automática de Candidatos a Termos
Córpus
Extrator deTermos
Lista deTermos
Esquema geral
Extração Automática de Candidatos a Termos
A tarefa de extração de termos é crucial para várias aplicações:
Recuperação de Informação Criação (semi-)automática de ontologias
• OntoLP – dissertação de mestrado (PUC-RS - Junior, 2007)
Sumarização Automática Indexação e Classificação de Textos Alinhamento de Textos Bilíngües Tradução Recursos Básicos de Processamento de Línguas Naturais (PLN) Edição Suportada por Computador Corretores Gramaticais Geração de Língua Natural
Extração Automática de Candidatos a Termos
Um tema de pesquisa área da Linguística (reconhecimento terminológico)
Termos tridimensionais
área da Computação (aplicação do conhecimento)
Gargalo do Trabalho Terminológico Trabalho difícil e custoso
Exige atenção e perspicácia
Extração Automática de Candidatos a Termos
Córpus
Extrator deTermos
Lista deTermos
Ruído (falso positivo)
Silêncio (falso negativo)
Problemas Silêncio e Ruído
Verificação das Listas (resultado)
Extração Automática de Candidatos a Termos
Métodos de Extração Automática
Métodos Estatísticos
Métodos Linguísticos
Métodos Híbridos
Geralmente detectam as unidades terminológicas de acordo com a freqüência em que elas ocorrem em um córpus.
Detectam padrões de formação morfossintáticos dos termos tais como “substantivo-adjetivo” e “substantivo-preposição-substantivo”.
Utilizam a estatística juntamente com o conhecimento linguístico.
Extração Automática de Candidatos a Termos
Método Estatístico Puramente estatístico (sem conhecimento linguístico)
Várias medidas estatísticas• Frequência Simples• Informação Mútua• Coeficiente Dice• Log-Likelihood• C-Value• Teste X2
Trabalho mais simples/fácil
Independente de domínio
Alteração nos Valores de Corte
Gera muito Ruído
Extração Automática de Candidatos a Termos
Método Linguístico
Uso de conhecimento linguístico• Córpus etiquetado (POS-Tagger), informações lexicográficas, morfológicas e semânticas• Ferramentas: tokenizador, lematizador, análise sintática• Definição dos Padrões de Formação de Termos
Trabalho humano (linguísta)
• Definição dos Padrões
Trabalho mais elaborado/difícil
Ajustes nos Padrões
• Dependente de domínio
Gera muito Ruído ou Silêncio
• Depende da quantidade de padrões aplicados
Resultados tendem a ser melhores
EXEMPLOS
N / NP / Adj / Verb
N + Adj / N + N / Adj + N / Adj + Adj / N + Adv
N + Prep + N / N + Prep + NP / N + N + Adj / N + Adj + Adj / N + Prep
+ Adj
Extração Automática de Candidatos a Termos
Córpus
Extrator deTermos
Lista deTermos
Aplicação do Conhecimento Linguístico
Extração Automática de Candidatos a Termos
Método Híbrido Uso da estatística e de conhecimento linguístico
Tipos:• Estatístico => Linguístico (Problemas de Ruído)• Linguístico => Estatístico (Problemas de Silêncio)
Trabalho humano (linguísta)
• Definição dos Padrões
Trabalho muito mais elaborado/difícil
Ajustes nos Padrões
• Dependente de domínio
Melhores resultados
• Linguístico => Estatístico
Extração Automática de Candidatos a Termos
Córpus
Extrator deTermos
Lista deTermos
Parte Linguística
Parte Estatística
Híbrido: Estatístico - Linguístico
Extração Automática de Candidatos a Termos
Córpus
Extrator deTermos
Lista deTermos
Parte Estatística
Parte Linguística
Híbrido: Linguístico – Estatístico
NSP – n-Gram Statistics Package
Pacote estatístico para manipulação de n-Grams Ted Pedersen e colaboradores (Universidade de Minnesota)
• http://www.d.umn.edu/~tpederse/nsp.html
n-Gram Unidade Lexical de tamanho n
onde n = tamanho do termo, pode ser n= (1,2,3... n) .
Exemplos: n = 1: Unigrama, n = 2: Bigramas, n = 3: Trigramas
Implementado em Perl
Possui vários programas (9 no total):count.pl statistic.pl combig.pl
huge-combine.pl huge-count.pl kocos.pl
rank.pl sort-bigrams.pl split-data.pl
NSP – n-Gram Statistics Package
Estatísticas para análise de tokens e córpus é o uso mais comum
Possibilidade de vários outros trabalhos Contador de Frequências
Limpeza de córpus
Análise estatística e de co-relação de termos
Extração Automática de Termos
etc.
NSP – n-Gram Statistics Package
COUNT.PL
Calcula a frequência de n-grams em um texto/córpus.
Textos/Córpus
COUNT.PL Frequências de n-Grams
NSP – n-Gram Statistics Package
COUNT.PL
• count.pl –-help
• count.pl [OPCOES] <saida> <entrada>
• Documentação Básica: http://search.cpan.org/~tpederse/Text-NSP/doc/USAGE.pod
Exemplos:
1) Uso do count.pl (opções)1) --ngram2) --token3) --stop4) --remove5) --frequency6) --window7) --histogram
2) Lexia Simples/Complexa
NSP – n-Gram Statistics Package
STATISTIC.PL
Calcula as medidas de associação dos nGrams de texto/córpus.
STATISTIC.PL
Frequências de n-Grams
Medida de Associação
n-Grams com medida
NSP – n-Gram Statistics Package
STATISTIC.PL – Medidas de Associação
BRIGRAMAS TRIGRAMAS
Chi-Squared• Phi Coeficient• T-score• X2
–
Dice Coeficient –
Jaccar Coeficient –
Fischer Test –
Mutual Information Mutual Information
True Mutual Information True Mutual Information
Pointwise Mutual Information Pointwise Mutual Information
Log-likelihood Log-likelihood
Poison-Stirling Poison-Stirling
Medidas são arquivos com extensão “ponto PM” (.pm)
Perl Module
NSP – n-Gram Statistics Package
STATISTIC.PL
• statistic.pl –-help
• statistic.pl [OPCOES] <medida_associacao> <saida> <resultado_count>
• Documentação Básica: http://search.cpan.org/~tpederse/Text-NSP/doc/USAGE.pod
Exemplos:
1) Uso do statistic.pl (opções)1) --ngram2) --score3) --rank4) --frequency5) --precision
NSP – N-Gram Statistics Package Interface Web do NSP – Frequência Simples
Conclusões
Área de Pesquisa melhorar os resultados testar novos métodos mesclar métodos conhecidos
Difícil automatização reconhecimento terminológico (Como identificar um Termo?)
• Dependente de domínio
mas tem se desenvolvido
Usado em várias aplicações e atividades Fundamental para Terminologia
O NSP pode ser uma boa opção para abordagem estatística Vários aspectos implementados
• Evita retrabalho Precisa de mais documentação oficial