32
Seleção de Gabaritos TBL usando Algoritmos Genéticos Julio Cesar Duarte Cícero Nogueira dos Santos Ruy Luiz Milidiú Pontifícia Universidade Católica do Rio de Janeiro – PUC-Rio Departamento de Informática Laboratório de Engenharia de Algoritmos e Redes Neurais - LEARN

Seleção de Gabaritos TBL usando Algoritmos Genéticos Julio Cesar Duarte Cícero Nogueira dos Santos Ruy Luiz Milidiú Pontifícia Universidade Católica do

Embed Size (px)

Citation preview

Seleção de Gabaritos TBL usando Algoritmos Genéticos

Julio Cesar DuarteCícero Nogueira dos Santos

Ruy Luiz Milidiú

Pontifícia Universidade Católica do Rio de Janeiro – PUC-RioDepartamento de InformáticaLaboratório de Engenharia de Algoritmos e Redes Neurais - LEARN

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

2

Sumário

TBL – Revisão Gabaritos TBL Algoritmos Genéticos Modelagem Experimentos e Resultados

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

3

O algoritmo TBLCorpus de Treino não etiquetado

Classificador Inicial

Corpus de Treino atual

Derivação e avaliação das regras

candidatas

Seleção da regra a ser aplicada

Aplicação da regra ao corpus de treino.

Corpus de Treino etiquetado corretamente

Gabaritos

Seqüência de regras aprendidas.

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

4

O jovem esqueceu a caneta ART N V ART N

ART ADJ V ART N

Gabaritospos[-1] pos[0] word[0] pos[1]

SE pos[-1]=ART E pos[0]=ADJ EWord[0]=jovem E pos[1]=V ENTÃO pos[0]=N

Regra:

Interpretação:

pos[-1]=ART pos[0]=ADJ word[0]=jovem pos[1]=V -> pos[0]=N

Termo atômico

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

5

– Combinação de features relevantes– Construídos manualmente– Construção depende de um

especialista no domínio– Trabalho intensivo– Adaptações podem ser necessárias

quando mudamos de uma língua p/ outra.

Gabaritos

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

6

Geração de gabaritos usando GA

Motivação— Evitar o uso do especialista, ou,— Facilitar o trabalho do especialista

Proposta— Usar algoritmos genéticos— Modelagem simples visando a

eficiência— Usar varias estratégias de modelagem

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

7

Algoritmos Genéticos Modelos Computacionais inspirados no

mecanismo da evolução— Cromossomo Indivíduo (Possível

Solução)— Problema de otimização

• Codificação do problema• Função de avaliação• Heurística = Aplicação de operadores

genéticos

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Codificação do Problema (Indivíduo/Cromossomo)

Normalmente, cadeia de 0´s e 1´s Indicam a presença, ou não, de

uma característica (feature)

f1 f2 f3 f4 ... fn

1 0 1 1 0

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

9

Função de Avaliação Tem como argumento um indivíduo

e calcula a aptidão do indivíduo. Aptidão = medida de desempenho

do indivíduo no problema

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Operadores Genéticos Operadores de Seleção:

—Decidem, baseados no fitness, os

“melhores” indivíduos• Persistem na população

• Utilizados pelos outros operadores

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Operadores Genéticos Operadores de Recombinação:

—Criam “novos” indivíduos a partir de indivíduos

selecionados

• Cruzamento: Combina frações de indivíduos em novos

• Mutação: Gera uma pequena alteração em um

indivíduo

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

12

Algoritmos Genéticos - Funcionamento

Gerar população inicial Calcular aptidão de cada indivíduo Enquanto critério_de_parada ==

False:— Selecionar melhores indivíduos

(descartar demais indivíduos, menos aptos)

— Aplicar operadores de reprodução— Aplicar operadores de mutação— Calcular aptidão de cada indivíduo

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

13

Modelagem 4 abordagens para seleção de

gabaritos: Cada uma carrega uma quantidade

de conhecimento diferente

Conhecimento ( ) x Desempenho ( )

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

(1) Janela de contexto fixa Gabaritos formados por TAs da forma

mais simples f[ds] Entrada:

—Lista de features, maxOffset, número de templates e tamanho esperado do template.

Saída:—Seqüências de f[ds] onde ds Є {-maxOffset,

+maxOffset}

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Exemplo (FCW) Features = {f1, f2}, maxOffset = 1 2 gabaritos com tamanho esperado

3

Gabaritos gerados:—f1[-1] f1[+1] f2[-1] f2[+1]

—f2[-1] f2[0]

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

(2) Lista fixa de TAs É mais fácil construir TAs do que

gabaritos. Gabaritos formados por qualquer tipo de

TAs Entrada:

—Lista de TAs (L), número de gabaritos e tamanho esperado do gabarito.

Saída:—Seqüências de TA’s onde TA Є L

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Exemplo (FLAT) TAs = {f1[−1], f1[−2], f2[0], f2[1], f1[1, 2], f2[−3,−1]} 2 gabaritos com tamanho esperado 3

Gabaritos gerados:—f1[−2] f2[0] f2[−3,−1]—f1[−1] f2[0] f1[1, 2]

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

(3) Gabarito com tamanho

máximo Muito similar ao anterior No lugar de um tamanho esperado, tem-se

um tamanho máximo para o gabarito Valor do cromossomo indica posição na lista

—-1 ausência de TA—Valores repetidos são descartados

Entrada:—Lista de TAs (L), número de gabaritos e tamanho

máximo do gabarito Saída:

—Seqüências de TA’s onde TA Є L

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Exemplo (MTS) TAs = {f1[−1], f1[−2], f2[0], f2[1], f1[1, 2], f2[−3,−1]}

3 gabaritos com tamanho máximo 4

Gabaritos gerados:— f1[−2] f2[1] f1[−1] — f2[−3,−1] f1[−2] f2[1] f2[0] — f1[−2] f2[0] f2[1]

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

(4) Lista de gabaritos Tentativa de melhorar trabalho do

especialista Nova combinação de gabaritos já

construídos—TBL é uma heurística gulosa inserir um novo

gabarito pode piorar o desempenho global Entrada:

—Lista de gabaritos (T) e número esperado de gabaritos

Saída:—Subconjunto de T

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Exemplo (TL) T = {τ00, τ01, τ02, τ03, τ04, τ05, τ06, τ07, τ08, τ09,

τ10, τ11} Número de gabaritos esperado = 7

Gabaritos gerados:—{τ00, τ02, τ05, τ06, τ08, τ09, τ10}.

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Modelagem Função de avaliação

—Um conjunto de regras TBL é gerado a partir de cada indivíduo

—Aptidão = F1-score medido num conjunto de validação• F1-score = Média Harmônica entre a

precisão e abrangência

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Modelagem Operadores:

—Cruzamento: Quebra de dois indivíduos em ponto aleatório

—Mutação: Troca aleatória de um valor no dna:• 0 1 e vice-versa• MTS: x [-1, número de termos atômicos

- 1]

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Experimentos – Tarefas English Text Chunking

[NP He ] [VP reckons ] [NP the current account deficit ] [VP will narrow ] [PP to ] [NP only # 1.8 billion ] [PP in ] [NP September ]

onde: NP = Noun Phrase; VP = Verb Phrase; PP = Prepositional Phrase Chunk

English Noun Phrase Chunking [NP He ] reckons [NP the current account deficit ] will narrow to

[NP only # 1.8 billion ] in [NP September ] Portuguese Named Entity Extraction

[PER Bill Gates] é, em parceria com sócio [PER Paul Allen], o fundador da [COM Microsoft].

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

25

Experimentos Divisão do corpus— Treinamento

• Pequenas frações separadas para o treinamento do genético

— Teste Resultados reportados— Medida-F no conjunto de teste — Tempo total de treinamento

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Resultados BNP - FCW

Resultados muito bons, com tempo de treinamento compatíveis

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Resultados BNP – MTS e FLAT

Comportamentos similares Aumento na performance e tempo de

treinamento

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Resultados BNP - TL

Resultados um pouco melhores que o humano

Aumento no tempo de treinamento

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Resultados condensados CK e

NE

Resultados similares ao BNP NE

resultados melhores mesmo com modelagens mais simples Aumento no tempo de treinamento 1 x 100 (alto relativamente,

porém baixo em valores absolutos) Gabaritos gerados por humanos são bem específicos

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Considerações GA TBL Construção de gabaritos é um

processo caro Método automático de

criação/seleção de gabaritos—Resultados muito melhores que BLS—Perda de desempenho aceitável—Tempo de treinamento compatíveis:

• Algumas vezes, MENOR• maior, apenas caso não se incorpore o

tempo de intervenção do especialista

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

31

Referências bibliográficasBRILL, E. Transformation-based error-driven learning and

natural language processing: A case study in part-of-speech tagging. Computational Linguistics, 21(4):543–565, 1995.

BRILL, E. Recent Advances in Parsing Technology, chapter Learning to Parse With Transformations. Kluwer Academic Publishers, 1996.

DAY, David; Aberdeen, John; Hirschman, Lynette; Kozierok, Robyn; Robinson, Patricia ; and Vilain, Marc. Mixed-Initiative Development of Language Processing Systems. In Fifth Conference on Applied Natural Language Processing, 1997, pp. 348–355. ACL

FLORIAN, R., HENDERSON, J. e NGAI, G. Coaxing confidence from an old friend: Probabilistic classifications from transformation rule lists. Em Proceedings of EMNLP/VLC-2000, Hong Kong, October 2000.

HIGGINS, Derrick. A transformation-based approach to argument labeling. CoNLL 2004.

MANGU, L. e BRILL, E. Automatic rule acquisition for spelling correction. Em Proceedings of The Fourteenth International Conference on Machine Learning, ICML 97. Morgan Kaufmann, 1997.

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

32

Referências bibliográficasMEGYESI, B. Shallow parsing with pos taggers and linguistic

features. Journal of Machine Learning Research, 2:639–668, 2002.

NGAI, G. e FLORIAN, R. Transformation-based learning in the fast lane. In Proceedings of North American Chapter of the Association for Computational Linguistics, págs. 40–47, June 2001.

Projeto Lácio Web. Link: ttp://www. ilc cmc sp r acioweb RAMSHAW, L. e MARCUS, M. Text chunking using

transformation-based learning. In Proceedings of the Third Workshop on Very Large Corpora, págs. 82–94, New Jersey, USA, 1995. ACL.

SAMUEL, K., CARBERRY, S. e VIJAY-SHANKER, K. Dialogue act tagging with transformation-based learning. Em Proceedings of COLING/ACL’98, págs. 1150–1156, 1998.

SANTOS, Cícero Nogueira dos. Aprendizado de Máquina na Identificação de Sintagmas Nominais: O caso do Português Brasileiro. Dissertação de Mestrado, IME, Rio de Janeiro, 2005.

WILLIAMS, Ken; Dozier, Christopher and McCulloh, Andrew. Learning Transformation Rules for Semantic Role Labeling. CoNLL 2004.