Upload
regina-barata-carvalho
View
227
Download
5
Embed Size (px)
Citation preview
Seleção de Gabaritos TBL usando Algoritmos Genéticos
Julio Cesar DuarteCícero Nogueira dos Santos
Ruy Luiz Milidiú
Pontifícia Universidade Católica do Rio de Janeiro – PUC-RioDepartamento de InformáticaLaboratório de Engenharia de Algoritmos e Redes Neurais - LEARN
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
2
Sumário
TBL – Revisão Gabaritos TBL Algoritmos Genéticos Modelagem Experimentos e Resultados
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
3
O algoritmo TBLCorpus de Treino não etiquetado
Classificador Inicial
Corpus de Treino atual
Derivação e avaliação das regras
candidatas
Seleção da regra a ser aplicada
Aplicação da regra ao corpus de treino.
Corpus de Treino etiquetado corretamente
Gabaritos
Seqüência de regras aprendidas.
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
4
O jovem esqueceu a caneta ART N V ART N
ART ADJ V ART N
Gabaritospos[-1] pos[0] word[0] pos[1]
SE pos[-1]=ART E pos[0]=ADJ EWord[0]=jovem E pos[1]=V ENTÃO pos[0]=N
Regra:
Interpretação:
pos[-1]=ART pos[0]=ADJ word[0]=jovem pos[1]=V -> pos[0]=N
Termo atômico
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
5
– Combinação de features relevantes– Construídos manualmente– Construção depende de um
especialista no domínio– Trabalho intensivo– Adaptações podem ser necessárias
quando mudamos de uma língua p/ outra.
Gabaritos
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
6
Geração de gabaritos usando GA
Motivação— Evitar o uso do especialista, ou,— Facilitar o trabalho do especialista
Proposta— Usar algoritmos genéticos— Modelagem simples visando a
eficiência— Usar varias estratégias de modelagem
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
7
Algoritmos Genéticos Modelos Computacionais inspirados no
mecanismo da evolução— Cromossomo Indivíduo (Possível
Solução)— Problema de otimização
• Codificação do problema• Função de avaliação• Heurística = Aplicação de operadores
genéticos
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Codificação do Problema (Indivíduo/Cromossomo)
Normalmente, cadeia de 0´s e 1´s Indicam a presença, ou não, de
uma característica (feature)
f1 f2 f3 f4 ... fn
1 0 1 1 0
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
9
Função de Avaliação Tem como argumento um indivíduo
e calcula a aptidão do indivíduo. Aptidão = medida de desempenho
do indivíduo no problema
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Operadores Genéticos Operadores de Seleção:
—Decidem, baseados no fitness, os
“melhores” indivíduos• Persistem na população
• Utilizados pelos outros operadores
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Operadores Genéticos Operadores de Recombinação:
—Criam “novos” indivíduos a partir de indivíduos
selecionados
• Cruzamento: Combina frações de indivíduos em novos
• Mutação: Gera uma pequena alteração em um
indivíduo
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
12
Algoritmos Genéticos - Funcionamento
Gerar população inicial Calcular aptidão de cada indivíduo Enquanto critério_de_parada ==
False:— Selecionar melhores indivíduos
(descartar demais indivíduos, menos aptos)
— Aplicar operadores de reprodução— Aplicar operadores de mutação— Calcular aptidão de cada indivíduo
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
13
Modelagem 4 abordagens para seleção de
gabaritos: Cada uma carrega uma quantidade
de conhecimento diferente
Conhecimento ( ) x Desempenho ( )
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
(1) Janela de contexto fixa Gabaritos formados por TAs da forma
mais simples f[ds] Entrada:
—Lista de features, maxOffset, número de templates e tamanho esperado do template.
Saída:—Seqüências de f[ds] onde ds Є {-maxOffset,
+maxOffset}
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Exemplo (FCW) Features = {f1, f2}, maxOffset = 1 2 gabaritos com tamanho esperado
3
Gabaritos gerados:—f1[-1] f1[+1] f2[-1] f2[+1]
—f2[-1] f2[0]
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
(2) Lista fixa de TAs É mais fácil construir TAs do que
gabaritos. Gabaritos formados por qualquer tipo de
TAs Entrada:
—Lista de TAs (L), número de gabaritos e tamanho esperado do gabarito.
Saída:—Seqüências de TA’s onde TA Є L
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Exemplo (FLAT) TAs = {f1[−1], f1[−2], f2[0], f2[1], f1[1, 2], f2[−3,−1]} 2 gabaritos com tamanho esperado 3
Gabaritos gerados:—f1[−2] f2[0] f2[−3,−1]—f1[−1] f2[0] f1[1, 2]
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
(3) Gabarito com tamanho
máximo Muito similar ao anterior No lugar de um tamanho esperado, tem-se
um tamanho máximo para o gabarito Valor do cromossomo indica posição na lista
—-1 ausência de TA—Valores repetidos são descartados
Entrada:—Lista de TAs (L), número de gabaritos e tamanho
máximo do gabarito Saída:
—Seqüências de TA’s onde TA Є L
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Exemplo (MTS) TAs = {f1[−1], f1[−2], f2[0], f2[1], f1[1, 2], f2[−3,−1]}
3 gabaritos com tamanho máximo 4
Gabaritos gerados:— f1[−2] f2[1] f1[−1] — f2[−3,−1] f1[−2] f2[1] f2[0] — f1[−2] f2[0] f2[1]
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
(4) Lista de gabaritos Tentativa de melhorar trabalho do
especialista Nova combinação de gabaritos já
construídos—TBL é uma heurística gulosa inserir um novo
gabarito pode piorar o desempenho global Entrada:
—Lista de gabaritos (T) e número esperado de gabaritos
Saída:—Subconjunto de T
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Exemplo (TL) T = {τ00, τ01, τ02, τ03, τ04, τ05, τ06, τ07, τ08, τ09,
τ10, τ11} Número de gabaritos esperado = 7
Gabaritos gerados:—{τ00, τ02, τ05, τ06, τ08, τ09, τ10}.
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Modelagem Função de avaliação
—Um conjunto de regras TBL é gerado a partir de cada indivíduo
—Aptidão = F1-score medido num conjunto de validação• F1-score = Média Harmônica entre a
precisão e abrangência
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Modelagem Operadores:
—Cruzamento: Quebra de dois indivíduos em ponto aleatório
—Mutação: Troca aleatória de um valor no dna:• 0 1 e vice-versa• MTS: x [-1, número de termos atômicos
- 1]
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Experimentos – Tarefas English Text Chunking
[NP He ] [VP reckons ] [NP the current account deficit ] [VP will narrow ] [PP to ] [NP only # 1.8 billion ] [PP in ] [NP September ]
onde: NP = Noun Phrase; VP = Verb Phrase; PP = Prepositional Phrase Chunk
English Noun Phrase Chunking [NP He ] reckons [NP the current account deficit ] will narrow to
[NP only # 1.8 billion ] in [NP September ] Portuguese Named Entity Extraction
[PER Bill Gates] é, em parceria com sócio [PER Paul Allen], o fundador da [COM Microsoft].
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
25
Experimentos Divisão do corpus— Treinamento
• Pequenas frações separadas para o treinamento do genético
— Teste Resultados reportados— Medida-F no conjunto de teste — Tempo total de treinamento
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Resultados BNP - FCW
Resultados muito bons, com tempo de treinamento compatíveis
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Resultados BNP – MTS e FLAT
Comportamentos similares Aumento na performance e tempo de
treinamento
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Resultados BNP - TL
Resultados um pouco melhores que o humano
Aumento no tempo de treinamento
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Resultados condensados CK e
NE
Resultados similares ao BNP NE
resultados melhores mesmo com modelagens mais simples Aumento no tempo de treinamento 1 x 100 (alto relativamente,
porém baixo em valores absolutos) Gabaritos gerados por humanos são bem específicos
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
Considerações GA TBL Construção de gabaritos é um
processo caro Método automático de
criação/seleção de gabaritos—Resultados muito melhores que BLS—Perda de desempenho aceitável—Tempo de treinamento compatíveis:
• Algumas vezes, MENOR• maior, apenas caso não se incorpore o
tempo de intervenção do especialista
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
31
Referências bibliográficasBRILL, E. Transformation-based error-driven learning and
natural language processing: A case study in part-of-speech tagging. Computational Linguistics, 21(4):543–565, 1995.
BRILL, E. Recent Advances in Parsing Technology, chapter Learning to Parse With Transformations. Kluwer Academic Publishers, 1996.
DAY, David; Aberdeen, John; Hirschman, Lynette; Kozierok, Robyn; Robinson, Patricia ; and Vilain, Marc. Mixed-Initiative Development of Language Processing Systems. In Fifth Conference on Applied Natural Language Processing, 1997, pp. 348–355. ACL
FLORIAN, R., HENDERSON, J. e NGAI, G. Coaxing confidence from an old friend: Probabilistic classifications from transformation rule lists. Em Proceedings of EMNLP/VLC-2000, Hong Kong, October 2000.
HIGGINS, Derrick. A transformation-based approach to argument labeling. CoNLL 2004.
MANGU, L. e BRILL, E. Automatic rule acquisition for spelling correction. Em Proceedings of The Fourteenth International Conference on Machine Learning, ICML 97. Morgan Kaufmann, 1997.
Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023
32
Referências bibliográficasMEGYESI, B. Shallow parsing with pos taggers and linguistic
features. Journal of Machine Learning Research, 2:639–668, 2002.
NGAI, G. e FLORIAN, R. Transformation-based learning in the fast lane. In Proceedings of North American Chapter of the Association for Computational Linguistics, págs. 40–47, June 2001.
Projeto Lácio Web. Link: ttp://www. ilc cmc sp r acioweb RAMSHAW, L. e MARCUS, M. Text chunking using
transformation-based learning. In Proceedings of the Third Workshop on Very Large Corpora, págs. 82–94, New Jersey, USA, 1995. ACL.
SAMUEL, K., CARBERRY, S. e VIJAY-SHANKER, K. Dialogue act tagging with transformation-based learning. Em Proceedings of COLING/ACL’98, págs. 1150–1156, 1998.
SANTOS, Cícero Nogueira dos. Aprendizado de Máquina na Identificação de Sintagmas Nominais: O caso do Português Brasileiro. Dissertação de Mestrado, IME, Rio de Janeiro, 2005.
WILLIAMS, Ken; Dozier, Christopher and McCulloh, Andrew. Learning Transformation Rules for Semantic Role Labeling. CoNLL 2004.