Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo Federico Boschetti Dal corpus al...
24
Dal Dal corpus corpus al al treebank treebank Alcune applicazioni Alcune applicazioni ai ai Persiani Persiani di Eschilo di Eschilo Federico Boschetti Federico Boschetti [email protected]1/24 Introduzione Lemmatizzazio ne e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzaz ione Conclusioni
Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo Federico Boschetti Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo
Dal corpus al treebank Alcune applicazioni ai Persiani di
Eschilo Federico Boschetti Dal corpus al treebank Alcune
applicazioni ai Persiani di Eschilo Federico Boschetti
[email protected] 1/24 Introduzione Lemmatizzazione e POS
Treebanks - Crossing edges - Secondary edges Ricerca di strutture
Estensioni Treebanks e filologia - Varianti e interpretazioni
3-tier Parallelizzazione Conclusioni
Slide 2
Il corpus non lemmatizzato I corpora pi completi a disposizione
del filologo classico (TLG, PHI, PoetidItalia...) solitamente non
sono lemmatizzati Le forme che cadono sotto lo stesso lemma possono
essere cercate tramite caratteri jolly o regular expressions pi
complesse, formulate valutando il rapporto fra precision (solo ci
che pertinente) e recall (tutto ci che pertinente) amor*( carattere
jolly per interrogare Poeti d'Italia in Lingua latina) /e?lu.*/
(regular expression per interrogare il TLG con Diogenes) 2/24
Introduzione Lemmatizzazione e POS Treebanks - Crossing edges -
Secondary edges Ricerca di strutture Estensioni Treebanks e
filologia - Varianti e interpretazioni 3-tier Parallelizzazione
Conclusioni
Slide 3
Lemmatizzazione e POS I corpora redatti dal Centre Informatique
de Philosophie et Lettres (C.I.P.L.) di Liegi sono lemmatizzati: ad
ogni forma del testo associato il lemma corrispondente del LSJ A
ciascuna forma associata la parte del discorso (Part Of Speech)
corrispondente Il lavoro sui Persiani di Eschilo stato realizzato
estendendo il corpus gentilmente concesso dal C.I.P.L. 3/24
Introduzione Lemmatizzazione e POS Treebanks - Crossing edges -
Secondary edges Ricerca di strutture Estensioni Treebanks e
filologia - Varianti e interpretazioni 3-tier Parallelizzazione
Conclusioni
Slide 4
Composizione e derivazione La lemmatizzazione favorisce
l'applicazione di algoritmi combinatori per la ricerca sistematica
di cooccorrenze di due o pi parole La lemmatizzazione unita
all'analisi metrica permette ad esempio la ricerca semiautomatica
di formule (omeriche) La lemmatizzazione non efficace se si
interessati a unit lessicali inferiori alla parola Con l'aiuto del
DELG si proceduto ad integrare la lemmatizzazione con informazioni
pertinenti alla composizione e alla derivazione C: +F: >C: - C:
+F: ~B: C: +F: ~B: >C: - C: +B: 4/24 Introduzione
Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges
Ricerca di strutture Estensioni Treebanks e filologia - Varianti e
interpretazioni 3-tier Parallelizzazione Conclusioni
Slide 5
I tratti morfologici A ciascuna forma sono stati associati i
tratti morfologici pertinenti alla sua categoria grammaticale: Nome
e pronome: num., gen., caso Aggettivo: num., gen., caso, grado
Verbo: tempo, modo, diatesi, pers., num. 5/24 Introduzione
Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges
Ricerca di strutture Estensioni Treebanks e filologia - Varianti e
interpretazioni 3-tier Parallelizzazione Conclusioni
Slide 6
Sintassi: dal luogo notevole alla base di dati Gli studi
specialistici sulla sintassi di un autore sono generalmente
focalizzati su luoghi notevoli oggetto di discussione critica (per
Eschilo si pu fare riferimento all'ottimo lavoro di G. Matino) La
redazione di corpora e la conseguente corpus analysis sono
focalizzate invece sulla registrazione sistematica e (idealmente)
esaustiva dei fenomeni (sintattici) presenti nel testo 6/24
Introduzione Lemmatizzazione e POS Treebanks - Crossing edges -
Secondary edges Ricerca di strutture Estensioni Treebanks e
filologia - Varianti e interpretazioni 3-tier Parallelizzazione
Conclusioni
Slide 7
Codifica della sintassi Esistono numerosi modelli formali per
codificare la sintassi 7/24 Introduzione Lemmatizzazione e POS
Treebanks - Crossing edges - Secondary edges Ricerca di strutture
Estensioni Treebanks e filologia - Varianti e interpretazioni
3-tier Parallelizzazione Conclusioni
Slide 8
La scelta di TigerSearch Implementazione in Java (garanzia di
portabilit) e sviluppo di APIs open source Codifica Unicode e
implementazione di Input methods per le lingue orientali e le
lingue classiche Input/Output in formato XML (esportazione dei
grafici in formato SVG) Associazione di ciascuna unit testuale
(parola, sintagma, periodo) ad un identificatore univoco Possibilit
di estendere i livelli di analisi previsti (lemmatizzazione, POS, t
ratti morfologici) con nuovi livelli di analisi (struttura metrica,
sottocategorizzazione semantica, etc.) Possibilit di creare proprie
etichette dei costituenti e delle funzioni sintattiche Modello di
rappresentazione che permette crossing edges e secondary edges,
molto adegua to per la rappresentazione di figure sintattiche
Linguaggio di interrogazione del treebank molto espressivo 8/24
Introduzione Lemmatizzazione e POS Treebanks - Crossing edges -
Secondary edges Ricerca di strutture Estensioni Treebanks e
filologia - Varianti e interpretazioni 3-tier Parallelizzazione
Conclusioni
Slide 9
La struttura del treebank Un treebank una collezione di grafi
aciclici orientati che rappresentano la struttura di ciascun
periodo sintattico In TigerSearch i nodi terminali sono costituiti
dalle parole (associate a lemma, POS, etc.) I nodi non terminali
rappresentano costituenti sintattici di livello superiore (ad es.
NP [Noun Phrase], S [Sentence], etc.) Gli archi che uniscono i vari
nodi possono essere etichettati per esprimere la funzione che il
nodo subordinato assolve nei confronti del nodo sovraordinato (ad
es. SB [Subject], etc.) 9/24 Introduzione Lemmatizzazione e POS
Treebanks - Crossing edges - Secondary edges Ricerca di strutture
Estensioni Treebanks e filologia - Varianti e interpretazioni
3-tier Parallelizzazione Conclusioni
Slide 10
Crossing edges Il modello di rappresentazione consente la
sovrapposizione di archi nell'albero della struttura sintattica
10/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges
- Secondary edges Ricerca di strutture Estensioni Treebanks e
filologia - Varianti e interpretazioni 3-tier Parallelizzazione
Conclusioni Pers. 347
Slide 11
Secondary edges Il modello di rappresentazione consente la
presenza di archi secondari in caso di componenti condivisi 11/24
Introduzione Lemmatizzazione e POS Treebanks - Crossing edges -
Secondary edges Ricerca di strutture Estensioni Treebanks e
filologia - Varianti e interpretazioni 3-tier Parallelizzazione
Conclusioni Pers. 299
Slide 12
Dalla ricerca di parole alla ricerca di strutture Il Tiger
Query Language consente non soltanto la ricerca di parole (o
metaparole, quali lemmi, POS, etc.) e sequenze di parole Permette
soprattutto la ricerca di strutture complesse, indipendentemente
dalle parole (o metaparole) effettive presenti nella struttura E'
possibile in questo modo raggiungere livelli di astrazione
piuttosto elevati Ricerca di tutte le strutture SOV oppure SVO
Ricerca di sintagmi preposizionali dove la preposizione si trova in
seconda posizione 12/24 Introduzione Lemmatizzazione e POS
Treebanks - Crossing edges - Secondary edges Ricerca di strutture
Estensioni Treebanks e filologia - Varianti e interpretazioni
3-tier Parallelizzazione Conclusioni
Slide 13 [word=""]cerca una Noun Phrase che contenga la parola
[cat="S"] >SB #xcerca i nodi che fungono da soggetto #s >SB
#subj &cerca i periodi dove il complemento oggetto (#s >OA
#obj | #s >OC #obj) & oppure una oggettiva precedano il
soggetto #obj.* #subj 13/24 Introduzione Lemmatizzazione e POS
Treebanks - Crossing edges - Secondary edges Ricerca di strutture
Estensioni Treebanks e filologia - Varianti e interpretazioni
3-tier Parallelizzazione Conclusioni">
Esempi di interrogazione [word=""]cerca la parola
[pos="ptc"]cerca le particelle [lemma=/.*/]cerca tutte le parole il
cui lemma comincia per zeta [morph="N\.m\.sg"]cerca sostantivi,
aggettivi, pronomi o participi al nominativo maschile singolare
[cat="NP"] > [word=""]cerca una Noun Phrase che contenga la
parola [cat="S"] >SB #xcerca i nodi che fungono da soggetto #s
>SB #subj &cerca i periodi dove il complemento oggetto (#s
>OA #obj | #s >OC #obj) & oppure una oggettiva precedano
il soggetto #obj.* #subj 13/24 Introduzione Lemmatizzazione e POS
Treebanks - Crossing edges - Secondary edges Ricerca di strutture
Estensioni Treebanks e filologia - Varianti e interpretazioni
3-tier Parallelizzazione Conclusioni
Slide 14
Studio della metatassi Il Tiger Query Language si presta a
formulare stringhe di interrogazione per la ricerca di figure
sintattiche quali l'iperbato il chiasmo il parallelismo lasindeto
il polisindeto, etc. 14/24 Introduzione Lemmatizzazione e POS
Treebanks - Crossing edges - Secondary edges Ricerca di strutture
Estensioni Treebanks e filologia - Varianti e interpretazioni
3-tier Parallelizzazione Conclusioni
Slide 15
Estendibilit delle features TigerSearch consente la creazione
di nuove features, oltre al lemma e alla part of speech Ad ogni
parola stata associata la struttura metrica (nel contesto del
verso) e una (molto blanda) categorizzazione semantica (ad es.:
concreto