Upload
trantuyen
View
213
Download
0
Embed Size (px)
Citation preview
C
Consiglio Nazionale delle Ricerche
Modelli distribuzionali delle relazioni semantiche: il caso dell’iponimia
e dell'antonimia
G. Benotto
IIT B4-03/2014
Nota Interna
Luglio 2014
Iit
Istituto di Informatica e Telematica
Sommario
Introduzione e scopo del lavoro ................................................................................... 2
Relazioni paradigmatiche ............................................................................................. 5
Iponimia ......................................................................................................................................................................... 6
Antonimia ................................................................................................................................................................... 10
Semantica Distribuzionale ......................................................................................... 15
La semantica distribuzionale applicata allo studio delle relazioni di iponimia e
antonimia .................................................................................................................. 21
Problematiche rilevate .......................................................................................................................................... 21
Raccolta dati utilizzando Amazon Mechanical Turk ................................................................................ 29
Primi esperimenti per il trattamento semantico-‐distribuzionale degli antonimi ....................... 33
Conclusioni e Proposte Future ................................................................................... 36
Bibliografia ................................................................................................................ 39
Introduzione e scopo del lavoro
L'obiettivo globale di questo progetto consiste nell'esplorazione delle potenzialità
e dei limiti dell'approccio distribuzionale come modello del lessico semantico.
L'ipotesi che la co-‐occorrenza statistica delle parole estratte da corpora testuali
possa fornire una base per la rappresentazione semantica ha guadagnato di
recente una crescente attenzione, sia nel mondo della linguistica computazionale
che in quello delle scienze cognitive. I termini distribuzionale, basato su corpus o
statistico possono essere utilizzati in maniera quasi interscambiabile per definire
una famiglia di approcci alla semantica che condividono una prospettiva “basata
sull'uso” riguardo al significato, che assume la distribuzione statistica delle parole
nei contesti contribuisca a definire il loro comportamento semantico.
Esistono comunque molte differenze nelle tecniche matematiche e computazionali
adottate, nel tipo di proprietà semantiche associate alla distribuzione del testo e
nelle diverse definizioni dei contesti linguistici utilizzati per determinare gli spazi
combinatori degli elementi lessicali. A uno sguardo più ravvicinato, è possibile
scoprire che le proprietà in comune potrebbero essere molte di più rispetto a
quelle che ci si aspetta a un primo sguardo e che esiste un modello generale del
significato che può essere isolato oltre le differenze, un modello che formula
ipotesi specifiche sul formato delle rappresentazioni semantiche, del modo in cui
sono costruite ed elaborate dalla mente umana.
Diversi metodi per l'analisi computazionale delle proprietà distribuzionali delle
parole sono stati sviluppati sia in linguistica computazionale che in psicologia e
negli ultimi decenni sono state studiate e sviluppate molte misure per il calcolo
della similarità lessicale su base distribuzionale.
Data l'ipotesi distribuzionale, è quindi possibile applicare ai testi metodi
computazionali per acquisire dinamicamente le proprietà semantiche attraverso
elaborazioni matematiche delle distribuzioni delle parole nei testi stessi.
Lo scopo di questo lavoro è quello di effettuare uno studio riguardo le misure
attualmente proposte per il riconoscimento delle relazioni semantiche
paradigmatiche, in modo da valutarne il grado di successo. Si vuole infatti capire se
i metodi distribuzionali possono rivelarsi efficaci nello svolgimento di compiti di
riconoscimento di relazioni semantiche paradigmatiche. Si vuole inoltre stabilire
se esiste un margine di miglioramento nelle tecniche attualmente in uso per il
riconoscimento di questo tipo di relazioni.
Forte dei dati ottenuti dall'analisi precedentemente descritta, il mio obiettivo è
migliorare i modelli di semantica distribuzionale al fine di distinguere diversi tipi
di relazioni semantiche paradigmatiche.
Le relazioni paradigmatiche (sinonimia, antonimia, iperonimia/iponimia,
meronimia) riguardano l'insieme delle parole che fanno parte di uno stesso campo
semantico, ovvero delle parole che hanno significato simile, opposto, più o meno
generico rispetto a una stessa parola e che possono quindi essere usate in
alternativa a quella parola, a seconda del tipo di contesto, dell'interlocutore o del
fine della comunicazione: felice/allegro (sinonimia), bello/brutto (antonimia),
fiore/violetta (iperonimia), dito/mano (meronimia).
Analizzare le relazioni paradigmatiche utilizzando i metodi distribuzionali risulta
essere molto interessante, in primo luogo perché i metodi di semantica
distribuzionale, allo stato dell'arte, hanno difficoltà nel distinguere queste
relazioni. Questo avviene perché le distribuzioni di queste relazioni all'interno dei
testi tendono ad essere molto simili. A tale proposito, una frase quale: il ragazzo/la
ragazza/la persona ama/odia il suo gatto illustra che i (co)iponimi
ragazzo/ragazza, afferenti allo stesso iperonimo persona, così come gli antonimi
amore/odio possono ricorrere, rispettivamente, in contesti identici.
In particolare, esaminando le caratteristiche distribuzionali delle relazioni
paradigmatiche, si può notare che la relazione di iponimia/iperonimia e la
relazione di antonimia presentano particolari difficoltà nell'essere estratte e
classificate utilizzando metodi distribuzionali.
La relazione di iperonimia/iponimia, ad esempio, non può essere riconosciuta
utilizzando questi metodi a causa della sua natura intrinsecamente asimmetrica.
Considerando, ad esempio, la coppia animale-‐cane, legata dalla relazione di
iperonimia, si può assumere che, se l’essere cane implica l’essere animale, l’essere
animale non implica l’essere cane, essendo animale un termine più ampio di cane.
Le misure comunemente utilizzate allo stato dell'arte caratterizzano
semplicemente la distanza tra parole, che è una relazione simmetrica: se una
parola, A, è vicina a B nello spazio semantico, questo implica che B sia vicina ad A.
Il modello non riesce a caratterizzare le diverse proprietà semantiche delle
relazioni che legano le parole vicine.
La relazione di antonimia, invece, pone quesiti interessanti in quanto tende a
distribuirsi nei testi seguendo le stesse modalità della relazione di sinonimia.
Questo rende estremamente difficile distinguere, appunto, la relazione di
sinonimia da quella di antonimia utilizzando i metodi di semantica distribuzionale.
Proprio per le evidenti difficoltà e le particolarità delle relazioni di iponimia e
antonimia, si è deciso di focalizzare il lavoro su queste due relazioni.
Sul versante applicativo, l'obiettivo è quello di contribuire alla realizzazione di
modelli computazionali funzionali per il riconoscimento e la classificazione
(nonché della discriminazione rispetto alle altre relazioni semantiche) delle
relazioni di iponimia e antonimia tra i termini di un testo.
Il problema principale, infatti, consiste nello sviluppare la 'misura distribuzionale'
più adatta per classificare le relazioni in esame e che sia in grado di discriminare
queste ultime rispetto a relazioni semantiche diverse.
E' stata quindi effettuata una prima fase di analisi dello stato dell'arte in linguistica
computazionale e in semantica lessicale per quanto riguarda la rappresentazione e
la modellazione delle relazioni semantiche oggetto di indagine. Tali discipline
possono essere d'ausilio anche nel definire le procedure di selezione dei dati
necessari per lo sviluppo di adeguati algoritmi computazionali e per la valutazione
intrinseca dei modelli stessi.
Il progetto si concentra poi sullo sviluppo e sulla sperimentazione di modelli
distribuzionali, realizzati utilizzando il concetto di spazi di parole. Considerando
l’assunto alla base del modello distribuzionale, ovvero che la prossimità nello
spazio modelli la correlazione semantica, sarà possibile calcolare la correlazione
fra una coppia di parole e una relazione semantica (ovvero saremo in grado di
classificare la relazione semantica che lega una coppia di parole) misurando la
vicinanza fra il vettore che descrive la relazione e quello che descrive la coppia di
parole.
Una volta costruiti i modelli, sarà necessario valutarne la capacità discriminativa
rispetto ai diversi tipi di relazione.
Relazioni paradigmatiche
Le relazioni semantiche paradigmatiche tra parole -‐ antonimia, sinonimia,
iperonimia/iponimia etc. -‐ sono rilevanti per la struttura dell'informazione
lessicale e concettuale. Questa nozione di ``rilevanza” è piuttosto vaga e al suo
interno si trovano opinioni, assunzioni e modelli che variano ampiamente. Per
alcuni studiosi (ad esempio (Katz, 1972), (Kempson, 1977) e (Pustejovsky,
1995)), spiegare queste relazioni è uno degli scopi della semantica lessicale,
così come modellare relazioni quali l'implicazione e la contraddizione è un
problema fondamentale nella semantica proposizionale. Per altri studiosi (
(Deese, 1966), (Lehrer A. , 1974), (George Miller, 1998)), sono le relazioni tra
parole a determinare il significato, piuttosto che il contrario. Le differenze tra
questi punti di vista sottolineano quanto la genesi, la rappresentazione e l'uso
delle relazioni paradigmatiche siano argomenti poco chiari alla luce delle
teorie linguistiche e psicolinguistiche.
In letteratura, queste relazioni sono sovente definite come relazioni lessicali o
relazioni semantiche e qualche volta questi due termini sono usati in contrasto.
Il termine comune relazione, descrive l'appartenenza a un insieme che
presenta caratteristiche comuni. Le relazioni paradigmatiche, dunque, indicano
un insieme di termini che formano una sorta di paradigma, ad esempio un
paradigma semantico che contiene membri della stessa categoria
grammaticale che presentano alcune caratteristiche comuni, pur non
condividendone altre.
Le principali relazioni semantiche di tipo paradigmatico sono le seguenti:
• sinonimia automobile=macchina
• antonimia buono/cattivo
• contrasto dolce/aspro/amaro/salato
• iponimia o inclusione di classe gatto<mammifero<animale (dove ``<“
indica inclusione)
• meronimia o relazione parte-‐di dito-‐mano-‐corpo umano
Come accennato in precedenza in questo lavoro saranno trattate, in modo
particolare, le relazioni di iperonimia e antonimia, che presentano
caratteristiche particolarmente interessanti e rappresentano una sfida aperta
per la difficoltà nell'essere trattate utilizzando metodi basati sulla semantica
distribuzionale.
Iponimia
La relazione di iponimia, ovvero la relazione type<token (e il suo inverso, la
relazione token>type, ovvero l'iperonimia), è una delle relazioni strutturali
fondamentali nel lessico, ed è la "relazione lessicale maggiormente studiata
nella comunità computazionale" (Pustejovsky, 1995).
A causa della sua rilevanza e influenza sui modelli di conoscenza lessicale,
l'iponimia ha un ruolo fondamentale nelle questioni sull'organizzazione
semantica del lessico. Le inferenze, un particolare tipo di implicazione, sono
infatti fortemente associate alla relazione di iponimia. Il fatto che una frase
possa implicare una frase equivalente che include l'iperonimo di uno dei
termini che la compongono, dimostra quanto appena affermato. Ad esempio,
una frase come è entrato il gatto implica è entrato l'animale.
Quindi la relazione di iponimia è fondamentale per caratterizzare il significato
di una parola. A livello grammaticale, le restrizioni di selezione sull'oggetto di
un verbo, possono essere espresse in termini di iperonimo e tutti gli iponimi di
quel termini possono essere quindi selezionati come possibili oggetti (Resnik,
1993).
L' iponimia è definita come la relazione 'tipo di'. Cane è un iponimo di animale
perché il cane è un tipo di animale. Nel modelli computazionali è
frequentemente rappresentata come is-‐a (David E. Rumelhart, 1972) o is-‐a-‐
member-‐of (Kintsch, The representation of meaning in memory, 1974). Definizioni
logiche per questo tipo di relazione sono spesso espresse in termini di
inclusione di insiemi. Quindi, ad esempio, tascabile è un iponimo di libro
perché il significato di tascabile include tutte le proprietà (o altre
rappresentazioni del significato) che costituiscono il significato di libro (avere
le pagine, una copertina, essere fissato su un lato etc.).
La maggior parte delle definizioni di iponimia tendono a specificare
l'unidirezionalità dell'inclusione. Se l'inclusione fosse bidirezionale, infatti, la
relazione sarebbe una relazione di sinonimia.
L'iponimia è una relazione di tipo non riflessivo, se la si considera una
relazione fra i significati. Una relazione semantica è riflessiva quando ogni
elemento coinvolto è in relazione con sé stesso. Se si considera l'iponimia come
una relazione tra elementi lessicali, è possibile che si verifichi il caso in cui un
elemento è in relazione di iponimia con sé stesso. E' il caso degli autoiponimi,
che possono appunto essere considerati elementi iponimi di loro stessi.
L'autoiponimia è un tipo di polisemia in cui una parola ha un senso generale e
uno più specifico.
Si consideri il seguente esempio:
• Un quadrato è un rettangolo con tutti i lati uguali
• Un quadrato ha quattro lati uguali, mentre un rettangolo ne ha solo
due
•
Il senso della parola evidenziata (rettangolo), nella prima frase, è un
iperonimo del senso che assume nella seconda frase. Per la maggior parte delle
definizioni di iponimia, comunque, i due usi (quello più generale e quello più
specifico) della parola vengono trattati come significati separati e quindi la
relazione non può considerarsi riflessiva.
L'iponimia e l'iperonimia sono anti-‐simmetriche, infatti dire che u è un
iponimo di v, implica che v non sia un iponimo di u. Se, ad esempio cane è un
iponimo di animale, questo implica che animale non sia iponimo di cane.
Iponimia e iperonimia sono però simmetriche rispetto l'una all'altra. Se, infatti,
v è un iperonimo di u, u sarà un iponimo di v, ovvero se animale è iperonimo di
cane, cane sarà iponimo di animale.
L'iponimia, o quantomeno l'iponima tassonomica, è una relazione di tipo
transitivo e la sua transitività è causa dei “poteri implicativi” (Martha W.
Evens, 1980) di questa relazione.
Diverse fonti divergono sull'idea che l'iponimia sia da considerare una
relazione tra parole, tra significati o tra cose. Per la maggior parte dei
semanticisti lessicali, che parlano frequentemente di “relazioni tra i sensi”,
l'iponimia è una relazione tra intensioni, ovvero tra proprietà informative (
(Kempson, 1977) (Cruse, 1986), (Persson G. , 1990)). In questo caso, il significato
dell'iperonimo è contenuto ne (o ereditato da) l'iponimo. Si assume infatti che
l'iponimo abbia proprietà più informative rispetto all'iperonimo, ovvero che
cane presenti proprietà più informative di animale, dato che, ad esempio, il
cane abbaia, cosa non vera per tutti gli animali.
In semantica formale, le relazioni di iponimia indicano una relazione di
inclusione tra le estensioni di due parole, tale per cui le estensioni dell'iponimo
rappresentano un sottoinsieme delle estensioni dell'iperonimo (Cann, 1993).
Ad esempio, animale si riferisce ad un insieme di entità più ampio rispetto a
cane, e le estensioni di cane, quali ad esempio levriero, labrador etc.
rappresentano un sottoinsieme delle estensioni di animale.
Altri, spesso nelle discipline computazionali, non distinguono tra le relazioni
intenzionali ed estensionali. Le due posizioni sono spesso considerate le due
facce di una stessa medaglia, dato che le intensioni determinano l'insieme delle
estensioni.
Che l'iponimia (nel suo senso usuale) non sia semplicemente membro di un
insieme di estensioni è dimostrato dall'esempio di (Wierzbicka, 1984)): tutti i
membri dell'estensione poliziotto, sono membri dell'estensione di figlio di
qualcuno, ma le intensioni di figlio di qualcuno non sono necessariamente parte
delle intensioni di poliziotto.
Altri problemi si possono avere considerando l'iponimia esclusivamente come
un'inclusione di significato, in cui i componenti semantici di un elemento sono
un sottoinsieme di quelli del suo iponimo. Per (Persson U. M., 1986), trattare
l'iponimia come una relazione di inclusione di significato, implicherebbe che
impiego>impiegato rappresenta una relazione di iponimia, dato che i significati
di impiegato includono presumibilmente quelli di impiego. Un approccio di
questo tipo contrasta con la nozione di iponimia come relazione
paradigmatica, e quindi dimostra che il concetto di inclusione dei significati non
è definibile al pari di quello di inclusione delle classi.
L'iponimia è trattata, nei modelli associazionisti del lessico, come una
relazione tra parole. Un problema che si rileva in questi approcci è stabilire la
modalità con cui le parole si associano tra loro. I bambini, ad esempio,
sviluppano tassonomie concettuali che mettono in relazione categorie
subordinate e sopraordinate, pur non utilizzando queste categorie nello stesso
modo in cui le utilizzano gli adulti. Il passaggio verso l'organizzazione
tassonomica del lessico e l'utilizzo dell'iponimia, indica una crescita delle
capacità cognitive e metalinguistiche (inclusa la presa di coscienza verso le
relazioni lessicali paradigmatiche).
Quindi, se le relazioni semantiche intercorrono fra le parole (invece che tra i
concetti che denotano) c'è necessità di provare che siano le parole, e non solo i
concetti, ad essere in relazione tra loro. In altre parole, sia le forme lessicali che
i significati devono essere rilevanti per la relazione, se sussiste sia una
relazione di tipo lessicale che di tipo semantico. Ma la “forma” sembra essere
meno rilevante per l'iponimia, rispetto a quanto accade per la sinonimia o
l'antonimia.
Una questione del tipo: Definisci un tipo di animale trova in gatto una risposta
che sembra migliore di micio. Questo può portare a credere che la similarità di
registro linguistico sia fondamentale per le decisioni che vengono assunte nel
definire la relazione di iponimia. Si può invece notare che l'utilizzo di parole
appartenenti a un registro marcato nella domanda, non implica che la risposta
fornita venga considerata 'migliore' se contiene un antonimo appartenente allo
stesso registro linguistico. Parlando di tassonomie sembra normale ricondurre
ogni parola alla sua forma meno marcata, perché in quel caso la questione in
esame non riguarda tanto l'associazione delle parole, quanto l'appartenenza a
una categoria. Questo contrasta con la relazione di antonimia, per la quale la
forma è tipicamente più rilevante. Pensare a un antonimo per sveglio induce
più probabilmente a produrre addormentato che dormiente. Questo avviene sia
perché sveglio/addormentato rappresentano una relazione canonica, sia
perché sveglio si accorda alle forme morfo sintattiche di addormentato meglio
di quanto non faccia con quelle di dormiente. Nel caso dell'antonimia,
l'esistenza degli antonimi canonici fornisce una prova chiara di opposizione
lessicale. Gli iponimi canonici, se esistono, sono rari. Chiedere ai parlanti di
fornire esempi della relazione tipo-‐di implicherà ricevere risposte
appartenenti a un intervallo limitato di campi semantici (ad esempio il campo
della biologia). Questo è molto probabilmente dettato dal fatto che i campi
selezionati risultano essere fortemente tassonomici. Più difficilmente una
scelta di questo tipo potrà essere imputata al fatto che le parole che
appartengono a tali campi semantici tendano ad occorrere insieme più
frequentemente rispetto ad altre coppie di iponimi-‐iperonimi.
Riassumendo, possiamo sostenere che la forma parola sia raramente rilevante
per la selezione degli iponimi. Sembra invece che la relazione di iponimia
rifletta semplicemente le relazioni tassonomiche che si stabiliscono tra
concetti non lessicali.
Antonimia
L'antonimia (intendendo con antonimia l'opposizione binaria in generale) è
presumibilmente riconducibile all'archetipo di relazione semantica lessicale. A
differenza di quanto avviene per la sinonimia, chiunque potrà convenire che
l'antonimia esiste ed è evidente nel linguaggio naturale. A differenza
dell'iponimia, può essere tanto una relazione tra parole, quanto lo è tra
concetti.
La sinonimia e l'antonimia sono, senza dubbio, due delle più conosciute
relazioni semantiche tra termini e possono essere definite come parole che
hanno significati 'simili' (sinonimia) e parole che hanno significati 'opposti'
(antonimia). La questione affascinante riguardo l'antonimia è che, anche se le
parole antonime sono definite opposte, sono comunque semanticamente molto
simili. (Cruse, 1986) ha osservato che esiste una nozione di simultanea
vicinanza e distanza fra l'una e l'altra, e ha notato che questo può essere
parzialmente spiegato dal fatto che gli opposti condividono la stessa
dimensione semantica. Ad esempio, la coppia di antonimi caldo e freddo
condivide la dimensione temperatura, ma a differenza dei sinonimi che si
vengono a collocare sullo stesso punto, o su punti in prossimità dell'ideale
linea che rappresenta la dimensione (due termini come caldo e bollente si
troveranno vicini su questa scala), termini antonimi si collocheranno agli
estremi opposti della scala. I termini legati da relazione di antonimia sono
quindi simili in tutti gli aspetti, tranne uno nel quale sono in opposizione
massima (Willners, 2001).
Come già accennato in precedenza, ci sono stati moltissimi lavori sugli aspetti
linguistici e cognitivi dell'antonimia e della sinonimia (Lehrer A. L., 1982);
(Cruse, 1986); (Walter G. Charles, 1989). Entrambe le relazioni hanno avuto un
ruolo particolare nell'area della semantica distribuzionale, che investiga, come
vedremo meglio nel capitolo successivo, la modalità con cui la distribuzione
statistica delle parole nei contesti può essere utilizzata per la modellazione del
significato semantico.
Le relazioni di antonimia sono definite dalla loro binarietà. Se due elementi
appartengono allo stesso insieme di contrasto possono essere considerati
automaticamente antonimi. Ad esempio, gli esseri umani hanno solo due tipi di
arti, quindi braccia e gambe contrastano automaticamente grazie al loro essere
gli unici membri della categoria arti umani
Abbiamo visto in precedenza che può esistere la binarietà dettata
dall'opposizione scalare, in cui due elementi condividono tutte le proprietà
tranne una, per la quale presentano caratteristiche diametralmente opposte.
La natura binaria della negazione (si/no) conduce al terzo tipo di binarietà. Per
lingue morfologicamente ricche, termini opposti possono essere creati
attraverso morfologia negativa, come ad esempio in blu/non-‐blu o
logico/illogico.
Esiste anche la binarietà fine a sé stessa. In casi come questo, tre elementi sono
disponibili per il contrasto, ma due fra questi sono privilegiati come antonimi.
Quindi, mentre felice è in contrasto con triste e arrabbiato, sembra avere più
caratteristiche in comune con triste. Mentre felice/arrabbiato è un contrasto
utile in alcuni contesti, in un contesto neutro felice e triste vengono favoriti
come opposti.
Nonostante la relazione di antonimia sia reciproca, i membri di una coppia di
antonimi possono non mostrare distribuzione simmetrica nei contesti
linguistici o nei comportamenti d'uso. Questo si evidenzia nei task di
associazione lessicale, in cui una parola u può evocare il suo antonimo v, ma v
può non evocare u.
Alcuni linguisti teorici hanno sfruttato la tendenza degli antonimi a co-‐
occorrere (e a farlo in maniera preferenziale in costruzioni di tipo simmetrico)
per spiegare il modo in cui il parlante acquisisce la conoscenza del fatto che
due parole siano antonimi.
(Fellbaum, 1995) ha identificato un insieme di questo tipo di costruzioni, quali
ad esempio:
• x e y organizzazioni private (pubbliche) e pubbliche (private)
• da x a y Da dietro (davanti) a davanti (dietro)
• x o y tutte le lingue, vive (morte) o morte (vive)
In queste costruzioni x e y hanno distribuzione simmetrica e, in qualche
maniera, possono essere invertite nel testo. Sussiste il caso in cui non ci sia
possibilità di invertire termini di questo tipo nel testo, quando uno dei due
termini risulta semanticamente marcato in relazione all'altro.
La marcatezza è una delle maggiori fonti di asimmetria distribuzionale nelle
relazioni antonimiche. Nonostante la relazione di antonimia sia logicamente
simmetrica, le prove fornite dall'associazione di termini indicano che relazioni
antonimiche specifiche possono essere memorizzate in maniera direzionale.
Molti degli studi effettuati sull'opposizione lessicale si sono focalizzati nel
definire e differenziare diversi sottotipi di opposti. Le tassonomie di opposti
definite da (Lyons, 1977) e (Cruse, 1986) sono certamente le più citate, quindi le
categorie e definizioni che hanno individuato sono considerate 'standard'.
(Lyons, 1977) ad esempio, restringe l'utilizzo del termine antonimo al
sottoinsieme degli antonimi che sono gradabili e contrari. Certamente contrari
gradabili (quali, ad esempio, grande/piccolo, buono/cattivo sembrano
particolarmente rappresentativi del fenomeno di contrasto lessicale binario.
Un predicato può essere considerato gradabile se descrive una proprietà che
si può manifestare a un grado maggiore o minore. Termini gradabili possono
essere associati con modificatori di grado (come molto o leggermente) e
possono occorrere in costruzioni comparative e superlative. Quindi, aggettivi
quali lungo o produttivo sono gradabili, mentre aggettivi come estinto, non lo
sono.
• Questa giornata è stata molto lunga e molto produttiva
• Questa giornata è stata più lunga e più produttiva di quella di ieri
• ! Quell'animale è molto estinto
• ! Quell'animale è più estinto dell'altro
Gli opposti gradabili presentano, tipicamente, opposizione contraria, il che
significa che asserire uno dei due implica necessariamente negare l'altro. In
altre parole, u e v sono in opposizione contraria nel caso in cui, se X è u, allora
non è v.
La caratteristica chiave dell'opposizione contraria consiste nel fatto che
l'implicazione può essere effettuata in modo che un'asserzione di u implichi la
negazione di v, ma che la negazione di u non implichi l'asserzione di u.
Ad esempio:
• Il morfema è lungo ! Il morfema non è corto
• ! Il morfema non è lungo ! Il morfema è corto
L'implicazione in questa seconda frase non sussiste, perché il morfema in
questione non è lungo, ma può non essere corto, può essere di lunghezza
media.
L'antonimia, nel suo senso più ampio, si focalizza in modo particolare sui
contrasti che sono simmetricamente collocati su una scala, come caldo/freddo,
tanto che (Lehrer A. L., 1982) si riferiscono ai contrari gradabili simmetrici
come agli antonimi perfetti.
Gli insiemi di contrasto con membri gradabili non presentano membri
assolutamente incompatibili. (Lyons, 1977) fornisce l'esempio
eccellente/buono/normale/pessimo/atroce. In questo caso i membri sono co-‐
iponimi, come in altri insiemi di contrasto, ma i confini tra i termini sono labili,
tanto che l'uno sfuma dentro l'altro. Si hanno quindi set di contrasto che
coinvolgono elementi gradabili che non presentano relazione contrarie.
(Lyons, 1977) definisce l'antonimia complementare sulla base della relazione di
implicazione tra i termini di una coppia di antonimi. Se X è u, allora X non è v e
se X non è u, allora X è v. Ad esempio, dire che il mostro è vivo implica che il
mostro non sia morto, e dire che il mostro è morto implica che il mostro non sia
vivo. Identificare gli antonimi complementari nel linguaggio è particolarmente
complesso, dato che i complementari possono, talvolta, essere utilizzati come
contrari e viceversa. Per usare un esempio di (Palmer, 1981), si può dire che
qualcuno è più morto che vivo, rendendo una coppia di aggettivi tipicamente
non gradabili, gradabili in questo contesto d'uso e rendendo quindi complessa
la segmentazione dei campi assunti nella definizione di complementarietà. In
oltre, alcune coppie sono gradabili ma la negazione di uno dei due termini è
tipicamente interpretata come l'asserzione dell'altro. Dire ad esempio che
'qualcuno non è disonesto implica che quel qualcuno sia onesto'. (Cruse, 1986)
caratterizza questi come complementari gradabili. In molti casi, uno dei
complementari gradabili è più gradabile dell'altro.
In opposizione privativa , un termine è definito dall'assenza di qualcosa e
l'altro è definito dalla presenza della stessa caratteristica. Quando pulito (nel
senso di 'assolutamente privo di sudicio') è in opposizione a sporco (che
implica presenza di sudicio) esiste un'opposizione complementare perché
sono possibili solo due condizioni: avere il sudicio o non averlo. Ma se pulito
viene usato nel senso di 'relativamente privo di sudicio', allora si può trovare
in opposizione con sporco nel senso di 'relativamente dotato di sudicio', il che
rende l'opposizione un'opposizione di contrari. In altri casi gli aggettivi sono
naturalmente complementari o contrari, ma l'utilizzo diverso che ne possiamo
fare indica un diverso senso dell'aggettivo. Ad esempio vivo/morto descrivono
uno stato complementare ma se vengono utilizzati come gradabili (come nel
caso di molto vivo) la natura della loro relazione di antonimia cambia,
diventando contrarietà.
Figura 2.1: Tipologie di antonimia
Semantica Distribuzionale
Il termine “Semantica Distribuzionale” (Sahlgren, 2006) definisce una famiglia
di approcci all'analisi del significato (con particolare attenzione alla
dimensione lessicale) nati in linguistica computazionale e nelle scienze
cognitive. Tali modelli condividono una prospettiva empiristica e si basano
sull'ipotesi che la distribuzione statistica delle parole nei contesti giochi un
ruolo determinante nel caratterizzare il loro comportamento semantico.
Al di là di questa assunzione condivisa, i modelli di semantica distribuzionale
differiscono per le tecniche matematiche e computazionali impiegate per
estrarre e modellare le statistiche di co-‐occorrenza delle parole nei corpora e
per le proprietà semantiche che cercano di rappresentare distribuzionalmente.
Nonostante queste differenze, tuttavia, si tratta di un modello generale del
significato lessicale, che formula ipotesi precise e verificabili
sperimentalmente sul formato delle rappresentazioni semantiche e sul modo
in cui vengono costruite.
Nel paradigma distribuzione della rappresentazione semantica, il lessico viene
concepito come uno spazio metrico i cui elementi -‐ le parole -‐ sono separate da
distanze che dipendono dal loro grado di similarità semantica. Quest'ultima
viene misurata attraverso distribuzioni statistiche di co-‐occorrenza delle
parole nei testi, assumendo come principio epistemologico fondamentale la
cosiddetta ipotesi distribuzionale, secondo la quale due parole sono tanto più
simili dal punto di vista semantico, quanto più tendono a ricorrere in contesti
linguistici simili. L'ipotesi distribuzionale è correlata alle “discovery
procedures” , procedure tipiche della tradizione strutturalista americana,
pensate per produrre automaticamente la corretta grammatica di una lingua a
partire da un corpus. Più in generale, l'ipotesi distribuzionale assume come
chiave fondamentale per esplorare le proprietà paradigmatiche del lessico la
ricostruzione dei rapporti sintagmatici che intercorrono tra i suoi elementi nei
contesti linguistici.
Questo modello trova una caratterizzazione fondamentale nelle parole del
linguista inglese (Firth, 1957): You shall know a word by the company it keeps. A
livello cognitivo, questo corrisponde a un modello del lessico mentale in cui i
significati non sono organizzati come i sensi di un dizionario, ma secondo
rappresentazioni contestuali, come descritto da (Charles, 2000): “an abstraction
of information in the set of natural linguistic context in which a word occurs”.
Nonostante la sua lunga storia, l'ipotesi distribuzionale ha guadagnato nuovo
slancio grazie all'attuale disponibilità di corpora testuali di grandi dimensioni
e di tecniche statistiche più sofisticate per l'estrazione degli schemi
distribuzionali dei lessemi. Questo ha permesso di concretizzare l'ipotesi
distribuzione in modelli computazioni per la costruzione di spazi semantico-‐
lessicali, che sono stati poi applicati alla simulazione di diversi aspetti della
competenza semantica. Le rappresentazioni semantiche basate sugli spazi
distribuzionali sono state utilizzate per modellare la selezione di termini
sinonimi (Thomas K Landauer, 1997), priming (Michael N Jones, 2006) e
comprensione della metafora (Kintsch, Metaphor comprehension: A
computational theory, 2000).
Quello che accomuna le differenti implementazioni computazionali dell'ipotesi
distribuzionale è l'assunto che quantificare la similarità semantica tra due
parole sia equivalente a valutare la misura in cui si equivalgono i contesti
linguistici in cui tali parole ricorrono. I modelli possono comunque differire
per vari parametri, legati tipicamente ai diversi fini teorici e applicativi di
riferimento per ciascun modello.
La nozione di spazio semantico si basa su un'analogia con lo spazio
geometrico, il contenuto semantico di una parola è rappresentato dalla sua
posizione in uno spazio definito da un sistema di coordinate, determinato dai
contesti linguistici in cui tale parola può ricorrere. Alla base dei modelli di
semantica distribuzione risiede l'idea che due parole che tendono a combinarsi
con elementi linguistici simili si collocano anche in punti dello spazio
semantico più vicini rispetto a quelli occupati da parole che invece si
distribuiscono in maniera diversa nel testo. Questa assunzione è formalizzata
rappresentando ogni parola come un vettore a n dimensioni, ognuna delle
quali registra il numero di volte in cui la parola in esame compare in un certo
contesto. Ogni parola da esaminare viene quindi rappresentata come una riga
di una matrice in cui le colonne corrispondono al numero di volte in cui la
parola viene trovata in un determinato contesto.
I modelli computazionali di semantica distribuzionale presentano differenze in
termini della nozione di contesto che adottano. La versione più comune di
questi modelli è costituita da vettori che che registrano co-‐occorrenze di parole
in un testo. Affinché sia possibile determinare la posizione di due parole, è
necessario comparare i loro vettori rispetto a tutte le dimensioni che li
compongono. Maggiore è il numero di dimensioni in cui i vettori presentano
valori simili, maggiore è la loro vicinanza nello spazio e, in base all'assunto di
fondo dell'ipotesi distribuzionale, la similarità semantica delle corrispondenti
parole. Una delle misure usate più comunemente per misurare la vicinanza
spaziale tra due vettori è il coseno dell'angolo che essi formano. Se i vettori
sono geometricamente allineati su sulla stessa linea, nella stessa direzione,
l'angolo che formano misura 0° e il coseno misura 1, che indica massima
similarità. Se i due vettori invece sono indipendenti, il loro angolo è vicino a
90° e il coseno di 90° è uguale a 0, il che indica assenza di similarità.
Figura 3.1: Distanza tra termini rappresentati come vettori
Nella figura precedente, ad esempio, si ha distanza massima tra i termini cane
e gatto, che risultano ortogonali in quanto formano tra loro un angolo di $90°,
che implica assenza di similarità. Il vettore rappresentativo del termine
levriero è più vicino a cane (forma infatti con il vettore di cane un angolo di
$15° rispetto al vettore di gatto, con il quale forma un angolo di $75°. Il coseno
dell'angolo tra i vettori di cane e levriero misura 0.96, che essendo un numero
molto vicino a 1, indica alta similarità tra i due termini. Il coseno dell'angolo
tra i vettori di levriero e gatto, invece, misura 0.25, che indica una bassa
similarità tra i due termini.
I modelli di semantica distribuzionale definiscono il significato di una parola in
base alla posizione che questa occupa all'interno dello spazio
multidimensionale determinato dalla base contestuale. Questi modelli
adottano quindi un modello di rappresentazione semantica diametralmente
opposto rispetto a quello tipico della tradizione linguistica e cognitiva, fondato
sull'utilizzo di un metalinguaggio formale costituito da strutture simboliche
quali reti semantiche, tratti etc. Il vettore che rappresenta una parola non ha
nessun valore semantico intrinseco ma viene utilizzato solo al fine di
determinare la posizione della parola stessa nello spazio e la distanza rispetto
alle altre parole. Il significato deriva solo dalle configurazioni dei punti nello
spazio, collocati secondo rapporti proporzionali al loro gradi di similarità
distribuzionale. Le dimensioni che costituiscono il vettore non sono
direttamente interpretabili, né associabili a simboli concettuali, ma
corrispondono a tratti tipici delle rappresentazioni semantiche tradizionali.
I modelli distribuzioni differiscono anche dai modelli relazionali basati su reti
semantiche (Quillian, 1967) o su reti lessicali, quali ad esempio WordNet
(Fellbaum, WordNet: An electronic lexical database, 2001). Gli elementi dello
spazio sono parole e non entità concettuali o sensi, come avviene nelle reti
semantiche. Inoltre in questi modelli il contenuto semantico di un lessema è
definito solo in termini di similarità distribuzionale, tradotti in termini di
distanze nello spazio. La differenza più sostanziale risiede quindi nelle
relazioni che le legano. Le connessioni tra i nodi delle reti semantiche sono
distinte sul piano qualitativo (iperonimia, meronimia, etc.), inoltre, nonostante
ci siano stati molti tentativi per definire metriche per calcolare la distanza fra
due nodi concettuali di una rete, la rete mantiene una struttura
intrinsecamente discreta. Gli spazi di parole hanno, invece, una struttura
puramente quantitativa, dato che, parallelamente a quanto avviene nello
spazio geometrico, l'unica metrica da considerare è quanto sono distanti due
parole.
Un aspetto importante della competenza lessicale catturato dai modelli
semantico-‐distribuzionali, è costituito dai giudizi di similarità semantica tra
parole. Maggiore è il valore del coseno, minore è la distanza tra le due parole
nello spazio distribuzionale. Parole più simili dal punto di vista semantico
(come ad esempio animale e cane) riporteranno valori di coseno più elevati
rispetto a parole che non hanno similarità semantiche. L'ipotesi
distribuzionale trova quindi corrispondenza con le intuizioni semantiche dei
parlanti e la similarità di significato tra due termini lessicali può essere definita
attraverso la loro proiezione in uno spazio costruito su base distribuzionale.
Le rappresentazioni lessicali basate su spazi distribuzionali possono essere
utilizzate per la modellazione di vari tipi di evidenza comportamentale legata
alla distanza semantica tra le parole (ad esempio in compiti di priming
semantico (Jones, 2006) o di riconoscimento di parole (McDonald, 2001)) in
modo più accurato di quanto avvenga utilizzando modelli basati sul lessico
basati su rappresentazioni simboliche con reti lessicali (ad esempio il già citato
WordNet).
La semantica distribuzionale offre anche un interessante punto di vista nel
rapporto tra significato e contesto. Secondo una tradizione consolidata nelle
scienze cognitive e in linguistica, rappresentare il contenuto semantico di una
parola consiste nella sua proiezione su un'ontologia di simboli concettuali.
Nell'ambito della rappresentazione della conoscenza e della linguistica
computazione, per ontologia si intende la rappresentazione in linguaggio
formale di un sistema di categorie concettuali. Nel caso della descrizione del
lessico, le ontologia sono sistemi di simboli che rappresentano il contenuto
semantico dei lessemi. Diversi significati di una stessa parola, vengono
rappresentati da diversi elementi dell'ontologia, mentre l'architettura del
sistema di concetti si fa carico delle relazioni inferenziali tra i diversi sensi
delle parole. Quello che caratterizza maggiormente questo tipo di
rappresentazioni è che i significati vengono modellati come entità indipendenti
dal contesto
Il significato lessicale è soggetto a processi di acquisizione, modulazione e
cambiamento, ma questi aspetti sono indipendenti dal modo in cui si
rappresenta l'informazione semantica, che viene poi usata e applicata nei
contesti. Una conseguenza di questo paradigma è la difficoltà delle
rappresentazioni di tipo simbolico a modellare processi dinamici che si
realizzano in contesti testuali concreti. I sensi delle parole sono realtà
multidimensionali, dai confini incerti e sottodeterminatiì che difficilmente si
riescono a proiettare su sistemi di simboli concettuali non sufficientemente
adeguati a rappresentarne la complessità strutturale e la variabilità.
La rappresentazione lessicale, per essere soddisfacente, deve essere in grado
di descrivere la natura proteiforme del lessico e delle sue dinamiche
dipendenti dai rapporti che si creano tra i lessemi sull'asse sintagmatico, come
descritto da (Pustejovsky, 1995).
Le ontologie di simboli concettuali rappresentano il contesto in maniera
essenzialmente discriminativa, agendo come fattore di disambiguazione che
permette la selezione, all'interno del repertorio di sensi di una parola, del
significato appropriato per una determinata situazione di utilizzo. La metafora
dello spazio di parole ribalta del tutto questa prospettiva, assegnando al
contesto un ruolo costitutivo del significato. In questo modo il contenuto
informativo di una parola è radicato nei contesti linguistici da cui emerge. Si
ottiene quindi un modello di rappresentazione semantica sensibile al contesto e
dinamica, che offre prospettive nuove nella re-‐impostazione del rapporto tra
rappresentazione del significato e modellazione delle sue dinamiche.
La semantica distribuzionale applicata allo studio delle relazioni
di iponimia e antonimia
I modelli distribuzionali caratterizzano fenomeni di similarità semantica tra
parole vicine nello spazio distribuzionale, ma non rappresentano i tipi di
relazioni semantiche che intercorrono tra parole (cane è simile ad animale e
gatto, ma con relazioni diverse). Questo problema si ha anche nel cercare di
trattare relazioni paradigmatiche quali l'iperonimia e l'antonimia.
Problematiche rilevate
Nei modelli distribuzionali, le parole sono collocate in spazi semantici comuni,
in base alle loro rappresentazioni contestuali; la distanza tra parole è misurata
tenendo conto della similarità semantica. Tale distanza è una relazione
simmetrica: se una parola, A, è vicina a una parola B nello spazio semantico,
questo implica che B sia vicina ad A. Il modello non riesce a caratterizzare le
diverse proprietà semantiche delle relazioni che legano le parole vicine. La
distanza tra le parole è poco funzionale nel descrivere relazioni di tipo
asimmetrico, come l’iponimia. Considerando, ad esempio, la coppia animale-‐
cane, legata dalla relazione di iponimia, si può assumere che, se l’essere cane
implica l’essere animale, l’essere animale non implica l’essere cane, essendo
animale un termine più ampio di cane. Gli iperonimi sono termini
semanticamente più ampi rispetto ai loro iponimi a livello estensionale,
(animale si riferisce a un insieme più ampio di entità rispetto a cane). A livello
intensionale, invece, l'iponimo di un termine risulta essere più informativo del
suo iperonimo (cane ha proprietà più informative rispetto a quelle di animale,
si può assumere infatti che per cane siano vere proprietà non vere per tutti gli
animali, es. abbaiare), quindi i sopraordinati risultano meno informativi
rispetto ai concetti di livello base.
Se si immaginano i concetti organizzati in una gerarchia di categorie, che va
dall'estremamente generico allo specifico, possiamo pensare che la classe
generica comprenda un alto numero di elementi. Le categorie più specifiche
permettono maggiore accuratezza nella categorizzazione dei membri: sapere
che qualcosa è un cane ci permette di inferire una serie di proprietà di
quell’elemento. Di tutte le possibili categorie in una gerarchia, il livello base è il
livello intermedio, compromesso tra l’accuratezza della classificazione data dal
livello più generico e il potere predittivo del livello più specifico (Murphy,
2003). Le categorie di base rappresentano il livello di caratterizzazione più
naturale (Murphy G. L., 1997) dato che sono quelle prodotte più spesso,
riconosciute più velocemente e apprese per prime.
Recentemente sono stati proposti diversi modelli distribuzionali per la
rappresentazione di relazioni asimmetriche ( (Weeds, 2004), (Clarke, 2009)),
basati sull’ipotesi di inclusione distribuzionale, utilizzata anche da (Kotlerman,
2010) per l’identificazione del Lexical Entailment (implicazione lessicale).
Il lexical Entailment modella relazioni quali si riferisce a e implica ed è parte di
un quadro teorico più generale per l’inferenza semantica, chiamato Textual
Entailment.
Textual Entailment (implicazione testuale) è un paradigma di modellazione
per l’inferenza semantica emerso in anni recenti (Giampiccolo, 2009). Essendo
un quadro teorico generico, può essere utilizzato in un ampio spettro di
applicazioni quale l’estrazione di informazione e il recupero di documenti.
Il Textual entailment è una relazione direzionale tra due frammenti di testo, t e
h. t implica h se il parlante che legge t inferirà che h è molto probabilmente
vero (Dagan, 2006). Ad esempio, dalla frase seguente: ‘Sono stati venduti tutti i
biglietti per il concerto dei Beatles a Liverpool’, possiamo dedurre che i Beatles
abbiano tenuto un concerto a Liverpool.
Un elemento lessicale e implica un altro elemento a se esistono alcuni testi
naturali (non aneddotici) che contengono e che implica \texit{a in modo tale
che riferimenti al significato di a possano essere implicati solo dal significato di
e nel testo. Un sistema di questo tipo si baserà quindi sulla regola e!textit{a.
Ad esempio, la regola produrre! deporre è valida in contesti in cui il
produttore è gallina e il prodotto è uovo.
Quindi il lexical entailment è una relazione concettualmente più vasta rispetto
a quella di iperonimia, dato che l’inferenza può essere determinata dalla
sinonimia, dall’iperonimia e dalla meronimia.
Per quanto riguarda la relazione di antonimia, al momento non si rilevano
tentativi di successo nel distinguere la relazione di sinonimia da quella di
antonimia, utilizzando modelli distribuzionali standard. Probabilmente questo
è dovuto alla similarità dei contesti d'occorrenza di sinonimi ed antonimi.
(Mohammad, 2008) ad esempio, hanno rilevato che le misure di similarità
distribuzionale tipicamente falliscono nel distinguere i sinonimi da coppie di
parole contrastive. Hanno infatti verificato che, applicando una misura di
similarità semantica a un insieme di coppie di antonimi altamente contrastanti,
a coppie di sinonimi e a coppie di parole legate da una relazione casuale, le
coppie legate da relazione di antonimia e le coppie legate da relazione di
sinonimia, tendevano ad avere una similarità distribuzionale media più simile,
rispetto a quanto avveniva tra antonimi e coppie di parole legate da relazioni
casuali e sinonimi e coppie di parole legate da relazioni casuali.
E' stato anche provato che, in media, le coppie di antonimi hanno un grado di
similarità distribuzionale maggiore rispetto ai sinonimi. (Miller, 1991) ha
effettuato un esperimento di sostituibilità, nel quale la relazione tra similarità
semantica e contestuale è stata investigata per coppie di nomi. Le coppie
utilizzate presentavano diversi gradi di similarità semantica. La similarità
semantica è stata valutata utilizzando classificazioni soggettive; la similarità
contestuale stimata utilizzando il metodo di ordinamento dei contesti. Il
risultato ha mostrato una relazione lineare inversa tra la similarità di
significato e la differenziazione dei contesti. In media, per parole della stessa
lingua ricavate dalle stesse categorie sintattiche e semantiche, quanto più
spesso due parole possono essere sostituite negli stessi contesti, quanto più il
loro significato è giudicato simile. In base ai risultati di questo esperimento,
quindi, ci devono essere delle indicazioni contestuali che permettano ai
parlanti di distinguere tra sinonimi ed antonimi. Tali differenze, ad ogni modo,
non vengono catturate dalle attuali misure di similarità semantica, il che
conduce all'ipotesi che l'antonimia e la sinonimia siano simili, a livello
distribuzionale, rendendo difficile utilizzare tali metodi per la classificazione di
relazioni di antonimia.
Data la particolare condizione, di similarità e differenza, i lavori di linguistica
computazionale hanno talvolta incluso l'antonimia sotto la classificazione di
similarità semantica. Ricerche recenti hanno tuttavia imposto una distinzione
rigida tra similarità semantica e correlazione semantica (semantic relatedness).
La correlatezza semantica è un concetto più generale della similarità
semantica; entità simili sono semanticamente correlate in virtù della loro
similarità (banca-‐ società fiduciaria), ma entità dissimili possono comunque
avere una relazione semantica quale la meronimia (macchina-‐ruota) e
antonimia (caldo-‐freddo) o da una qualsiasi relazione funzionale, o da
frequente associazione nei contesti d’uso (matita-‐carta) (Budanitsky, 2006).
Gli antonimi appartengono alla seconda e più ampia categoria di correlatezza
semantica e non dovrebbero, quindi, essere utilizzate misure di similarità
semantica per individuare questo tipo di relazione, come evidenziato da (Lin,
2003). E' stata introdotta una varietà di misure per il calcolo della similarità
semantica basate su corpora che tentano di identificare similarità semantiche
calcolando la loro similarità distribuzionale ( (Hindle, 1990); (Lin D. , 1998)).
Tali misure si sono rivelate efficienti nell'individuare coppie di parole legate da
relazione di sinonimia; si sono rivelate anche molto meno accurate nel
classificare antonimi e parole dissimili, classificandole ripetutamente come
parole semanticamente simili. Ad ogni modo, nonostante le difficoltà, ci sono
stati solo pochi studi effettuati con lo scopo di distinguere gli antonimi dai
sinonimi, al contrario la maggioranza degli studi effettuati si sono focalizzati
esclusivamente sulla relazione di sinonimia o di antonimia.
E' quindi possibile effettuare una classificazione relativa alla relazione di
antonimia utilizzando i metodi distribuzionali? E' possibile utilizzare tali
metodi per distinguere le relazioni di antonimia dalle relazioni di sinonimia,
pur avendo queste distribuzioni simili nei testi?
Primi esperimenti di analisi distribuzionale della relazione di iperonimia
Come accennato in precedenza, il problema più rilevante che si ha nel cercare
di individuare le relazioni di iperonimia utilizzando metodi distribuzionali, è
dato dal fatto che, nei modelli distribuzionali, la distanza tra parole viene
rappresentata come una relazione simmetrica. L'iperonimia non è una
relazione simmetrica, pertanto, per identificarla in maniera distribuzionale,
una delle strade percorribili consiste nell' individuare una misura di similarità
direzionale (non simmetrica), che riesca a definire le caratteristiche della
relazione di iperonimia. A tale proposito sono state investigate le capacità di
diverse misure di similarità semantica direzionali nel riconoscimento delle
relazioni di iperonimia. Sono state anche proposte due misure nuove, create ad
hoc per il riconoscimento e la classificazione di questa relazione, che tentano di
implementarne alcune caratteristiche fondamentali.
Per indagare la capacità delle misure di similarità direzionali nel classificare la
relazione di iperonimia, abbiamo valutato il grado di correttezza sia
nell’identificare l’iperonimo di un nome target, che nel discriminare termini
legati dall’iperonimia da termini legati da relazioni simmetriche, come i co-‐
iponimi. Al momento gli esperimenti si sono svolti sull'Inglese, in modo da
avere una migliore comparabilità con lo stato dell'arte internazionale. Come
descritto nel Capitolo 4, i termini lessicali sono stati rappresentati come vettori
di caratteristiche distribuzionali estratte dalla matrice TypeDm, derivata da
Distributional Memory (DM) (Baroni, 2010). DM rappresenta i dati
distribuzionali come un insieme di tuple pesate ((p1, l, p2), w) dove p1 e p2
sono parole, l è la dipendenza sintattica che le lega e w è il peso che stima la
salienza di quella tupla utilizzando la Local Mutual Information (LMI) calcolata
sulla frequenza dei legami. Esempi di tuple possono essere: ((marine own
bomb) 40.0) o ((teacher own bomb) 5.2). Da questi esempi è possibile vedere
che a ogni coppia di parole legate da una certa dipendenza sintattica, si associa
il peso dato dalla frequenza dei legami. Il peso di marine own bomb è quindi,
ovviamente, maggiore del peso di teacher own bomb dato che sarà molto più
probabile veder co-‐occorrere own bomb con marine che con teacher. La Mutua
Informazione (MI) è una misura statistica che permette di confrontare la
probabilità di incontrare una coppia di parole (bigramma) rispetto alla
probabilità di incontrare i suoi costituenti, considerati come mutuamente
indipendenti. Dato che la Mutua Informazione è estremamente sensibile agli
eventi rari, i bigrammi formati da hapax avranno un valore di Mutua
Informazione molto alto. Questo avviene perché la Mutua Informazione tende
a privilegiare i casi isolati di collocazione, riuscendo in questo modo a
eliminare le false collocazioni, ma diventando sproporzionata nei casi poco
frequenti. La LMI è una variante di MI utilizzata per ridurre l’impatto dei dati
poco frequenti.
TypeDm contiene 30.693 lemmi e 25.336 link diretti e inversi formati da
dipendenze sintattiche.
Le misure sono state valutate su un corpus in lingua Inglese derivato dal
dataset BLESS ( (Baroni, How we BLESSed distributional semantic evaluation,
2011)), che consiste di triplette che esprimono una relazione tra concetti target
e concetti relatum. BLESS è composto da 200 concetti target, suddivisi in 17
classi (quali BIRD, FRUIT etc.). Per ogni concetto target BLESS include più
parole, collegate al concetto target da una relazione semantica. Per questo
esperimento è stato usato un sotto corpus derivato da BLESS formato da
14547 tuple, in modo che il termine relatum fosse attestato in TypeDM e le
relazioni fossero le seguenti:
• COORD: il relatum è un co-‐iponimo del concetto (coccodrillo-‐lucertola)
• HYPER: il relatum è un nome che è iperonimo del concetto (coccodrillo-‐
animale)
• MERO: il relatum è un nome che si riferisce a una parte del concetto
(coccodrillo-‐bocca)
• RANDOM-‐N: il relatum è un nome casuale che non ha relazioni con il
concetto target, o ha relazioni che non sono le precedenti (coccodrillo-‐
scarpa).
Ogni parola del test set in esame è quindi rappresentata come un vettore di
dati distribuzionali relativi alla parola stessa.
Sono state applicate ai vettori derivati dalle tuple tre misure direzionali allo
stato dell’arte, per valutarne l’abilità nel discriminare l’iperonimia dalle altre
relazioni semantiche, in particolare la co-‐iponimia (una misura simmetrica). In
base all’ipotesi di fondo, le misure di similarità distribuzionale dovrebbero
attribuire un punteggio più alto alle relazioni di iperonimia, asimmetriche e
direzionali.
I risultati ottenuti su tre misure direzionali allo stato dell'arte sembrano
confermare l'ipotesi. Innanzitutto, tutte le misure riescono a discriminare
coppie che hanno un legame semantico da quelle che non lo hanno. E' stata
effettuata un'analisi dei risultati utilizzando Average Precision (AP), una
misura solitamente utilizzata nei compiti di recupero documenti. Per ogni
misura di similarità è stata calcolata AP rispetto alle 4 relazioni di BLESS. Il
massimo punteggio possibile di AP si ottiene quando tutti i relata legati al
target dalla relazione in esame riportano punteggi di similarità semantica più
alti rispetto ai relata non legati al target da quella particolare relazione (se in
un ideale ordinamento per punteggio di similarità semantica, i relata legati al
target dalla relazione in esame occorressero tutti ai primi posti).
Confrontando i risultati ottenuti nel valutare le relazioni di co-‐iponimia e
quelle di iponimia si nota che tutte le misure allo stato dell'arte riportano
valori di AP più alti per la relazione di co-‐iponimia rispetto a quella di iponimia
(come è possibile vedere nella tabella 4.1) , probabilmente perché queste
misure di similarità sono state concepite per il riconoscimento del lexical
entailment. Questo fa sì che le features di inclusione che usano siano
soddisfatte anche dai coordinati.
Tabella 4.1: Valori di Average Precision (AP) per le misure direzionali allo stato dell’arte
Utilizzare misure di similarità direzionali si rivela quindi essere una strada
promettente per la classificazione dell’iperonimia, ma l’analisi delle misure allo
stato dell’arte mostra che è possibile migliorarle perché siano accurate nel
riconoscimento di tale relazione.
A tale proposito sono state sviluppate due nuove misure distribuzionali
direzionali, che sfruttano le proprietà linguistiche della relazione di
iperonimia.
La prima misura implementata (invCL) (Lenci, 2012) è basata sull’idea che un
termine semanticamente più ampio dovrebbe poter essere trovato anche in
contesti nei quali il termine semanticamente meno ampio non è utilizzato. Se v
è un termine semanticamente più ampio di u, le proprietà distribuzionali di u
saranno anche proprietà distribuzionali di v, al contrario ci saranno proprietà
di v che non fanno parte delle proprietà distribuzionali caratterizzanti di u.
Considerando la coppia di termini animale-‐cane, si può assumere che le
proprietà distribuzionali di animale comprendano le proprietà di cane (tra le
proprietà di animale si potrà trovare, ad esempio, “abbaiare”, caratterizzante
l'entità cane), ma che le proprietà di cane non comprendano molte delle
proprietà di animale (fra le proprietà di animale vi sarà ad esempio
“miagolare”, che non è caratterizzante di cane). E' stata quindi sviluppata una
misura che tiene conto non solo l’inclusione delle proprietà del termine
iponimo in quelle dell’iperonimo, ma anche la non-‐inclusione delle proprietà
dell’iperonimo in quelle dell’iponimo.
La seconda misura (COL) (Benotto, 2013) è basata sull'ipotesi che i termini
superordinati si applicano a un insieme di termini che appartengono alla
stessa categoria. Si assume, in altri termini, che gli iponimi di un iperonimo
comune formino un insieme di termini contrastivi in relazione all’iperonimo. Si
può dire che, considerando gli iponimi del termine animale, termini come cane,
gatto, cavallo formano l’insieme dei termini di livello più basso rispetto ad
animale e sono in contrasto tra loro avendo proprietà diverse e quindi
proprietà distribuzionali diverse. Se un termine v è semanticamente più ampio
di un termine u le proprietà di u saranno incluse nelle proprietà distribuzionali
di v (le proprietà distribuzionali di cane sono presenti anche tra le proprietà di
animale), è pur vero che anche le proprietà degli altri iponimi complementari a
u rispetto a v saranno incluse nelle proprietà di v (considerando gatto come
complementare di cane rispetto all’iperonimo animale, si può assumere che ci
siano anche molte proprietà di gatto che compaiono tra quelle di animale).
Il termine più vicino all’iponimo è stato individuato utilizzando il coseno
(essendo il coseno la misura che meglio individua similarità simmetriche,
come quella di co-‐iponimia) che ha permesso di individuare, per ogni iponimo,
il co-‐iponimo più simile. Si suppone quindi che l’iponimo in esame e il co-‐
iponimo più simile a esso rispetto a v (iperonimo comune) abbiano in comune
molte proprietà distribuzionali. Selezionare solo le proprietà del co-‐iponimo
che non sono caratterizzanti dell’iponimo in esame dovrebbe dare una buona
approssimazione di come è fatto il complementare di tale termine.
La tabella 4.2 mostra i risultati che si ottengono utilizzando queste due misure.
Quello che si può vedere, confrontando anche tali dati con quelli presenti nella
tabella 4.1, è che le due misure riescono a classificare la relazione di
iperonimia meglio di quanto facciano le misure allo stato dell'arte (dato che il
valore di Average Precision riportato per l'iperonimia è più alto di quello che si
ottiene con le altre misure). Inoltre, queste misure riescono a discriminare
meglio la relazione, direzionale, di iperonimia rispetto a quella, simmetrica, di
coordinazione. Questo avviene perché, oltre al miglioramento della
classificazione della relazione di iperonimia, i valori di average precision che si
ottengono per i coordinati sono più bassi rispetto a quelli che si ottengono con
le misure allo stato dell'arte.
Tabella 4.2: valori di Average Precision per le misure direzionali sviluppate per il
riconoscimento dell’iperonimia
Raccolta dati utilizzando Amazon Mechanical Turk
Nel corso di questo progetto di ricerca è stato effettuato anche un esperimento
di raccolta dati effettuato utilizzando Amazon Mechanical Turk. L'esperimento
è stato portato aventi in collaborazione con l' Institute for Natural Language
Processing dell' Università di Stoccarda. Sono stati raccolti dati per la lingua
tedesca (Università di Stoccarda) e per la lingua Inglese.
Lo scopo della raccolta consisteva nel proporre a utenti selezionati insiemi di
11 parole, per ognuna delle quali veniva chiesto al parlante di fornire
l'antonimo, l'iperonimo e il sinonimo ritenuto più indicato.
I dati da analizzare sono stati selezionati utilizzando WordNet allineati per le
tre lingue in esame, utilizzando per tutte e tre le lingue gli stessi criteri di
selezione.
I dati per il tedesco sono stati raccolti da Sabine Schulte im Walde,
dell'Università di Stoccarda. Per l'Inglese sono stati seguiti gli stessi criteri
seguiti per il tedesco, per ragioni di compatibilità. In primo luogo sono state
generate liste di tutti i nomi, tutti gli aggettivi e tutti i verbi presenti nel
database WordNet. Si è quindi calcolato il diverso numero di sensi per tutte le
diverse parole nelle liste. L'organizzazione del lessico, in WordNet, si avvale
infatti di raggruppamenti di termini con significato affine, chiamati 'synset'
(dalla contrazione di synonym set), e del collegamento dei loro significati
attraverso diversi tipi di relazioni. All'interno dei synset le differenze di
significato sono numerate e definite. Questa rappresentazione ha semplificato
la classificazione delle parole in fasce definite per numeri di senso. Per ogni
parola nella lista, poi, è stata calcolata la frequenza all'interno di un corpus di
riferimento. Per il tedesco, è stato utilizzato SdeWac, un corpus contenente
approssimativamente 880 milioni di parole costruito estraendo il testo delle
pagine web a dominio .de. Per l'inglese è stato utilizzato ukWac, un corpus di
circa 2 miliardi di parole, costruito estraendo il testo delle pagine web a
dominio .co.uk.
Si è quindi deciso quanti stimoli utilizzare per l'esperimento. Sono stati
utilizzati 99 stimoli per classe di parole, perché si è deciso di impostare tre
intervalli di frequenza (ottenendo quindi 3x3=9 categorie) e 11 stimoli per
ogni categoria. Le tre fasce di frequenza sono state così definite: 200-‐2999,
3000-‐9999 e >10000 (nella prima fascia si hanno quindi parole che sono
attestate nel corpus con una frequenza maggiore di 200 e minore di 3000, nella
seconda parole che hanno frequenza nel corpus compresa fra 3000 e 10000,
dove 10000 è escluso e nella terza fascia si hanno parole con un'attestazione di
frequenza maggiore di 10000). I diversi intervalli di polisemia sono 1, 2 e >2 (il
che significa che nella prima fascia ci sono parole per cui WordNet attesta un
solo significato, nella seconda fascia parole per cui WordNet attesta due
significati e nella terza fascia parole per cui WordNet attesta da tre significati
in su). Per ogni classe semantica (aggettivo/verbo/nome) di ogni classe di
parole è stato determinato il numero di parole da selezionare. Per effettuare
tale selezione è stata effettuata una proporzione sul numero totale di parole
per classe semantica. Ad esempio, se la classe aggettivo per il tedesco contiene
996 parole distinte e il numero totale di tutti gli aggettivi su tutte le classi
semantiche è 8582, dato che abbiamo fissato a 99 il numero di stimoli totali da
raccogliere, vorremo avere 99*996/8582 = 11 aggettivi per questa classe
semantica.
A questo punto, per ogni classe semantica, intervallo di frequenza nei corpora
e intervallo dato dal numero di sensi, è stata effettuata una scelta casuale atta a
selezionare le parole da proporre. In ultima analisi, per ognuna delle lingue e
per ogni categoria semantica, 9 insiemi di 11 termini da proporre agli utenti
per le analisi.
Le parole così selezionate sono state quindi utilizzate come input in un
esperimento effettuato utilizzando Amazon Mechanical Turk (MTurk), un
servizio internet di crowdsourcing che permette a chi lo utilizza (requester) di
coordinare l'uso di intelligenze umane per eseguire compiti che i computer, a
oggi, non sono in grado di fare
L'esperimento prevedeva di fornire agli utenti 11 parole, 9 estratte secondo i
criteri precedentemente descritti e 2 non-‐parole (cioè parole che non esistono
realmente nella lingua in esame); le non parole sono state inserite per
verificare che a eseguire gli esperimenti fossero parlanti della lingua in esame,
che sarebbero stati certamente in grado di riconoscere le non parole come tali.
Per ognuna delle parole l'utente era invitato a fornire quello che, secondo la
propria conoscenza di parlante, riteneva essere il miglior candidato sinonimo,
iponimo o antonimo.
Per quanto riguarda la sezione dei turkers abbiamo imposto come unico
vincolo l'essere parlanti madrelingua Inglesi. Quindi, l'insieme degli
esperimenti è stato proposto per l'esecuzione dal sistema (AMT) solo a turkers
che nel profilo di registrazione al servizio hanno impostato come lingua madre
la lingua Inglese. Questo era necessario perché, non potendo sapere chi
avrebbe eseguito i vari insiemi di esperimenti, era necessario avere la garanzia
che sarebbero stati, quantomeno, buoni rappresentanti della lingua su cui
sarebbero andati ad operare.
I dati ottenuti secondo i vincoli precedentemente descritti (dei quali è
possibile visionare un campione nella tabella 4.3) sono stati raccolti e
successivamente ripuliti eliminando i dati duplicati (è infatti possibile che più
di un utente abbia indicato ad esempio, per una stessa parola, il medesimo
antonimo/sinonimo/iponimo). Abbiamo quindi ottenuto liste di stimoli e
corrispondenti sinonimi/antonimi/iponimi, ottenuti in maniera manuale a
partire dai giudizi degli utenti.
Tabella 4.3: Esempi di stimoli forniti con relative risposte e frequenza delle risposte
Primi esperimenti per il trattamento semantico-‐distribuzionale degli antonimi
Il problema più rilevante che si incontra utilizzando le misure di similarità
distribuzionale per il riconoscimento e la classificazione della relazione di
antonimia, come già accennato in precedenza, risiede nel fatto che antonimi e
sinonimi tendono a distribuirsi nel testo in maniera simile, ovvero ad
occorrere in contesti simili. Si prenda ad esempio la coppia di aggettivi
antonimi nuovo/vecchio. E' possibile che entrambi ricorrano in una frase del
tipo: 'Ho perso il mio cappello nuovo', 'Ho perso il mio cappello vecchio' . In
questo senso, ovviamente, si tende a non ottenere risultati rilevanti
nell'utilizzo dei metodi distribuzionali per la classificazione di questo tipo di
relazione semantica.
L'utilizzo di metodi distribuzionali appare anche, in un contesto come quello
presentato sopra, di difficile utilizzo per l'eventuale distinzione di relazioni di
antonimia da relazioni di sinonimia.
A tale proposito, come effettuato per la relazione di iperonimia, è necessario
individuare delle peculiarità della relazione di antonimia, che possano essere
implementate al fine di distinguere tale relazione dalla sinonimia.
In un primo, semplice esperimento, è stata effettuata e conseguentemente
testata, la seguente ipotesi: se una coppia di antonimi presenta una forte
similarità distribuzionale, perché i due termini che la compongono tenderanno
ad occorrere in contesti simili, è pur vero che l'uno dovrebbe occorrere ancora
più frequentemente in contesti in cui occorre la negazione dell'altro. Se u e v
sono due termini legati da relazione di antonimia, si assume quindi che u
occorra più frequentemente, e quindi sia più simile, a non-‐v di quanto lo sia a v.
Ovvero, si assume che, riprendendo l'esempio utilizzato in precedenza, non-‐
nuovo sia più simile a vecchio di quanto non lo sia nuovo.
Per effettuare tale esperimento è stato utilizzato un corpus di lingua Inglese
costituito dall'unione di tre corpora: ukWaC, Wikipedia e BNC. ukWaC è stato
raccolto come descritto nella seziona precedente, il suo scopo è essere
utilizzato come corpus di linguaggio comune, paragonabile, per quanto
riguarda l'eterogeneità dei documenti, alle risorse bilanciate tradizionali.
BNC (British National Corpus) è un corpus sviluppato con l'intenzione di
rappresentare un'ampia varietà dell'Inglese corrente, sia scritto che parlato. Il
corpus è costituito da 100 milioni di parole. Per quanto riguarda Wikipedia, il
corpus è stato ottenuto scaricando l'intero contenuto dell'enciclopedia on-‐line
Wikipedia per la lingua Inglese e consiste di circa 600 milioni di parole. I tre
corpora sono stati uniti per crearne uno più grande perché, come illustrato in
precedenza, i metodi distribuzionali necessitano di grandi quantità di dati per
essere efficienti.
Tutti e tre i corpora, inoltre, presentano annotazioni atte a descrivere le
categorie grammaticali di ogni termine (Part of Speech, PoS tagging).
Il metodo è stato testato su due diverse liste di antonimi precedentemente
selezionati. La prima lista è stata ottenuta attraverso la raccolta dati effettuata
utilizzando Amazon Mechanical Turk descritta nel paragrafo precedente. La
seconda lista utilizzata è basata su un dataset reso disponibile da (Mohammad
S. , 2013) costituito da una lista di 1358 antonimi estratti da WordNet,
all'interno dei quali sono stati selezionati i soli aggettivi, per un totale di 958
coppie di antonimi.
Nel corpus vengono quindi cercate le occorrenze di tali termini, sia nella loro
versione ``positiva'' , che ``negativa'' (ad esempio, si estraggono sia le
occorrenze di sweet che quelle in cui sweet occorre in concomitanza con la
negazione not, sia esso preceduto immediatamente (occorrenza nel testo di
strutture linguistiche come not sweet) o con un intervallo di una parola,
tipicamente un pronome (occorrenza nel testo di strutture linguistiche come
not very sweet).
Per ogni parola che costituisce le coppie, è quindi possibile costruire i rispettivi
vettori di co-‐occorrenze, selezionando come co-‐occorrenti le parole che
occorrono in una finestra di cinque parole antecedenti e successive alla parola
in esame nel corpus. Ognuna delle due possibili accezioni (positiva o negativa)
dei termini in esame, viene rappresentata come un vettore distribuzionale
distinto (in questo caso esiste un vettore distribuzionale per sweet e uno per
not-‐sweet.
A questo punto viene misurata la similarità semantica tra i termini che
costituiscono le coppie. Inoltre, per validare la teoria proposta, viene misurata
anche la similarità semantica tra un membro negativizzato della coppia (not-‐u)
e il positivo dell'altro (v) e viceversa.
Per entrambe le liste di antonimi, i risultati non sono stati risolutivi. In
entrambi i casi, infatti, la teoria per cui la similarità tra una parola e l'opposto
del suo antonimo era maggiore di quella rilevata per la similarità tra la parola
stessa e il suo antonimo, si attestava tra il 30% e il 40%.
Un secondo esperimento è stato effettuato, utilizzando gli stessi dati e le stesse
modalità, costruendo il non-‐concetto in maniera leggermente diversa rispetto a
quanto fatto in precedenza. Per creare il contesto distribuzionale che definisca
in maniera caratteristica il non-‐concetto, si è infatti pensato di escludere dalle
sue proprietà distribuzionali tutte quelle in comune con il concetto nella sua
accezione positiva. In altri termini, tutte le proprietà distribuzionali di v non
vengono incluse nel vettore che descrive le proprietà distribuzionali di non-‐v.
E' stato assunto che in questa maniera fosse possibile individuare le proprietà
distribuzionali salienti che caratterizzano il non-‐concetto. Inoltre, eliminare le
proprietà distribuzionali comuni alla versione "positiva" e "negativa" del
termine, dovrebbe implicare la creazione di un concetto di negatività esclusivo,
teoricamente più simile all'antonimo del positivo che al positivo stesso.
Anche in questo caso viene misurata la similarità semantica tra i termini che
costituiscono le coppie, valutando anche la similarità semantica tra un membro
negativizzato della coppia (not-‐u) e il positivo dell'altro (v) e viceversa.
I risultati degli esperimenti preliminari effettuati sulle liste di antonimi
descritte in precedenza non hanno dato ancora risultati determinanti.
L'analisi dei risultati ha però fornito interessanti spunti sulle ragioni che
possono portare ad avere questo tipo di risultato. In primo luogo le liste di
antonimi utilizzate, necessitano di un miglioramento sostanziale, sia per
quanto riguarda la costituzione delle coppie. In molti casi infatti l'antonimo
riportato per un dato termine, non è quello prototipico, o comunque quello che
ci si aspetterebbe. Si prenda ad esempio la coppia inexperienced-‐inured,
estratta dal dataset di (Mohammad S. , 2013). L'antonimo che ci aspetteremmo
di rilevare, per inexperienced non è inured, ma experienced, come suggerito
dall' Oxford Thesaurus of English.
I dati costruiti a partire da Amazon Mechanical Turk invece risentono della
scelta dei termini da valutare, operata a partire da dati estratti da WordNet,
impiegando come unico criterio un bilanciamento tra termini appartenenti a
diverse fasce di frequenza e di polisemia, all'interno delle quali i termini da
analizzare sono stati estratti in maniera casuale. Tali coppie di antonimi
risentono anche delle valutazioni fornite dagli utenti, che possono aver
indicato in maniera errata o approssimativa, quello che per loro risulta essere
il miglior antonimo di un termine dato.
Inoltre i dati possono essere falsati da una scarsa attestazione dei termini che
compongono le coppie all'interno del corpus in esame. A tal proposito è in atto
una ricostituzione delle liste di antonimi in cui, non solo vengono validati i dati,
ma viene anche verificato che i dati siano presenti nel corpus al di sopra di una
determinata soglia di frequenza, che verrà stabilita in modo da non ridurre
eccessivamente il numero di coppie su cui effettuare i test.
Varrà poi la pena cercare di capire se questo metodo privilegia un tipo
particolare di relazione antonimica, si vorrà capire, cioè, se il metodo in analisi
riporta risultati migliori nella classificazione di antonimi gradabili o
complementari, o ancora se riporta risultati migliori su quelle coppie di
antonimi in cui uno dei due termini è costruito a partire dall'altro, con
l'aggiunta di un prefisso o di un suffisso di negazione.
Conclusioni e Proposte Future
Lo scopo di questo lavoro consiste nell'esplorazione delle potenzialità e dei
limiti dell'approccio distribuzionale come modello del lessico semantico.
E' stato ampiamente illustrato come i modelli distribuzionali presentino
difficoltà e sfide interessanti per quanto riguarda l'estrazione di relazioni
paradigmatiche che intercorrono fra termini in un testo, a causa delle
particolarità distribuzionali di tali relazioni.
In particolare, le relazioni trattate in questo lavoro sono la relazione di
iponimia/iperonimia e la relazione di antonimia.
In entrambi i casi ho proceduto nell'analizzare le peculiarità linguistiche delle
relazioni in esame, nonché lo stato dell'arte per quanto riguarda l'utilizzo delle
metodologie basate sull'approccio distribuzionale per l'estrazione e la
classificazione di queste relazioni.
Per quanto riguarda la relazione di iponimia/iperonimia, l'analisi delle
caratteristiche linguistiche della relazione, mi ha permesso di individuare la
sua direzionalità, permettendomi di comprendere la ragione per cui i metodi
distribuzionali attualmente in uso falliscono nel riconoscimento di questa
relazione. La similarità semantica viene, infatti, tipicamente computata
utilizzando misure simmetriche, quali il coseno. Supponendo infatti che i
significati delle parole possano essere dedotti dal contesto, verificare che due
parole sono in relazione tra loro significa verificare il grado di similarità tra le
due parole, ovvero il numero di contesti che condividono. Questo assunto non
è vero per la relazione di iponimia, che è una relazione asimmetrica.
Sono state quindi investigate le misure asimmetriche allo stato dell'arte,
comunemente utilizzate nello studio del lexical entailment (implicazione
lessicale), che si sono rivelate abili nel discriminare coppie di termini che
hanno un legame semantico da quelle che non lo hanno. Le stesse misure però
non si sono rivelate in grado di discriminare tra termini co-‐iponimi e termini in
relazione di iperonimia/iponimia.
Gli iperonimi sono termini semanticamente più ampi rispetto ai loro iponimi a
livello estensionale, (animale si riferisce a un insieme più ampio di entità
rispetto a cane). A livello intensionale, invece, l'iponimo di un termine risulta
essere più informativo del suo iperonimo (cane ha proprietà più informative
rispetto a quelle di animale, si può assumere infatti che per cane siano vere
proprietà non vere per tutti gli animali, es. abbaiare), quindi i sopraordinati
risultano meno informativi rispetto ai concetti di livello base. Sfruttando
queste proprietà della relazione di iperonimia, ho quindi implementato due
nuove misure direzionali, specificamente concepite per il riconoscimento di
questa relazione. I risultati sino ad ora ottenuti, hanno permesso di dimostrare
che i metodi distribuzionali risultano efficaci e funzionali al riconoscimento ed
alla classificazione di relazioni di iponimia.
Per quanto riguarda la relazione di antonimia, le misure attualmente allo stato
dell'arte si rivelano fallaci sia nella classificazione dei termini tra i quali
intercorre questa relazione, sia nella discriminazione tra la relazione di
sinonimia e di antonimia. Questo avviene perché le relazioni di antonimia e
sinonimia tendono a distribuirsi in maniera simile nei testi. Frequentemente,
infatti, termini sinonimi e termini antonimi, occorrono negli stessi contesti.
Questo rende impossibile utilizzare i metodi distribuzionali standard per il
riconoscimento di questa relazione.
La metodologia sviluppata si basa sull'assunto che, data una coppia di
antonimi, uno dei due membri dovrebbe essere più simile alle occorrenze della
versione negata dell'altro, piuttosto che di quella positiva. Ad esempio, bello
dovrebbe essere più simile e quindi occorrere in contesti di uso, più simili a
quelli di non-‐brutto, piuttosto che a quelli di brutto. Gli esperimenti condotti
fino ad oggi non hanno dato risultati risolutivi, ma funzionali solamente in
alcuni casi specifici. Sulla questa base, è in corso la ricerca di caratteristiche
peculiari che permetterebbero di individuare formalmente insiemi di dati nei
quali la misura proposta è molto efficace. Inoltre, dato che pur non risolutivi, i
dati sembrano essere incoraggianti, mi sto muovendo per ottimizzare
l'esperimento.
In primo luogo, mi sto premurando di preparare un dataset migliore, inteso
come una migliore lista di antonimi da utilizzare per testare il sistema. Le
coppie di termini utilizzate fino ad ora non si sono rivelate, ad un'analisi più
attenta, molto adatti al mio scopo, in quanto formate da termini rari,
difficilmente rintracciabili in termini di occorrenze nei corpora (la scarsa
frequenza dei dati è un grosso limite quando si utilizzano metodi
distribuzionali), e molto poco 'prototipiche'.
A tale proposito quindi, ho intenzione di procedere nel perfezionamento del
metodo sviluppato utilizzando dati più puliti. In secondo luogo procederò con
uno studio sperimentale dei risultati ottenuti, al fine di validarli.
Qualora da tale studio emergessero caratteristiche della relazione di
antonimia che rendono più efficiente la misura, o se dovesse emergere un
particolare tipo di antonimia per cui questo approccio si dovesse rivelare
funzionale, si procederà nell'ottimizzazione della misura.
Un altro aspetto interessante che mi propongo di affrontare riguarda la
possibilità di utilizzare misure di tipo distribuzionale non solo per classificare
gli antonimi, ma anche per distinguere gli antonimi gradabili rispetto agli
antonimi non gradabili.
Inoltre, un altro aspetto da approfondire riguarda l'applicazione dei metodi
distribuzionali per l'analisi dei prefissi negativi (un-‐, im-‐, dis-‐ ) e degli antonimi
che vengono generati grazie all'utilizzo di tali prefissi (come ad esempio
possible-‐impossible).
Bibliografia
• Walter G. Charles, G. A. (1989). Contexts of antonymous adjectives. Applied
psycholinguistics , 357-‐375.
• Weeds, J. a. (2004). Characterising measures of lexical distributional
similarity. Proceedings of the 20th international conference on
Computational Linguistics. Association for Computational Linguistics.
• Wierzbicka, A. (1984). "Apples" Are Not a "Kind of Fruit": The Semantics of
Human Categorization. American Ethnologist , 313-‐328.
• Willners, C. (2001). Antonyms in Context.
• Budanitsky, A. a. (2006). Evaluating wordnet-‐based measures of lexical
semantic relatedness. Computational Linguistics .
• Baroni, M. a. (2010). Distributional memory: A general framework for
corpus-‐based semantics. Computational Linguistics .
• Baroni, M. a. (2011). How we BLESSed distributional semantic evaluation.
Proceedings of the GEMS 2011 Workshop on GEometrical Models of Natural
Language Semantics. Association for Computational Linguistics.
• Benotto, G. (2013). Modelli distribuzionali delle relazioni semantiche: il
caso dell’iperonimia . Animali, Umani, Macchine. Atti del convegno 2012 del
CODISCO. CORISCO edizioni.
• Cann, R. (1993). Formal semantics: an introduction. Cambridge University
Press.
• Charles, W. G. (2000). Contextual correlates of meaning. Applied
Psycholinguistics .
• Clarke, D. (2009). Context-‐theoretic semantics for natural language: an
overview. Proceedings of the Workshop on Geometrical Models of Natural
Language Semantics. Association for Computational Linguistics.
• Cruse, A. (1986). Lexical semantics. Cambridge University Press.
• David E. Rumelhart, P. H. (1972). A process model for long-‐term memory.
Academic Press.
• Dagan, I. a. (2006). The pascal recognising textual entailment challenge. In
Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual
Object Classification, and Recognising Tectual Entailment. Springer.
• Deese, J. (1966). Structure of associations in language and thought.
Baltimore: Johns Hopkins Press .
• Fellbaum, C. (2001). WordNet: An electronic lexical database. MIT Press.
• Fellbaum, C. (1995). Co-‐occurrence and antonymy. International journal of
lexicography , 281-‐303.
• Firth, J. (1957). Modes of Meaning. Papers in Linguistics .
• George Miller, a. C. (1998). Wordnet: An electronic lexical database.
Cambridge: MIT Press Cambridge.
• Giampiccolo, D. a. (2009). The third pascal recognizing textual entailment
challenge. Proceedings of the ACL-‐PASCAL workshop on textual entailment
and paraphrasing. Association for Computational Linguistics.
• Hindle, D. (1990). Noun classification from predicate-‐argument structures.
Proceedings of the 28th annual meeting on Association for Computational
Linguistics. Association for Computational Linguistics.
• Jones, M. N. (2006). High-‐dimensional semantic space accounts of priming.
Journal of memory and language .
• Katz, J. J. (1972). Semantic theory. New York: Harper & Row.
• Kempson, R. M. (1977). Semantic Theory. Cambridge: Cambridge University
Press.
• Kintsch, W. (2000). Metaphor comprehension: A computational theory.
Psychonomic Bulletin & Review .
• Kintsch, W. (1974). The representation of meaning in memory.
• Kotlerman, L. a.-‐G. (2010). Directional distributional similarity for lexical
inference. Natural Language Engineering .
• Lyons, J. (1977). Semantics. Vol. 1-‐2.
• Lehrer, A. L. (1982). Antonymy. Linguistics and philosophy , 483-‐501.
• Lehrer, A. (1974). Semantic Fields and Lexical Structure . Amsterdam: North
-‐ Holland.
• Lenci, A. a. (2012). Identifying hypernyms in distributional semantic spaces.
Proceedings of the First Joint Conference on Lexical and Computational
Semantics-‐Volume 1: Proceedings of the main conference and the shared task,
and Volume 2: Proceedings of the Sixth International Workshop on Semantic
Evaluation. Association for Computational Linguistics.
• Lin, D. a. (2003). Identifying synonyms among distributionally similar
words. IJCAI.
• Lin, D. (1998). An information-‐theoretic definition of similarity. ICML.
• Murphy, G. L. (1997). Hierarchical structure in concepts and the basic level of
categorization. MIT Press.
• Murphy, M. L. (2003). Semantic relations and the lexicon. Cambridge
University Press.
• Martha W. Evens, B. L. (1980). Lexical-‐semantic relations: a comparative
survey. Linguistic Research.
• McDonald, S. a. (2001). Testing the distributional hypothesis: The influence
of context on judgements of semantic similarity.
• Michael N Jones, W. K. (2006). High-‐dimensional semantic space accounts of
priming. Journal of memory and language .
• Miller, G. A. (1991). Contextual correlates of semantic similarity. Language
and cognitive processes .
• Mohammad, S. a. (2008). Computing word-‐pair antonymy. Proceedings of
the Conference on Empirical Methods in Natural Language Processing.
Association for Computational Linguistics.
• Mohammad, S. (2013). Publications and Data.
• Quillian, M. R. (1967). Word concepts: A theory and simulation of some
basic semantic capabilities. Behavioral science .
• Pustejovsky, J. (1995). The Generative Lexicon. Cambridge: MIT Press.
• Palmer, F. (1981). Semantics. Cambridge: Cambridge University Press.
• Persson, U. M. (1986). Facets, phases and foci: studies in lexical relations in
English. Universitetet i Umeå.
• Persson, G. (1990). Meanings, models and metaphors: a study in lexical
semantics in English. Stockholm: Almqvist & Wiksell International .
• Sahlgren, M. (2006). The Word-‐Space Model: Using distributional analysis
to represent syntagmatic and paradigmatic relations between words in
high-‐dimensional vector spaces. The Word-‐Space Model: Using distributional
analysis to represent syntagmatic and paradigmatic relations between words
in high-‐dimensional vector spaces . Stockholm.
• Steven Jones, M. L. (2012). Antonyms in English: Construals, constructions
and canonicity . Cambridge University Pres.
• Resnik, P. S. (1993). Selection and information: a class-‐based approach to
lexical relationships. IRCS Technical Reports Series.
• Thomas K Landauer, S. T. (1997). A solution to Plato's problem: The latent
semantic analysis theory of acquisition, induction, and representation of
knowledge. . Psychological review .