52
ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

Embed Size (px)

Citation preview

Page 1: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

ELABORAZIONE DEL LINGUAGGIO NATURALE

CONOSCENZA LESSICALEWORDNET

SEMANTICA DISTRIBUZIONALE

Page 2: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

CONOSCENZA LESSICALE

• Conoscenza sulle PAROLE di una lingua• Una componente fondamentale della nostra

conoscenza linguistica

Page 3: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

CHE INFORMAZIONI SONO CONTENUTE NEL LESSICO

• Le FORME di una parola (ortografia e pronuncia)• La loro STRUTTURA (da quali MORFEMI sono

composti)• Informazioni GRAMMATICALI• Esempi di USO• ETIMOLOGIA• Il SIGNIFICATO della parola (compresi sinonimi)

Page 4: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

UN ESEMPIO DI VOCE IN DIZIONARIO

toad /təųd/ n. 1 any froglike amphibian of the family Bufonidae, esp. of the genus Bufo, breeding in water but living chiefly on land. 2 any of various similar tailless amphibians. 3 a repulsive or detestable person. toadish adj. [Old English tadige, tadde, tada, of unknown origin] (COD 9)

Page 5: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

FORME DI PAROLA

• PRONUNCIA– Fonemi, oggigiorno solitamente IPA /təųd/ – Prosodia (accento)

• ORTOGRAFIA– Sillabe– Varianti

Page 6: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

INFORMAZIONI GRAMMATICALI

• Morfologia– Verbi: inflessioni– Nomi: forma del plurale

• dito dita• Sintassi

– Parte del discorso (con restrizioni: awake predicative (the baby is awake) ma non attributive (*the awake baby)

– Verbi: transitivo / intransitivo, quali tipi di preposizioni, etc.

Page 7: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

COLLOCAZIONI

• Frasi fatte: Studente lavoratore, padre padrone, governo ombra

• Preferenze d’uso:– Il sostantivo vino tipicamente modificato dagli

aggettivi bianco e rosso (ma non giallo)• (Inglese: Il sostantivo ban tipicamente modificato dagli

aggettivi total o complete, associato con il verbo impose, etc.)

Page 8: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

SIGNIFICATO

• Una delle funzioni piu’ importanti di un dizionario e’ caratterizzare le ACCEZIONI di una parola attraverso DEFINIZIONI

• Probabilmente l’aspetto piu’ difficile della lessicografia

Page 9: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

DUE TIPI DI SIGNIFICATO LESSICALE

• Significato DENOTAZIONALE: conoscenza sulla ‘parola in se’:– Il CAVALLO e’ un ANIMALE dalla lunga criniera …– (Il tipo di conoscenza tipicamente trovata nelle

definizioni)• Significato COMPOSIZIONALE: conoscenza sul

come la parola si combina con altre parole

Page 10: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

ESEMPI DI SIGNIFICATO DENOTAZIONALE IN DIZIONARIO

contascàtti: Dispositivo installato a richiesta presso l’utente per la documentazione del traffico telefonico

(Zingarelli 1995)

maneggevole: Che si puo’ maneggiare facilmente || Fig. trattabile, arrendevole || T. mar. del vento, quando permette l’esecuzione di qualsiasi manovra

(Palazzi-Folena, 1992)

Page 11: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

TIPI DI TEORIE SEMANTICHE

• Teorie REFERENZIALI• Teorie RELAZIONALI / STRUTTURALI• Teorie COGNITIVE

– Teoria dei PROTOTIPI

VEDREMO CHE OGNUNA DI QUESTE TEORIE SVOLGE UNA FUNZIONE ALL’INTERNO DI UN DIZIONARIO

Page 12: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

TEORIE REFERENZIALI DEL SIGNIFICATO

• Funzione principale delle parole: RIFERIRSI ad oggetti nel mondo circostante

• Significato di SEDIA: le proprieta’ che ci permettono di identificare una sedia quando la vediamo– Ha 4 gambe, uno schienale, una superficie piatta,

etc ..• Portano a definizioni del tipo GENUS E

DIFFERENTIA

Page 13: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

GENUS E DIFFERENTIA

horse noun

1 a solid-hoofed plant-eating domesticated mammal with a flowing mane and tail, used for riding, racing, and to carry and pull loads

New Oxford Dictionary of English

GENUS

DIFFERENTIAE

Page 14: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

RETI SEMANTICHE

Page 15: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

RETI SEMANTICHE: RISULTATI DALLA PSICOLOGIA COGNITIVA

• Collins & Quillian, 1969: tempi per decidere se un oggetto ha una certa proprieta’ aumentano a seconda della ‘distanza’– A canary is yellow– A canary has feathers– A canary eats food

Page 16: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

LIMITI DELLA DEFINIZIONE VIA GENUS & DIFFERENTIA

• Putnam: – `faggio’ / `olmo’– `diamante’ / `zircone’

• Jackson: happen vs occur vs befall vs transpire– Everything is illuminated: `harmonize’ vs `agree’,

Page 17: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

TEORIE RELAZIONALI DEL SIGNIFICATO LESSICALE

• Le teorie RELAZIONALI ipotizzano che il significato di una parola e’ stabilito dalle sue RELAZIONI DI SIGNIFICATO con altre parole

• Sviluppate in ambito lessicografico

Page 18: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

RELAZIONI SEMANTICHE• Relazioni gia’ utilizzate in definizioni per Genus e

Differentia:– IPERONIMIA:

• Garofano, rosa, margherita sono tutti iponimi di FIORE– MERONIMIA

• Altre relazioni:– SINONIMIA: quando due lemmi distinti hanno lo stesso

significato• Spesso essenziale per definizioni / traduzioni (ETERONIMIA)

– ANTONIMIA: quando due lemmi hanno significati CONTRARI

• Bello / brutto, amore / odio

Page 19: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

MERONIMIA NELLE DEFINIZIONI

horse noun

1 a solid-hoofed plant-eating domesticated mammal with a flowing mane and tail, used for riding, racing, and to carry and pull loads

New Oxford Dictionary of English

HYPERNYM

PARTI

Page 20: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

DEFINIZIONE PER SINONIMIA

miserable 1 very unhappy, wretched 2 causing misery 3 squalid 4 mean

unhappy 1 sad or depressed 2 unfortunate or wretched

wretched 1 miserable or unhappy 2 worthless

Collins Pocket English Dictionary (2000)

CIRCOLARITA

Page 21: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

DEFINIZIONI PER ANTONIMIA

artificial not real

conventional not spontaneous or sincere or original

vacant not occupied

Concise Oxford Dictionary 9

Page 22: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

WORDNET

• A lexical database created at Princeton– Freely available for research from the Princeton site– http://www.cogsci.princeton.edu/~wn/

• Information about a variety of SEMANTICAL RELATIONS • Three sub-databases (supported by psychological research as

early as (Fillenbaum and Jones, 1965))– NOUNs– VERBS– ADJECTIVES and ADVERBS

• Each database organized around SYNSETS

Page 23: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

SYNSETS

• Senses (or `lexicalized concepts’) are represented in WordNet by the set of words that can be used in AT LEAST ONE CONTEXT to express that sense / lexicalized concept: the SYNSET

• E.g., {chump, fish, fool, gull, mark, patsy, fall guy, sucker,

shlemiel, soft touch, mug}(gloss: person who is gullible and easy to take advantage of)

Page 24: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

IL DATABASE DEI NOMI

• About 90,000 forms, 116,000 senses• Relations:

hypernym breakfast -> meal

hyponym meal -> lunch

has-member faculty -> professor

member-of copilot -> crew

has-Part table -> leg

part-of course -> meal

antonym leader -> follower

Page 25: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

IPERNIMIA IN WORDNET2 senses of robin

Sense 1robin, redbreast, robin redbreast, Old World robin, Erithacus rubecola -- (small Old World songbird with a reddish breast) => thrush -- (songbirds characteristically having brownish upper plumage with a spotted breast) => oscine, oscine bird -- (passerine bird having specialized vocal apparatus) => passerine, passeriform bird -- (perching birds mostly small and living near the ground with feet having 4 toes arranged to allow for gripping the perch; most are songbirds; hatchlings are helpless) => bird -- (warm-blooded egg-laying vertebrates characterized by feathers and forelimbs modified as wings) => vertebrate, craniate -- (animals having a bony or cartilaginous skeleton with a segmented spinal column and a large brain enclosed in a skull or cranium) => chordate -- (any animal of the phylum Chordata having a notochord or spinal column) => animal, animate being, beast, brute, creature, fauna -- (a living organism characterized by voluntary movement) => organism, being -- (a living thing that has (or can develop) the ability to act or function independently) => living thing, animate thing -- (a living (or once living) entity) => object, physical object -- => entity, physical thing --

Page 26: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

MERONIMIA IN WORDNET

wn beak –holon

Holonyms of noun beak

1 of 3 senses of beak

Sense 2

beak, bill, neb, nib

PART OF: bird

Page 27: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

VERBI

• About 10,000 forms, 20,000 senses• Relations between verb meanings:

Hypernym fly-> travelTroponym Walk -> strollEntails Snore -> sleep Antonym Increase ->

decrease

Page 28: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

RELAZIONI TRA SIGNIFICATI VERBALI

V1 ENTAILS V2 when Someone V1 (logically) entails Someone V2- e.g., snore entails sleep

TROPONYMY when To do V1 is To do V2 in some manner- e.g., limp is a troponym of walk

Page 29: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

AGGETTIVI & AVVERBI

• About 20,000 adjective forms, 30,000 senses• 4,000 adverbs, 5600 senses• Relations:

Antonym (adjective)

Heavy <-> light

Antonym (adverb) Quickly <-> slowly

Page 30: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

WORDNET IN NLTK (Chapter 2.5)

>>> from nltk.corpus import wordnet as wn>>> wn.synsets('motorcar')[Synset('car.n.01')]

Page 31: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

OBIEZIONI ALL’APPROCCIO SEMANTIC NETWORK AL SIGNIFICATO

• Obiezioni filosofiche– Wittgenstein, Putnam

• Obiezioni cognitiviste

Page 32: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

WITTGENSTEIN: ‘GAME’

• What is common to all games?– Are they all ‘amusing’?

• Cfr. chess

– Or is there always winning and losing?• Counterex: child throwing his ball at the wall

– Look at the parts played by skill and luck

• “I can think of no better expression that FAMILY RESEMBLANCE”– ‘games form a family’

Page 33: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

PUTNAM

• the term ‘lemon’ not definable by simply conjoining its ‘definining characteristics’ yellow color / tart taste / a certain kind of peel– Abnormal members (green lemon)– Three legged tiger (Also: three-legged chair, see

below)

Page 34: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

PROBLEMI EMPIRICI PER L’APPROCCIO TASSONOMICO / RETI SEMANTICHE

• Typicality effects– Is a tomato a vegetable or a fruit?– ‘Is this art?’

• Failures of transitivity – If A is a B and B is a C, is A a C?

Page 35: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

‘Fuzzy’ or ‘graded’ categorization• A necessary and sufficient definition should pick up

all the category members and none of the non-members

• But this is not what happens:– Hampton (1979): no clear division between members and

non-members of 8 categories• Kitchen utensils: SINK? SPONGE?• Vegetables: TOMATOES? GOURDS?

• Agreement on typicality judgments– (‘think of a fish, any fish’)– Rosch (1975): very high correlation (.97) between

subjects’s typicality rankings for 10 categories

Page 36: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

Typicality effects• The ease with which people judge CATEGORY MEMBERSHIP

depends on typicality– Rips, Shoben and Smith (1973): Fast to affirm that a robin is a bird; not

so fast to affirm that a chicken is a bird– Posner & Keele: similarity to visual pattern

• Learning: typical items learned before atypical ones (Rosch Simpson & Miller 1976)– Learning is faster if subjects are taught on typical items

• Typicality affects speed of inference– Rips 1975:– Garrod & Sanford 1977: faster reading time for “The bird came in

through the front door” when ROBIN than when GOOSE

Page 37: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

ALTERNATIVA: TEORIA DEI PROTOTIPI

• La teoria dominante dei concetti in Psicologia e’ la teoria dei PROTOTIPI proposta da Rosch negli anni ’70

Page 38: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

La teoria in breve

• Manteniamo rappresentazioni dei concetti sulla base delle loro ‘features’ (TRATTI)

• Per ogni classe di oggetti esistono dei rappresentanti piu’ TIPICI

• Per decidere se un oggetto e’ una sedia od una poltrona calcoliamo la SOMIGLIANZA tra questo oggetto e la ‘tipica sedia’ e la ‘tipica poltrona’

Page 39: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

FEATURE NORMS

• Psychologists have been collecting concept features from subjects at least since Rosch and Mervis (1975)

• Different methodologies used (from free association to very tightly controlled)

• Three such databases currently available– Garrard et al (2001) - GA– Vinson and Vigliocco (2004) - VV– McRae et al (2005) – MCRA - the largest, also classified

Page 40: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

SPEAKER-GENERATED FEATURES (VINSON AND VIGLIOCCO)

Page 41: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

CONCETTI COME ‘CLUSTER’

CHICKENGOOSE

ORIOLEROBIN

OSTRICH

Page 42: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

What makes an item typical? Rosch & Mervis 1975

• Items are typical when they have HIGH FAMILY RESEMBLANCE with members of the category:

– Typical items have many of the attributes of members– Do not have properties of nonmembers– Irrespective of frequency: ORIOLE vs CHICKEN

• Evidence 1: checked that subjects agree on typicality for several natural categories

1. Asked subjects to list attributes (actually, check)2. Weighed each attribute by how many items it occurred with within the

category1. ‘SCORE’ indicates how many common features

3. Found that score highly predictive of typicality (.84-.91)Five most typical ‘furniture’ (CHAIR, SOFA, TABLE, DRESSER, DESK) have 13 features in common

Five least typical (CLOCK, PICTURE, CLOSET, VASE, TELEPHONE) had 2 attributes in common

Page 43: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

DEFINIZIONE PER TIPICALITA’

day of rest a day set aside from normal activity, typically, Sunday on religious grounds

measles an infectious viral disease causing fever and a red rash, typically occurring in childhood

Concise Oxford Dictionary

Page 44: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

FEATURE NORMS & DIZIONARI

• Questi dati sui tratti tipici di concetti raccolti da soggetti potrebbero essere utili per guidare lo sviluppo di definizioni o delle relazioni semantiche in un dizionario tipo WordNet

Page 45: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

FEATURE NORMS PER ELDIT

• Un progetto congiunto European Academy Bolzano / UniTN (CIMEC) per raccogliere feature norms su parole in Italiano e Tedesco

Page 46: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

METODI

• Dati raccolti da studenti nelle scuole di Bolzano – ~70 studenti di lingua madre Italiana e 70 di lingua

madre tedesca• Raccolto dati su 50 concetti

Page 47: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

RISULTATI

• ~200 paia concetto / attributo in comune tra tutti e 70 i soggetti tedeschi ed altrettante per gli Italiani

• Tipi di proprieta’ piu’ importanti:– Iponimia ( il cane e’ un animale )– Parte ( il cane ha le zampe)– Qualita’ esterna ( le fragole sono rosse)– Comportamento ( il cane abbaia )

Page 48: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

CONOSCENZA COMPOSIZIONALE

• Dal punto di vista composizionale si possono fare almeno due distinzioni :– Tra PREDICATI ed ARGOMENTI– Tra parole FUNZIONALI e parole ‘CONTENUTO’

Page 49: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

PREDICATI ED ARGOMENTI

Maria ha noleggiato una macchina

PREDICATO

ARGOMENTI

Page 50: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

PREDICATI ED ARGOMENTI

• Numeri diversi di argomenti:– 0 (PIOVERE, NEVICARE)– 1 (CADERE, NUOTARE)– 2 (NOLEGGIARE, CONOSCERE)– 3 (DARE, DEDICARE)

• Non solo predicati verbali– Sono STANCO / AFFAMATO / CONTENTO / ….

Page 51: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

PAROLE FUNZIONALI

• Molte parole (ed affissi!) di una lingua, particolarmente quelle delle classi ‘chiuse’ (articoli, preposizioni, connettori, verbi ausiliari) fanno parte del ‘sistema della lingua’: esprimono aspetti semantici che fanno parte della GRAMMATICA della lingua stessa

• Maria E Giovanni HANNO noleggiato DUE macchine

Page 52: ELABORAZIONE DEL LINGUAGGIO NATURALE CONOSCENZA LESSICALE WORDNET SEMANTICA DISTRIBUZIONALE

RIFERIMENTI

• Fellbaum, C. (1998). WordNet: A Lexical Database. MIT Press.