Upload
linus
View
59
Download
3
Embed Size (px)
DESCRIPTION
Risorse Computazionali per il Web Semantico. Roberto Navigli. Alcune slide provengono dalla scuola estiva EUROLAN 2003. 19/09/2003. Agenda. Il Web Semantico Lessici computazionali Classificazioni Focus on: SIMPLE FrameNet. Documenti. Agenti Intelligenti. Web Semantico. Ontologie. - PowerPoint PPT Presentation
Citation preview
Dipartimentodi Informatica
Università di Roma “La Sapienza”
Risorse Risorse Computazionali per il Computazionali per il
Web SemanticoWeb Semantico
Roberto NavigliRoberto Navigli
Alcune slide provengono dalla scuola estiva EUROLAN 2003
19/09/2003
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
AgendaAgenda• Il Web Semantico• Lessici computazionali
Classificazioni• Focus on:
SIMPLE FrameNet
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Il Web SemanticoIl Web Semantico• Obiettivo: Trasformare il WWW in
una KB comprensibile alla macchina
Web SemanticoOntologie
KnowledgeMarkup
AgentiIntelligenti
Applicazioni
Documenti
Database
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
L’Onda SemanticaL’Onda Semantica
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
6 sfide per il WS6 sfide per il WS(Benjamins et al. 2002)(Benjamins et al. 2002)
• Disponibilità del contenuto• Disponibilità di ontologie• Multilingualità• Scalabilità (organizzazione,
memorizzazione, ricerca della conoscenza)• Visualizzazione (≠ ipertesto)• Stabilità dei linguaggi del WS
(standardizzazione)
Human LanguageTechnology
(HLT)
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Lessici computazioniali e Lessici computazioniali e Human Language TechnologiesHuman Language Technologies• I lessici computazionali forniscono
una conoscenza delle parole comprensibile alla macchina
• La rappresentazione è esplicita• Il significato è collegato alla
morfologia e alla sintassi della parola• E’ possibile creare collegamenti
lessicali multilingua
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Lessici computazionali e Lessici computazionali e HLT (2)HLT (2)
• Risorse critiche per i sistemi di NLP: Frame di sottocategorizzazione sintattica per il
parsing Semantic selectional preferences per la
riduzione dell’ambiguità Classi semantiche per WSD, semantic tagging
ecc.• Componenti chiave delle HLT:
Lessici monolingua – IE, QA, ecc. Lessici multilingua – MT, CLIR, ecc.
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Ontologie e lessici Ontologie e lessici computazionalicomputazionali
Semantic Web
Ontologies ComputationalLexicons
HLTAccess toContent
?
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
OntologieOntologie• “la specifica esplicita di una
concettualizzazione” (Gruber, 1993)• “includono il vocabolario, le
interconnessioni semantiche e alcune semplici regole di inferenza e logica” (Hendler, 2001)
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Ontologie “linguistiche”Ontologie “linguistiche”• Sistemi di simboli che rappresentano i
concetti codificati da espressioni in linguaggio naturale (unità lessicali, termini, ecc.) Specificano le classi semantiche raggruppando
termini simili a livello semantico Usano un linguaggio di rappresentazione
semanticaOBJECT
EVENT
LOCATION
ARTIFACT
ANIMAL
ENTITY
VEHICLE
MAMMAL
BEACH
CONCERT
dog, cat, horse
car, van, truck
beach
piano concert, rock concert
spiaggia
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Tipologie di lessici Tipologie di lessici computazionalicomputazionali
• Monolingua vs multilingua• General purpose vs domain specific• Tipo di contenuto
(Morfo)sintattico Semantico Misto Terminologico
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Lessici computazionali Lessici computazionali sintatticisintattici
• Le informazioni lessicali sono contenute in frame di sottocategorizzazione (ComLex, PAROLE ecc.)
• I frame sintattici includono: Un certo numero di argomenti Le rispettive categorie sintattiche (PP, NP, ecc.) Vincoli lessicali sugli argomenti (es. PP deve avere in
testa una preposizione) Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.)
hit [V: (Subj: NP) (Objd: NP)]answer [N: (Obji: PP_to)]
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Lessici computazionali Lessici computazionali semanticisemantici
• Rappresentano il significato di una parola Distinguono differenti sensi di una
parola Catturano le inferenze (essere umano
essere animato) Rappresentano similarità, relatedness
ecc. (es. banca, conto, denaro sono concetti relativi alla finanza)
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Lessici computazionali Lessici computazionali semanticisemantici
• Basati su reti concettuali WordNet (Miller, Fellbaum et al.)
• hierarchy/taxonomy EuroWordNet (Vossen et al.)
• heterarchy• Basati su frame
Mikrokosmos (Nirenburg, Mahesh et al.) FrameNet (Fillmore et al.)
• Ibridi SIMPLE (Calzolari, Lenci et al.)
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
PAROLE-SIMPLEPAROLE-SIMPLE(ILC CNR Pisa – Calzolari, Lenci et al.)(ILC CNR Pisa – Calzolari, Lenci et al.)
• 12 lessici di base monolingua costruiti secondo un modello armonizzato
• Estesi a livello nazionale• Combinazione di informazioni sintattiche e
semantiche Frame di sottocategorizzazione sintattica Tipo semantico (“ontology”) Frame semantici collegati alla sintassi
• Ruoli semantici• Selectional preferences• Ecc.
Relazioni semantiche Pustejovsky’s “quali roles” Polisemia regolare Eventi
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Elementi base del lessico Elementi base del lessico monolinguamonolingua
• Ciascun layer individua un’unità base di descrizione lessicale
morphological layer MU
basic unit to describe the inflectional and derivational morphological properties of the word
syntactic layer SynU
basic unit to describe the syntactic behavior of the MU
semantic layer SemUbasic unit to describe the semantic properties of the MU
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Architettura di SIMPLEArchitettura di SIMPLE
Italian lexicon
etc.
Greek lexiconGreek lexicon
PAROLE Syntax
Italian lexiconItalian lexicon
Catalan lexiconCatalan lexicon
OntologyLexicalTemplates
Language Independent Module
SemU
SemanticRelations
EventStructure Polysemy
Semantic Frame(semantic roles, etc.)
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
SIMPLESIMPLErelazioni semanticherelazioni semantiche
Top
Formal Constitutive Agentive Telic
Is_a Is_a_part_of Property
Contains
Created_by Agentive_cause Indirect_telic Activity
Instrumental Is_the_habit_of
Used_for Used_as
... ...
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
SIMPLESIMPLEuna rete semanticauna rete semantica
<parte>part
Isa
Isa
Isa
<volare>flyUsed_for
Used_for
<aeroplano>airplane
Is_a_part_of
<uccello>bird
Is_a_part_of
<edificio>building
Is_a_part_of
Ala (wing)
SemU: 3232Type: [Part]Part of an airplane
SemU: 3268Type: [Part]Part of a building
SemU: D358Type: [Body_part]Organ of birds for flying
SemU: 3467Type: [Role]Role in football
<giocatore>player
Isa
Agentive
<fabbricare>make
Agentive
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
SIMPLESIMPLEFrame semanticiFrame semantici
il difensore di Berlusconi (Berlusconi's defender)il difensore del Milan (the Milan fullback)
Difensore N
SemU: 4125
Type: [Role]
Defender
SemU: 3526
Type: [Role]
Fullback
agentnominalization
<squadra>teamIs_a_member_of
PREDDifendere#1<Arg1>, <Arg2>
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Frame disambiguationFrame disambiguation• L’identificazione del contributo semantico
di un NP richiede l’accesso alla rappresentazione del contenuto semantico delle teste nominali
• La “struttura semantica” della testa nominale determina la relazione semantica espressa da un PP che modifica l’NP: La pagina del libro (part-of) Il difensore del Milan (member-of) Il suonatore di liuto (telic) Il tavolo di legno (made-of)
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
SIMPLESIMPLEesempiesempi
semantic frame
semantic relations
ontology
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Lexical acquisition Lexical acquisition bottleneckbottleneck
• Il lessico italiano di SIMPLE codifica circa 6000 concetti Disomogeneo Incompleto Non è disponibile L’utilizzo non è consigliato dagli stessi autori
(ILC – CNR di Pisa)• Acquisizione automatica della conoscenza
lessicale FrameNet
GOSSIP!
GOSSIP!GOSSIP!
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
FrameNetFrameNet(ICSI, U-Colorado – Fillmore, Narayanan, Jurafsky et al.)(ICSI, U-Colorado – Fillmore, Narayanan, Jurafsky et al.)
• Fase I (1997-2000) Basi concettuali, impiego di strumenti
preesistenti, Perl• Fase II (2000-2003)
Scalabilità, utilizzo di DB SQL, strumenti scritti in Java
Applicazioni pilota
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
I frame e la comprensione I frame e la comprensione umanaumana
• Ipotesi: la gente comprende nuovi fatti effettuando operazioni mentali sulla base di ciò che già conosce. Tale conoscenza è descrivibile in termini di pacchetti di informazione chiamati frame
• FrameNet può fornire tale conoscenza• Le rappresentazioni di FrameNet fanno da
complemento a ontologie e lessici
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
In cosa consiste FrameNetIn cosa consiste FrameNet• Caratterizzazione dei frame• Individuazione delle parole che riguardano
un frame• Sviluppo di una terminologia descrittiva• Estrazione di frasi di esempio• Annotazione (manuale) degli esempi
selezionati• Descrizione del frame
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Il processoIl processo• Le frasi contenenti una certa parola
sono estratte dal corpus in esame e rese disponibili per l’annotazione
• Gli studenti (!) selezionano le espressioni che identificano i ruoli semantici delle frasi e li etichettano con il nome dei ruoli del frame
• Informazioni grammaticali sulle frasi etichettate sono estratte automaticamente
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Alcune annotazioniAlcune annotazioni(to appoint – nominare)(to appoint – nominare)
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Lista parziale di parole per Lista parziale di parole per un frameun frame
• Verbi: pay, spend, cost, buy, sell, charge
• Nomi: cost, price, payment• Adjectives: expensive, cheap
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Significato e sintassiSignificato e sintassi• I vari verbi che evocano un frame
introducono gli elementi del frame in modi differenti
• Informazioni analoghe possono essere espresse in posti diversi della frase secondo il verbo utilizzato
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Customer Vendor
Goods Money
BUY
from
for
She bought some carrots from the greengrocer for a dollar.
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Customer Vendor
Goods Money
PAY
for
to
She paid a dollar to the greengrocer for some carrots.
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Customer Vendor
Goods Money
PAY
for
She paid the greengrocer a dollar for the carrots.
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Customer Vendor
Goods Money
SPEND
on
She spent a dollar on the carrots.
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Customer Vendor
Goods Money
SELL
for
to
The greengrocer sold some carrots to her for a dollar.
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Customer Vendor
Goods Money
SELL
for
The greengrocer sold her some carrots for a dollar.
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Customer Vendor
Goods Money
CHARGE
for
The greengrocer charged a dollar for a bunch of carrots.
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Customer Vendor
Goods Money
CHARGE
for
The greengrocer charged her a dollar for the carrots.
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Customer Vendor
Goods Money
COST
A bunch of carrots costs a dollar.
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
Customer Vendor
Goods Money
COST
A bunch of carrots cost her a dollar.
Dipartimento di InformaticaUniversità di Roma “La Sapienza”
RobertoNavigli
FrameNet Fact SheetFrameNet Fact Sheet• 500 frame• 7700 unità lessicali• 130.000 frasi annotate• Interconnessioni tra i frame (ereditarietà,
sottoframe, “using”) Potrebbero essere mappate su relazioni
ontologiche• Multilingual FrameNets (spagnolo,
tedesco, giapponese)• Disponibile!