48
En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning Bolette Sandford Pedersen Center for Sprogteknologi Rosendal 6. september 2002

En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

  • Upload
    dougal

  • View
    62

  • Download
    1

Embed Size (px)

DESCRIPTION

En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning. Bolette Sandford Pedersen Center for Sprogteknologi Rosendal 6. september 2002. Indhold. 1. lektion Introduktion til SIMPLE SIMPLE-øvelse 2. lektion Indholdsbaseret søgning (OntoQuery). - PowerPoint PPT Presentation

Citation preview

Page 1: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

En dansk semantisk ordbog og dens anvendelse til

indholdsbaseret søgning

Bolette Sandford PedersenCenter for Sprogteknologi

Rosendal 6. september 2002

Page 2: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Indhold

1. lektion Introduktion til SIMPLE SIMPLE-øvelse

2. lektion Indholdsbaseret søgning (OntoQuery)

Page 3: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Hvorfor skal der være semantik i en sprogteknologisk ordbog ?Niveau 1: f.eks. maskinoversættelse kræver

at maskinen kan entydiggøre ord som kan betyde flere ting:

Kosten var velsmagende

tiden går

Page 4: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Semantik

Niveau 2: F.eks. avanceret informationssøgning kræver at maskinen i en vis forstand kan fortolke ord:Søgeudtryk: støtte til solvarmeFinde tekster med: tilskud til energibesparende foranstaltning

støtte og tilskud er synonymersolvarme er underbegreb til energibesparende foranstaltning

Page 5: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Semantik

Niveau 3: ’Fuld’ maskinel fortolkning til programmer som skal ’forstå’ naturligt sprog:

Hans dansede med sin borddame

For at maskinen skal kunne ’identificere’ hvem der refereres til med ordet borddame - skal den vide at det er den kvinde han sad ved siden af under middagen.

Page 6: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Hvor står semantikken i almindelige ordbøger?

NUDANSK ORDBOG:PuslespilORDKLASSE: subst.

BØJNING: puslespillet, plur. puslespil, puslespilleneBETYDNING: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et heleEKSEMPEL: lægge puslespil på 2.000 brikkerSAMMENSÆTNING: puslespilsbrik

Page 7: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Om SIMPLE

SIMPLE-projektet var et EU-projekt som blev afsluttet i 2000

Formål: at udarbejde harmoniserede semantiske ordbøger for 12 EU sprog (Semantic Information for Multifunctional, Plurilingual Lexica)

10.000 betydninger for hvert sprog på basis af en fælles ontologi, SIMPLE-

ontologien (Lenci et al. 2001)

Page 8: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

SIMPLE-Ontologien

SIMPLE-ontologien udgør det semantiske typesystem som er det begrebsmæssige udgangspunkt for alle de 12 ordbøger

Qualia Structure (cf. Pustejovsky, 1995) WordNets klassifikation (cf. Miller and Fellbaum,

1991) http://www.cogsci.princeton.edu/cgi-bin/webwn1.7.1

EuroWordNets klassifikation (cf. Vossen et al, 1998) Levins verbalklassifikation (1993)

Page 9: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Ords interne kompleksitet

Grundlæggende antagelse i SIMPLE: ord varierer mht. intern kompleksitet. Dette kan forstås på to måder:

hvor mange betydningsdimensioner associerer vi til et ord ? (en lækker kage, en blommekage, en nem kage)

hvor mange betydninger har ordet ? universitet_1 (building), universitet_2 (human group)

Page 10: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Mange betydningsdimensioner kan udtrykkes vha. Qualia Structure Qualia Structure udgør en

repræsentationsmodel for den kompositionelle del af ords betydning idet den kan udtrykke

forskellige kompleksitetsgrader i ord og danne basis for inferensregler (e.g. en nem kage => nem at tilberede/bageen lækker kage => lækker at spise)

Page 11: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

De fire qualia-roller

formal role: typisk ‘is_a’-relation agentive role: oprindelse, typisk

‘created_by’-relation telic role: formål, typisk ‘used_for’-

relation constitutive role: intern struktur, typisk

‘part_of’-relation

Page 12: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Simple typer

basiskategorier som er monodimensionelle

som kan beskrives alene ved hjælp af en flad taksonomi

organiseret alene ud fra hyponymirelationer

eksempler: himmel, bakke, blomst, søster (typisk natural kinds, Cruse ‘93)

Page 13: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Flerdimensionelle typer

flerdimensionelle typer har mere end en overtype

MEN unified types bygger på en simpel type og får tilføjet en agentiv eller telisk dimension (f.eks. cykel, læge, pandekage)

ortogonal nedarvning beriger den traditionelle nedarvning ved hjælp af semantiske relationer (indarbejdet i Qualia Structure)

Page 14: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Komplekse typer

i Pustejovsky 1995 anvendes såkaldte ‘complex types’ - komplekse typer - til at angive underspecificerede betydninger med systematisk polysemi (også kaldet dotted types eg. universitet som building.humangroup)

i SIMPLE angives komplekse typer ved at tillade at to semantiske typer er forbundne via trækket complex

Page 15: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Systematisk polysemi

klasser af systematisk polysemi:

beholder/kvantitet ‘kop’ dyr/mad ‘lam’ genstand/åbning ‘dør’ handling/resultat ‘bygning’ sted/folk ‘Danmark’

Page 16: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

puslespil som flerdimensionel type

et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et heleoverbegreb dele formål oprindelse

spil træbrikker samles til et hele udskære

papbrikker

puslespil

Page 17: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

En ordbogsindgang med semantik Semantic Unit puslespil

Definition: et spil med træ- el. papbrikker i forskellige faconer som skal lægges sammen så de danner et hele (NDO)

Corpus example:nu var hun næsten ved at være færdig med det puslespil, hun var begyndt på lige efter påske

Ontological type:Artifact

Unification Path Concrete_Entity|Agentive|Telic

Domain: General

Formal quale: is_a = spil

Agentive quale: created_by = udskære

Telic quale: used_for = samle til et hele

Constitutive quale:has_as_parts=træbrikker OR papbrikker

Page 18: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Semantisk verbalbeskrivelse i SIMPLE-modellenDe 59 semantiske verbalklasser i SIMPLE er

et kompromis imellem: Beth Levins 234 verbalklasser Wordnets 15 klasser3 kriterier er blevet anvendt: event type (tilstand, proces, transition) argumentstruktur (aritet og type) kausativitet vs. dekausativitet (bolden

ruller/jeg ruller bolden)

Page 19: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Verbalontologien

Phenomenon (regnvejr, influenza)Aspectual (begynde, afslutte) State (udgøre, være)

Event Act (handle, tale, løbe)Psychological Event (tænke, vide)Change (tiltage, dø)Cause Change (dræbe, flytte)

Page 20: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Semantisk repræsentation af ’gå’

Semanticunit:

gå_MOV (walk - move reading)

Definition: komme frem ved at sætte den ene fod foran den anden(Nudansk Ordbog)’proceed by putting one foot in front of the other’

Corpusexample:

Vi skal gå hen til telefaxen , vente mens den kalder op osv.’we have to walk over to the fax machine, wait while itmakes the call etc.’

Semantictype:

Move

Sem.Supertype:

Act

Event type: ProcessDomain: GeneralPredicativerep:

ARG1 (DIR)

Selectionalrestrictions:

ARG1= Human OR Animal DIR= Concrete

Formalquale:

isa = bevæge sig (move)

Agentivequale:

Nil

Telic quale: NilConstitutivequale:

Manner = yes

SystematicPolysemy:

Nil

Synonymy: Nil

Page 21: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Dilemmaer mht. verbernes kodnningProblematiske konstruktionstyper i dansk:

partikelverber (gå ud, vaske op, slå op, stå af (bussen))

ægte refleksive verber (undre sig, brokke sig, korse dig)

inkorporering (gå til bageren, gå til klaver, spise fisk)

Page 22: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Problemer ved informationssøgning - kort fortalt

for mange informationer: ord kan betyde flere ting; de er flertydige ca. 23 % af alle ord der søges på er flertydige; ca. 10% af alle navne der søges på er

flertydige) Torkildsen, Holen og Johannessen 2000

for få informationer: vi har flere ord for de samme begreber,

synonymer og synonyme udtryk

Page 23: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Problemer ved informationssøgning

vi får for mange informationer som ikke er prioriteret godt nok og som derfor er vanskelige at holde rede på idet meget af det er irrelevant

vi får for få informationer i forhold til hvad der rent faktisk er tilgængeligt på nettet fordi vi ikke har ’ramt’ den rigtige formulering i forespørgslen

begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden

Page 24: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Sproglig viden til informationssøgning

sproglige problemer på basisniveau vi har mere eller mindre den sproglige viden

- også for dansk og i en formaliseret version - men den er ikke indarbejdet i alle søgesystemer

sproglige problemer der kræver mere indholdsmæssig viden

de sproglige ressourcer skal udvikles problem: nye tekster - nyt indhold

Page 25: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Sproglige problemer på basisniveau

ordene kan antage flere former orlovsordninger, orlovsordningen,

orlovsordningernereduktion til grundformer (lemmatisering)

kan afhjælpe dette problem simpel flertydighed: ordene kan tilhøre

forskellige ordklasserklager/N;U over/PRÆP; ADV læger/N;U syntaktisk tagger kan afhjælpe problemetefter tagging: klager/N over/PRÆP læger/N

Page 26: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Sproglige problemer der kræver mere indholdsmæssig viden

flertydighed inden for samme ordklassevitaminrig kost/ fejekost - madflere indholdsmæssige forhold kan afhjælpe flertydighedsproblemet: domæneviden hvis vi kender domænet, kan vi vælge viden om ordenes interne struktur hvis vi ved noget om kosts nærende funktioner, kan vi vælge

kost og sygdomme

klager/N;U over/PRÆP; ADV læger/N;U syntaktisk tagger kan afhjælpe problemet efter tagging: klager/N over/PRÆP læger/N

begge problemer vil delvist kunne afhjælpes hvis søgesystemerne har en større sproglig viden

sproglige problemer på basisniveau sproglige problemer der kræver indholdsmæssig viden

Page 27: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Sproglige problemer der kræver mere indholdsmæssig viden

synonymi - flere betegnelser for det samme kan betyde at vi får for få søgeresultater

forældreorlov - børnepasningsorlovstøtte - tilskud / computer - datamat /

diabetes - sukkersyge

anvendelse af synonymiordbog kan afhjælpe problemet

Page 28: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Ontologisk viden

underbegreber kan være relevantevitaminer har_som_underbegreber

k-vitamin, c-vitamin, d-vitamin, thiamin

overbegreber kan være relevante solvarme har_som_overbegreb

energibevarende foranstaltning

Page 29: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Ontologisk viden er central

ontologisk viden kan danne baggrund for en semantisk beregning sådan at søgeresultater prioriteres på basis af sprogligt indhold

den semantiske afstand mellem søgeudtryk og søgeresultat beregnes f.eks. ud fra hvor mange ’niveauer’ man skal ned i en given ontologi for at finde resultatet:

søgeudtryk: sygdomtekst1: sygdom tekst2: kræft tekst3: lungekræft

Page 30: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Forskningsområde: hvor vigtig er relationerne ml. ordene? Traditionelle søgemaskiner ser på nærhed ml.

søgeordene men ikke på relationerneforespørgsel: hvilke sygdomme har at gøre med

mangel på vitamin i kosten ?googlesvar: alkoholforbrug og mangel på

fysisk aktivitet ... hvordan kosten er sammensat

kilde: Paggio, Pedersen & Haltrup (forthcoming)

Page 31: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

SIMPLEs anvendelse i indholdsbaseret søgning

OntoQuery: Ontology-based QueryingEt dansk samarbejdsprojekt 1999-2004Partnere:

Roskilde Universitet

Danmarks Tekniske Universitet Handelshøjskolen i København Syddansk Universitet Center for Sprogteknologi

Page 32: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Formålet med OntoQuery- projektet

At udvikle en metode til indholdsbaseret søgning at gå videre end mønstergenkendelse ved at lave en

‘rå’ lingvistisk analyse på baggrund af en ontologi der produceres en ‘rå’ semantisk analyse af tekst og

af forespørgsel søgning foregår ved at sammenligne beskrivelser of

finde det bedste ‘match’ mellem forespørgsel og tekst på basis af ontologien dels på begreberne alene, dels på relationerne mellem begreberne

Page 33: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

SystemOverview

Description Generator

Textfragment

Query

Lexicons

Ontology

Linguistic Analysis

Mapping to description

Text database

Query Engine

OntoLog descriptions

Page 34: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Eksempel fra SIMPLE-ontologien kanin - 3 betydninger: 1. animal, 2. meat, 3. materialkanin

kød mad

Substance Food Food

Telic Top Concrete entity Entity

Top

Page 35: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Ernæringsontologien lavet på baggrund af Den Store Danske

Encyklopædi enkelte knuder er etableret for at strukturere

ontologien,f.eks. stof-i-krop ernæringsontologien er organiseret under 2

forskellige knuder i SIMPLE-ontologien

Page 36: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Eksempel fra ernæringsontologien A-vitamin

fedtopløseligt vitamin vitamin

mikronæringsstofnæringsstof

Natural SubstanceSubstance

Concrete entity

Entity Top

Page 37: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Anvendelse af ontologien:analyse af tekst og forespørgslerTekster og forespørgsler (NP’er) analyseres

mangel på vitaminer i kosten

(mangel x (WRT: vitamin) x (LOC: diet))

Page 38: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

De lingvistiske analysekomponenterDer bygges begrebsrepræsentationer på basis af: POS-tagging NP-genkendelse semantisk parsing

Page 39: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Lingvistiske komponenter

POS-Tagger

NP recogniser

NP parser

Hvilke sygdomme har at gøre med mangel på vitaminer i kosten?

hvilke/PRON sygdomme/N har/V_PRES at /UNIK gøre/V_INF med/PRÆP mangel/N på/PRÆP vitaminer/N i/PRÆP kosten/N ?/TEGN

[NP hvilke sygdomme] har at gøre med [NP mangel på vitaminer i kosten].

P

Sem:

... NP

N

N

NP

PP

PP

CONCEPT mangel

REL wrt REL loc

ARG vitamin ARG kost

Mapping to Descriptions

(mangel x (WRT: vitamin) x (LOC: kost))

Page 40: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Test af 1. prototype

O n t o Q u e r y P r o t o t y p e N e w q u e r y

T a g g e r fi n a l s t a t e : f e d t d e p o t e r / N h o s / P R Æ P b ø r n / NN P - r e c o g n i z e r :[ N P [ N f e d t d e p o t e r ] ] [ P R Æ P h o s ] [ N P [ N b ø r n ] ]Q u e r y : f e d t d e p o t e r h o s b ø r n( f e d t d e p o t ) , ( b a r n )T a g g e r , N P a n d m o r f o l o g y : 0 . 2 9 0 0 0 0 s e cQ u e r y e x p a n s i o n : 0 . 0 3 0 0 0 0 s e cQ u e r y e v a l u a t i o n : 0 . 0 2 0 0 0 0 s e cQ u e r y p r o c e s s i n g t o t a l l y : 0 . 3 4 0 0 0 0 s e c

0 . 9 5 b ø r n e e r n æ r i n g : M a n g e s p æ d b ø r n e r b u t t e d em e d s t o r e f e d t d e p o t e r , m e n m i s t e r d e m , f ø r d e e r 2 -3 å r g a m l e .( å r ) , ( m a n g e , s p æ d b a r n ) , ( s t o r , f e d t d e p o t )

N e w q u e r y

Page 41: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Test af 1. prototype

Query Sets of derived concepts1. hvad har sygdomme med vitaminer atgøre ? (what have diseases got to dowith vitamins ?)

(sygdom), (vitamin)(disease), (vitamin)

2. hvordan relatererhormonforstyrrelser sig til andresygdomme ? (how do hormonedisturbances relate to other diseases ?)

(hormonforstyrrelse), (sygdom)(hormone disturbance), (disease)

3. er der b-vitaminer i kornprodukter ?(is there vitamin B in corn products ?)

(b-vitamin), (kornprodukt)(vitamin B), (corn product)

4. sygdomme der følger af ensidig kostog har at gøre med tryptofan (diseasesfollowing from an unbalanced diet andrelated to tryptofan)

(sygdom), (ensidig kost), (tryptofan)(disease), (unbalanced diet),(tryptofan)

Page 42: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Test af 1. prototypeQuerynumber

matching concepts in text assigned score number ofretrieved texts

1 (sygdom), (vitamin)(disease), (vitamin)(sygdom), (B-vitamin)(disease),(vitamin B)(anæmi),(vitamin)(anemia), (vitamin)(mangelsygdom), (vitamin)(deficiency disease), (vitamin)(beriberi), (B-vitamin)(beri-beri), (vitamin B)(vitamin)(vitamin)(sygdom)(disease)(følgesygdom)(complication)...

1.00

0.95

0.95

0.95

0.90

0.50

0.50

0.45

...

2

1

1

2

1

22

23

5

2 (hormonforstyrrelse), (kræft)(hormone disturbance),(cancer)(sygdom)(disease)(mangelsygdom)(deficiency disease)...

0.95

0.50

0.45...

1

23

8

Page 43: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

OntoQuerys hypotese:

Hvis vi kan identificere den semantiske relation der

holder mellem 2 begreber kan vi prioritere gode

hits bedre og vi kan genkende det samme eller

lignende begreber i forskellig forklædning, f.eks.

overvægtige børn, børn med overvægt, fede børn

børn med fedmeproblemer, børn der har

fedmeproblemer

Page 44: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Videre brug af SIMPLE til beregning af relationer

en temporær relation TMP tager ofte SIMPLE-typen

TIME (og så fremdeles):

behandling udover 6 måneder

børn i 1-2-årsalderen

mangelfuld ernæring gennem længere tid

Page 45: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Videre brug af SIMPLE til beregning af relationer

Anvendelse af selektionsrestriktioner

behandling af børn med overvægt• ønsket beskrivelse: (behandling x (PTN:(børn) x (CHR: overvægt)))• uønsket beskrivelse (behandling x (PTN:(børn)) x (BMO: overvægt))

Page 46: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Anvendelse af Qualia Structuredepoter af vitaminer (depots of vitamins)• ønsket beskrivelse:

(depot x (CON: vitaminer))

telisk role for depot er at det kan indeholde noget

Page 47: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Entydiggørelse: Qualia Structure

• kanin_SUBSTANCE_FOOD

formal kød (meat)

telic føde (food)

agentive tilberedning (cooking)

Page 48: En dansk semantisk ordbog og dens anvendelse til indholdsbaseret søgning

Agentive role i ‘mad’-læsning

Luk maven med kødnåle og steg <kaninen> i ovnen ca. 11/2 time 2 timer

Bag <kaninen> i ovnen og hæld lagen over kødet med jævne mellemrum

Hak indmaden af <kaninen> og bland det med det hakkede kalvekød