DE Conferentie 2007 - Hennie Brugman

Preview:

DESCRIPTION

 

Citation preview

Trefwoorden en context de semantische annotatie

H e t p r o j e c t CHOICE b i j Beeld en Geluid

`

Véronique Malaisé

Hennie Brugman

Luit Gazendam

Lora Aroyo

Guus Schreiber

Mettina Veenstra

Annemieke de Jong

Johan Oomen

Introductie

Introductie C.H.O.I.C.E.

• Context: CATCH programma

• CHarting the uncharted infOrmation landscape

employIng ContExt information

• Samenwerking VU, MPI, TI en Beeld en Geluid

• Research gebieden:

Automatische metadata suggestie

Semantisch zoeken en browsen

Werkproces van de av-documentalist

• Ontsluiting (digitale) radio- en televisieprogramma’s Publieke Omroep

• Geïntegreerd catalogussysteem IMMIX : metadata specificatie, workflowclient en metadata-editor

• Beschrijvingsregels per genre/programmaformat

• Viewing/afluisteren alleen bij bepaalde programmasoorten

• Gebruik contextbronnen (websites, recensies, kijk-luisteronderzoeken, presentatieteksten, logboeken)

CHOICE’s belangrijkste doel is om automatisch afgeleide thesaurustermen te suggereren voor specifieke metadata velden. Deze suggesties worden ontleend aan contextuele tekstbronnen die zijn

verbonden met radio of televisie-programma’s

Catalogus beschrijving

Metadata model

Beschrijvingsregels

Thesaurus

Audiovisueel document

Context documenten

documentalistnatural

language processing

thesaurus velden

1. Converteren en verrijken van de GTAAGemeenschappelijke Thesaurus Audiovisuele Archieven

2. Het annoteren van contextdocumentenTekst-segmenten linken aan GTAA concepten

3. Selecteren van contextdocumenten Die welke zijn verbonden aan een bepaald TV programma

4. Rangschikken van de annotatiewaarden Meest relevante bovenaan de lijst

5. Presenteren Termen uit de lijst aan de documentalist

De ‘annotatiepijplijn’

Conversie en verrijking GTAA

Conversie en uitbreiding GTAA

• Facet-thesaurus Onderwerp, Genre, Persoonsnaam, Naam, Maker,

Locatie • Broader Term/Narrower Term, Related Term, use/use

for, scope note• Omzetting naar SKOS/OWL• Toegevoegd - synoniemen - enkelvoudsvormen - engelse vertalingen • Automatisch links aangebracht tussen termen van

verschillende facetten

Annoteren van context-documenten

Verlenging missie?

Voorbeelden context documenten

Afghanistan missie

Titel

Samenvatting

Genre

Onderwerp

Persoonsnamen

Namen

Locaties

Makers

Sprekers

Ontlenen metadata aan context-documenten

Missie Afghanistan uiterst onzeker. Steeds meer partijen beginnen te twijfelen aan de voorgenomen missie van 1100 Nederlandse soldaten naar Afghanistan. Morgen komen er twee hoge functionarissen van het Pentagon en het State Department naar Den Haag voor overleg met Nederlandse topambtenaren. Vrijdag hakt het kabinet zo goed als zeker de knoop door. Het lijkt een ware worsteling te worden.

Missie Afghanistan uiterst onzeker Steeds meer partijen beginnen te twijfelen aan de voorgenomen missie van 1100 Nederlandse soldaten naar Afghanistan. Morgen komen er twee hoge functionarissen van het Pentagon en het State Department naar Den Haag voor overleg met Nederlandse topambtenaren. Vrijdag hakt het kabinet zo goed als zeker de knoop door. Het lijkt een ware worsteling te worden.

GTAA-concept:missie GTAA-concept:militairen

GTAA-altlabel:soldaten

GTAA-altlabel:kabinetten

GTAA-concept:regeringen

Semantische annotatie

Resultaten (detecteren mogelijke GTAA-trefwoorden)

locaties N genres makers

Afghanistan 7    

Europa 1    

       

       

       

       

       

       

       

       

       

       

       

       

       

       

       

       

Trefwoorden (voorlopig) N

missies 5

militairen 4

kabinetten 4

overeenkomsten 2

stemmen 1

schrijven 1

premiers 1

ministers 1

ministerraad 1

meren 1

krijgsgevangenen 1

kranten 1

kampen 1

gevangenissen 1

democratisering 1

christenen 1

ambtenaren 1

soldaten 1

personen N

Balkenende 1

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

namen N

CDA 2

VVD 1

Taliban 1

NAVO 1

Pentagon 1

CIA 1

Europa 1

   

   

   

   

   

   

   

   

   

   

   

Het trefwoord missies in de GTAA

missies1D01.03 (levensbeschouwing - christendom)RT evangelisatieRT KatholicismeRT missionarissenRT ontwikkelingshulpRT zendingSN rooms-katholiek

Rankschikken van annotatie-waarden

gevangenissen (1)

ministers (1)

ambtenaren (1)

kampen (1)stemmen (1)

democratisering (1)

premier (1)

ministerraad (1) kabinet (4)

soldaten (1)

militairen (4) ministers-president (1)

regeringen (5)

krijgsgevangenen (1)

gevangenissen (1)

ministers (1)ministers-

president (1)

regeringen (5)ambtenaren (1)

militairen (5)

krijgsgevangenen (1)

kampen (1)stemmen (1)

democratisering (1)

gevangenen

gevangenkampen

verkiezingen

overheidsdiensten

ministeries

beroepen

dienstverlenende beroepen

staatshoofden

kabinets-formaties

geordende trefwoorden rang

regeringen 1

militairen 1

krijgsgevangenen 3

ministers 3

ministers-president 3

gevangenissen 4

ambtenaren 4

kampen 5

stemmen 5

democratisering 5

missie 6

akkoorden 7

christenen 8

meren 9

kranten 9

schrijven 9

trefwoorden N

documentalisten vredestroepen 6

militaire operaties 5

krijgsmacht 3

regeringsbeleid 2

militairen 2

   

   

Catalogus beheer vredestroepen

militaire operaties

   

Presenteren aan documentalist

De CHOICE Documentalist support omgeving

Doelen– Het bieden van een gebruikersomgeving waarbinnen het trefwoord

suggestie-systeem past– Prototype voor een Beeld en Geluid context document database– Geintegreerde zoek- en browse omgeving voor metadata,

teksten, semantische annotaties en AV

Status– Eerste versie van benodigde (web) repositories en services klaar– User interface design ontworpen in overleg met Beeld en Geluid – Demonstratie-applicatie klaar– Eerste versie tbv documentalisten: januari 2008– Documentalist support systeem op de Beeld en Geluid ‘roadmap’

voor 2008

Metadata recommendation tool

Search for

Afghanistan

Search results: Annotations:

1 2

Immix title1

Immix title2

Immix title3

Immix results

AT14nov06-text

AT14nov06-website

Context document 3

Context results

Primary language Archiving date

Creation dateDocument type

Context document metadata

Text

11/14/2006

09/23/2006

Dutch

Context documents

Immix metadata

Recommendations

Add context document…

Show all

Show all

Edit

Options…

Show graph…

Show annotations… militairen

regeringen

krijgsgevangenen

ministers-presidenten

ministers

ambtenaren

gevangenissen

democratisering

kampen

stemmen

missie

akkoorden

Advanced search…

Subject

Genre

Person

Person

Maker

Maker

Name

Location+

+

+

+

+

+

Semantisch browsen en zoeken

MANUEEL

• Interpretatie • Beschrijvingsregels

centrale onderwerp(en) van het programma

• Weinig trefwoorden, zo specifiek mogelijk

AUTOMATISCH• Termen die voorkomen in

het contextdocument of in andere beschrijvingen

• Ranking meerdere, mogelijke onderwerpen

• Lange lijst trefwoorden

Wat is het meest geschikt voor het thematisch browsen door de catalogus en door contextdocumenten?

Wat voegen semantische annotaties toe?

Soortgelijke documenten

MANUEEL• De hoeveelheid trefwoorden

per iMMiX beschrijving: 2 tot 26 (onderwerpen, locaties, persoonsnamen, organisaties)

• Precieze, maar weinig overlappende trefwoorden

• Moeilijk om op grond daarvan ‘soortgelijke’ beschrijvingen te bepalen

AUTOMATISCH• Hoeveelheid trefwoorden per

beschrijving loopt uiteen van 2 tot 242

• Veel meer overlappende trefwoorden (vaak 50 of meer per document)

• Geeft betere maat voor ‘soortgelijkheid’ tussen documenten– 25 weinig precieze

overlappende trefwoorden zijn toch goede maat voor overeenkomsten tussen documenten

Waar gaat het naartoe?

Uitdagingen Beeld en Geluid • Digitalisering av-productieproces

• Project Beelden voor de Toekomst

• Toename te beschrijven digitale programma’s (30.000 uur radio, 10.000 televisie/jr)

• Behoeften gebruikersgroepen

• Op termijn 80% automatische annotatie 20 % handmatig

Verwachtingen mbt CHOICE

• Goede aansluiting: innovatie dicht op het daadwerkelijke proces

• Ontwerp, implementatie en gebruikstesten van een semi-geautomatiseerde annotatietool

• Koppelen GTAA-termen aan andere thesauri (semantisch web)

• Hergebruik van services en componenten door andere CATCH projecten en erfgoedinstellingen

Ondersteuning catalogiseerproces & verbetering zoekmogelijkheden

Trefwoorden en context de semantische annotatie

H e t p r o j e c t CHOICE b i j Beeld en Geluid

`

Véronique Malaisé

Hennie Brugman

Luit Gazendam

Lora Aroyo

Guus Schreiber

Mettina Veenstra

Annemieke de Jong

Johan Oomen