29
Trefwoorden en context de semantische annotatie H e t p r o j e c t CHOICE b i j Beeld en Geluid ` Véronique Malaisé Hennie Brugman Luit Gazendam Lora Aroyo Guus Schreiber Mettina Veenstra Annemieke de Jong Johan Oomen

DE Conferentie 2007 - Hennie Brugman

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: DE Conferentie 2007 - Hennie Brugman

Trefwoorden en context de semantische annotatie

H e t p r o j e c t CHOICE b i j Beeld en Geluid

`

Véronique Malaisé

Hennie Brugman

Luit Gazendam

Lora Aroyo

Guus Schreiber

Mettina Veenstra

Annemieke de Jong

Johan Oomen

Page 2: DE Conferentie 2007 - Hennie Brugman

Introductie

Page 3: DE Conferentie 2007 - Hennie Brugman

Introductie C.H.O.I.C.E.

• Context: CATCH programma

• CHarting the uncharted infOrmation landscape

employIng ContExt information

• Samenwerking VU, MPI, TI en Beeld en Geluid

• Research gebieden:

Automatische metadata suggestie

Semantisch zoeken en browsen

Page 4: DE Conferentie 2007 - Hennie Brugman

Werkproces van de av-documentalist

• Ontsluiting (digitale) radio- en televisieprogramma’s Publieke Omroep

• Geïntegreerd catalogussysteem IMMIX : metadata specificatie, workflowclient en metadata-editor

• Beschrijvingsregels per genre/programmaformat

• Viewing/afluisteren alleen bij bepaalde programmasoorten

• Gebruik contextbronnen (websites, recensies, kijk-luisteronderzoeken, presentatieteksten, logboeken)

Page 5: DE Conferentie 2007 - Hennie Brugman

CHOICE’s belangrijkste doel is om automatisch afgeleide thesaurustermen te suggereren voor specifieke metadata velden. Deze suggesties worden ontleend aan contextuele tekstbronnen die zijn

verbonden met radio of televisie-programma’s

Page 6: DE Conferentie 2007 - Hennie Brugman

Catalogus beschrijving

Metadata model

Beschrijvingsregels

Thesaurus

Audiovisueel document

Context documenten

documentalistnatural

language processing

thesaurus velden

Page 7: DE Conferentie 2007 - Hennie Brugman

1. Converteren en verrijken van de GTAAGemeenschappelijke Thesaurus Audiovisuele Archieven

2. Het annoteren van contextdocumentenTekst-segmenten linken aan GTAA concepten

3. Selecteren van contextdocumenten Die welke zijn verbonden aan een bepaald TV programma

4. Rangschikken van de annotatiewaarden Meest relevante bovenaan de lijst

5. Presenteren Termen uit de lijst aan de documentalist

De ‘annotatiepijplijn’

Page 8: DE Conferentie 2007 - Hennie Brugman

Conversie en verrijking GTAA

Page 9: DE Conferentie 2007 - Hennie Brugman

Conversie en uitbreiding GTAA

• Facet-thesaurus Onderwerp, Genre, Persoonsnaam, Naam, Maker,

Locatie • Broader Term/Narrower Term, Related Term, use/use

for, scope note• Omzetting naar SKOS/OWL• Toegevoegd - synoniemen - enkelvoudsvormen - engelse vertalingen • Automatisch links aangebracht tussen termen van

verschillende facetten

Page 10: DE Conferentie 2007 - Hennie Brugman

Annoteren van context-documenten

Page 11: DE Conferentie 2007 - Hennie Brugman

Verlenging missie?

Voorbeelden context documenten

Afghanistan missie

Page 12: DE Conferentie 2007 - Hennie Brugman

Titel

Samenvatting

Genre

Onderwerp

Persoonsnamen

Namen

Locaties

Makers

Sprekers

Ontlenen metadata aan context-documenten

Missie Afghanistan uiterst onzeker. Steeds meer partijen beginnen te twijfelen aan de voorgenomen missie van 1100 Nederlandse soldaten naar Afghanistan. Morgen komen er twee hoge functionarissen van het Pentagon en het State Department naar Den Haag voor overleg met Nederlandse topambtenaren. Vrijdag hakt het kabinet zo goed als zeker de knoop door. Het lijkt een ware worsteling te worden.

Page 13: DE Conferentie 2007 - Hennie Brugman

Missie Afghanistan uiterst onzeker Steeds meer partijen beginnen te twijfelen aan de voorgenomen missie van 1100 Nederlandse soldaten naar Afghanistan. Morgen komen er twee hoge functionarissen van het Pentagon en het State Department naar Den Haag voor overleg met Nederlandse topambtenaren. Vrijdag hakt het kabinet zo goed als zeker de knoop door. Het lijkt een ware worsteling te worden.

GTAA-concept:missie GTAA-concept:militairen

GTAA-altlabel:soldaten

GTAA-altlabel:kabinetten

GTAA-concept:regeringen

Semantische annotatie

Page 14: DE Conferentie 2007 - Hennie Brugman

Resultaten (detecteren mogelijke GTAA-trefwoorden)

locaties N genres makers

Afghanistan 7    

Europa 1    

       

       

       

       

       

       

       

       

       

       

       

       

       

       

       

       

Trefwoorden (voorlopig) N

missies 5

militairen 4

kabinetten 4

overeenkomsten 2

stemmen 1

schrijven 1

premiers 1

ministers 1

ministerraad 1

meren 1

krijgsgevangenen 1

kranten 1

kampen 1

gevangenissen 1

democratisering 1

christenen 1

ambtenaren 1

soldaten 1

personen N

Balkenende 1

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

   

namen N

CDA 2

VVD 1

Taliban 1

NAVO 1

Pentagon 1

CIA 1

Europa 1

   

   

   

   

   

   

   

   

   

   

   

Page 15: DE Conferentie 2007 - Hennie Brugman

Het trefwoord missies in de GTAA

missies1D01.03 (levensbeschouwing - christendom)RT evangelisatieRT KatholicismeRT missionarissenRT ontwikkelingshulpRT zendingSN rooms-katholiek

Page 16: DE Conferentie 2007 - Hennie Brugman

Rankschikken van annotatie-waarden

Page 17: DE Conferentie 2007 - Hennie Brugman

gevangenissen (1)

ministers (1)

ambtenaren (1)

kampen (1)stemmen (1)

democratisering (1)

premier (1)

ministerraad (1) kabinet (4)

soldaten (1)

militairen (4) ministers-president (1)

regeringen (5)

krijgsgevangenen (1)

Page 18: DE Conferentie 2007 - Hennie Brugman

gevangenissen (1)

ministers (1)ministers-

president (1)

regeringen (5)ambtenaren (1)

militairen (5)

krijgsgevangenen (1)

kampen (1)stemmen (1)

democratisering (1)

gevangenen

gevangenkampen

verkiezingen

overheidsdiensten

ministeries

beroepen

dienstverlenende beroepen

staatshoofden

kabinets-formaties

Page 19: DE Conferentie 2007 - Hennie Brugman

geordende trefwoorden rang

regeringen 1

militairen 1

krijgsgevangenen 3

ministers 3

ministers-president 3

gevangenissen 4

ambtenaren 4

kampen 5

stemmen 5

democratisering 5

missie 6

akkoorden 7

christenen 8

meren 9

kranten 9

schrijven 9

trefwoorden N

documentalisten vredestroepen 6

militaire operaties 5

krijgsmacht 3

regeringsbeleid 2

militairen 2

   

   

Catalogus beheer vredestroepen

militaire operaties

   

Page 20: DE Conferentie 2007 - Hennie Brugman

Presenteren aan documentalist

Page 21: DE Conferentie 2007 - Hennie Brugman

De CHOICE Documentalist support omgeving

Doelen– Het bieden van een gebruikersomgeving waarbinnen het trefwoord

suggestie-systeem past– Prototype voor een Beeld en Geluid context document database– Geintegreerde zoek- en browse omgeving voor metadata,

teksten, semantische annotaties en AV

Status– Eerste versie van benodigde (web) repositories en services klaar– User interface design ontworpen in overleg met Beeld en Geluid – Demonstratie-applicatie klaar– Eerste versie tbv documentalisten: januari 2008– Documentalist support systeem op de Beeld en Geluid ‘roadmap’

voor 2008

Page 22: DE Conferentie 2007 - Hennie Brugman

Metadata recommendation tool

Search for

Afghanistan

Search results: Annotations:

1 2

Immix title1

Immix title2

Immix title3

Immix results

AT14nov06-text

AT14nov06-website

Context document 3

Context results

Primary language Archiving date

Creation dateDocument type

Context document metadata

Text

11/14/2006

09/23/2006

Dutch

Context documents

Immix metadata

Recommendations

Add context document…

Show all

Show all

Edit

Options…

Show graph…

Show annotations… militairen

regeringen

krijgsgevangenen

ministers-presidenten

ministers

ambtenaren

gevangenissen

democratisering

kampen

stemmen

missie

akkoorden

Advanced search…

Subject

Genre

Person

Person

Maker

Maker

Name

Location+

+

+

+

+

+

Page 23: DE Conferentie 2007 - Hennie Brugman

Semantisch browsen en zoeken

Page 24: DE Conferentie 2007 - Hennie Brugman

MANUEEL

• Interpretatie • Beschrijvingsregels

centrale onderwerp(en) van het programma

• Weinig trefwoorden, zo specifiek mogelijk

AUTOMATISCH• Termen die voorkomen in

het contextdocument of in andere beschrijvingen

• Ranking meerdere, mogelijke onderwerpen

• Lange lijst trefwoorden

Wat is het meest geschikt voor het thematisch browsen door de catalogus en door contextdocumenten?

Wat voegen semantische annotaties toe?

Page 25: DE Conferentie 2007 - Hennie Brugman

Soortgelijke documenten

MANUEEL• De hoeveelheid trefwoorden

per iMMiX beschrijving: 2 tot 26 (onderwerpen, locaties, persoonsnamen, organisaties)

• Precieze, maar weinig overlappende trefwoorden

• Moeilijk om op grond daarvan ‘soortgelijke’ beschrijvingen te bepalen

AUTOMATISCH• Hoeveelheid trefwoorden per

beschrijving loopt uiteen van 2 tot 242

• Veel meer overlappende trefwoorden (vaak 50 of meer per document)

• Geeft betere maat voor ‘soortgelijkheid’ tussen documenten– 25 weinig precieze

overlappende trefwoorden zijn toch goede maat voor overeenkomsten tussen documenten

Page 26: DE Conferentie 2007 - Hennie Brugman

Waar gaat het naartoe?

Page 27: DE Conferentie 2007 - Hennie Brugman

Uitdagingen Beeld en Geluid • Digitalisering av-productieproces

• Project Beelden voor de Toekomst

• Toename te beschrijven digitale programma’s (30.000 uur radio, 10.000 televisie/jr)

• Behoeften gebruikersgroepen

• Op termijn 80% automatische annotatie 20 % handmatig

Page 28: DE Conferentie 2007 - Hennie Brugman

Verwachtingen mbt CHOICE

• Goede aansluiting: innovatie dicht op het daadwerkelijke proces

• Ontwerp, implementatie en gebruikstesten van een semi-geautomatiseerde annotatietool

• Koppelen GTAA-termen aan andere thesauri (semantisch web)

• Hergebruik van services en componenten door andere CATCH projecten en erfgoedinstellingen

Ondersteuning catalogiseerproces & verbetering zoekmogelijkheden

Page 29: DE Conferentie 2007 - Hennie Brugman

Trefwoorden en context de semantische annotatie

H e t p r o j e c t CHOICE b i j Beeld en Geluid

`

Véronique Malaisé

Hennie Brugman

Luit Gazendam

Lora Aroyo

Guus Schreiber

Mettina Veenstra

Annemieke de Jong

Johan Oomen