Upload
gerard-kuys
View
495
Download
0
Embed Size (px)
DESCRIPTION
Presentatie op de FOBID Studiedag in Amsterdam. Pleit voor 'the best of both worlds' als het gaat om zoeken op onderwerp: classificaties maar ook DBpedia.
Citation preview
Zoekplatform Openbare Bibliotheken
8 november 2012
Gerard Kuys
Beter content vinden met DBpedia
Overzicht
1. Bibliotheken en internet: when are the twain going to meet?
2. Wat is Wikipedia / DBpedia
3. Wat hebben wij aan DBpedia in het Zoekplatform
4. Benodigde stappen
5. Succesfactoren* Alignment ontologieën* Medewerking van communities
6. Vragen?
Libraries and the internet
3
RDFa Microdata
Schema.org
Libraries and the internet
4
Libraries and the internet
5
Libraries and the internet
6
* http://danbri.org/words/2012/07/18/793
Waarom is die combinatie belangrijk?
7
• Er is een tijd geweest, waarin men dacht dat digitale content geen metadata meer nodig had om gevonden te worden• Matchen op vóórkomen van een term, termen vinden op basis van
brute force en statistiek (bv. proximity)• Maar de metadata zijn weer terug, dit keer in combinatie met grote
hoeveelheden tekst• Content wordt tegen vocabulaires gehouden, tegen termenlijsten
(gazetteers), of tegen ontologieën• Expansie op de manier van thesauri
• Niet meer om alleen te komen tot een hiërarchische ordening van begrippen
• Maar nu ook vooral om te zoeken op ‘skos:related’ én tegelijk informatie op te halen over de aard van die relatie
Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?
8
9 GEOGRAPHY. BIOGRAPHY. HISTORY
93/94 History
94 (38) History of ancient Greece
1 PHILOSOPHY. PSYCHOLOGY
14 Philosophical systems and points of view
17 Moral philosophy.
Ethics. Practical philosophy
172 Social ethics. Duties to one`s fellow humans
171 Individual ethics. Human duties to oneself
177 Ethics and society
?
9
9 GEOGRAPHY. BIOGRAPHY. HISTORY
93/94 History
94 (38) History of ancient Greece
1 PHILOSOPHY. PSYCHOLOGY
14 Philosophical systems and points of view
17 Moral philosophy.
Ethics. Practical philosophy
172 Social ethics. Duties to one`s fellow humans
171 Individual ethics. Human duties to oneself
177 Ethics and society
Beschreven materiaal Half- of niet-beschreven(digitaal) materiaal
?
??
• Dewey• UDC• Unesco• Brinkman’s• etc.
• RDFa• Microdata• Schema.org
Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?
10
9 GEOGRAPHY. BIOGRAPHY. HISTORY
93/94 History
94 (38) History of ancient Greece
1 PHILOSOPHY. PSYCHOLOGY
14 Philosophical systems and points of view
17 Moral philosophy.
Ethics. Practical philosophy
172 Social ethics. Duties to one`s fellow humans
171 Individual ethics. Human duties to oneself
177 Ethics and society
Beschreven materiaal Half- of niet-beschreven(digitaal) materiaal
?
??
Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?
11
9 GEOGRAPHY. BIOGRAPHY. HISTORY
93/94 History
94 (38) History of ancient Greece
1 PHILOSOPHY. PSYCHOLOGY
14 Philosophical systems and points of view
17 Moral philosophy.
Ethics. Practical philosophy
172 Social ethics. Duties to one`s fellow humans
171 Individual ethics. Human duties to oneself
177 Ethics and society
Beschreven materiaal Half- of niet-beschreven(digitaal) materiaal
?
??
• Dewey• UDC• Unesco• Brinkman’s• etc.
• RDFa• Microdata• Schema.org
Content doorzoeken en classificaties zijn bezig elkaar weer te vinden, maar hoe?
Er is ook een classificatie ‘van onderop’
12
9 GEOGRAPHY. BIOGRAPHY. HISTORY
93/94 History
94 (38) History of ancient Greece
1 PHILOSOPHY. PSYCHOLOGY
14 Philosophical systems and points of view
17 Moral philosophy.
Ethics. Practical philosophy
172 Social ethics. Duties to one`s fellow humans
171 Individual ethics. Human duties to oneself
177 Ethics and society
• Dewey• UDC• Unesco• Brinkman’s• etc.
• Wikipedia• Freebase• Yago• Wordnet• etc.
Linked Data met DBpedia
13
Wat is Wikipedia?
• Ward Cunningham, The Wiki Way (2001)• Jimmy Wales en Larry Sanger combineerden Cunninghams
werkmethode met nupedia.org. Resultaat: internet-encyclopedie Wikipedia (2001)
• Vrij toegankelijke bron van informatie, die binnen een raamwerk van ‘nagelopen versies’ door iedereen kan worden aangevuld
• Drijft wereldwijd op communities die content leveren en onderhouden (in 271 talen)
• Software is in handen van de Wikimedia Foundation in San Francisco
• Beeldbank Wikimedia Commons• Diverse nationale regeringen zien mogelijkheden tot goedkopere
kennisdeling en stellen geld beschikbaar (bv. België)
Lezers en schrijvers in Wikipedia(juni 2012)
Engels Duits Frans Nederlands Spaans Russisch0
2000000
4000000
6000000
8000000
10000000
12000000
Series1
Series2
Keren bekeken per uur
Aantal artikelen
Wikipedia? Dat is toch een ongeregeld zootje?
Begin bij het begin:• Bibliotheken moeten de omslag maken van de aanbodkant naar
de vraagkant• Al was het maar omdat het aanbod zo enorm uitdijt
Niet óf catalogiseren óf ‘spideren’, zoek the best of both worlds:• Beeld de ‘folksonomies’ (waaronder de Wikipedia-indeling van
onderwerpen) af op de formele classificaties en vice versa• Met de moderne technieken (benaderingen nevenschikkend in
RDF) kun je komen tot alignments• En dan kun je een zoekresultaat bereiken dat zowel het meest
overeenkomt met de strenge definitie van een zoekterm, als ook met wat het brede publiek daaronder wil verstaan
16
Wat is DBpedia?
• ‘A community effort to extract information from Wikipedia and to make this information available on the web’
• Christian Bizer, Sören Auer, Sebastian Hellmann, DBpedia – A Crystallization Point for the Web of Data (2009)
• Initiatief om alle informatie in de lemma’s van Wikipedia als verzameling van concepten te zien, te extraheren en als één samenhangend geheel aan te bieden• Knowledge Extraction Framework• Interlanguage Links• Canonical URI’s: Een gemeenschappelijke ontologie voor
Personen, Plaatsen, Organisaties etc. • Gepubliceerd als Linked Open Data (licentie: CC0-BY-SA)
Wat doet DBpedia• Leest van lemma’s de samenvatting uit (500 woorden)• Leest de Infobox uit
• De Infobox bepaald het objecttype, de ‘klasse’• Kijkt voor de gevonden termen of er een concept in de ontologie
mee correspondeert• Persoonsgegevens• Plaatsgegevens• Afbeeldingen
• De kwaliteit van het resultaat hangt sterk af van de consistentie waarmee termen in de samenvatting en in de velden van de Infobox zijn ingevuld
• Door het niet-heel-sterk-geplande karakter van de inhoud is ook de ontologie achter Wikipedia zwak gestructureerd
• Dit kan verbeterd worden door gestuurde mapping
Hoe werkt Dbpedia
Mappings, mappings, mappings
• Wikipedia heeft een structuur met Infoboxes en andere templates• Als je die structuur vult, weet je dus welke term correspondeert
met welk concept in een achterliggende ordening / classificatie• Die overeenkomst kun je tot stand brengen:
• Met interlanguage links: deze term in het Engels verwijst naar hetzelfde concept als deze term in het Nederlands
• Langs geautomatiseerde weg• Uit het publiek, met ‘community mapping’
Nederlandstaligen schrijven wel, maar mappen niet
21
Mappings in Dbpedia-Nederlands
22
Mappings, mappings, mappings
24
Hoe ziet een Infobox eruit
25
Hoe ziet een Infobox eruit
{{Infobox auteur| naam = Anna Roemers Visscher| afbeelding = Anna Visscher.jpg| onderschrift = Anna Roemers Visscher| citaat = | volledige naam = Anna Roemers(dochter) Visscher| pseudoniem = | bijnaam = | geboren = [[2 februari]] (?) [[1583]]| overleden = [[6 december]] [[1651]]| land = [[Nederland]]| beroep = [[dichter]],[[graveerder]]| jaren-actief = | genre = | stroming = | invloeden = | bekende-werken = | uitgeverij = | dbnl = viss001| handtekening = | website = }}
26
{{CanonicalNamespace "wgPageName":" Jeltje_de_Bosch_Kemper ","wgTitle":“Jeltje de Bosch Kemper”,"wgCurRevisionId":32911458,"wgArticleId":2940082,"wgIsArticle":true,{{TemplateMapping| mapToClass = Person| mappings =
{{PropertyMapping | templateProperty = naam | ontologyProperty = foaf:name}}{{PropertyMapping | templateProperty = geboortedatum | ontologyProperty = birthDate }}{{PropertyMapping | templateProperty = geboorteplaats | ontologyProperty = birthPlace }}{{PropertyMapping | templateProperty = sterfdatum | ontologyProperty = deathDate }}{{PropertyMapping | templateProperty = sterfplaats | ontologyProperty = deathPlace }}{{PropertyMapping | templateProperty = website | ontologyProperty = foaf:homepage }}{{PropertyMapping | templateProperty = religie | ontologyProperty = religion }}{{PropertyMapping | templateProperty = beroep | ontologyProperty = occupation }}{{PropertyMapping | templateProperty = partners | ontologyProperty = spouse }}{{PropertyMapping | templateProperty = kinderen | ontologyProperty = child }}
{{PropertyMapping | templateProperty = nationaliteit | ontologyProperty = nationality }}{{PropertyMapping | templateProperty = bekendvan | ontologyProperty = knownFor }}{{PropertyMapping | templateProperty = algemeennaam1 | ontologyProperty = foaf:name }}{{PropertyMapping | templateProperty = algemeen1 | ontologyProperty = foaf:description }}{{PropertyMapping | templateProperty = functie1 | ontologyProperty = personFunction }}{{DataIntervalMapping | templateProperty = tijdvak1 | ontologyProperty = activeYearsStartYear
ontologyProperty = activeYearsEndYear }}{{PropertyMapping | templateProperty = functie2 | ontologyProperty = personFunction }}{{DataIntervalMapping | templateProperty = tijdvak2 | ontologyProperty = activeYearsStartYear
ontologyProperty = activeYearsEndYear }}}}
Infobox mappen op Dbpedia ontologie
Van infoboxveld naar Dbpedia property
27
•Agent (edit) •Organisation (edit) •Person (edit)
•Ambassador (edit) •Architect (edit) •Artist (edit)
•Actor (edit) •AdultActor (edit) •VoiceActor (edit)
•Comedian (edit) •ComicsCreator (edit) •MusicalArtist (edit) •Writer (edit)
•Astronaut (edit) •Athlete (edit) •Celebrity (edit) •Cleric (edit)
•Cardinal (edit) •ChristianBishop (edit) •ChristianPatriarch (edit) •Pope (edit) •Priest (edit) •Saint (edit)
•CollegeCoach (edit) •Criminal (edit) •FictionalCharacter (edit) •Journalist (edit) •Judge (edit) •MilitaryPerson (edit) •Model (edit) •Monarch (edit) •OfficeHolder (edit) •OrganisationMember (edit) •Philosopher (edit) •PlayboyPlaymate (edit) •Politician (edit) •Referee (edit) •Royalty (edit) •SoccerManager (edit)
Infobox mappen op DBpedia ontologie (1)
{{Infobox persoon
| naam = Jeltje de Bosch Kemper
| afbeelding =
| onderschrift =
| volledigenaam = jkvr. J. de Bosch Kemper
| geboortedatum = [[28 april]] [[1836]]
| geboorteplaats = [[Amsterdam]]
| sterfdatum = [[16 februari]] [[1916]]
| sterfplaats = [[Amsterdam]]
| doodsoorzaak =
| nationaliteit = [[Nederland]]se
| beroep =
| bekendvan = [[Tesselschade-Arbeid Adelt|Algemeene Nederlandsche Vrouwenvereeniging 'Tesselschade']]
| algemeennaam1 =
| algemeennaam2 =
| algemeen2 =
| tijdvak1 =
| functie1 =
| partners =
| kinderen =
| religie =
| politieknaam =
| politiek =
| politieknaam1 =
| politiek1 =
}}28
29
{{CanonicalNamespace "wgPageName":" Jeltje_de_Bosch_Kemper ","wgTitle":“Jeltje de Bosch Kemper”,"wgCurRevisionId":32911458,"wgArticleId":2940082,"wgIsArticle":true,{{TemplateMapping| mapToClass = Person| mappings =
{{PropertyMapping | templateProperty = naam | ontologyProperty = foaf:name}}{{PropertyMapping | templateProperty = geboortedatum | ontologyProperty = birthDate }}{{PropertyMapping | templateProperty = geboorteplaats | ontologyProperty = birthPlace }}{{PropertyMapping | templateProperty = sterfdatum | ontologyProperty = deathDate }}{{PropertyMapping | templateProperty = sterfplaats | ontologyProperty = deathPlace }}{{PropertyMapping | templateProperty = website | ontologyProperty = foaf:homepage }}{{PropertyMapping | templateProperty = religie | ontologyProperty = religion }}{{PropertyMapping | templateProperty = beroep | ontologyProperty = occupation }}{{PropertyMapping | templateProperty = partners | ontologyProperty = spouse }}{{PropertyMapping | templateProperty = kinderen | ontologyProperty = child }}
{{PropertyMapping | templateProperty = nationaliteit | ontologyProperty = country }}{{PropertyMapping | templateProperty = bekendvan | ontologyProperty = dbpedia-owl:concept }}{{PropertyMapping | templateProperty = algemeennaam1 | ontologyProperty = foaf:name }}{{PropertyMapping | templateProperty = algemeen1 | ontologyProperty = foaf: }}{{PropertyMapping | templateProperty = functie1 | ontologyProperty = occupation }}{{DataIntervalMapping | templateProperty = tijdvak1 | ontologyProperty = activeYearsStartYear
ontologyProperty = activeYearsEndYear }}{{PropertyMapping | templateProperty = functie2 | ontologyProperty = occupation }}{{DataIntervalMapping | templateProperty = tijdvak2 | ontologyProperty = activeYearsStartYear
ontologyProperty = activeYearsEndYear }}}}
Infobox mappen op DBpedia ontologie (2)
DBpedia en WikiData
• Nieuw initiatief van de Wikimedia Foundation, gesponsord door Google en Microsoft
• Springt in de discussie over Schema.org en RDFa voor semantische markup van internetpagina’s
• Is complementair, niet concurrerend:• Doelgroep van WikiData zijn de redacteuren/’bureaucraten’,
DBpedia publiceert als Linked Open Data• Mensen van DBpedia in Advisory Board Wikidata• DBpedia gericht op extractie van data uit Wikipagina’s• Wikidata gericht op datastructuren ten behoeve van Wikipedia-
redacteuren• Wikidata levert in potentie betere data dan de Infoboxen die op dit
moment komen zoals ze komen• Zie http://meta.wikimedia.org/wiki/Wikidata/Essays/DBpedia_and_Wikidata
WikiData bestrijkt dit gebied
31
9 GEOGRAPHY. BIOGRAPHY. HISTORY
93/94 History
94 (38) History of ancient Greece
1 PHILOSOPHY. PSYCHOLOGY
14 Philosophical systems and points of view
17 Moral philosophy.
Ethics. Practical philosophy
172 Social ethics. Duties to one`s fellow humans
171 Individual ethics. Human duties to oneself
177 Ethics and society
• Dewey• UDC• Unesco• Brinkman’s• etc.
• RDFa• Microdata• Schema.org
Wat hebben bibliotheken aan DBpedia?
Zoeken op onderwerp
• Het is de overtuiging van Bibliotheek.nl dat metadata hun rechten hernemen t.o.v. het full-text indexeren
• Heeft te maken met de manier van zoeken van het OB-publiek: tikje meer gericht op associatief en verkennend zoeken
• In de termen van Marchionini: meer exploratory search dan look-up: ‘Vertel mij wat er nog meer is’
• En dan niet alleen non-fictie, maar ook op ‘gevoel’ en culturele waarden – fictie moet beter ontsloten worden
• Het Zoekplatform maakt het (beter) mogelijk metadata te genereren met cross-overs over domeinen en collecties heen
• Bovendien bestaat er in het bibliotheek een traditie van classificeren: vastleggen waarover iets gáát
33
Collecties koppelen aan onderwerpen
• Op dit moment zijn collectie-items gekoppeld aan trefwoorden of termen uit een classificatie
• Maar catalogiseren en classificeren kan geen gelijke tred houden met de toename van het materiaal
• Niet het kind met het badwater weggooien• En dus oude classificaties verbinden met nieuwe classificaties• Dan stroomt het bibliotheek-aanbod door naar Linked Open
Data (en omgekeerd)
34
DBpedia gebruiken als(aanvullend) onderwerpsysteem• Bibliotheken hebben van de dingen in hun collecties
opgeschreven waarover ze gaan• Non-fictie titels in de catalogus hebben meestal wel een
onderwerp erbij staan• Brinkman• Unesco• Basisclassificatie / GOO
• Fictietitels nu alleen geclassificeerd door NBD | Biblion• Maar het overgrote deel van alle titels heeft geen classificatie en
waar halen wij die dan vandaan?• Classificatie nodig die informatie niet (alleen) top-down beschrijft
maar ook bottom-up
Metadatastrategie Zoekplatform
• Aansluiten bij initiatieven om classificaties in SKOS te zetten (KB, Catch- en Stitch-projecten)
• Aansluiten bij Linked Open Data waar zinvol:* FOAF (http://www.foaf-project.org/) * Music Ontology (http://musicontology.com/) * Movie Ontology (http://www.movieontology.org/)
• Speerpunt ligt bij DBpedia: DBpedia-ontologie als verbindend systeem van onderwerpen
• Een Wikipedia-lemma is een vind-plaats voor ‘related terms’(w.o. Kullback-Leibler divergentie)
Formeel Onder redactie InformeelAgent ISNI / VIAF, NTA
Unesco, AAT, GTAA, ISAAR/EAC
DBpedia, FOAFthesaurus KB, auteurslijst Literatuurplein, Biografisch Portaal ING
Facebook, tags als in CWise
Concept Unesco, AAT, GTAA, GOO, Cornetto
DBpedia,Music Ontology,‘emotionele ontologie’
tags als in CWise
Event UnescoAATGTAA
DBpedia, G!DS, thesaurus KB
Twitter, tags als in CWise
Physical Thing
Unesco, AAT, GTAA, archeologischeartefacten RCE
Dbpedia, Rijksmonumentenlijst RCE
tags als in CWise
Place Unesco, AAT, GTAA, Gelderlandthesaurus, Zeelandthesaurus
KB-lijst, GeoNames, Open GeoData,DBpedia, controlled vocabularies OWMS
Twitter, tags als in CWise
Timespan Kalendaria Dbpedia, indeling Nationaal Archief
tags als in CWise
Waar halen we onze referenties vandaan?
Samenwerking met Leipzig
Hi Gerard,
ist this text ok for the announcement? We are also happy to see the number of the DBpedia language chapters rising. Since the 3.7 DBpedia release we welcomed the French, Italian and Japanese Chapters.
What is more, we expect the release of the Dutch chapter during the following months (in cooperation with http://bibliotheek.nl/). Therefore, you will be able to de-reference (among others) the 10 biggest Wikipedia / DBpedia language editions. The following picture gives an overview of the current state of the Internationalization effort:
Sebastian Hellmann
• Op dit moment worden de concepten achter DBpediavooral geëxtraheerd uit de Engelstalige pagina’s• Sinds 1 jaar ook uit Duitse, Franse, Griekse, Russische en
Koreaanse pagina’s• Als we alleen naar het Engels kijken missen we concepten die in
een Nederlands/Vlaamse context belangrijk zijn:• Personen, (Sociale) Geografie, Geschiedenis en cultuur• (Al hebben we nu al wel de Engelse kijk op: ‘poffertjes’)
• We moeten zorgen dat de begrippen in de Nederlandstalige pagina’s refereerbaar worden, en dat die begrippen worden gemapt op algemene Linked Data
• Infoboxen proberen te standaardiseren• Termen en concepten disambigueren voor Nederlandstalig gebied• Waar dit al door bestaande thesauri gedaan is: géén dubbel werk
Wat gaan we concreet doen?
nl.dbpedia.org
40
• Dit jaar nog Nederlandstalig chapter DBpedia en DBpedia information extraction framework (DIEF)
• Vlaamse Bibnet is aangehaakt• DBpedia Spotlight voor Named Entity Recognition
(https://github.com/dbpedia-spotlight/dbpedia-spotlight)
Samenwerking zoeken
Een interessante passage uit het document "Strategie 2013-2015" van Wikimedia Nederland: " In eerste instantie gaan we verder met het uitbouwen van onze activiteiten op het gebied van culturele samenwerking en het verstevigen van de relaties met instellingen op dit terrein (GLAM: galleries, libraries, archives en museums). Door samen te werken ontstaat een maatschappelijke meerwaarde die de doelstellingen van zowel de Wikimedia-beweging als deze instellingen weerspiegelt. Verder gaan we verkennen of ook samenwerkingsverbanden met (hoger) onderwijs en de diverse overheidsinstellingen mogelijk zijn. Ook willen we blijven deelnemen in activiteiten die bijdragen aan innovatie en ontwikkeling."