View
550
Download
0
Category
Preview:
DESCRIPTION
A presentation in Dutch language, presented at Kranten symposium in Den Haag, 22.11.2012
Citation preview
Het Europeana Newspapers ProjectHistorische kranten online
Den Haag, 22-11-2012
Lotte Wilms
@lottewilms @eurnews
2
Europeana Newspapers – waarom kranten?
Waarom kranten?• Belangrijke bron voor onderzoek
• Relevant voor het algemeen publiek
Bronnen: http://digi.kansalliskirjasto.fi/sanomalehti/secure/showPage.html?id=395644&conversationId=1&action=entryPage; http://kranten.kb.nl/view/paper/id/ddd%3A010212139%3Ampeg21%3Ap001%3Aa0001/backlink/home http://gallica.bnf.fr/ark:/12148/bpt6k265203z ;
3
Projectprofiel: Consortium & stakeholders
• 17 partners uit 12 landen:
• Nationale bibliotheken
• Universiteitsbibliotheken
• Onderzoeksinstituten
• Commerciële partij
• Framework:
• Best Practice Network
• ICT-PSP programma van de Europese Commissie
• Projectduur: februari 2012 – januari 2015
Europeana Newspapers Consortium
5
Europeana Newspapers: Doelen
• Aggregatie en verrijking van kranten voor Europeana
• Circa 18 miljoen krantenpagina’s naar Europeana
• Verrijken met OCR, layout herkenning (OLR) en named entity
recognition
• Analyse bestaande krantencollecties
• Overzicht bestaande projecten
• Aanmoedigen om ook kranten bij te dragen
Europeana Newspapers: Doelen
• Quality assurance en best practice aanbevelingen
• Voortbouwen op andere projecten (o.a. IMPACT en Europeana
Libraries)
• Bijdragen aan geoptimaliseerde workflows
• Aanbevelingen voor digitalisering, verrijking, workflows, metadata, etc.
• Presentatie en full-text doorzoeken
• 18 miljoen Europese krantenpagina’s
• Verbeteren van de toegang van kranten in Europeana
7
Aggregatie en verrijking van kranten voor Europeana
• Aggregatie in Europeana en The European
Library
• 18 miljoen gedigitaliseerde krantenpagina’s
• 8 miljoen pagina’s zonder bewerkingen
(content leveranciers)
• 8 miljoen verrijkte pagina’s: OCR (UIBK,
Oostenrijk)
• 2 miljoen verrijkte pagina’s: OCR/OLR
(artikelsegmentatie) (CCS, Duitsland)
www.europeana.eu/
www.theeuropeanlibrary.org/
Verrijking – OCR en OLR
• 8 miljoen verrijkte pagina’s:
OCR (UIBK, Oostenrijk)
• OCR (ABBYY)
• Output in ALTO formaat
• Test met Document Understanding
Platform (FEP)
• Ontwikkeld binnen IMPACT
• Profielen aangepast aan kranten
UIBK: Herkenning van titels, voetnoten, etc. Extractie van inhoudsopgave
Verrijking – OCR en OLR
• 2 miljoen verrijkte pagina’s:
OCR/OLR (artikelsegmentatie)
(CCS, Duitsland)
• OCR (ABBYY)
CCS: Kolomherkenning en artikelsegmentatie
• Automatische layout herkenning
• Kolommen
• Zones
• Pagina types
• Automatische artikelsegmentatie
• Aanvullende handmatige verificatie
en quality control
Verrijking - Named Entity Recognition
• Named entity herkenning (KB, Nederland)
• Tot drie talen
• Nederlands
• Engels
• Duits
Analyse bestaande krantencollecties
• Enquête over digitale krantencollecties• Zomer 2012 • Circa 45 Europese bibliotheken
• De resultaten naar “Zeitschriftendatenbank” van de Staatsbibliotheek van Berlijn
• Potentiële nieuwe partners
• Informatie over de technische status van gedigitaliseerd materiaal
Quality assurance en best practice aanbevelingen
• Ontwikkeling van een
metadataprofiel (METS)
• Gebruik binnen het project
• Aanbeveling voor toekomstige
digitaliseer- en
verrijkingsprojecten
• Evaluatie van de
digitaliseringsworkflow voor
kranten, inclusief verrijking
• M.b.v. een quality assessment
framework
• Inclusief tools uit IMPACT
• Aanbevelingen voor het digitaliseren
en verrijken van kranten
Presentatie en full-text doorzoeken
• Content browser
• Onderdeel van het TEL portal
• Zoeken op full-text
• Zoekterm
• Named entities
• Per collectie
• Op datum
• Krantenafbeeldingen
• Link naar bibliotheek
Nb. Mock-ups
14
Promotie
• Doelen:
• Publiciteit van het project
• Vergroten van gebruik Europeana
• Media
• @eurnews
• www.facebook.com/EuropeanaNewspapers
• Workshops en conferenties
• Drie dissemination workshops
• Nationale informatie dagen
• Uitbreiding van het netwerk
Voordeel voor de KB kranten en gebruikers
• Beschikbaar via Europeana
• 2 miljoen KB krantenpagina’s doorzoekbaar in combinatie met 16 miljoen andere Europese krantenpagina’s uit 12 landen
• Duitse kranten• Franse kranten• Oostenrijkse kranten• Finse kranten• Poolse kranten• Etc.
• Verrijking met Named Entities
Bedankt! Vragen?http://www.europeana-newspapers.eu/
Lotte Wilms
lotte.wilms@kb.nl
@lottewilms @eurnews
Recommended