Upload
ingeangevaare
View
81
Download
0
Embed Size (px)
Citation preview
Tekstkwaliteit Tekstkwaliteit en tekstverbetering van het corpus Historische Kranten
Marian Hellema, 24 maart 2015
Hoe is de tekst gemaakt?
• OCR: geautomatiseerd (docWorks/Finereader)
• deels met historische woordenlijst
• krantenkoppen zo nodig handmatig gecorrigeerd tot 99.8% correcte tekens
• overige tekst niet gecorrigeerd
Meten van tekstkwaliteit
Kwaliteitscijfers
• precieze meting van het aantal fouten op het totaal
• arbeidsintensief
• niet beschikbaar
versus
Confidence levels
• hoe zeker de ocr-software is van correcte tekenherkenning
• beste benadering van kwaliteitscijfers die we hebben (maar het is dus iets anders)
• wel beschikbaar
Veelgestelde vraag
“Waarom zorgen jullie niet voor betere tekstkwaliteit?”
Antwoord 1: er wordt aan gewerkt
Antwoord 2:
• afweging kwaliteit versus kwantiteit
• m.a.w. waar geef je je geld aan uit?
• voor toekomstige digitalisering: differentiatie in kwaliteit
• soms heel hoge tekstkwaliteit (bv. DBNL)
• soms heel hoge beeldkwaliteit
• afhankelijk van doel
Verbetering tekstkwaliteit
Project voor tekstverbetering:
Meertens Instituut
• editor voor overtikken krantenartikelen
• groep vrijwilligers
• 17e eeuwse kranten
KB
• software om verbeterde tekst te verwerken
• en in Delpher beschikbaar te stellen
NIOD
• vrijwilligers voor oorlogskranten
Verbetering tekstkwaliteit
Iets meer detail:
• 160 vrijwilligers, waarvan de helft actief
• 30-40 % van de 17e Nederlandstalige eeuwse kranten gedaan
• ±1.900 kranten (van de ±6200)
• ±18.500 artikelen (van de ±46000)
Verbetering tekstkwaliteit
Iets meer detail:
• woordcoördinaten worden meeverbeterd (highlighting)
• confidence levels worden opgehoogd
• oorspronkelijke versie van de tekst wel bewaard, maar niet direct toegankelijk
• beschikbaarstelling als dataset en in Delpher zal geleidelijk gaan
• uitbreidbaar:
• andere delen van de krantencollectie. (Wie wil?)
• (met aanpassingen) andere collecties
Keuzes
• geautomatiseerde tekstverbetering of overtikken?
• oude versies bewaren?
• hoe gegevens over verbeteringen/verrijkingen publiceren? (verantwoording)
• betekenis van identifiers?
• het object
• of een versie van het object
• gedifferentieerd kwaliteitsbeleid