Upload
impact-centre-of-competence
View
222
Download
2
Embed Size (px)
DESCRIPTION
Bibliothèque nationale de France presentation at "Succeed in Digitisation. Spreading Excellence" Conference. Validation and take-up of text digitisation tools.
Citation preview
Bibliothèque nationale de France
• 1368 : premier inventaire de la bibliothèque royale
• 1537 : institution du dépôt légal par François 1er
• 1666 : installation de la bibliothèque à Richelieu
• 1994 : création de la Bibliothèque nationale de France
• 1995 : inauguration du bâtiment François-Mitterrand
1996-1998 ouverture au public du nouveau site
• Cinq sites ouverts au public
• Livres, périodiques, manuscrits, estampes,
photographies, affiches, cartes et plans, audiovisuel,
et aussi monnaies, médailles, maquettes, partitions,
décors et costumes de théâtre
• 3660 places dans les salles de lecture,
840 000 lecteurs en 2013
Cas d’usage : contrôle qualité OCR
Principe : comparer le document à évaluer à son document étalon (« vérité terrain ») afin de quantifier ses défauts.
Usage : marchés de numérisation (phases de test, audits), R&D
Outils : • Aletheia : création de vérité terrain • ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) • Layout Evaluation : évaluation de la qualité OCR (segmentation)
Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse)
x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis …
?
VT
Cas d’usage : contrôle qualité OCR
Usage : marchés de numérisation (phases de test, audits), R&D
Principe : comparer le document à évaluer à son document étalon (VT) afin de quantifier les défauts
Outils : • Aletheia : création de vérité terrain • ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) • Layout Evaluation : évaluation de la qualité OCR (segmentation)
Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse)
x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis …
1 ?
Aletheia (université de Salford)
• Binarisation et moteur OCR intégré
• Outils de segmentation semi-auto et
automatique, de typage des contenus…
• Outils de correction (segmentation,
texte, etc.)
• Granularité : bloc, ligne, mot, caractère
Format PAGE (et export .txt)
Cas d’usage : contrôle qualité OCR
Usage : marchés de numérisation (phases de test, audits), R&D
Principe : comparer le document à évaluer à son document étalon (VT) afin de quantifier les défauts
Outils : • Aletheia : création de vérité terrain • ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) • Layout Evaluation : évaluation de la qualité OCR (segmentation)
Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse)
?
x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis …
2
ocrevalUAtion (université d’Alicante)
• Evaluation de fichier ou de document (x fichiers)
• Formats ALTO, PAGE, FineReader, texte
• Options de périmètre : mots vides, casse,
ponctuation, accents, équivalences, zones,
?
4,3 % d’erreurs sur les caractères 11,45 % d’erreurs sur les mots
LayoutEvaluation (université de Salford)
?
• Profils d’évaluation par type d’usage
• Erreurs classées par types (omission,
fausse détection, fusion, scission,
classement erroné) et par niveaux (bloc,
ligne, mot)
0,3 % de mots omis 1,1 % de mots surdétectés 0,3 % de mots fusionnés 0,2 % de mots scindés …
Résultats d’évaluation
Evaluation
• Outils opérationnels, efficaces. Demandes d’évolution transmises aux
développeurs.
• Le contrôle qualité OCR avec VT est une activité chronophage !
Application
• Intégration des outils dans la boîte à outils Numérisation.
• Utilisation d’Alethia dans la phase de test du nouveau marché Imprimés
2014.
• Rédaction d’un guide pratique en français pour les bibliothèques partenaires.