La numérisation de la presse à la BnFChoix documentaires – état d’avancement – aspects techniques
Journées Patrimoine écrit – 14 septembre 2007
Philippe Mezzasalma – Frédérique Joannic-Seta
Rappel
La numérisation de la presse nationale: un programme-phare de la Bibliothèque nationale de France
Lancement : 2005 Plan pluriannuel : 2005-2010 31 titres concernés (de leur origine à 1944, dernière
année de numérisation). A l’origine 21 titres de PQN + 6 sup. + 3 ajouts de PQN + 1 ajout de presse régionale
A terme 3,5 M de pages
Plan
Éléments de contexte : les collections de presse de la BnF
De la sélection à la mise en ligne : choix et procédures
État d’avancement Démonstration des accès Évolution du programme de numérisation de
la presse
Les collections de presse à la BnF Entrées courantes : quotidiens ou périodiques de grand format
(principalement hebdomadaires), d’information générale (nationaux ou locaux) ou relevant des disciplines droit, économie, politique - 848titres, (676 entrant par le Dépôt légal) dont 222 quotidiens, soit 87 679 fascicules
Fonds clos : périodiques cotés Jo, Gr fol-Jo, JoA, Job précédemment à Versailles :
journaux locaux, presse professionnelle, presse partisane et syndicale, bulletins d ’associations, presse de loisirs .... 110 000 cotes au total, pour un nombre presque équivalent de titres.
quotidiens ou périodiques de grand format du Département des périodiques
Le fonds de microfilms : 115 000 bobines de presse, près de 7500 titres sauvegardés ; accroissement annuel d ’environ 6000 bobines : courant : tous les titres de PQN, 40 titres de PQR jusqu’à 2003, 20
depuis. rétrospectif : reproduction de périodiques Jo ; sélection des titres
sur la base de corpus ou à partir des demandes de lecteurs
Les collections de presse de la BnF : communication au public Communications en Rez-de-jardin : plus de 50
000 bobines de microfilms, plus de 14 000 unités de conservation du fonds clos Jo
Communications de microfilms en salles D et J : sélection de 43 titres
Salle A : 273 titres en libre-accès, interrogation de cédéroms ou bases de données, 165 entrées par jour
Typologie de la presse
• la presse nationale : • presse politique et d'information générale• presse populaire• presse d'échos, presse satirique
• la presse régionale et locale• la presse d ’outre-mer• la presse spécialisée• la presse de lecture• la presse gratuite• la presse de type publication officielle• la presse alternative
La Presse : pourquoi numériser ? Une richesse documentaire incontestable
contenu exceptionnel
Un ensemble en danger…
auquel la numérisation offre de nouvelles perspectives
=> Une opération à la fois de sauvegarde et de diffusion
De la sélection à la mise en ligne Définition du plan de numérisation Enquête sur les usages attendus de la
presse numérisée Aspects juridiques Sélection de l’exemplaire et recollement Choix techniques de numérisation et
conséquences sur Gallica Le mode texte
La définition du corpus Un programme axé autour de la presse
quotidienne nationale
Un panorama représentatif du pluralisme d ’opinion, des grands titres historiques aux quotidiens populaires
Une ouverture vers les régions : Ouest-Eclair Un corpus accompagné par des outils critiques :
Annuaire de la presse...
Les titres retenus : plus de 3 millions de
pages sur 5 ans La Croix Le Temps Le Figaro L’Humanité La Presse Le Petit Parisien Le Figaro Littéraire L’Action Française Le Journal des débats Supplément du Petit Parisien Le Matin Le Petit Journal Le Petit Journal illustré
L'AuroreLa JusticeLe GauloisLe ConstitutionnelL’UniversL'intransigeantLe SiècleLe RappelGil BlasGil Blas illustréLa LanterneSupplément de la LanterneL’Écho de ParisOuest Éclair
En prévision : Les Échos, Le Canard enchaîné
Les aspects juridiques
Rappel : droit d ’auteur = 70 ans à compter de la mort de l ’auteur à compter de la publication quand œuvre collective
=>la presse obéit à ces règles
Conséquences : Accord des titres vivants (convention) Pas de mise en ligne postérieure à 1935 Masquage éventuel des images
Préparation des documents
Une décision : repartir des originaux
Récolement fascicule par fascicule lacunes à compléter auprès d ’établissements extérieurs signalement des défauts physiques
Préparation des supports : démontage/déreliage petites réparations dépoussiérage et repassage
Catalogage et métadonnées
Choix de l’unité – fascicule
Catalogage : Création dans le catalogue d’une cote numérique
correspondant au titre Pour chaque cote numérique, utilisation du fichier
de récolement pour lier les fascicules numériques
Métadonnées : constitution par extraction des données à partir du catalogue
Numérisation 4 chaînes opérationnelles pour ce
programme, dont 2 confiées à un prestataire
Opérations de prise de vue et d’insertion/création des métadonnées
Une numérisation de haute qualité (300 dpi – niveau de gris), TIFF non compressé pour la sauvegarde compressé en JPEG pour la diffusion
Ocr et numérisation de la presse Usages attendus : une recherche plein texte
plutôt qu’une transcription
=>le choix d’un OCR brut et d’une segmentation (format Alto)
un niveau qualitatif minimum de 95% de reconnaissance de caractère
Titres numérisés – état au 14/09/07
Le Temps : en ligne 1861-1935 Le Figaro : en ligne 1826-1942 (lacunes 1842-1853) Le Figaro littéraire : en ligne 1876-1929 (lacunes 1896-
1904 et 1915-1918) La Croix : en ligne 1883-1944 L ’Humanité : en ligne 1904-1944 (lacunes 1940-1943) La Presse : en ligne 1836-1854 Le Journal des débats : en ligne 1800-1884
NB : les lacunes signalées ici résultent des opérations de contrôle qualité,
à l ’exception de l ’Humanité
Les titres en cours de numérisation En cours de numérisation :
La Presse Le Journal des débats Le Petit Parisien Ouest-Eclair (édition de Caen)
A suivre en 2007-2008 : Le Gaulois L’Aurore Le Monde diplomatique
Deux accès vers la presse numérisée
Le catalogue Bn-Opale plus
Gallica
Accès par le catalogue
Accès par cote numérique
Les autres recherches proposées par le catalogue sont également valides : recherche par titre, par cote de l ’original papier...
Accès par le catalogue
Exemplaire numérique
Visualiser
Navigation dans Le Temps
Navigation dans Le Temps
10 juillet 1861
Navigation dans Le Temps
Circulation par année
Circulation par jour
Zoom et accès au mode texte
Accès dans Gallica
Améliorations attendues
Dans le cadre de Gallica 2 (à partir de l’été 2008)
Page de présentation des titres de presse Mise en place d’un espace de travail
personnel (panier, taggage des pages…)
Mise en relation des titres de presse avec des documents qui leur sont consacrés (Tables du Temps ; fichier du journal Le Matin )
Numérisation de la presse à la BnF : extensions à venir
Extension à l ’étude vers des corpus thématiques presse des immigrations presse des anciens territoires et colonies journaux de tranchées (BnF, BDIC, BNUS, BM Lyon, Stuttgart)
presse clandestine de la Résistance presse hebdomadaire (politique, littéraire, de théâtre, de
mode)
Axe francophone : « Réseau des bibliothèques nationales numériques francophones »
La valorisation du corpus de presse
Lien avec la recherche (équipe Montpellier III -Paris I – Paris IV)
Publications prévues pour 2007 : Guide des