Upload
voduong
View
235
Download
0
Embed Size (px)
Citation preview
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
Aspects techniques d’un projet de numérisation
Médiat Rhône Alpes Formation continue
23 mars 2010
Catherine Mocellin
Bibliothèque municipale à vocation régionaled’Orléans
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
23.03.10 2
Bibliothèque(s) physique et numérique
Sélection
Acquisition
Catalogage
Équipement
Magasinage
Conservation
Mise à disposition
Valorisation
Sélection
Capture/production
Identification, indexation
Empaquetage
Gestion
Préservation (données, accès)
Mise en ligne/consultation
Valorisation
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
3
Acquisition• Principes de la numérisation
À partir des capteurs de lumière de l’appareil, transformer la représentation analogique d’un document en représentation codée en mode binaire (0, 1)
– La numérisation est basée sur l’analyse de l’image : elle est fictivement découpée en éléments de surface (« picture elements », ou pixels, ou points)
– Cette analyse consiste à mesurer point par point la quantité de lumière transmise ou réfléchie– Ces capteurs (cellules photoélectriques) transforment l’énergie lumineuse de chaque point en
énergie électrique– Puis un convertisseur transforme ces impulsions électriques en données numériques
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
4
Acquisition
• Le courant varie en fonction de l’intensité du signal, la luminosité est donc exprimée par 0 ou 1
– 1 = signal électrique– 0 = pas de signal électrique
• Le capteur CCD est constitué de capteurs photosensibles (photosites) organisés soit en matrices (appareil photo) soit en rangée ou barrettes (scanners à balayage)
• Le capteur comprend 2 photosites verts pour un photosite rouge et un bleu
• La superposition des 3 couches restitue la couleur originale de l’image en mode RVB (rouge vert bleu) – mode de restitution des couleurs utilisé par les scanners et les écrans
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
5
Structure• L’image numérique est donc une juxtaposition d’éléments d’images (pixels)
disposés en rangées et en colonnes dont la valeur est générée par les photosites
• La luminosité du pixel est quantifiée par une valeur numérique
• L’image initiale est ainsi transformée en un ensemble de nombres sur lequel un ordinateur peut effectuer des traitements à fins d’exploitation
• Profondeur d’acquisition : nombre de couleurs d’un pixel (dynamique de l’image)– Mode bitonal (noir et blanc) : codage sur 1 bit, 21 soit 2 valeurs possibles pour chaque
pixel : 0 et 1– Mode niveaux de gris : codage sur 8 bits = 28, soit 256 valeurs de gris– Mode couleurs : codage de chaque couche sur 8 bits, = 224 = 16,7 millions de couleurs– Plus le nombre de bits est important, plus le poids informatique de l’image est lourd
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
6
Définition / Résolution / Taille
• Définition : nombre de pixels que contient une image en hauteur et en largeur (= le nombre total de pixels) :
2 048 x 3 072 par ex.
• Résolution : nombre de pixels par mm ou par pouce (un pouce = 2.54 cm) – Unité : point par pouce : ppi ; ou dots per inch : dpi– La résolution exprime une valeur d’échantillonnage– Plus l’échantillonnage est fin plus le niveau de détail capturé est fin
• Le choix de la définition et de la résolution est lié aux dimensions que devra prendre l’image numérique finale selon l’utilisation voulue, et aux caractéristiques du document original
– 72 dpi : diffusion en ligne (Web)– 150 dpi : impression bureautique standard– 300 dpi : substitution et imprimerie à l'échelle originale
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
7
Définition/Résolution/Taille
• La résolution doit être pertinente et adaptée au type de document et d’utilisation prévu
• La résolution et la profondeur d’acquisition impactent le poids des fichiers (donc les capacités de sauvegarde à prévoir et les modalités de diffusion)
(Rappels : 1 Mo ~ 1024 Ko ; doubler la résolution = quadrupler le volume)
• Un ouvrage format A5 de 200 p. en noir et blanc, 300 dpi en TIFF non compressé : ~52,4 Mo
A 4300 DPI 600 DPI
Mo Ko Mo Ko
Noir et blanc 1.04 Mo 1 065 Ko 4.16 Mo 4 260 Ko
Niv. gris 8.29 Mo 8 499 Ko 33.19 Mo 33 996 Ko
Couleur 21.88 Mo 22 415 Ko 87.55 Mo 89 660 Ko
!
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
8
Définition / Résolution / Taille
• La performance des appareils est évaluée principalement au regard de :– la profondeur de couleurs supportée ; – la finesse de capture (nombre de pixels restitués) et du rendu des couleurs ; – la profondeur de champ ; – Les capacités du système d’éclairage ;– la vitesse de capture (pour la production)– Les modalités de manipulation des documents sur la machine (grands
formats, ouvrages à reliure serrée, à faibles dimensions, etc)
• Plus la résolution choisie est haute, plus les temps de prise de vue sont longs car le capteur doit échantillonner finement
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
9
Restitution des couleurs
• Un espace colorimétrique traduit la manière de représenter les couleurs selon une technologie
Gamut de couleurs avec 2 espaces colorimétriques
1. RVB (rouge, vert, bleu) : ce qu'un appareil photo et un écran (télévision, ordinateur) peuvent représenter
2. CMJN (cyan, magenta, jaune, noir ; quadrichromie) : ce que l'imprimerie traditionnelle peut représenter.
-> CMJN est plus « pauvre » que RVB-> il faudra traduire les références de couleurs d’un
espace dans l’autre
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
10
Espaces de couleurs
• RVB : synthèse additive (l’addition des 3 composantes donne une couleur)– Chaque couche de couleur d’un pixel est codée sur 8 bits (1 octet) par une valeur
entre 0 et 255 : rouge = (255;0;0) ; noir = (0;0;0) ; blanc = (255;255;255) ; fuschia = (242;18;199)
– Exemple : 3 octets d’un pixel rouge se notent : 11111111 00000000 00000000– Images en « vraies couleurs » : 24 bits par pixel, soit 16.7 millions de couleurs– Mais le codage peut être plus élevé (10 / 12 / 16 bits par couleur) ou plus pauvre
(sur 256 couleurs, codage à « valeurs indexées »)
• CMJN : Synthèse soustractive (l’addition des couleurs produit le noir)– Ajout du noir car le mélange de cyan, magenta, jaune produit un brun sale
• D’autres systèmes de couleur :– Lab : Luminance (L), chrominance rouge-vert (a), chrominance bleu-jaune (b), mis
au point par la Commission Internationale de l’Eclairage (CIE) : unique, indépendant des périphériques.
– Munsell, Ostwald, Chevreul : approche purement visuelle
!
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
11
Restitution des couleurs
• Une chaîne repose sur 3 types d’éléments : la capture, l’affichage sur écran, l’impression
• Ils reposent sur des espaces colorimétriques différents et ont donc un rendu des couleurs spécifique
• Les références de couleurs entre chaque périphérique ne sont pas les mêmes
• Il faut donc synchroniser la gestion des couleurs pour s’assurer de leur restitution fidèle tout au long de la chaîne (depuis la prise de vue jusqu’à la restitution sur écran et à l’impression)
- caractériser le profil de chaque périphérique (la manière dont il « voit » les couleurs)
- utiliser des fichiers normalisés appelés « profils ICC », qui permettent de traduire les références des couleurs d’un espace à l’autre et d’un périphérique à l’autre
- ICC = International Color Consortium- l’espace CIE est l’espace pivot entre RVB et CMJN
!
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
12
Restitution des couleurs
• Un histogramme par couche de couleur traduit la répartition des valeurs des pixels dans l’image
• Pour une bonne restitution des couleurs :– Avoir une bonne gestion de la lumière à la capture : niveau d'illumination
suffisant et à bonne température de couleur (6 500° Kelvin), pas de lumière parasite…
– Avoir un système de numérisation performant et adapté au projet– Étalonner le scanner : définir un état colorimétrique de référence à partir du point
blanc et de mires normalisées– Utiliser des profils ICC (International Color Consortium)– Ajouter à chaque document numérique l’image des mires numérisées le jour du
traitement du document– Calibrer les écrans de contrôle et vérifier régulièrement l’absence de dérives
• Spectrophotomètre, ou • Colorimètre
– Contrôler les images avec les documents originaux sous les yeux
!
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
13
Binarisation
• Passer d’une image en couleurs ou niveau de gris à une image noir et blanc• Procédé reposant sur la réduction à 2 valeurs des pixels en fonction de leur
intensité, à partir d’une valeur référence dans les gris, le seuil– Les pixels de valeurs de gris supérieures à la valeur du seuil seront mis en blanc– Les pixels de valeurs de gris inférieures à la valeur du seuil seront mis en noir
• Implique un bon réglage du point blanc avant capture ou lors du traitement• Trouver un niveau de gris médian, ni trop clair ni trop foncé
– Si le seuil tend trop vers le noir, il y a risque de déperdition d’information (les pixels gris seront convertis en blanc)
– Si le seuil tend trop vers le blanc, il y a risque d’illisibilité : les pixels gris deviendront noirs
• La binarisation est particulièrement complexe pour les documents tachés, peu contrastés et hétérogènes
– Les maintenir en niveaux de gris pour permettre la lisibilité• La BnF recommande de ne pas trop descendre le seuil afin de conserver
des pixels et pour faciliter l’OCR
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
14
Binarisation
• Seuillage global (une valeur pour toute la page)
• Effet du seuillage sur un caractère mal imprimé
Source : Philippe Lefèvre, « Reconnaissance de l’Imprimé ». Techniques de l’Ingénieur. 10 mai 1999.
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
15
Noir et blanc / Niveaux de gris
• La binarisation n’est pas adaptée pour les photos, les encarts colorés
• Privilégier le noir et blanc pour tout support composé exclusivement de noir sur fond blanc
– Imprimés courants– Dessins, gravures au trait et/ou à hachures délimitées, traits nets sans modelé
continu
• Niveaux de gris pour des documents présentant des demi-teintes– Lavis, fusain… et tous dessins à modelés continus– Tous types de photographies– Dessins dont les détails sont trop fins pour permettre un traitement en noir et
blanc, même en 400 dpi– Documents faiblement contrastés, tachés, dont l’impression est irrégulière,
abîmée, et/ou à report d’encre entre les pages– Documents imprimés contenant un grand nombre de photographies ou d’images
à traiter en niveaux de gris
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
16
Chaîne et matériels selon les supports
• Documents opaques– Papier : monographies, périodiques, presse– Iconographie : cartes, plans, estampes, photographies…– Manuscrits– Attention aux dimensions et au poids : dérelier ? Porte modèle ajustable ?
Quelles manipulations ?
• Documents transparents– Microformes (microfilms, fiches)– ektas– Diapositives– Cartes à fenêtres– Transparents originaux (plaques de verre…)– Attention au taux de réduction pour la résolution choisie
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
17
Dos numériques• Dos numériques
– Prise de clichés -> temps de capture rapides– Attention au choix de l’optique et aux réglages des distances entre l’objectif et le document pour
capturer à la bonne résolution– Ajout possible d’une chambre photo– Association à des porte-modèle ou à un « banc de reproduction », par exemple :
– Temps de manipulation– Documents de petite taille et/ou avec de très petits motifs– Documents complexes (reflets…), les plaques de verre
– Exemples :• PhaseOne (Danois) : exemple P65 + : jusqu’au A2 à 380 dpi (60 Mégapixels)• Hasselblad (Suédois) : exemple CF39 ; 50 millions de pixels
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
18
Numériseurs de documents opaques• Numériseurs à plat : simples d’utilisation, rapides, polyvalents (docs. récents ou
anciens)
– Certains modèles conçus pour une utilisation directe par les lecteurs en bibliothèque– Livres jusqu’au A2, à plat– Plateau compensateur pour livres jusqu’à 10 cm d’épaisseur– Avec ou sans vitre– Résolution fixe quelle que soit la taille de l’original (300-400 dpi)– Zeutschel BookCopy, OS 12000
– I2S Copybook
– Creo IqSmart : pour professionnels de la photo• Également pour les diapositives
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
19
Numériseurs de documents opaques• Scanners à balayage
– Documents de grand format (presse, cartes…), feuilles ou reliés. Pages tournées manuellement, avec ou sans vitre.
– Zeutschel (Allemand) • OS 10000 ou 12 000 : jusqu’au A0, 300 à 400 dpi. Accessoires (porte modèle…)• Caméra et éclairage non zénithaux permettent de gérer les reflets dus à la brillance (papier glacé, dorures…). • Mais effet de distorsion de l’image numérique
Zeutschel OS 10000 A0 couleur
-I2S (français)- Caméra linéaire mobile (balayage horizontal de gauche à droite et retour) avec éclairage embarqué- Résolution optique variable selon dimensions du document (réglette d’ajustement de la hauteur de la caméra)- Accessoires (porte modèles, table aspirante, balance porte livre, porte livre 120°…)
Digibook A023.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
20
Numériseurs de documents opaques
• Scanners à balayage– Métis (Italien) :
• DRS A1 : 65x100cm avec porte-modèle (épaisseur de livre max 25 cm) ou 65x120 avec un plateau• DRS 5070 : 300 dpi sur 50*70 cm. Porte modèle 35*42 cm à 90-120°
– Lumière Technology (Français) : Jumbo Scan• Caméra linéaire adaptable sur banc de numérisation ou sur trépied ; 12000*2000 pixels• Documents opaques du A4 au 5*2 m, en feuilles ou reliés, et transparents (diapositives, plaques de verre…)• NB, NG, couleur
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
21
Numériseurs de documents opaques
• Appareils « automatiques » dits tourne-page– Surveillance par opérateur nécessaire– Documents à ouverture réduite ou à plat– Productivité accrue– Exemples :
• Kirtas (Etats-Unis) : 2 caméras fixes sur chaque bras ; système d’aspiration du papier puis de tourne page du livre ouvert à 110°Résolution optique jusqu’à 300 ou 400 dpi.• Kodak (France) : DL 3000Ouverture à platTourne page automatique par aspirationPb pour les dépliants
– Développements récents pour traiter les très petits formats (< 12 cm)• Treventus (Autriche) : Scan Robot : bras mobile descend jusqu’au fond de reliure, aspire la page et la
numérise en remontant.
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
22
Numériseurs de documents opaques
• Appareils automatiques pour documents en feuilles (natifs ou massicotés)
– Très haute productivité– Très utilisés pour les secteurs bancaires et postaux– Risque de bourrage si les pages sont mal massicotées– Exemples
• IBML : ImageTrac 3
• BancTec (Etats-Unis) : IntelliScan XDS
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
23
Numériseurs de transparents
• Considérer le taux de réduction des supports pour la résolution voulue de l’image à l’échelle 1 d’une part, et la puissance d’échantillonnage des scanners d’autre part
• Traitement manuel et/ou automatique
• Choisir un scanner qui absorbe de forts écarts de densité entre les vues (dus à la prise de vue ou aux caractéristiques de l’original)
• Numériseurs de microformes : fiches, films, cartes à fenêtre, diapositives, etc– Wicks et Wilson (Grande-Bretagne) : de 100 à 600 dpi pour des taux de réduction entre 7.5 et
50 (modèles récents). Exemples :• Scanner 5100 pour les microfiches• Scanner 8850 pour les films
– NextScan : Eclipse (films) et FlexScan (films et fiches) : automatiques, forte productivité. 100 à 600 dpi pour des taux de réduction de 7 à 51 fois
– Canon (Japon)– Sunrise (Etats-Unis) pour les films– Creo IqSmart : diapositives (scanner à plat)– … et bien d’autres encore
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
24
Numérisation en mode image seul
• On s’intéresse à la forme de l’original
+ -
- Un fac-similé
- Coût inférieur pour le même type de documents (moins de traitements)
- Relative simplicité de mise en œuvre
- Pas de recherche plein texte, de manipulations
- Prévoir un format de diffusion pour limiter les temps de téléchargement
- Peu de points d’accès, donc avoir un système d’indexation et de recherche performant et riche
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
25
Numérisation en mode texte
• On s’intéresse au contenu et aux services
• Dans un marché, avoir plusieurs prestations différentes implique un suivi administratif et financier plus lourd qu’une seule prestation (plusieurs prix)
+ -
- Recherche plein texte, manipulations multiples
-Amélioration du niveau de services : navigabilité, facilité de consultation, annotations…
- Accessibilité pour les personnes handicapées
-Lourdeur (main d’œuvre, balisage conforme à un schéma, relectures…)
- Coût de réalisation pour la haute qualité
- Chaîne et outils de contrôle, voire d’extraction d’images, à développer
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
26
Numérisation en mode texte
• 2 méthodes– Saisie manuelle
• coûteux (création d’un schéma XML, puis opérations à haute valeur ajoutée et nécessitant une main d’œuvre importante…)
– Reconnaissance optique des caractères (OCR)
• Solution intermédiaire– Mode image avec plusieurs points d’accès en mode texte
• Saisie des tables des matières et index ; recherche par « mot-notice »
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
27
Reconnaissance optique des caractères
• Fonctionnement– Segmentation : découpage de la page et de chaque bloc de texte en « boîtes »
identifiées par leurs coordonnées
Voir la charte de la BnF pour la conversion : http://www.bnf.fr/documents/charte_ocr.pdf– Reconnaissance : dans chaque boîte, reconnaissance des caractères par comparaison
avec des ensembles de formes et à l’aide d’outils linguistiques
TopMargin
LeftMargin
PrintSpace
BottomMargin
RightMargin
TextBlock TextLine
SP
String
GraphicalElement
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
28
Reconnaissance optique des caractères
• Fonctionnement– Automatique (plusieurs logiciels sur le marché)– OCR brut, ou de qualité spécifiée sur 100 %– Reprise manuelle nécessaire selon le taux de qualité demandé– Création de fichiers XML contenant les coordonnées des éléments– Affichage combiné (PDF multicouche par ex.) faisant apparaître le texte en
transparence sur l’image
• Impact de la résolution :
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
29
Obstacles pour l’OCR
• Qualité de l’original imprimé et numérique– Courbures et inclinaisons de lignes, caractères déformés : segmentation difficile– L’impression de l’original doit être très régulière et propre (pas de taches, etc)– Non homogénéité des fonds implique des ajustements fréquents des outils
• Polices de caractères– Trop resserrées, trop irrégulières, caractères trop gras, trop grands : risques de
confusion entre les caractères– Caractères non latins ou non ISO sont mal reconnus (grec, fraktur, manuscrits,…)
• Structure du texte– Structure en colonne type presse : nécessité de définir un ordre– Éléments non textuels imbriqués (graphiques, illustrations…)
• Les imprimés jusque la fin du XVIIIe sont très mal reconnus• Obtenir une haute qualité (proche de 100%) implique des reprises
manuelles
!
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
30
La compression des images
• Elle permet de réduire la taille des fichiers en supprimant la redondance d’informations : pixels de même valeur, couleurs
– Compression sans perte – Compression avec perte
• En aucun cas les algorithmes engendrant des pertes irréversibles de données ne doivent être utilisés si l’on veut sauvegarder à long terme les images
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
31
Compression JPEG
Paramétrage du taux de qualité (0 à 100%)
codage
compression
restitution
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
32
Compression IUT Groupe 4
Compression sans perte pour les images bitonales uniquement
Codage ligne par ligne puis corrélation des lignes entre elles
Les lignes qui se suivent se ressemblent, on va donc procéder à
un codage relatif ou prédictif d
’une ligne à
l
’autre : Bidirectionnelle (on déduit une ligne de la précédente)
Taux les plus fréquents : 8 à
20
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
33
Formats• Ensemble des règles et algorithmes permettant de coder l’information :
par ex. spécifie le codage des couleurs, l’organisation de données, l’algorithme de compression
• Distinction format d’archivage – format de diffusion– Assurer l’indépendance du système de conservation par rapport aux outils et
standards de consultation– Contraintes d’accès (temps d’affichage, droits, etc)– Assurer de bonnes conditions de consultation du document numérique
• Formats préconisés par MCC– TIFF– JFIF : format pour les images compressées JPEG– PNG
• Choisir des formats ouverts reposant sur des normes et standards, dont les spécifications sont publiques, et indépendants des logiciels, plate-formes
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
34
TIFF
• TIFF (Tagged Image File Format)
– Norme ISO 12639:2004– Format permettant de documenter les images (tags) : dimensions, nombre
de couleurs, matériel utilisé, données d’indexation (cote, copyright…)– Permet de stocker des images de taille importante sans déperdition de
qualité et indépendamment des plateformes et des périphériques– Permet l’usage de plusieurs espaces de couleur– Très bon pour l’archivage– Supporte plusieurs algorithmes de compression– Ex. : Centres de service de conservation de l’OCLC– http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
35
JPEG 2000
• Ensemble de méthodes de compression avec ou sans perte, et de formats de fichiers
– Compression de meilleure qualité que le JPEG– Dégradation sélective de certaines zones moins stratégiques de l’image :
définition de « régions d’intérêt »– Génère des « tuiles » de résolution différentes, utiles pour la diffusion– Nécessite des capacités de stockage moins importantes pour un volume
identique en TIFF non compressé– Métadonnées variées– Gère la transparence– Ex : BN Norvège : format d’archivage à long terme – à l’étude à la BnF– http://www.jpeg.org/jpeg2000/index.html
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
36
PNG
• Portable Networks Graphics ; ISO/IEC 15948:2004• Format ouvert et documenté, recommandé par le W3C• Indépendant de tous droits, licences, matériels et systèmes d’exploitation• Compression sans perte, algorithme non breveté• Gère plusieurs espaces de couleur• Supporte images en niveaux de gris et jusqu’à 16 bits par couleur• Gère la transparence• Supporté par les versions récentes des navigateurs mais encore peu
répandu• Utile pour la diffusion• Problème : encore peu répandu• Spécifications et informations : http://www.libpng.org
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
37
Comparatif TIFF / JPEG
JPEG2000 JPEG TIFF NC TIFF G4Bitonal Oui Non Oui OuiModelés continus Oui Oui Oui NonCouleurs Oui Oui Oui NonSans perte (bit à bit) Oui Non Oui OuiSans perte visuelle Oui Oui Non NonRésistance à perte Bonne Mauvaise Très bonne MauvaiseAccès direct Oui Non Oui Non
Oui Oui/Non Oui Oui
40-50% 10% 0% <1%Navigateur IntégréPDF Oui Oui Oui Oui
Compression/decompression sans perteMétadonnées Riche ext. Riche lim. Riche lim. Riche lim.Taux de comp.
Plug-in Plug-in Plug-in
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
38
Numérisation et conservation
• Une numérisation de qualité permet la conservation– Non communication des originaux – Remplacer des originaux manquants et/ou permettre des sorties COM (films, fac-
similés)– Préservation : on ne peut conserver à long terme les fichiers numériques que
lorsqu’ils sont de bonne qualité et bien documentés
• Document numérique « de qualité »– Choix optimal de la résolution (ni trop haute, ni trop basse)– Documentation de chaque image, de chaque document numérique, des procédés
de production– Structuration du document numérique (liens entre image et page originale)– Fidélité rigoureuse à l’original et qualité de la prise de vue– Exhaustivité de prise de vue (pas de numérisation partielle)– Non compression, ou compression réversible– Format(s) le(s) plus ouvert(s) possible(s) supportant plusieurs espaces de
couleur– Distinction version d’archivage / version de diffusion
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
39
Choix technologiques
• Tenir compte des paramètres suivants :
– Les objectifs et les moyens humains et financiers du projet– Les caractéristiques physiques des documents et du fonds– Les capacités du matériel et le système de numérisation– Les caractéristiques des formats– Les paramètres de numérisation : couleur, résolution, format de conservation,
format d’affichage…– L’usage du fichier numérisé : conservation pure ? Diffusion à titre gratuit, payant ?
De consultation ? Quels services associés ?– Le logiciel de gestion des fichiers et celui de consultation en ligne– La portabilité en réseau (temps d’affichage, etc)– Les moyens de conservation à long terme– Les moyens de signalement pour la recherche– Les évolutions à prévoir
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
40
Caractéristiques des originaux
• Support :– Nature et fragilité : papier, film, vélin, plaque de verre … papier restauré,…– Degré d’ouvrabilité (conditionne le matériel à adopter)– Aspect : opacité, couleur, hétérogénéité du fonds, du document, de la page– Présentation : dimensions, reliure, feuillets montés sur onglet, dépliants et
paperoles, etc– Échelle d’agrandissement pour les microformes
• Contenu :– Type : photo, texte, gravure, graphiques, cartes, etc– Qualité : graphie, contraste, taches éventuelles, transparence…– Mode d’obtention : imprimé, manuscrit, dessin, etc
• Structure de l’original selon le niveau d’accès offert par la bibliothèque numérique (notion de granularité)
• Plus un document/un fonds est hétérogène plus la numérisation est complexe et coûteuse car nécessite des réglages particuliers
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
41
Recommandations de la BnF
Profondeur d’acquisition
Type de documents (transparents et opaques)
Résolution (pour les marchés)
Formats d’archivage / de diffusion
Noir et blanc imprimés, dessins au trait, graphiques 300 dpi (jusqu’à 400)
TIFF v6 compression UIT Gr4 / PDF
Niveaux de gris PresseGravures et photos noir et blanc, certains manuscrits et imprimés peu contrastés et/ou très tachés
400 dpi TIFF v6 non compressé / PNG ou PDF (pour l’OCR, PDF multicouche)
Couleur Documents iconographiques, manuscrits et imprimés de Réserve, documents contenant plusieurs couleurs
< A6 : 400 dpi> A6, petits caractères : 600
TIFF v6 non compressé / PNG ou JPEG
Voir la charte technique de la BnF : http://www.bnf.fr/documents/charte_numerisation.pdf
• Plus le document est petit ou contient des informations de petite taille, plus la résolution doit être grande pour pouvoir zoomer et lire sans effet de pixellisation
• OCR : schéma ALTO (développement conjoint avec LoC)
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
42
Quelques recommandations de prise de vue• Fidélité à l’original
– Reproduire au plus près l’original sans l’améliorer, assurer sa lisibilité– Pas de rééchantillonnage après capture (ajout artificiel de pixels)– Pas de retouche colorimétrique– Réglages optimisés lors de la prise de vue (éclairage, contraste, marges, etc)– Une page / image, dans son intégralité, sans vue de détail– Insertion de fonds de couleur neutre pour les projets iconographie
• Traitements post-numérisation– Détourage jusqu’au bord extérieur des pages (recadrage)– Redressement– Remise dans l’ordre des images– Ajout de métadonnées et constitution de la table de correspondance
• Ajout de la mire couleur du jour de traitement
Mires Gretag MacBeth
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
43
Granularité et accès
• Réfléchir en termes de granularité d’informations et de niveaux d’accès– Le numérique permet de fournir directement des accès profonds (contenu)– rapport entre l’objet physique et son/ses contenu(s) numérisé(s)
• Quel niveau de description : unité physique ? Fascicule ? Article ?• Comment assurer des liens entre plusieurs documents numériques ? Par ex. comment
traiter une table des matières multivolumes ?
• Typer les pages pour faciliter la navigation– Création d’accès spécifiques : tables des matières (TDM), index, page de titre,
de couverture– Nécessite la définition de règles de typage et de gestion des TDM
• Signaler les exemplaires– Dans le catalogue traditionnel de la bibliothèque– Éventuellement dans un catalogue des documents numériques– Assurer le référencement des documents et pas uniquement de la bibliothèque
numérique– Prévoir l’échange des données avec le protocole OAI
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
44
Structuration et métadonnées• Numériser n’est pas scanner
La prise de vue déconstruit le document
Reconstituer le document par des métadonnées permettant aussi de le conserver à long terme
Structure Bibliographiques Administratives
001.TIF 002.TIF 003.TIF 004.TIF 005.TIF
-Reconstituer la structure de l’original : correspondance page logique/page physique
- identification de pages particulières pour des accès
-Identifier la version numérique
-Associer cette version à la notice de l’original
- Conditions et outils de production, liste et historique des traitements, type de numérisation, nombre de vues …
- droits
- données de livraison
Illustrationp.4
p.3p.2
Non paginé
Page de titre
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
45
Métadonnées
• Quels besoins logiciels ? Définir des formats et les contenus des fichiers d’identification (métadonnées, table de correspondance) en fonction du logiciel de gestion et de consultation des documents numérisés
– Travail à mener avec votre Service informatique
• Quelles informations de description transmettre au prestataire ?– Données bibliographiques des ouvrages, codes-barre…– Caractéristiques physiques– Règles de pagination ou de foliotation– Légendes particulières aux images– …
• Fichier de récolement tabulé, fiches d’état physique
• Quelles informations de production et de post-production lui demander ?– Date de numérisation– Appareils utilisés– Profil couleur– …
• Quel contrôle ?
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
46
Structuration et métadonnées• Plus ou moins complexe selon le type de prestation• En général un répertoire par document numérique• Un fichier d’identification par document numérique
Arborescence au document Arborescence à la prestation
Répertoire document JDD19852
Répertoire document JDD19852
Répertoire PDF JDD19850701PDF
Répertoire TIFF JDD19850701TIFF
Répertoire PDF JDD19850702PDF
Répertoire TIFF JDD19850702TIFF
Fichier 0001.PDF
Fichier 0002.PDF
Fichier 0003.PDF
Fichier 0001.TIFF
Fichier 0002. TIFF
Fichier 0003.TIFF
Fichier 0001.PDF
Fichier 0002.PDF
Fichier 0003.PDF
Fichier 0001.TIFF
Fichier 0002.TIFF
Fichier 0003.TIFF
Répertoire volume JDD19852
Répertoire volume JDD19853
Répertoire document JDD19850701
Répertoire TIFF
Répertoire document JDD19850702
Fichier 0001.PDF Fichier 0002.PDF
Fichier 0003.PDF
Fichier 0001.TIFF
Fichier 0002. TIFF
Fichier 0003.TIFF
Fichier 0001.PDF
Fichier 0002.PDF
Fichier 0003.PDF
Fichier 0001.TIFF
Fichier 0002.TIFF
Fichier 0003.TIFF
Répertoire PDF
Répertoire document JDD19850801
Fichier 0001.PDF Fichier 0002.PDF
Fichier 0003.PDF
Répertoire volume JDD19852
Répertoire volume JDD19853
Répertoire document JDD19850701
Répertoire document JDD19850702
Répertoire document JDD19850801
Fichier 0001.TIFF
Fichier 0002. TIFF
Fichier 0003.TIFF
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
47
Structuration et métadonnées : schémas BnF
• Numérisation : schéma « refNum »– <bibliographie>, <production>, <structure>– http://bibnum.bnf.fr/refNum
• Tables des matières et indexes : schéma tdmNum– http://bibnum.bnf.fr/tdmNum
• OCR : schéma ALTO– http://bibnum.bnf.fr/ns/alto_prod.xsd
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
49
Contrôle qualité
• Règles à établir avec soin car le niveau de qualité conditionne le travail du prestataire, et la latitude du commanditaire pour rejeter les livraisons
• Ce niveau de qualité doit être défini en tenant compte :– De l’ampleur du projet, du type de documents et des spécifications techniques– Des moyens à disposition de la bibliothèque
• Indiquer au CCTP– Étape(s) et délais de contrôle par le commanditaire– Caractéristiques du lot de contrôle (nombre et types d’objets)– Pour chaque type de prestation, critères de contrôle et définition des erreurs
classées par type (erreur majeure / mineure)– Rapports de contrôle transmis par commanditaire– Modalités et délais de réfection pour le titulaire du marché– La mise à disposition éventuelle d’une station de contrôle par le prestataire pour
la bibliothèque
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
50
Contrôle qualité
• Deux phases après lancement du marché :– Phase de tests : calage des chaînes, accord avec le prestataire sur les
référentiels qualité précis– Phase de production courante
– La réussite des tests conditionne la qualité de la production courante– Contrôler les livraisons selon les critères donnés au cahier des charges et
formalisés durant la phase de tests
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
51
Contrôle qualité
• Exemples de critères d’évaluation des images– Respect des règles de prise de vue et optimisation des réglages du scanner :
éclairage, netteté, fidélité des couleurs, absence de halos sur l’image, de travers, de troncature, de traits parasites, de déformation de caractères, respect du profil colorimétrique demandé…
– Qualité de la binarisation : ni trop (pixellisation, illisibilité,…), ni trop peu (caractères gras illisibles, bords jaunis du papier seront des zones noircies, etc).
• Qualité des métadonnées– En-tête des fichiers TIFF– Respect des règles d’identification (schémas XML ou autre)
• Conformité de la structure et de la composition de livraison– Nommages (cohérence et conformité de la structure des noms de fichiers, etc)– Arborescence (bons fichiers dans les bons répertoires, organisation des
répertoires entre eux, etc)– Autres fichiers de suivi
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
52
Contrôle qualité : quelques exemples d’erreursMauvaise profondeur de codage
(couleur abusive)Troncature d’informationTravers
Polarité inversée
Binarisation trop forte (visibilité insuffisante, pixellisation de caractères)
-> pb lisibilité et pour l’OCRNiv. Gris non justifié
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
53
Méthodes de contrôle qualité
• Contrôle exhaustif : tous les fichiers sont contrôlés– Manuel par opérateur : coûteux et pas fiable à 100%, mais nécessaire pour les
contrôles visuels de qualité d’image– Automatique (logiciel) : sur les données techniques (fichiers, métadonnées, structure
de livraison…)
• Contrôle par échantillonnage : définir un niveau de qualité acceptable (NQA)– Norme ISO 2859-1 : taille de l’échantillon et le nombre d’erreurs acceptables sont
établis par la norme en fonction du NQA défini par la bibliothèque– Exemple : taux qualité de 98.5% sur l’ensemble des images : sur 100 images, si 1 est
mauvaise le document sera accepté, à la seconde mauvaise il sera rejeté– Fournir la taille de l’échantillon et le niveau de qualité acceptable dans le CCTP
• Possibilité de définir des niveaux de gravité d’erreurs– Erreurs majeures : une erreur conduit au rejet de la livraison, par exemple
• Fichier manquant• Schéma XML non respecté
– Erreurs mineures : un taux (à définir) conduit au rejet, par exemple• Image de travers• Erreur d’indexation d’une image d’un document
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
54
Méthodes de contrôle qualité : audits
• Définition– Contrôle des chaînes de production et des procédures de traitement chez le
prestataire à mener sur le mode du partenariat et de l’ouverture– Protocole à établir finement et à appliquer tout au long du projet : modalités,
fréquence, points d’audits, résultats, rapports– A l’aide de questionnaires et de grilles d’entretiens établis à l’avance à partir des
résultas des contrôles sur les livraisons– Rapports d’audits faisant apparaître les pistes d’amélioration– Les résultats d’audit consignés dans les rapports peuvent être contractuels (telle
amélioration à faire) mais toujours conformes aux règles du marché– Prévoir un suivi de chaque audit
• Avantages : suivi de la production en amont des livraisons– Anticipation des dérives sur l’en-cours de production– Amélioration continue– Travail en partenariat
• Inconvénients– Méthode doit être bien maîtrisée, formation nécessaire– Lourdeur (préparation et suivi d’audits assez longue)
23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
56
En guise de conclusion…• Les choix techniques ne sont pas
– Dictés en premier par les moyens financiers– Décidés en premier dans le projet– Décidés pour un court terme
• Les choix techniques sont– Relatifs aux collections– Déterminants pour les conditions de consultation– Déterminants pour la préservation à long terme des originaux comme des
versions numériques– Déterminants pour le signalement et l’interopérabilité des données
• Les choix doivent prendre en compte tous les aspects de la gestion d’un document
– Architecture informatique de la bibliothèque– Destination (publics, droits d’accès, modalités de consultation, etc)– Capacités de stockage à long terme– Évolution des technologies et des outils de consultation
• Ce sont des problématiques identiques aux bibliothèques traditionnelles23.03.10
Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble
57
Quelques références (liens visités le 18.03.10)
• Manuels : – L’archivage numérique à long terme. Les débuts de la maturité ? / Direction des Archives de
France ; [rédigé par] Claude Huc, Francoise Bannat-Berger, Laurent Duplouy. [Paris] : La Documentation Française, 2009. Coll. Manuels et guides pratiques
– A paraître en 2010 : Numériser et mettre en ligne / Th. Claerr, I. Westeel (Dir.). Villeurbanne : Presses de l’Enssib. Coll. « La boîte à outils ».
• Ministère de la Culture :– Mission Recherche et Technologie (MRT) : http://www.culture.gouv.fr/culture/mrt/numerisation/– Direction des Archives de France :
http://www.archivesdefrance.culture.gouv.fr/gerer/numerisation/
• Pages professionnelles de la BnF et documents à télécharger : http://www.bnf.fr/fr/professionnels/numerisation.html
• Cours et tutoriaux en ligne :– Portail international Archives francophones : http://www.piaf-archives.org
• module « Gestion et archivage » des documents numériques• Module « Reproduction par microfilmage et numérisation »
– Tutoriel sur la numérisation de l’Université de Cornell (en français) : http://www.library.cornell.edu/preservation/tutorial-french/
• Réseau de coordination sur la numérisation en Europe : http://www.minervaeurope.org/
23.03.10