56
Aspects techniques d’un projet de numérisation Médiat Rhône Alpes - BM Grenoble Aspects techniques d’un projet de numérisation Médiat Rhône Alpes Formation continue 23 mars 2010 Catherine Mocellin Bibliothèque municipale à vocation régionale d’Orléans [email protected]

Aspects techniques d’un projet de numérisationmshs.univ-poitiers.fr/wp-content/uploads/sites/122/2017/04/Cours... · Aspects techniques d’un projet de numérisation Médiat Rhône

  • Upload
    voduong

  • View
    235

  • Download
    0

Embed Size (px)

Citation preview

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

Aspects techniques d’un projet de numérisation

Médiat Rhône Alpes Formation continue

23 mars 2010

Catherine Mocellin

Bibliothèque municipale à vocation régionaled’Orléans

[email protected]

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

23.03.10 2

Bibliothèque(s) physique et numérique

Sélection

Acquisition

Catalogage

Équipement

Magasinage

Conservation

Mise à disposition

Valorisation

Sélection

Capture/production

Identification, indexation

Empaquetage

Gestion

Préservation (données, accès)

Mise en ligne/consultation

Valorisation

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

3

Acquisition• Principes de la numérisation

À partir des capteurs de lumière de l’appareil, transformer la représentation analogique d’un document en représentation codée en mode binaire (0, 1)

– La numérisation est basée sur l’analyse de l’image : elle est fictivement découpée en éléments de surface (« picture elements », ou pixels, ou points)

– Cette analyse consiste à mesurer point par point la quantité de lumière transmise ou réfléchie– Ces capteurs (cellules photoélectriques) transforment l’énergie lumineuse de chaque point en

énergie électrique– Puis un convertisseur transforme ces impulsions électriques en données numériques

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

4

Acquisition

• Le courant varie en fonction de l’intensité du signal, la luminosité est donc exprimée par 0 ou 1

– 1 = signal électrique– 0 = pas de signal électrique

• Le capteur CCD est constitué de capteurs photosensibles (photosites) organisés soit en matrices (appareil photo) soit en rangée ou barrettes (scanners à balayage)

• Le capteur comprend 2 photosites verts pour un photosite rouge et un bleu

• La superposition des 3 couches restitue la couleur originale de l’image en mode RVB (rouge vert bleu) – mode de restitution des couleurs utilisé par les scanners et les écrans

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

5

Structure• L’image numérique est donc une juxtaposition d’éléments d’images (pixels)

disposés en rangées et en colonnes dont la valeur est générée par les photosites

• La luminosité du pixel est quantifiée par une valeur numérique

• L’image initiale est ainsi transformée en un ensemble de nombres sur lequel un ordinateur peut effectuer des traitements à fins d’exploitation

• Profondeur d’acquisition : nombre de couleurs d’un pixel (dynamique de l’image)– Mode bitonal (noir et blanc) : codage sur 1 bit, 21 soit 2 valeurs possibles pour chaque

pixel : 0 et 1– Mode niveaux de gris : codage sur 8 bits = 28, soit 256 valeurs de gris– Mode couleurs : codage de chaque couche sur 8 bits, = 224 = 16,7 millions de couleurs– Plus le nombre de bits est important, plus le poids informatique de l’image est lourd

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

6

Définition / Résolution / Taille

• Définition : nombre de pixels que contient une image en hauteur et en largeur (= le nombre total de pixels) :

2 048 x 3 072 par ex.

• Résolution : nombre de pixels par mm ou par pouce (un pouce = 2.54 cm) – Unité : point par pouce : ppi ; ou dots per inch : dpi– La résolution exprime une valeur d’échantillonnage– Plus l’échantillonnage est fin plus le niveau de détail capturé est fin

• Le choix de la définition et de la résolution est lié aux dimensions que devra prendre l’image numérique finale selon l’utilisation voulue, et aux caractéristiques du document original

– 72 dpi : diffusion en ligne (Web)– 150 dpi : impression bureautique standard– 300 dpi : substitution et imprimerie à l'échelle originale

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

7

Définition/Résolution/Taille

• La résolution doit être pertinente et adaptée au type de document et d’utilisation prévu

• La résolution et la profondeur d’acquisition impactent le poids des fichiers (donc les capacités de sauvegarde à prévoir et les modalités de diffusion)

(Rappels : 1 Mo ~ 1024 Ko ; doubler la résolution = quadrupler le volume)

• Un ouvrage format A5 de 200 p. en noir et blanc, 300 dpi en TIFF non compressé : ~52,4 Mo

A 4300 DPI 600 DPI

Mo Ko Mo Ko

Noir et blanc 1.04 Mo 1 065 Ko 4.16 Mo 4 260 Ko

Niv. gris 8.29 Mo 8 499 Ko 33.19 Mo 33 996 Ko

Couleur 21.88 Mo 22 415 Ko 87.55 Mo 89 660 Ko

!

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

8

Définition / Résolution / Taille

• La performance des appareils est évaluée principalement au regard de :– la profondeur de couleurs supportée ; – la finesse de capture (nombre de pixels restitués) et du rendu des couleurs ; – la profondeur de champ ; – Les capacités du système d’éclairage ;– la vitesse de capture (pour la production)– Les modalités de manipulation des documents sur la machine (grands

formats, ouvrages à reliure serrée, à faibles dimensions, etc)

• Plus la résolution choisie est haute, plus les temps de prise de vue sont longs car le capteur doit échantillonner finement

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

9

Restitution des couleurs

• Un espace colorimétrique traduit la manière de représenter les couleurs selon une technologie

Gamut de couleurs avec 2 espaces colorimétriques

1. RVB (rouge, vert, bleu) : ce qu'un appareil photo et un écran (télévision, ordinateur) peuvent représenter

2. CMJN (cyan, magenta, jaune, noir ; quadrichromie) : ce que l'imprimerie traditionnelle peut représenter.

-> CMJN est plus « pauvre » que RVB-> il faudra traduire les références de couleurs d’un

espace dans l’autre

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

10

Espaces de couleurs

• RVB : synthèse additive (l’addition des 3 composantes donne une couleur)– Chaque couche de couleur d’un pixel est codée sur 8 bits (1 octet) par une valeur

entre 0 et 255 : rouge = (255;0;0) ; noir = (0;0;0) ; blanc = (255;255;255) ; fuschia = (242;18;199)

– Exemple : 3 octets d’un pixel rouge se notent : 11111111 00000000 00000000– Images en « vraies couleurs » : 24 bits par pixel, soit 16.7 millions de couleurs– Mais le codage peut être plus élevé (10 / 12 / 16 bits par couleur) ou plus pauvre

(sur 256 couleurs, codage à « valeurs indexées »)

• CMJN : Synthèse soustractive (l’addition des couleurs produit le noir)– Ajout du noir car le mélange de cyan, magenta, jaune produit un brun sale

• D’autres systèmes de couleur :– Lab : Luminance (L), chrominance rouge-vert (a), chrominance bleu-jaune (b), mis

au point par la Commission Internationale de l’Eclairage (CIE) : unique, indépendant des périphériques.

– Munsell, Ostwald, Chevreul : approche purement visuelle

!

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

11

Restitution des couleurs

• Une chaîne repose sur 3 types d’éléments : la capture, l’affichage sur écran, l’impression

• Ils reposent sur des espaces colorimétriques différents et ont donc un rendu des couleurs spécifique

• Les références de couleurs entre chaque périphérique ne sont pas les mêmes

• Il faut donc synchroniser la gestion des couleurs pour s’assurer de leur restitution fidèle tout au long de la chaîne (depuis la prise de vue jusqu’à la restitution sur écran et à l’impression)

- caractériser le profil de chaque périphérique (la manière dont il « voit » les couleurs)

- utiliser des fichiers normalisés appelés « profils ICC », qui permettent de traduire les références des couleurs d’un espace à l’autre et d’un périphérique à l’autre

- ICC = International Color Consortium- l’espace CIE est l’espace pivot entre RVB et CMJN

!

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

12

Restitution des couleurs

• Un histogramme par couche de couleur traduit la répartition des valeurs des pixels dans l’image

• Pour une bonne restitution des couleurs :– Avoir une bonne gestion de la lumière à la capture : niveau d'illumination

suffisant et à bonne température de couleur (6 500° Kelvin), pas de lumière parasite…

– Avoir un système de numérisation performant et adapté au projet– Étalonner le scanner : définir un état colorimétrique de référence à partir du point

blanc et de mires normalisées– Utiliser des profils ICC (International Color Consortium)– Ajouter à chaque document numérique l’image des mires numérisées le jour du

traitement du document– Calibrer les écrans de contrôle et vérifier régulièrement l’absence de dérives

• Spectrophotomètre, ou • Colorimètre

– Contrôler les images avec les documents originaux sous les yeux

!

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

13

Binarisation

• Passer d’une image en couleurs ou niveau de gris à une image noir et blanc• Procédé reposant sur la réduction à 2 valeurs des pixels en fonction de leur

intensité, à partir d’une valeur référence dans les gris, le seuil– Les pixels de valeurs de gris supérieures à la valeur du seuil seront mis en blanc– Les pixels de valeurs de gris inférieures à la valeur du seuil seront mis en noir

• Implique un bon réglage du point blanc avant capture ou lors du traitement• Trouver un niveau de gris médian, ni trop clair ni trop foncé

– Si le seuil tend trop vers le noir, il y a risque de déperdition d’information (les pixels gris seront convertis en blanc)

– Si le seuil tend trop vers le blanc, il y a risque d’illisibilité : les pixels gris deviendront noirs

• La binarisation est particulièrement complexe pour les documents tachés, peu contrastés et hétérogènes

– Les maintenir en niveaux de gris pour permettre la lisibilité• La BnF recommande de ne pas trop descendre le seuil afin de conserver

des pixels et pour faciliter l’OCR

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

14

Binarisation

• Seuillage global (une valeur pour toute la page)

• Effet du seuillage sur un caractère mal imprimé

Source : Philippe Lefèvre, « Reconnaissance de l’Imprimé ». Techniques de l’Ingénieur. 10 mai 1999.

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

15

Noir et blanc / Niveaux de gris

• La binarisation n’est pas adaptée pour les photos, les encarts colorés

• Privilégier le noir et blanc pour tout support composé exclusivement de noir sur fond blanc

– Imprimés courants– Dessins, gravures au trait et/ou à hachures délimitées, traits nets sans modelé

continu

• Niveaux de gris pour des documents présentant des demi-teintes– Lavis, fusain… et tous dessins à modelés continus– Tous types de photographies– Dessins dont les détails sont trop fins pour permettre un traitement en noir et

blanc, même en 400 dpi– Documents faiblement contrastés, tachés, dont l’impression est irrégulière,

abîmée, et/ou à report d’encre entre les pages– Documents imprimés contenant un grand nombre de photographies ou d’images

à traiter en niveaux de gris

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

16

Chaîne et matériels selon les supports

• Documents opaques– Papier : monographies, périodiques, presse– Iconographie : cartes, plans, estampes, photographies…– Manuscrits– Attention aux dimensions et au poids : dérelier ? Porte modèle ajustable ?

Quelles manipulations ?

• Documents transparents– Microformes (microfilms, fiches)– ektas– Diapositives– Cartes à fenêtres– Transparents originaux (plaques de verre…)– Attention au taux de réduction pour la résolution choisie

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

17

Dos numériques• Dos numériques

– Prise de clichés -> temps de capture rapides– Attention au choix de l’optique et aux réglages des distances entre l’objectif et le document pour

capturer à la bonne résolution– Ajout possible d’une chambre photo– Association à des porte-modèle ou à un « banc de reproduction », par exemple :

– Temps de manipulation– Documents de petite taille et/ou avec de très petits motifs– Documents complexes (reflets…), les plaques de verre

– Exemples :• PhaseOne (Danois) : exemple P65 + : jusqu’au A2 à 380 dpi (60 Mégapixels)• Hasselblad (Suédois) : exemple CF39 ; 50 millions de pixels

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

18

Numériseurs de documents opaques• Numériseurs à plat : simples d’utilisation, rapides, polyvalents (docs. récents ou

anciens)

– Certains modèles conçus pour une utilisation directe par les lecteurs en bibliothèque– Livres jusqu’au A2, à plat– Plateau compensateur pour livres jusqu’à 10 cm d’épaisseur– Avec ou sans vitre– Résolution fixe quelle que soit la taille de l’original (300-400 dpi)– Zeutschel BookCopy, OS 12000

– I2S Copybook

– Creo IqSmart : pour professionnels de la photo• Également pour les diapositives

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

19

Numériseurs de documents opaques• Scanners à balayage

– Documents de grand format (presse, cartes…), feuilles ou reliés. Pages tournées manuellement, avec ou sans vitre.

– Zeutschel (Allemand) • OS 10000 ou 12 000 : jusqu’au A0, 300 à 400 dpi. Accessoires (porte modèle…)• Caméra et éclairage non zénithaux permettent de gérer les reflets dus à la brillance (papier glacé, dorures…). • Mais effet de distorsion de l’image numérique

Zeutschel OS 10000 A0 couleur

-I2S (français)- Caméra linéaire mobile (balayage horizontal de gauche à droite et retour) avec éclairage embarqué- Résolution optique variable selon dimensions du document (réglette d’ajustement de la hauteur de la caméra)- Accessoires (porte modèles, table aspirante, balance porte livre, porte livre 120°…)

Digibook A023.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

20

Numériseurs de documents opaques

• Scanners à balayage– Métis (Italien) :

• DRS A1 : 65x100cm avec porte-modèle (épaisseur de livre max 25 cm) ou 65x120 avec un plateau• DRS 5070 : 300 dpi sur 50*70 cm. Porte modèle 35*42 cm à 90-120°

– Lumière Technology (Français) : Jumbo Scan• Caméra linéaire adaptable sur banc de numérisation ou sur trépied ; 12000*2000 pixels• Documents opaques du A4 au 5*2 m, en feuilles ou reliés, et transparents (diapositives, plaques de verre…)• NB, NG, couleur

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

21

Numériseurs de documents opaques

• Appareils « automatiques » dits tourne-page– Surveillance par opérateur nécessaire– Documents à ouverture réduite ou à plat– Productivité accrue– Exemples :

• Kirtas (Etats-Unis) : 2 caméras fixes sur chaque bras ; système d’aspiration du papier puis de tourne page du livre ouvert à 110°Résolution optique jusqu’à 300 ou 400 dpi.• Kodak (France) : DL 3000Ouverture à platTourne page automatique par aspirationPb pour les dépliants

– Développements récents pour traiter les très petits formats (< 12 cm)• Treventus (Autriche) : Scan Robot : bras mobile descend jusqu’au fond de reliure, aspire la page et la

numérise en remontant.

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

22

Numériseurs de documents opaques

• Appareils automatiques pour documents en feuilles (natifs ou massicotés)

– Très haute productivité– Très utilisés pour les secteurs bancaires et postaux– Risque de bourrage si les pages sont mal massicotées– Exemples

• IBML : ImageTrac 3

• BancTec (Etats-Unis) : IntelliScan XDS

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

23

Numériseurs de transparents

• Considérer le taux de réduction des supports pour la résolution voulue de l’image à l’échelle 1 d’une part, et la puissance d’échantillonnage des scanners d’autre part

• Traitement manuel et/ou automatique

• Choisir un scanner qui absorbe de forts écarts de densité entre les vues (dus à la prise de vue ou aux caractéristiques de l’original)

• Numériseurs de microformes : fiches, films, cartes à fenêtre, diapositives, etc– Wicks et Wilson (Grande-Bretagne) : de 100 à 600 dpi pour des taux de réduction entre 7.5 et

50 (modèles récents). Exemples :• Scanner 5100 pour les microfiches• Scanner 8850 pour les films

– NextScan : Eclipse (films) et FlexScan (films et fiches) : automatiques, forte productivité. 100 à 600 dpi pour des taux de réduction de 7 à 51 fois

– Canon (Japon)– Sunrise (Etats-Unis) pour les films– Creo IqSmart : diapositives (scanner à plat)– … et bien d’autres encore

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

24

Numérisation en mode image seul

• On s’intéresse à la forme de l’original

+ -

- Un fac-similé

- Coût inférieur pour le même type de documents (moins de traitements)

- Relative simplicité de mise en œuvre

- Pas de recherche plein texte, de manipulations

- Prévoir un format de diffusion pour limiter les temps de téléchargement

- Peu de points d’accès, donc avoir un système d’indexation et de recherche performant et riche

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

25

Numérisation en mode texte

• On s’intéresse au contenu et aux services

• Dans un marché, avoir plusieurs prestations différentes implique un suivi administratif et financier plus lourd qu’une seule prestation (plusieurs prix)

+ -

- Recherche plein texte, manipulations multiples

-Amélioration du niveau de services : navigabilité, facilité de consultation, annotations…

- Accessibilité pour les personnes handicapées

-Lourdeur (main d’œuvre, balisage conforme à un schéma, relectures…)

- Coût de réalisation pour la haute qualité

- Chaîne et outils de contrôle, voire d’extraction d’images, à développer

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

26

Numérisation en mode texte

• 2 méthodes– Saisie manuelle

• coûteux (création d’un schéma XML, puis opérations à haute valeur ajoutée et nécessitant une main d’œuvre importante…)

– Reconnaissance optique des caractères (OCR)

• Solution intermédiaire– Mode image avec plusieurs points d’accès en mode texte

• Saisie des tables des matières et index ; recherche par « mot-notice »

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

27

Reconnaissance optique des caractères

• Fonctionnement– Segmentation : découpage de la page et de chaque bloc de texte en « boîtes »

identifiées par leurs coordonnées

Voir la charte de la BnF pour la conversion : http://www.bnf.fr/documents/charte_ocr.pdf– Reconnaissance : dans chaque boîte, reconnaissance des caractères par comparaison

avec des ensembles de formes et à l’aide d’outils linguistiques

TopMargin

LeftMargin

PrintSpace

BottomMargin

RightMargin

TextBlock TextLine

SP

String

GraphicalElement

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

28

Reconnaissance optique des caractères

• Fonctionnement– Automatique (plusieurs logiciels sur le marché)– OCR brut, ou de qualité spécifiée sur 100 %– Reprise manuelle nécessaire selon le taux de qualité demandé– Création de fichiers XML contenant les coordonnées des éléments– Affichage combiné (PDF multicouche par ex.) faisant apparaître le texte en

transparence sur l’image

• Impact de la résolution :

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

29

Obstacles pour l’OCR

• Qualité de l’original imprimé et numérique– Courbures et inclinaisons de lignes, caractères déformés : segmentation difficile– L’impression de l’original doit être très régulière et propre (pas de taches, etc)– Non homogénéité des fonds implique des ajustements fréquents des outils

• Polices de caractères– Trop resserrées, trop irrégulières, caractères trop gras, trop grands : risques de

confusion entre les caractères– Caractères non latins ou non ISO sont mal reconnus (grec, fraktur, manuscrits,…)

• Structure du texte– Structure en colonne type presse : nécessité de définir un ordre– Éléments non textuels imbriqués (graphiques, illustrations…)

• Les imprimés jusque la fin du XVIIIe sont très mal reconnus• Obtenir une haute qualité (proche de 100%) implique des reprises

manuelles

!

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

30

La compression des images

• Elle permet de réduire la taille des fichiers en supprimant la redondance d’informations : pixels de même valeur, couleurs

– Compression sans perte – Compression avec perte

• En aucun cas les algorithmes engendrant des pertes irréversibles de données ne doivent être utilisés si l’on veut sauvegarder à long terme les images

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

31

Compression JPEG

Paramétrage du taux de qualité (0 à 100%)

codage

compression

restitution

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

32

Compression IUT Groupe 4

Compression sans perte pour les images bitonales uniquement

Codage ligne par ligne puis corrélation des lignes entre elles

Les lignes qui se suivent se ressemblent, on va donc procéder à

un codage relatif ou prédictif d

’une ligne à

l

’autre : Bidirectionnelle (on déduit une ligne de la précédente)

Taux les plus fréquents : 8 à

20

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

33

Formats• Ensemble des règles et algorithmes permettant de coder l’information :

par ex. spécifie le codage des couleurs, l’organisation de données, l’algorithme de compression

• Distinction format d’archivage – format de diffusion– Assurer l’indépendance du système de conservation par rapport aux outils et

standards de consultation– Contraintes d’accès (temps d’affichage, droits, etc)– Assurer de bonnes conditions de consultation du document numérique

• Formats préconisés par MCC– TIFF– JFIF : format pour les images compressées JPEG– PNG

• Choisir des formats ouverts reposant sur des normes et standards, dont les spécifications sont publiques, et indépendants des logiciels, plate-formes

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

34

TIFF

• TIFF (Tagged Image File Format)

– Norme ISO 12639:2004– Format permettant de documenter les images (tags) : dimensions, nombre

de couleurs, matériel utilisé, données d’indexation (cote, copyright…)– Permet de stocker des images de taille importante sans déperdition de

qualité et indépendamment des plateformes et des périphériques– Permet l’usage de plusieurs espaces de couleur– Très bon pour l’archivage– Supporte plusieurs algorithmes de compression– Ex. : Centres de service de conservation de l’OCLC– http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

35

JPEG 2000

• Ensemble de méthodes de compression avec ou sans perte, et de formats de fichiers

– Compression de meilleure qualité que le JPEG– Dégradation sélective de certaines zones moins stratégiques de l’image :

définition de « régions d’intérêt »– Génère des « tuiles » de résolution différentes, utiles pour la diffusion– Nécessite des capacités de stockage moins importantes pour un volume

identique en TIFF non compressé– Métadonnées variées– Gère la transparence– Ex : BN Norvège : format d’archivage à long terme – à l’étude à la BnF– http://www.jpeg.org/jpeg2000/index.html

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

36

PNG

• Portable Networks Graphics ; ISO/IEC 15948:2004• Format ouvert et documenté, recommandé par le W3C• Indépendant de tous droits, licences, matériels et systèmes d’exploitation• Compression sans perte, algorithme non breveté• Gère plusieurs espaces de couleur• Supporte images en niveaux de gris et jusqu’à 16 bits par couleur• Gère la transparence• Supporté par les versions récentes des navigateurs mais encore peu

répandu• Utile pour la diffusion• Problème : encore peu répandu• Spécifications et informations : http://www.libpng.org

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

37

Comparatif TIFF / JPEG

JPEG2000 JPEG TIFF NC TIFF G4Bitonal Oui Non Oui OuiModelés continus Oui Oui Oui NonCouleurs Oui Oui Oui NonSans perte (bit à bit) Oui Non Oui OuiSans perte visuelle Oui Oui Non NonRésistance à perte Bonne Mauvaise Très bonne MauvaiseAccès direct Oui Non Oui Non

Oui Oui/Non Oui Oui

40-50% 10% 0% <1%Navigateur IntégréPDF Oui Oui Oui Oui

Compression/decompression sans perteMétadonnées Riche ext. Riche lim. Riche lim. Riche lim.Taux de comp.

Plug-in Plug-in Plug-in

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

38

Numérisation et conservation

• Une numérisation de qualité permet la conservation– Non communication des originaux – Remplacer des originaux manquants et/ou permettre des sorties COM (films, fac-

similés)– Préservation : on ne peut conserver à long terme les fichiers numériques que

lorsqu’ils sont de bonne qualité et bien documentés

• Document numérique « de qualité »– Choix optimal de la résolution (ni trop haute, ni trop basse)– Documentation de chaque image, de chaque document numérique, des procédés

de production– Structuration du document numérique (liens entre image et page originale)– Fidélité rigoureuse à l’original et qualité de la prise de vue– Exhaustivité de prise de vue (pas de numérisation partielle)– Non compression, ou compression réversible– Format(s) le(s) plus ouvert(s) possible(s) supportant plusieurs espaces de

couleur– Distinction version d’archivage / version de diffusion

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

39

Choix technologiques

• Tenir compte des paramètres suivants :

– Les objectifs et les moyens humains et financiers du projet– Les caractéristiques physiques des documents et du fonds– Les capacités du matériel et le système de numérisation– Les caractéristiques des formats– Les paramètres de numérisation : couleur, résolution, format de conservation,

format d’affichage…– L’usage du fichier numérisé : conservation pure ? Diffusion à titre gratuit, payant ?

De consultation ? Quels services associés ?– Le logiciel de gestion des fichiers et celui de consultation en ligne– La portabilité en réseau (temps d’affichage, etc)– Les moyens de conservation à long terme– Les moyens de signalement pour la recherche– Les évolutions à prévoir

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

40

Caractéristiques des originaux

• Support :– Nature et fragilité : papier, film, vélin, plaque de verre … papier restauré,…– Degré d’ouvrabilité (conditionne le matériel à adopter)– Aspect : opacité, couleur, hétérogénéité du fonds, du document, de la page– Présentation : dimensions, reliure, feuillets montés sur onglet, dépliants et

paperoles, etc– Échelle d’agrandissement pour les microformes

• Contenu :– Type : photo, texte, gravure, graphiques, cartes, etc– Qualité : graphie, contraste, taches éventuelles, transparence…– Mode d’obtention : imprimé, manuscrit, dessin, etc

• Structure de l’original selon le niveau d’accès offert par la bibliothèque numérique (notion de granularité)

• Plus un document/un fonds est hétérogène plus la numérisation est complexe et coûteuse car nécessite des réglages particuliers

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

41

Recommandations de la BnF

Profondeur d’acquisition

Type de documents (transparents et opaques)

Résolution (pour les marchés)

Formats d’archivage / de diffusion

Noir et blanc imprimés, dessins au trait, graphiques 300 dpi (jusqu’à 400)

TIFF v6 compression UIT Gr4 / PDF

Niveaux de gris PresseGravures et photos noir et blanc, certains manuscrits et imprimés peu contrastés et/ou très tachés

400 dpi TIFF v6 non compressé / PNG ou PDF (pour l’OCR, PDF multicouche)

Couleur Documents iconographiques, manuscrits et imprimés de Réserve, documents contenant plusieurs couleurs

< A6 : 400 dpi> A6, petits caractères : 600

TIFF v6 non compressé / PNG ou JPEG

Voir la charte technique de la BnF : http://www.bnf.fr/documents/charte_numerisation.pdf

• Plus le document est petit ou contient des informations de petite taille, plus la résolution doit être grande pour pouvoir zoomer et lire sans effet de pixellisation

• OCR : schéma ALTO (développement conjoint avec LoC)

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

42

Quelques recommandations de prise de vue• Fidélité à l’original

– Reproduire au plus près l’original sans l’améliorer, assurer sa lisibilité– Pas de rééchantillonnage après capture (ajout artificiel de pixels)– Pas de retouche colorimétrique– Réglages optimisés lors de la prise de vue (éclairage, contraste, marges, etc)– Une page / image, dans son intégralité, sans vue de détail– Insertion de fonds de couleur neutre pour les projets iconographie

• Traitements post-numérisation– Détourage jusqu’au bord extérieur des pages (recadrage)– Redressement– Remise dans l’ordre des images– Ajout de métadonnées et constitution de la table de correspondance

• Ajout de la mire couleur du jour de traitement

Mires Gretag MacBeth

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

43

Granularité et accès

• Réfléchir en termes de granularité d’informations et de niveaux d’accès– Le numérique permet de fournir directement des accès profonds (contenu)– rapport entre l’objet physique et son/ses contenu(s) numérisé(s)

• Quel niveau de description : unité physique ? Fascicule ? Article ?• Comment assurer des liens entre plusieurs documents numériques ? Par ex. comment

traiter une table des matières multivolumes ?

• Typer les pages pour faciliter la navigation– Création d’accès spécifiques : tables des matières (TDM), index, page de titre,

de couverture– Nécessite la définition de règles de typage et de gestion des TDM

• Signaler les exemplaires– Dans le catalogue traditionnel de la bibliothèque– Éventuellement dans un catalogue des documents numériques– Assurer le référencement des documents et pas uniquement de la bibliothèque

numérique– Prévoir l’échange des données avec le protocole OAI

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

44

Structuration et métadonnées• Numériser n’est pas scanner

La prise de vue déconstruit le document

Reconstituer le document par des métadonnées permettant aussi de le conserver à long terme

Structure Bibliographiques Administratives

001.TIF 002.TIF 003.TIF 004.TIF 005.TIF

-Reconstituer la structure de l’original : correspondance page logique/page physique

- identification de pages particulières pour des accès

-Identifier la version numérique

-Associer cette version à la notice de l’original

- Conditions et outils de production, liste et historique des traitements, type de numérisation, nombre de vues …

- droits

- données de livraison

Illustrationp.4

p.3p.2

Non paginé

Page de titre

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

45

Métadonnées

• Quels besoins logiciels ? Définir des formats et les contenus des fichiers d’identification (métadonnées, table de correspondance) en fonction du logiciel de gestion et de consultation des documents numérisés

– Travail à mener avec votre Service informatique

• Quelles informations de description transmettre au prestataire ?– Données bibliographiques des ouvrages, codes-barre…– Caractéristiques physiques– Règles de pagination ou de foliotation– Légendes particulières aux images– …

• Fichier de récolement tabulé, fiches d’état physique

• Quelles informations de production et de post-production lui demander ?– Date de numérisation– Appareils utilisés– Profil couleur– …

• Quel contrôle ?

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

46

Structuration et métadonnées• Plus ou moins complexe selon le type de prestation• En général un répertoire par document numérique• Un fichier d’identification par document numérique

Arborescence au document Arborescence à la prestation

Répertoire document JDD19852

Répertoire document JDD19852

Répertoire PDF JDD19850701PDF

Répertoire TIFF JDD19850701TIFF

Répertoire PDF JDD19850702PDF

Répertoire TIFF JDD19850702TIFF

Fichier 0001.PDF

Fichier 0002.PDF

Fichier 0003.PDF

Fichier 0001.TIFF

Fichier 0002. TIFF

Fichier 0003.TIFF

Fichier 0001.PDF

Fichier 0002.PDF

Fichier 0003.PDF

Fichier 0001.TIFF

Fichier 0002.TIFF

Fichier 0003.TIFF

Répertoire volume JDD19852

Répertoire volume JDD19853

Répertoire document JDD19850701

Répertoire TIFF

Répertoire document JDD19850702

Fichier 0001.PDF Fichier 0002.PDF

Fichier 0003.PDF

Fichier 0001.TIFF

Fichier 0002. TIFF

Fichier 0003.TIFF

Fichier 0001.PDF

Fichier 0002.PDF

Fichier 0003.PDF

Fichier 0001.TIFF

Fichier 0002.TIFF

Fichier 0003.TIFF

Répertoire PDF

Répertoire document JDD19850801

Fichier 0001.PDF Fichier 0002.PDF

Fichier 0003.PDF

Répertoire volume JDD19852

Répertoire volume JDD19853

Répertoire document JDD19850701

Répertoire document JDD19850702

Répertoire document JDD19850801

Fichier 0001.TIFF

Fichier 0002. TIFF

Fichier 0003.TIFF

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

47

Structuration et métadonnées : schémas BnF

• Numérisation : schéma « refNum »– <bibliographie>, <production>, <structure>– http://bibnum.bnf.fr/refNum

• Tables des matières et indexes : schéma tdmNum– http://bibnum.bnf.fr/tdmNum

• OCR : schéma ALTO– http://bibnum.bnf.fr/ns/alto_prod.xsd

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

49

Contrôle qualité

• Règles à établir avec soin car le niveau de qualité conditionne le travail du prestataire, et la latitude du commanditaire pour rejeter les livraisons

• Ce niveau de qualité doit être défini en tenant compte :– De l’ampleur du projet, du type de documents et des spécifications techniques– Des moyens à disposition de la bibliothèque

• Indiquer au CCTP– Étape(s) et délais de contrôle par le commanditaire– Caractéristiques du lot de contrôle (nombre et types d’objets)– Pour chaque type de prestation, critères de contrôle et définition des erreurs

classées par type (erreur majeure / mineure)– Rapports de contrôle transmis par commanditaire– Modalités et délais de réfection pour le titulaire du marché– La mise à disposition éventuelle d’une station de contrôle par le prestataire pour

la bibliothèque

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

50

Contrôle qualité

• Deux phases après lancement du marché :– Phase de tests : calage des chaînes, accord avec le prestataire sur les

référentiels qualité précis– Phase de production courante

– La réussite des tests conditionne la qualité de la production courante– Contrôler les livraisons selon les critères donnés au cahier des charges et

formalisés durant la phase de tests

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

51

Contrôle qualité

• Exemples de critères d’évaluation des images– Respect des règles de prise de vue et optimisation des réglages du scanner :

éclairage, netteté, fidélité des couleurs, absence de halos sur l’image, de travers, de troncature, de traits parasites, de déformation de caractères, respect du profil colorimétrique demandé…

– Qualité de la binarisation : ni trop (pixellisation, illisibilité,…), ni trop peu (caractères gras illisibles, bords jaunis du papier seront des zones noircies, etc).

• Qualité des métadonnées– En-tête des fichiers TIFF– Respect des règles d’identification (schémas XML ou autre)

• Conformité de la structure et de la composition de livraison– Nommages (cohérence et conformité de la structure des noms de fichiers, etc)– Arborescence (bons fichiers dans les bons répertoires, organisation des

répertoires entre eux, etc)– Autres fichiers de suivi

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

52

Contrôle qualité : quelques exemples d’erreursMauvaise profondeur de codage

(couleur abusive)Troncature d’informationTravers

Polarité inversée

Binarisation trop forte (visibilité insuffisante, pixellisation de caractères)

-> pb lisibilité et pour l’OCRNiv. Gris non justifié

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

53

Méthodes de contrôle qualité

• Contrôle exhaustif : tous les fichiers sont contrôlés– Manuel par opérateur : coûteux et pas fiable à 100%, mais nécessaire pour les

contrôles visuels de qualité d’image– Automatique (logiciel) : sur les données techniques (fichiers, métadonnées, structure

de livraison…)

• Contrôle par échantillonnage : définir un niveau de qualité acceptable (NQA)– Norme ISO 2859-1 : taille de l’échantillon et le nombre d’erreurs acceptables sont

établis par la norme en fonction du NQA défini par la bibliothèque– Exemple : taux qualité de 98.5% sur l’ensemble des images : sur 100 images, si 1 est

mauvaise le document sera accepté, à la seconde mauvaise il sera rejeté– Fournir la taille de l’échantillon et le niveau de qualité acceptable dans le CCTP

• Possibilité de définir des niveaux de gravité d’erreurs– Erreurs majeures : une erreur conduit au rejet de la livraison, par exemple

• Fichier manquant• Schéma XML non respecté

– Erreurs mineures : un taux (à définir) conduit au rejet, par exemple• Image de travers• Erreur d’indexation d’une image d’un document

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

54

Méthodes de contrôle qualité : audits

• Définition– Contrôle des chaînes de production et des procédures de traitement chez le

prestataire à mener sur le mode du partenariat et de l’ouverture– Protocole à établir finement et à appliquer tout au long du projet : modalités,

fréquence, points d’audits, résultats, rapports– A l’aide de questionnaires et de grilles d’entretiens établis à l’avance à partir des

résultas des contrôles sur les livraisons– Rapports d’audits faisant apparaître les pistes d’amélioration– Les résultats d’audit consignés dans les rapports peuvent être contractuels (telle

amélioration à faire) mais toujours conformes aux règles du marché– Prévoir un suivi de chaque audit

• Avantages : suivi de la production en amont des livraisons– Anticipation des dérives sur l’en-cours de production– Amélioration continue– Travail en partenariat

• Inconvénients– Méthode doit être bien maîtrisée, formation nécessaire– Lourdeur (préparation et suivi d’audits assez longue)

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

56

En guise de conclusion…• Les choix techniques ne sont pas

– Dictés en premier par les moyens financiers– Décidés en premier dans le projet– Décidés pour un court terme

• Les choix techniques sont– Relatifs aux collections– Déterminants pour les conditions de consultation– Déterminants pour la préservation à long terme des originaux comme des

versions numériques– Déterminants pour le signalement et l’interopérabilité des données

• Les choix doivent prendre en compte tous les aspects de la gestion d’un document

– Architecture informatique de la bibliothèque– Destination (publics, droits d’accès, modalités de consultation, etc)– Capacités de stockage à long terme– Évolution des technologies et des outils de consultation

• Ce sont des problématiques identiques aux bibliothèques traditionnelles23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

57

Quelques références (liens visités le 18.03.10)

• Manuels : – L’archivage numérique à long terme. Les débuts de la maturité ? / Direction des Archives de

France ; [rédigé par] Claude Huc, Francoise Bannat-Berger, Laurent Duplouy. [Paris] : La Documentation Française, 2009. Coll. Manuels et guides pratiques

– A paraître en 2010 : Numériser et mettre en ligne / Th. Claerr, I. Westeel (Dir.). Villeurbanne : Presses de l’Enssib. Coll. « La boîte à outils ».

• Ministère de la Culture :– Mission Recherche et Technologie (MRT) : http://www.culture.gouv.fr/culture/mrt/numerisation/– Direction des Archives de France :

http://www.archivesdefrance.culture.gouv.fr/gerer/numerisation/

• Pages professionnelles de la BnF et documents à télécharger : http://www.bnf.fr/fr/professionnels/numerisation.html

• Cours et tutoriaux en ligne :– Portail international Archives francophones : http://www.piaf-archives.org

• module « Gestion et archivage » des documents numériques• Module « Reproduction par microfilmage et numérisation »

– Tutoriel sur la numérisation de l’Université de Cornell (en français) : http://www.library.cornell.edu/preservation/tutorial-french/

• Réseau de coordination sur la numérisation en Europe : http://www.minervaeurope.org/

23.03.10

Aspects techniques d’un projet de numérisationMédiat Rhône Alpes - BM Grenoble

58

Merci pour votre attention,

Place aux questions…

23.03.10