View
105
Download
0
Category
Preview:
Citation preview
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 1
BLT6052 Informatique documentaire
Formats de fichiers et recherche de fichiers avec Windows et Office
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 2
Un fichier dans un OS(OS = Operating System = système d’exploitation)
• Est constitué d’une entrée dans le répertoire du dossier qui le contient…
• et d’un contenu (suite de bits), stocké ailleurs sur le médium de stockage (disque, CD, etc.)
• La longueur peut être de zéro octets jusqu’à la capacité du totale du médium, soit plusieurs gigaoctets
• Même un fichier vide (de longueur 0) possède une entrée de répertoire dans le dossier où il est situé
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 3
Dans le répertoiredu dossiercontenantle fichier:
…nom-fich.txt | 2005-08-31 | 2005-09-30 | … | 236 | 13579 | ……
Nom du fichier Extension Dates (création, etc.)
Longueur (octets)
Contenu surle disque(suite de bits):
Emplacement du contenudu fichier sur le disque
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 4
Que se passe-t-il quand on double-clique sur un fichier?
• Au niveau du système d'exploitation, il y a des "associations" entre des extensions de nom de fichier et des programmes: quand on double-clique sur un fichier, c'est le programme associé à son extension qui démarre
• En principe, ce programme est capable d’interpréter correctement le contenu du fichier (i.e. d’en comprendre le format)
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 5
(suite)
• Pour bien marcher, cette mécanique suppose une correspondance systématique entre extensions et formats. Par exemple:
.doc <==> fichiers Word
.xls <==> fichiers Excel
.ppt <==> présentations PowerPoint
.mp3 <==> sons codés en MP3etc.
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 6
Formats de fichiers
• Format = ensemble de conventions permettant d'interpréter correctement le contenu d'un fichier
• Souvent, on confond le format d'un fichier avec le logiciel utilisé pour le créer, mais cela est parfois trompeur
Ex.: Word permet de créer des documents en format Word, mais aussi des fichiers texte, des fichiers HTML, etc.
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 7
(suite)
• Le format d'un fichier n'est pas déterminé par l'extension présente dans son nom de fichier (ex: ".doc" pour les documents en format Word)
Ex.: Si on renomme un document Word de "test.doc" à "test.txt", son format ne change pas
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 8
(suite)
• Les conventions qui associent certaines extensions à certains formats ne sont pas toujours respectées par les créateurs de fichiers (humains ou logiciels)
• Par exemple, on reçoit parfois (par courriel ou autrement) un fichier dont l’extension ne respecte pas les conventions habituelles
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 9
Comment déterminer le format d'un fichier?
• L'extension dans le nom de fichier est habituellement une bonne indication (mais, encore une fois, pas absolue)
• Si on soupçonne que l'extension ne correspond pas au format selon les conventions habituelles, on peut essayer d'ouvrir le fichier avec différents logiciels de lecture
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 10
(suite)
• On peut ouvrir le fichier avec un outil comme BlocNotes ou VMH, regarder son contenu en texte ou en hexadécimal et essayer de deviner son format
• Sous Unix: commande « file » fait de son mieux• Seule façon infaillible: le créateur ou l'expéditeur
du fichier en indique le format dans la documentation d’accompagnement (p.ex. dans le texte du courriel pour un fichier joint)
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 11
(suite)
• Parfois, l'extension correspond au format du fichier, mais le poste de travail utilisé ne dispose pas d'un logiciel capable de lire ce format
Ex.: formats spécialisés de dessins CAO (conception assistée par ordinateur)
• Dans ce cas, le fichier est illisible (autrement « qu’en brut » avec BlocNotes ou VMH) tant qu'on n'a pas installé un tel logiciel
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 12
Exemple
• Dans Windows, par défaut, l'extension .txt est associée au logiciel Bloc-notes
• Cette association convient pour les fichiers texte selon le jeu de caractères Windows ou un des trois jeux Unicode standard (UTF-8, UTF-16-BE, UTF-16-LE)
• Mais l'extension .txt est souvent utilisée pour d'autres jeux (ex. DOS)
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 13
(suite)
• Alors, on peut essayer de trouver le jeu de caractères en ouvrant le fichier dans Bloc-notes (en jouant avec la police) ou Word (avec confirmation des conversions à l'ouverture)
• Exemple: chateau.dos.txt(utiliser police "Terminal" dans Bloc-notes pour le visualiser correctement)
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 14
Recherche de fichiers avec Windows
• Recherche dans le contenu des fichiers
• Windows utilise un "filtre", déterminé par l'extension du nom de fichier, pour extraire un contenu textuel du fichier et recherche dans ce contenu
• Réussit à extraire un contenu textuel même à partir d'images, de sons, de documents Word, etc. (montrer exemples)
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 15
(suite)
• Recherche dans des fichiers portant l'extension .txt– OK si ce sont des fichiers texte selon le jeu de
caractères Windows ou un des trois jeux Unicode standard
– Autrement: n'importe quoi!– Exemple avec fichier texte DOS et fichier
image renommé avec l'extension .txt
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 16
Malgré ces limites...
• La fonction recherche de Windows est intéressante et utile
• Peut être accélérée via indexation par le Service d'indexation de Windows
• Si indexée, permet des opérations de recherche sophistiquées: opérateurs booléens, caractères génériques, proximité, mots vides, etc.[Ces possibilités sont à peine effleurées dans le TP2.]
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 17
(suite)
• Les mots « vides » exclus de la fonction de recherche indexée de Windows XP sont donnés par un fichier texte dans le dossier c:\windows\system32\ (l’extension correspond à la langue):
Exemples:noise.fra (français)noise.chs (chinois simplifié)
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 18
(suite)
• Permet de combiner des critères de contenu avec des critères sur les métadonnées « système » et « d’application » (p.ex. « bureautiques ») des fichiers
• …
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 19
Métadonnées système
• Pas stockées dans le fichier lui-même, mais dans le dossier qui le contient
• Incluent, pour tous les fichiers:– Nom du fichier– Dates de création, dernière modification– Nom d'usager du créateur– Taille (en octets)– Propriétés "caché", "lecture seulement", etc.
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 20
(suite)
• Pour certaines extensions, il peut y avoir d'autres métadonnées systèmeEx.: pour .txt:
– Titre– Objet– Catégorie– Mots-clés– Commentaires– Source– Auteur– Numéro de révision
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 21
(suite)
• Certaines métadonnées système sont visibles directement dans l'explorateur Windows, d'autres ne sont accessibles que via la fenêtre "propriétés" du fichier
• Certaines sont en lecture seule; d'autres modifiables par l'utilisateur
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 22
(suite)
• Largeur des colonnes pour avoir l'affichage complet de la taille des fichiers dans l'explorateur Windows
• Fenêtre "propriétés" du fichier pour avoir la taille exacte, à l'octet près
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 23
Unités de mesure pour la taille des fichiers
• 1 octet = 8 bits
• 1 kilo-octet (ko) = 1000 octets
• 1 mégaoctet (Mo) = 1000 kilo-octets
• 1 gigaoctet (Go) = 1000 méga-octets
• 1 téraoctet (To) = 1000 giga-octets
Préfixes du Système International (SI)
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 24
Métadonnées d’application(p.ex. bureautiques)
• Pour documents bureautiques, images, sons, …• Incluent: titre, objet, auteur, mots-clés,
commentaires, etc.• Stockées dans les documents (fichiers) et
gérées par l'application concernée, mais aussi accessibles aux onglets "résumé" et "personnaliser" de la fenêtre "propriétés" des fichiers
• Certaines sont en lecture seule; d'autres sont modifiables par l'utilisateur
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 25
Exemple de fenêtre de propriétés d'un document Word, montrant certaines des métadonnées Office:
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 26
Recherche avancée d'Office
• Accessible à partir de toutes les composantes d'Office (Fichier => Ouvrir => Outils => Rechercher)
• Opérations de recherche sophistiquées (opérateurs booléens, caractères génériques, mots vides, etc.)
• Liste de mots vides: Office-2003-mots-vides.txt (non modifiable)
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 27
(suite)
• Peut aussi être accélérée via indexation par le Service d'indexation de Windows
• Explorée dans le TP2 (en séquentiel seulement)
• Permet aussi de combiner des critères de contenu avec des critères sur les métadonnées système et des critères sur les métadonnées Office
Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 28
Limites de la recherche avancée d'Office
• Malgré sa puissance, elle n'effectue que de la recherche de fichiers (et non de passages à l'intérieur de fichiers)
• Peu paramétrable (ex.: mots vides)• Pour une recherche plus fine, on a besoin
d'un outil spécialement conçu pour la recherche d'information textuelle: un logiciel de recherche en texte intégral (LRTI), tel NatQuest Pro
Recommended