Upload
dalb
View
3.748
Download
2
Embed Size (px)
DESCRIPTION
Présentation à l’attention d’éditeurs de logiciel de la future norme ISO 25964-1 : Thésaurus pour la recherche documentaire, à paraître courant 2011.
Citation preview
Norme ISO 25964
Présentation à l’attention d’éditeurs de logiciel de la future norme
Thésaurus pour la recherche documentaire
Groupe de travail sur la norme du TC46/CN35715 mars 2011
Page 2
Objet du document
Présenter aux éditeurs de solutions logicielles la nouvelle norme ISO 25964 : Thésaurus pour la recherche documentaire sur le thésaurus
• Pour prendre la mesure des nouveautés• Pour anticiper la compatibilité de vos solutions avec
la norme• Ne se substitue pas à la lecture de la norme
Voir : http://www.iso.org/iso/fr/catalogue_detail.htm?csnumber=53657
Page 3
Statut de la norme
La norme ISO 25964 est en cours d’élaboration• Partie 1 : Thésaurus pour la recherche documentaire
Stade FDIS – publication attendue mi 2011
• Partie 2 : Interopérabilité avec des vocabulaires contrôlés
Stade CD – publication prévue en 2012
Elle remplace les normes• ISO 2788:1986 (monolingue)• ISO 5964:1985 (multilingue)• NF Z47-100:1981 (monolingue)• NF Z47-101:1990 (multilingue)
Page 4
Objectif de la norme
Proposer un modèle de données métier sous forme d’un schéma de classes UML
• Un ensemble de classes• Un ensemble de propriétés
• Identifiant, Langue, Dates, Gestion des versions, …• Des relations typées entre classes• Des possibilités d’extensions
• Ajout de propriétés personnalisées• Ajout de types de relations personnalisés
Proposer un schéma XML indicatifhttp://www.niso.org/schemas/iso25964/
Pas de schéma de traitement• Liberté des éditeurs pour implémenter la norme
En plus des directives pour la conception d'un thésaurus
Focus sur quelques éléments
Page 6
6 classes principales
Thesaurus Concept Termes représentant le concept Un ensemble de notes Groupe de concepts Ensemble de concepts (ThesaurusArray)
Page 7
Vue générale du schéma UML
Page 8
Classe Thesaurus
Possède ses propriétés propres
Ces propriétés sont exprimées sous forme d’attributs DublinCore
Seuls l’identifiant et la langue sont des propriétés obligatoires
Le thesaurus est constitué d’un ensemble de concepts. Un concept est obligatoirement attaché à un thesaurus.
Page 9
Classe ThesaurusConcept
Relations entre concepts• Hiérarchique
• Typage des relations d’instance et Tout/Partie
• Personnalisation possible• Associative
• Personnalisation possible• Top concept
• Concept de tête (le plus haut de la hiérarchie)
Regroupement de concepts au sein des classes
• Groupes de concepts (ConceptGroup)
Ensemble de concepts (ThesaurusArray)
• Concepts classés ou ordonnancés• Node label (relais virtuel) n’est pas un
concept
Page 10
Classe ThesaurusTerm
Types de termes• Terme préférentiel (1 par langue)• Terme non-préférentiel• Représentation d’un concept complexe
Ex : Transplantation de rein USE Transplantation d’organe + Rein
Types de relations entre termes• Typage facultatif (ex : Abréviation, Acronyme, …)
Relation avec le concept• Formalisée, mais sans précision quant à la nature de
cette relation
Relations inter-langues
Page 11
Classe ThesaurusTerm
Page 12
Classe ConceptGroup
Regroupement facultatif de concepts• définit la structure « macro » du thésaurus • constitue une liste de thèmes, domaines, micro-
thésaurus,...• pas de relation TG/TS entre un Concept et son
ConceptGroup, mais une relation d’appartenance (est membre de)
• Groupe / sous-groupe
Page 13
Classe ConceptGroup
Page 14
Classe ThesaurusArray
Série de concepts de même niveau
Organisation des concepts indépendante de leur organisation hiérarchique
Permet de regrouper ensemble des concepts sous l’angle d’une même facette
NodeLabel (étiquette de nœud, relais virtuel) explicite le principe de regroupement dans la série
Page 15
Multilinguisme
1 terme préférentiel par langue Les autres termes sont non préférentiels Dégrés d’équivalence entre les termes préférentiels
• Equivalence exacte en: rail network / fr: réseau ferroviaire / de: Schienennetz
• Equivalence inexacte ou proche en: information retrieval / fr: recherche d’information
• Equivalence partielle équivalence générique/spécifique
de: Wissenschaft / en: science SN: Comprend les sciences naturelles et sociales, et
la connaissance (les savoirs ?) en général. équivalence "1-à-n”, “une-à-plusieurs”
fr: sécurité / de: Sicherheit / en: safety, security• Non-équivalence
Page 16
Mapping (interopérabilité)
EQ Equivalence (sans préciser la nature)
Eau EQ WaterCommande EQ Control
= Equivalence exacteEau =EQ WaterTéléphone mobile =EQ téléphone cellulaireEau =EQ Eau
~ Equivalence inexacte(sans préciser la nature)
Commande ~ EQ ControlHorticulture ~ EQ JardinageEducation secondaire ~EQ Education + Ecoles secondaires
BM Equivalence vers un concept plus vaste
Roi BM monarque
NM Equivalence vers un concept moins vaste
monarque NM rois
RM Autre équivalence Education RM Punition
Recommandations d’implémentation
Page 18
Recommandations logicielles
Intégration dans une application• Contexte actuel
Logiciel intégré (gestion du thesaurus, indexation et recherche) / Logiciels autonomes
Recherche sur une collection / recherche sur plusieurs collections simultanément
Recherche sur des collections indexées ou non avec le thésaurus
• Fonctions d’interopérabilité Import/export des données Identification et report des modifications
• Gestion de tous types de caractères• Trouver facilement un concept
Impression du thesaurus Interface intuitive
Page 19
Recommandations logicielles
Intégration dans des applications d’indexation et de recherche
• Navigation aisée (sauf dans les systèmes complètement automatisés)
Rechercher par chaine de caractères Remplacer un terme non préférentiel par le terme préférentiel Auto-complétion ou choix des concepts correspondant aux
caractères saisis Choisir ou forcer la langue d’affichage Afficher les équivalents, y compris multilingue Naviguer par les relations hiérarchiques et associatives Déployer ou fermer une arborescence Passer d’une présentation à une autre (alphabétique,
hiérarchique) ou avoir les 2 en parallèle• Affichage des occurrences (si présence de la collection)• Gestion des candidats
Page 20
Recommandations logicielles
Plus précisément pour la recherche • Sélectionner un ou plusieurs concepts• Aider à la construction de la requête• Expansion de recherche• Remplacement d’un terme non préférentiel par le terme préférentiel• Catégorisation pour affiner la recherche• Utilisation dans un moteur de recherche, sans exposer le thesaurus
Choix parmi les concepts existants et proches de ce qui a été tapé par l’utilisateur
Séparation des résultats en fonctions des concepts utilisés par le moteur
Proposition d’expansion pour affiner ou élargir la recherche Expansion automatique en cas de peu ou pas de résultat …
• Utiliser les équivalents pour rechercher dans une collection non indexée par le thésaurus
Plus précisément pour l’indexation automatique• Lier à chaque concept ses règles de sélection
Page 21
Formats et protocoles
Quelques informations sur les formats d’échange et protocoles
• Formats d’échange Sont brièvement cités quelques formats (MARC, SKOS,
Zthes,…)
• Protocoles de recherche (Chap. 18, p.110-111) Objectif : présenter et utiliser le thesaurus Utilisation de protocoles existants ou développement
spécifique Présentation de protocoles spécifiques aux thésaurus
(SKOS API, ADL) ou orientés Web (Search Web Services, SPARQL, Z3950)
Page 22
http://www.w3.org/TR/2009/REC-skos-reference-20090818/http://fr.wikipedia.org/wiki/Simple_Knowledge_Organisation_System
SKOS et norme ISO 25964
SKOS• Format et spécifications fonctionnelles permettant
l’exploitation, sur le Web, de systèmes d’organisation de concepts (thésaurus, classification,…)
• S’appuie sur la norme BSI 8723, qui est également le point de départ de la norme ISO 25964
• Implémentation de la norme ISO 25964, sur un modèle de thésaurus simplifié pour répondre aux besoins d’exploitation du thesaurus sur le web. N’intègre pas les éléments de gestion du thésaurus, ni la classe Thesaurus, utiles pour l’administration du thésaurus
Page 23
Contacts
Hélène Zysman, [email protected]
Sylvie Dalbin, mailto:[email protected]
Autres ressources
5 à 7 à l'adbs de février 2011, par Hélène Rabault et Hélène Zysman
Présentation http://www.slideshare.net/2helene/adbs-5-7-une-nouvelle-norme-pour-le-thesaurus
Vidéo (à venir) :http://www.adbs.fr/une-nouvelle-norme-pour-le-thesaurus-modeles-et-perspectives-a-l-ere-du-web-semantique-96518.htm