Upload
helene-monin
View
105
Download
0
Embed Size (px)
Citation preview
Fédération et améliorationdes activités documentaires
par la pratique d’annotation collective
Guillaume CabanacGuillaume Cabanac
Équipe IRIT/SIG – Systèmes d’Informations GénéralisésComposante DDSS – Documents et Données Semi-Structurées et usages
Thèse de doctorat5 décembre 2008
Direction Pr Claude Chrisment
Encadrement Dr Max Chevalier et Dr Christine Julien
2
Plan
1. Contexte et problématiques des activités documentaires (AD)
2. L’annotation collective pour fédérer et améliorer les AD Niveau microscopique Niveau macroscopique
3. Expérimentations Mesure de similarité sur l’usage des documents Validation sociale des annotations
4. Mise en œuvre de l’approche proposée Prototype « preuve de concept » TafAnnote
5. Conclusion et Perspectives
Fédération et amélioration des activités documentaires G. Cabanac
3
Plan
1. Contexte et problématiques des activités documentaires (AD)
2. L’annotation collective pour fédérer et améliorer les AD Niveau microscopique Niveau macroscopique
3. Expérimentations Mesure de similarité sur l’usage des documents Validation sociale des annotations
4. Mise en œuvre de l’approche proposée Prototype « preuve de concept » TafAnnote
5. Conclusion et Perspectives
Fédération et amélioration des activités documentaires G. Cabanac
4
Fédération et amélioration des Fédération et amélioration des activités documentairesactivités documentairespar la pratique d’par la pratique d’annotationannotation collectivecollective
Gestion DocumentaireGestion Documentaire(Document Management System)(Document Management System)
Gestion Personnelle d’InformationsGestion Personnelle d’Informations(Personal Information Management – PIM)(Personal Information Management – PIM)
Logiciels collectifsLogiciels collectifs(Social Software)(Social Software)
1. Contexte et problématiques des activités documentaires G. Cabanac
l’organisation
5
Les organisations modernes Entreprises, laboratoires de R&D, communautés…
Les travailleurs du savoir “knowledge workers” 31 % des employés aux USA en 1995 XXIe siècle : croissance soutenue « Nous sommes tous des travailleurs du savoir » [Ballay, 2002]
Transposition Papier électronique
Relations individus – documents dans l’organisation
[Harper & Sellen, 2004]
1. Contexte et problématiques des activités documentaires G. Cabanac
6
Le cycle de vie du document [Sellen & Harper, 2003]
6 activités documentaires
Satisfaction d’un besoin en information en utilisant les
sources adéquates
Informations trouvées un document
Relecture, corrections,
mise en page finale et validations
Envoidu document finalisé
Lecture, compréhensionet réflexion
Stockage organisé dans un espace documentaireéventuellement partagé
1. Contexte et problématiques des activités documentaires G. Cabanac
7
Limites du cycle de vie du document Faible exploitation du potentiel collectifpotentiel collectif de l’organisation
Documents inaccessibles pour le groupe recherches redondantes
Requêtes sur le Web : 50 % d’échec [Feldman, 2004]
Limites de
1 nouveau rapport=
90% de recréationd’information[Feldman, 2004]
Partage (ex : dossier réseau, intranet)
Diffusion manuelle
Diffusion automatique
• Limites motivationnelles
• Surcharge cognitive
Lecture active : annotation requise
Interprétation et débats collectifs
« Maintenance » difficile
Efforts de classement inexploités
1. Contexte et problématiques des activités documentaires G. Cabanac
8
Mise en œuvre sur support électronique1. Contexte et problématiques des activités documentaires G. Cabanac
9
Limites du cycle de vie du document
Multiplication des systèmes Surcharge cognitive des usagers
Cloisonnement des activités Vision parcellaire des usagers Échange limité entre applications Pertinence de l’aide apportée ?
Approche « individualiste » Zéro rentabilisation des activités des
autres membres organisationnels
1. Contexte et problématiques des activités documentaires G. Cabanac
10
Plan
1. Contexte et problématiques des activités documentaires (AD)
2. L’annotation collective pour fédérer et améliorer les AD Niveau microscopique Niveau macroscopique
3. Expérimentations Mesure de similarité sur l’usage des documents Validation sociale des annotations
4. Mise en œuvre de l’approche proposée Prototype « preuve de concept » TafAnnote
5. Conclusion et Perspectives
Fédération et amélioration des activités documentaires G. Cabanac
11
Fédération autour d’un seul système : motivations Rappel des 5 problématiques
P1 fragmentation des données P2 surcharge cognitive (utilisation) P3 représentation partielle des utilisateurs P4 activités linéaires et cloisonnées P5 aide sous-optimale
Identification des liens de causalité P4 P1 P3 P5 P4 P2
Problématique principale : P4 fédérer les activités dans 1 seul système
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
trop de systèmes
systèmes cloisonnés
12
Fédérer les activités documentaires Un système fédérateur pour
Plusieurs usagers communauté Réaliser les 6 activités documentaires sans cloisonnement Intégrer des processus « sociaux »
À bénéfice réciproqueprincipe du donnant-donnant entre les usagers Inter-activités une activité améliore les autres Exemples
Documents classés recommandés à l’usager pendant sa navigation Information introduite par un individu distribuée aux autres membres
Concept fédérateurla pratique d’annotationde document électronique
Légende : rôle initial de l’annotation
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
13
Fédérer les activités documentaires : l’annotation De l’annotation papier…
Activité usuelle séculaire et interdisciplinaire Polymorphe : commentaire, marques… Usages diversifiés
personnel : lecture active, appropriation collectif : travail collaboratif, partage
… À l’annotation électronique Commentaires « en contexte » Contenu multimédia riche Diffusable sur le réseau Suscite des fils de discussion
= débats en contexte
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
14
Concept d’annotation collective Étude de 64 systèmes sur la période 1989 – 2008
Annotation collective Données objectives
Créateur, date de création Point d’ancrage dans le document, granularité variable : intégralité, mots…
Informations subjectives Commentaire, marques diverses : astérisques, soulignements… Type d’annotation : confirmation/réfutation, question… Visibilité : publique, privée, groupes…
Catégories « orientées objectif »
Annotation remarque
Annotation stockage
Annotation argumentative
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
EPA : Espace Personnel d’Annotations
15
Plan
1. Contexte et problématiques des activités documentaires (AD)
2. L’annotation collective pour fédérer et améliorer les AD Niveau microscopique Niveau macroscopique
3. Expérimentations Mesure de similarité sur l’usage des documents Validation sociale des annotations
4. Mise en œuvre de l’approche proposée Prototype « preuve de concept » TafAnnote
5. Conclusion et Perspectives
Fédération et amélioration des activités documentaires G. Cabanac
16
Améliorer les activités documentaires Exploiter les compétences du groupe (donnant-donnant) Des processus intégrés couvrant les activités documentaires
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
17
Améliorer les activités documentaires2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
18
P1 – Exploiter les compétences de recherche RECO : recommandation asynchrone
principe insertion les répertoires les plus spécifiques des EPA
RECO
v1v2v3v4
l’organisation
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
19
Améliorer les activités documentaires2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
20
P2 – Exploiter les compétences de classement (1/2)
NAVI : recommandation pendant la navigation
principe regroupementregroupement dans les EPA effort cognitif de effort cognitif de classementclassement
similarité d’usagesimilarité d’usage
consulte
NAVID
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
21
Similarité d’usage inter-répertoires
inter-documents
inter-usagers
P2 – Exploiter les compétences de classement (2/2)
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
22
Améliorer les activités documentaires2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
23
Passage à l’échelle :massivement annoté
Problème :quelles annotations consulter ?
Validité sociale = degré de consensus du groupe
Validation Sociale
P3 – Validation sociale des débats argumentatifs (1/3)
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
24
Principe général
Algorithmes proposés et évalués Agrégation récursive de score [Cabanac et al., 2005]
Système d’argumentation bipolaire (travaux IA) [Cayrol & Lagasquie-Schiex, 2005]
Système d’argumentation bipolaire étendu [Cabanac et al., 2006]
Validité sociale
0socialement neutre
– 1 socialement réfuté
1socialement confirmé
cas 1cas 2cas 3 cas 4
A
B
A
B
P3 – Validation sociale des débats argumentatifs (2/3)
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
25
P3 – Validation sociale des débats argumentatifs (3/3)
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
AvantToutes dans le même panier
AprèsFiltrage possible
Processus ADAPTAFFICHAGE
26
Plan
1. Contexte et problématiques des activités documentaires (AD)
2. L’annotation collective pour fédérer et améliorer les AD Niveau microscopique Niveau macroscopique
3. Expérimentations Mesure de similarité sur l’usage des documents Validation sociale des annotations
4. Mise en œuvre de l’approche proposée Prototype « preuve de concept » TafAnnote
5. Conclusion et Perspectives
Fédération et amélioration des activités documentaires G. Cabanac
27
Espaces Personnels d’Annotations (EPA) Informations filtrées, validées et structurées…
… pertinentes pour les activités dans l’organisation
Paradoxe : capital riche, mais sous-exploité Cause 1 – caractère personnel des espaces doc.
Cause 2 – partage manuel
Cause 3 – partage automatique
Conséquences Faute de mieux, utilisation de sources externes Retour sur investissement faible pourquoi aller chercher ailleurs…
Capital documentaire organisationnel en sommeil2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
28
Cartographie de l’organisation basée sur les documents SOM [Kohonen, 2001] Umap [Triviumsoft] TreeMap [Fekete & Plaisant, 2001]…
Intégration de 2 niveaux : macro- et microscopique [Boyer et al., 2007]
Limites des approches existantes Documents ayant le même contenucontenu que D Documents que les collègues utilisentutilisent avec D
notion d’usage : regrouper des documentsregrouper des documents ⇆ associations d’idéesassociations d’idées
Valoriser des documents : travaux connexes 2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
29
Objectif : explorer une vue globale … des personnes et de leurs documents
thématique et usages
Contrainte : non-intrusivité et confidentialité
Besoins opérationnelsopérationnels Trouver des documents
Connexes Complémentaires
Trouver des personnes ⇆ trouver des documents
Besoins stratégiquesstratégiques (pilotage + RH) Visualiser l’activité globale et individuelle Poste de travail documents utilisés
Interface d’accès au capital documentaire
l’organisation
2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
30
4 vues = {documents, personnes} {groupe, unité}
1. Groupe de documents Thèmes principaux Groupes d’usage
2. Un seul document Qui contacter ? Quoi lire ?
3. Groupe de personnes Communautés d’intérêt Communautés d’usage
4. Une seule personne Centres d’intérêts Interlocuteurs privilégiés
Interface proposée : aspect statiquestatique2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
31
2 types de sélection Unique / Multiple
Interaction intra-vueintra-vue
Interaction inter-vuesinter-vues
Interface proposée : aspect dynamiquedynamique2. L’annotation pour fédérer et améliorer les activités documentaires G. Cabanac
32
Plan
1. Contexte et problématiques des activités documentaires (AD)
2. L’annotation collective pour fédérer et améliorer les AD Niveau microscopique Niveau macroscopique
3. Expérimentations Mesure de similarité sur l’usage des documents Validation sociale des annotations
4. Mise en œuvre de l’approche proposée Prototype « preuve de concept » TafAnnote
5. Conclusion et Perspectives
Fédération et amélioration des activités documentaires G. Cabanac
33
Sim. Thématiquevs
Sim. Usage
Similarité de thématique Similarité d’usage
Ces deux similarités semblent être différentes (complémentarité ?)
3. Expérimentations – Mesure de similarité d’usage G. Cabanac
34
Corpus d’expérimentation
Protocole expérimental Calcul des 12 367 851 valeurs : sim(di, dj>i)
simContenu Indexation simUsage Multiarbres
Comparaisons Différence tests de significativité (t-test de Student, Wilcoxon…) Ressemblance coefficient de corrélation (r)
Mesures de similarité : contenu versus usage (1/2)
3. Expérimentations – Mesure de similarité d’usage G. Cabanac
Sous-hiérarchie de MeSH
maladies cardiovasculaires
146 répertoires
4 974 documentsissus deTREC/OHSUMED
35
SimContenu
SimUsage
SimContenu versus SimUsage Significativité (Wilcoxon)
p = 0,000
Corrélation (Pearson)r = 0,154
Mesures de similarité : contenu versus usage (2/2)
3. Expérimentations – Mesure de similarité d’usage G. Cabanac
SimContenu SimContenu SimUsage SimUsage
36
Plan
1. Contexte et problématiques des activités documentaires (AD)
2. L’annotation collective pour fédérer et améliorer les AD Niveau microscopique Niveau macroscopique
3. Expérimentations Mesure de similarité sur l’usage des documents Validation sociale des annotations
4. Mise en œuvre de l’approche proposée Prototype « preuve de concept » TafAnnote
5. Conclusion et Perspectives
Fédération et amélioration des activités documentaires G. Cabanac
37
Principe général
Consensus |Validation sociale| 1
Expérimentation de la validation sociale (1/5)
C’est clair que la mort de la mère de Baudelaire…
Je ne pense pas : dans son poème « Une martyre »…poésie
Dans sa correspondance avec Jeanne Duval, il…
Ce poème a été écrit 5 ans avant que sa mère ne…
Validationsociale
Algorithme de validation sociale
0 pas de consensus
sur le passage annoté
– 1 passage annoté
réfuté
1 passage annoté
confirmé
3. Expérimentations – Validation sociale G. Cabanac
38
3 algorithmes à comparer VS1 Agrégation récursive de score [Cabanac et al., 2005]
VS2 Système d’argumentation bipolaire (SABP) [Cayrol & Lagasquie-Schiex, 2005] VS3 Extension du SABP [Cabanac et al., 2006]
Protocole expérimental But Algos validation sociale Perception humaine du consensus
Pb1 Manque de collections annotées [Agosti & Ferro, 2005; Frommholz & Fuhr, 2006]
Sol1 Web 13 fils de discussion = 222 annotations + réponses
Pb2 Besoin de « cobayes » aux profils variés nos étudiants Sol2 Expérimentation « écologique » sur le Web
« Appel à bonnes volontés » via listes de diffusion
Expérimentation de la validation sociale (2/5)
?
3. Expérimentations – Validation sociale G. Cabanac
39
Nombre de participants
Durée moy. = 1h Tx d’abandon = 56 %
Tâches d’un participant Identifier les opinions Synthétiser les opinions
Expérimentation de la validation sociale (3/5)
121
53
3. Expérimentations – Validation sociale G. Cabanac
40
Vérification de la cohérence des 121 participations 4 règles 7 participations irrationnelles (incohérences > 20 %)
VS versus PH — Indicateurs statistiques
Différence significative (Wilcoxon signed-rank test : p(vsi – ph) < = 0.05)
Corrélation moyenne (coefficient Pearson r 0,5)
Expérimentation de la validation sociale (4/5)
3. Expérimentations – Validation sociale G. Cabanac
idéal : aucune différence
41
VS versus PH — Indicateurs centrés-individusExpérimentation de la validation sociale (5/5)
3. Expérimentations – Validation sociale G. Cabanac
strictstrict toléranttolérant
Distance ≤ 1 graduation ≤ 2 graduations
Polarité même signe même signe ou 0
Force frontière à ⅓ frontière à ⅔
perception humainevalidation sociale
3 in
dica
teur
s
47 % 77 %
65 % 84 %
55 % 73 %
42
Plan
1. Contexte et problématiques des activités documentaires (AD)
2. L’annotation collective pour fédérer et améliorer les AD Niveau microscopique Niveau macroscopique
3. Expérimentations Mesure de similarité sur l’usage des documents Validation sociale des annotations
4. Mise en œuvre de l’approche proposée Prototype « preuve de concept » TafAnnote
5. Conclusion et Perspectives
Fédération et amélioration des activités documentaires G. Cabanac
43
Faisabilité de nos propositions
Intégration dans le navigateur Mozilla Firefox
http://www.irit.fr/~Guillaume.Cabanac/TafAnnote
Navigateur WebNavigateur Web
TafAnnote
http://www.irit.fr
SQL
PaquetagePL/SQL
Document Dématérialisé
Couche PrésentationJavaScript
Couche DialogueJava
Liveconnect
Événementsdu navigateur
Tables relationnelles
Annotation
Document
Utilisateur
Serveur d’Annotations
JDBC
appels de procédures stockées
Module clientDOM
4. Développement : le prototype TafAnnote G. Cabanac
client serveur
44
TafAnnote en quelques captures d’écran4. Développement : le prototype TafAnnote G. Cabanac
45
Exploration du capital documentaire organisationnel4. Développement : le prototype TafAnnote G. Cabanac
46
Plan
1. Contexte et problématiques des activités documentaires (AD)
2. L’annotation collective pour fédérer et améliorer les AD Niveau microscopique Niveau macroscopique
3. Expérimentations Mesure de similarité sur l’usage des documents Validation sociale des annotations
4. Mise en œuvre de l’approche proposée Prototype « preuve de concept » TafAnnote
5. Conclusion et Perspectives
Fédération et amélioration des activités documentaires G. Cabanac
47
Activités du cycle de vie du document multiplicité des systèmes + cloisonnement
Fédération autour de l’annotation collective pour améliorer les AD
ObjectifObjectif
améliorer la relation ↔ ModélisationModélisation
multiutilisateurs, EPA, processus Enrichissement mutuel Donnant-donnant
Limites de la fédération des AD Équilibre entre gains en productivité et contraintes ?
Conclusion (1/2)
Fédération et amélioration des activités documentaires G. Cabanac
48
Similarité d’usage
Valorise la structuration des documents Contenu Usage
Validation sociale d’annotation collective
121 participants 80 % de concordance (ph, vs)
Exploration du capital organisationnel
Vue globale des documents et personnes
Conclusion (2/2)
Fédération et amélioration des activités documentaires G. Cabanac
49
Champs d’application
Documents patrimoniaux, médicaux,techniques…
À court et moyen termes
Évaluation globale Techniques d’ancrage (BDM) RI, fouille d’opinions (Web 2.0) Rédaction collective
À plus long terme
Relations individus – documents dans l’organisation Interopérabilité des profils
Relâcher l’hypothèse sur la préexistence de groupes
Perspectives de recherche
l’organisation
Fédération et amélioration des activités documentaires G. Cabanac
Merci
http://www.irit.fr/~Guillaume.Cabanachttp://www.irit.fr/~Guillaume.Cabanac