Upload
godefrey-pujol
View
106
Download
1
Embed Size (px)
Citation preview
1
La Recherche d’Information La Recherche d’Information sur le Websur le Web
De la documentation électronique de votre université aux outils du Web
Gabriel Gallezot - Urfist Paca-c
ED avril 2008
Gallezot-at-unice.fr
29/11/07
2
Programme :Programme :
• Rappel sur la Recherche d’Information (RI)– contexte de la RI, Usage de l’info, Appropriation des outils– formulation des requêtes (des questions)– l’Indexation : notion centrale
• Panorama et utilisation des outils de recherche du web– les bases de données– Dico & co– OA & co– Outils 2.0– Moteurs– les répertoires
15.02.07
● Le contexte de la Recherche Le contexte de la Recherche d'Informationd'Information
15.02.07
Base Bibliographiques
Banques de données
Revues, ouvrages
Colloques
Site web, page perso, blog
Liste de discussion
Editeurs, agrégateurs
Archives Ouvertes
Bibliothèques
Types de documents
Formats de documents
Accès aux documents
…
Usage de l’informationRechercher: IR/épistémè
15.02.07 Source : Info@vis
La RI en contexte- différentes sources- différents outils- différents contextes
6
Appropriation des outilsAppropriation des outils
The Machine is Us/ing UsIntroducing the book
15.02.07
La Recherche d’InformationLa Recherche d’Information
- - Bien appréhender votre questionBien appréhender votre question
- Bien appréhender ce que vous cherchez et où vous - Bien appréhender ce que vous cherchez et où vous
le cherchezle cherchez
- Comprendre l’envers du “décor” : l’indexation- Comprendre l’envers du “décor” : l’indexation
- Bien gérer ses requêtes- Bien gérer ses requêtes
15.02.07
Quelques questionsQuelques questions
• Quels documents sont d'intérêt pour moi (ma question) ? • Est-ce que d'autres documents assez proches de mon
intérêt peuvent être également considérés ? • Les titres d'autres documents pourraient-ils déclencher des
idées valables pour ma recherche d'information ? • Comment mes mots-clés sont-ils réellement distribués
dans un des document ? • ....Trois notions à considérer : • Relevance (correspondance a ma question)• Pertinence (ce qui m'intéresse vraiment) • Serendipity (quelle chose que je ne recherchais pas mais
qui pourrait également m'intéresser)
15.02.07
Chercher une aiguille dans une botte de foin c’est :
• trouver une aiguille connue dans une botte de foin connue
• trouver une aiguille connue dans une botte de foin inconnue
• trouver une aiguille inconnue dans une botte de foin inconnue
• trouver n'importe quelle aiguille dans une botte de foin
• trouver […] [Koll, 00]Aiguille(s) et Aiguille(s) et
botte(s) de foinbotte(s) de foin
=> 3 façons de recherche l’information• « chercher de l'information sur un objet bien défini ;• chercher de l'information sur un objet incomplètement
décrit mais qui sera reconnaissable dès qu'un le rencontrera ;
• trouver de l'information de manière fortuite. » (Toms)
15.02.07
Où chercher ?
Web visibleet Web 2.0
Web invisible
P2P
• Contenu indexable,
• contenu taggé
• bases de données spécialisées
• Contenu dynamique
• Index partiel des sites
• Interdiction d’indexation
• Information contenue sur les ordinateurs individuels
• plusieurs millions d’ordinateurs inter-connectés
•10 Milliards dePages web•Forum de discussion
À partir de Source : Eric Boutin
15.02.07
La notion d’indexationLa notion d’indexation(une notion transversale et centrale)(une notion transversale et centrale)
• Indexer/classer pour retrouver (mots clés/répertoire, …)
• Les métadonnées (entête)• La structuration du document (corps)
• Classification :– Index– Thésaurus– Taxonomie– Facette– Ontologie
15.02.07
Gestion du bruit et du silenceGestion du bruit et du silence
Documents non relevants
Documents relevants Corpus
Bien gérer VOS REQUETES !Bien gérer VOS REQUETES !
15.02.07
non relevants(bruit)
relevants
Documents retrouvés
Documents non retrouvés
Relevants(silence)
non relevants
Documents retrouvés
Document non retrouvés
Optimiser sa recherche d'information
Bien gérer Bien gérer VOS REQUETES !VOS REQUETES !
15.02.07
Les opérateurs booléensLes opérateurs booléens
ExempleEnsemble A
cours tutorial
Ensemble Btutorial gratuit
Ensemble CPayant
Tutorial
Cours
gratuit
tutorial
payant
Protection
cours ou tutorial
tutorial et gratuit
cours sauf payant
cours
OR
AND
AND NOT
Les booléens sur GIRI : http://www.bibl.ulaval.ca/vitrine/giri/mod3/booleen.htm
15.02.07
Les types de rechercheLes types de recherche
• La recherche lexicale (+morphologique) : la recherche d'un mot ou d'un groupe de mots, notamment par le biais de requêtes booléennes (et, ou, etc.). Une fonction à laquelle s'ajoutent des opérateurs d'adjacence et de proximité. Tous des moteurs proposent en général ce type de possibilités.
• La recherche syntaxique : elle permet de retrouver un terme quelle que soit sa déclinaison (plurielle, conjuguée, etc.), et d'étendre la recherche aux mots synonymes ou de même racine étymologique. Cette recherche offre également des modules de recherche floue ou de phonétisation.
• La recherche statistique : lorsque la recherche s'effectue sur les mots, une analyse statistique permet de calculer la pertinence de ces mots par rapport au référentiel documentaire.
• La recherche sémantique : l'opération s'effectue à partir d'une analyse du sens de la requête, c'est-à-dire en recherchant les mots sémantiquement proches de ceux qu'elle utilise. La recherche s'appuie alors sur un dictionnaire sémantique qui, à chaque mot de la langue, associe leurs différents sens.
La combinaison des recherches sémantique, syntaxique, lexicale et statistique permet aux éditeurs de proposer des fonctions avancées : résumé de documents, classement et sélection optimisés des réponses, jusqu'aux assistants de requêtes (conçus pour permettre à l'utilisateur d'affiner sa demande en lui proposant des requêtes connexes ou enrichies)
15.02.07
Exemples d’outilsExemples d’outils(panorama)(panorama)
15.02.07
Les bases de donnéesLes bases de données
• Worldcat : (catalogues http://worldcat.org/
• Article Inist : (catalogues : http://services.inist.fr/public/fre/conslt.htm
• Images : http://cartelfr.louvre.fr, http://openclipart.org/ ou http://www.freefoto.com
• Sons : L’encyclopedie Sonore, http://e-sonore.u-paris10.fr/e-sonore/main.php?daj=search_small&sid=&ref=CAE92LEG08
• Librairies en ligne (Amazon, chapitre.com, …)
15.02.07
Dico and CoDico and Co• Wikipedia : http://fr.wikipedia.org/wiki/Accueil
• Les dictionnaires : http://www.dictionnaire-mediadico.com/ http://www.les-dictionnaires.com/
• TermScience (lexiques, dictionnaires, thesaurus) : http://www.termsciences.fr
• CNRTL : Centre National de Ressources Textuelles et (Morphologies, Lexicographie, Etymologie, Synonymie, Antonymie, Proxémie, Concordance) http://www.cnrtl.fr/lexicographie/
15.02.07
OA & Co OA & Co
• HAL : http://hal.archives-ouvertes.fr/ • Revues.org : http://www.revues.org/
• OAIster : http://www.oaister.org/
20
Outils du web2.0Outils du web2.0(fonction recherche uniquement)(fonction recherche uniquement)
• Signets : Del.ici.ous (http://del.icio.us/ ), digg (http://www.digg.com/ ), … :
• Ref biblio : CiteUlike (http://www.citeulike.org/ ), Bibsonomy (http://www.bibsonomy.org/ ), … :
• illustrations : Flickr (http://www.flickr.com/ ), youtube (http://www.youtube.com/ ), … :
• Présentations (PPT : http://www.slideshare.net )
21
Les outils de recherche du webLes outils de recherche du web(moteurs, annuaires et autres)(moteurs, annuaires et autres)
• Google scholar : http://scholar.google.com• Google book : http://books.google.com/• Lecdi : http://www.lecdi.net/ • In extenso : http://www.in-extenso.org/ • Exalead http://www.exalead.fr • Kvisu : http://beta.kvisu.com/ • Ixquick http://www.eu.ixquick.com/fra/ • Wayback machine http://www.archive.org/ • Wikio (blogs) : http://www.wikio.fr/blogs • Yahoo (Mindset) : http://mindset.research.yahoo.com/ • Open directory project http://www.dmoz.org/
15.02.07
Les répertoiresLes répertoires• Répertoire critique en SHS http://album.revues.org/
• Répertoire de Bases de données en SHS, CALAME : http://calame.ish-lyon.cnrs.fr/
• Répertoire de revues Open Access, DOAJ : http://www.doaj.org/• Répertoire d'Archive Ouverte, OpenDOAR : http://www.
opendoar.org/• Répertoire du patrimoine numérique :
http://www.numerique.culture.fr/mpf/pub-fr/index.html• Répertoire de ressources « academiques » : Bubl , http://bubl
.ac.uk/• Répertoire de BdD gratuites (Dadi) : http://dadi.enssib.fr/• Répertoire web2.0 : http://www.go2web20.net/
• Search engines watch : http://searchenginewatch.com/showPage
.html?page=links
15.02.07
« Mon environnement de recherche »« Mon environnement de recherche »
Quelques exemples• Mes extensions FF (“mes moteurs”, zotero,…)• Mon moteur de recherche (co-op/customsearch)• Mon portail : Ning, netvibe, Igoogle, facebook, …
24
Vos questionsVos questions
?
25
… … et en pluset en plus
15.02.07
Moteurs Moteurs (remarques)(remarques)
• Interfaçage : http://www.touchgraph.com/TGGoogleBrowser.html
• Searchmash : http://www.searchmash.com/• Comprendre la relation entre les moteurs : http://www.search-this.
com/search_engine_decoder.asp
15.02.07
Méthodologie de rechercheMéthodologie de recherche
2 guides• CERISE : http://web.ccr.jussieu.fr/urfist/cerise/
• InfoSphere : http://www.bibliotheques.uqam.ca/InfoSphere/sciences_humaines/index1.html
• Et aussi REPERE : http://repere.enssib.fr/frontOffice/afficheArticle.asp?idTheme=13
15.02.07
Stratégie de requête (exemple)Stratégie de requête (exemple)
Inurl:durand intitle « durand pierre »
Site: durand
inurl:durand
intitle: « durand pierre »
« durand pierre »
Durand pierre
Source : Eric boutin
15.02.07
Les deux aspects Les deux aspects des outils de recherchedes outils de recherche
Basede
données
Propagation electrons :
Collecte et
stockage
Fournir à L’internaute 10 à 20 réponses pertinentes
21
Source : Eric Boutin
15.02.07
Le point de départ de GoogleLe point de départ de Google
« un article scientifique tire sa légitimité de la reconnaissance par ses pairs »
Analyse de la citation : SCIEugène Garfield
DucheminBla bla blaDugenet(89) Dugenet
Bla bla blaDumoulin(79)
Article 1
Article 2
Chaque page web a un poids appelé Pagerank
PAGERANK (Google)
A B
C
Yahoo! E
F Linux.org
A better than B
A is linked to by more popularsites than B
(whatever the query is)
PAGERANK (Google)
A B
C
Yahoo! E
F Linux.org
A est meilleur que B
A reçoit des liens émanant de sites plus populaires que B
quelle que soit la requête
Source : Eric Boutin
Comprendre le ranking :http://professeurs.esiea.fr/wassner/?2007/06/03/74-l-algorithme-pagerank-comment-ca-marche