Upload
sebastien-billard
View
5.875
Download
0
Embed Size (px)
DESCRIPTION
Second cours du module référencement du Master IDEMM Lille. Les différents outils de recherche, le fonctionnement des moteurs, anatomie des pages de résultats, éléments d'interface, personnalisation des résultats, présentation du concept de recherche universelle
Citation preview
LES OUTILS DE RECHERCHE
Auteur : Sébastien Billard ([email protected])
TYPOLOGIE DES OUTILS DE RECHERCHE : MOTEURS ET ANNUAIRES
Auteur : Sébastien Billard ([email protected])
Moteurs- Gestion automatisée- Entrée par indexation- Tout le web a vocation à être indexé- Tout le contenu des pages est indexé- Navigation par requêtes
Annuaires- Gestion humaine- Entrée par soumission- Des choix éditoriaux sont faits- Seules les références aux sites sont indexées- Navigation arborescente (recherche possible)
FONCTIONNEMENT D'UN MOTEUR DE RECHERCHE (VERSION SIMPLE)
Auteur : Sébastien Billard ([email protected])
Index
Moteurde recherche
IndexeurWeb
FONCTIONNEMENT D'UN MOTEUR (VERSION MOINS SIMPLE)
Auteur : Sébastien Billard ([email protected])
Web
CrawlersServeur d'URLs Serveur tampon
DépôtIndexeur
Dicte les URLs à crawler Indexent, envoient le contenu des pages
Compresse, numérote et envoie
Décompresse, parse
Résolveur d'URLsAncres
Silos
Stocke les liens et ancres associées
Convertit les URLs en URLs absolues, et lie les documents entre eux
Liens Index des documents
Pagerank
Trieur
Moteur de recherche
LexiqueTrie le contenu des silos et produit un index inversé
Répond aux requêtes des utilisateurs
Contient une copie de chaque page HTML indexée (cache)
Stocke une cartographie du web
Répertories l'ensemble des documents indexés(index direct)
SilosSilosMaintient une correspondance mots / documents (index inversé)
(Schema basé sur l'article « The Anatomy of a Large-Scale Hypertextual Web Search Engine », par Sergey Brin et Lawrence Page)
COMMENT PENSE UN MOTEUR ?
Auteur : Sébastien Billard ([email protected])
Juger de la pertinence d'une page web, c'est un peu comme juger du contenu d'un livre dans une bibliothèque :
Contenu Titre4ème de couvertureTable des matièreContenu général
Balise <title>Balise <meta> descriptionTitraille (balises <h1> à <h6>)Ensemble des textes
Structure Lisibilité Accessibilité technique et structuration
Popularité Recommandations Quantité, qualité et teneur des liens entrants
ANATOMIE GENERALE D'UNE PAGE DE RESULTATS
Auteur : Sébastien Billard ([email protected])
Résultats « Onebox »
Résultats naturels
Liens sponsorisés
ELEMENTS D'INTERFACE GOOGLE
Auteur : Sébastien Billard ([email protected])
- Déterminés algorithmiquement- Jusque 8 éléments
Sitelinks
Classic sitelinks
Jumplinks
Résultats indentés
Hiérarchie de site- Déterminés algorithmiquement- Jusque 4 éléments
- Contextuels- Basés sur les ancres
- Contextuels
- Basées sur les fils d'ariane des sites
RECHERCHE UNIVERSELLE
Auteur : Sébastien Billard ([email protected])
Objectif : « faire tomber les silos de l'information qui existent sur le web » (Marissa Mayer, 16/05/07)
Actualités
Pages web
Billets de blogs
Images
Vidéos
PERSONNALISATION DES RESULTATS DE RECHERCHE
Auteur : Sébastien Billard ([email protected])
Localisation de l'utilisateur(IP, langue du navigateur)
Comportement del'utilisateur(loggé ou non)
Personnalisationspar l'utilisateur(Searchwiki)
Interface utilisée(.com, .fr...)
Plusieurs critères concourent la personnalisation des résultats :
PERSONNALISATION POUR TOUT LE MONDE !
Auteur : Sébastien Billard ([email protected])
LES OPERATEURS UTILES AU REFERENCEUR : GOOGLE
Auteur : Sébastien Billard ([email protected])
Guillemets "
Pour rechercher une chaine de mots
Tiret -
Pour exclure des mots ou sites
Site:
Pour rechercher sur un domaine, un sous-domaine, un répertoire
Filetype:
Pour rechercher un type de fichier donné
Inurl: et allinurl:
Pour rechercher les pages dont l'URL contient une expression
Intitle: et allintitle:
Pour rechercher les pages dont le <title> contient une expression
Link:
Pour recherche des pages pointant vers une URL donnée
LES OPERATEURS UTILES AU REFERENCEUR : BING
Auteur : Sébastien Billard ([email protected])
Linkfromdomain:
Pour rechercher les liens sortants d'un domaine
Ip:
Pour rechercher les sites hébergés sur une IP
Inanchor:
Pour rechercher les sites liés avec une ancre donnée