View
531
Download
4
Category
Preview:
Citation preview
UTILISER LE PAGERANK THÉMATIQUE POUR FAIRE UN
RÉSEAU DE SITES PERFORMANT
!
SYLVAIN PEYRONNET @SPEYRONNET
QUI SUIS-JE ?
Sylvain Peyronnet Chief @ ix-labs Chief @ La Machine Chief scientist @ Qwant Prof @ Université de Caen (on leave)
#VWD Sylvain Peyronnet -‐ @speyronnet
Ghost writer des slides : Guillaume Peyronnet https://freres.peyronnet.eu/
QU’EST-CE QU’UN MOTEUR DE RECHERCHE ?
algo de classement
web
classement
index
analyse de la pertinence
analyse de l’importance
classementclassement
contenu des pages
liens entre les pages
spider
#VWD Sylvain Peyronnet -‐ @speyronnet
QU’EST-CE QU’UN MOTEUR DE RECHERCHE ?
algo de classement
web
classement
index
analyse de la pertinence
analyse de l’importance
requête de l’utilisateur
classementclassement
contenu des pages
liens entre les pages
spider
expansion de requête
#VWD Sylvain Peyronnet -‐ @speyronnet
CONSTRUIRE LE CLASSEMENT
Pertinence pour R
Classement global
On construit le classement en choisissant les pages les plus importantes parmi celles qui sont pertinentes
+-
#VWD Sylvain Peyronnet -‐ @speyronnet
algo de classement
web
classement
index
analyse de la pertinence
analyse de l’importance
requête de l’utilisateur
classementclassement
contenu des pages
liens entre les pages
spider
expansion de requête
QU’EST-CE QU’UN MOTEUR DE RECHERCHE ?
#VWD Sylvain Peyronnet -‐ @speyronnet
La force des réseaux de sites basés sur le
pagerank thématique vient de là
LE MOTEUR ANALYSE LE CONTENU DES PAGES12" SMX$Paris$8$et$9$JUIN$2015$
Cherchons$le$bon$vocabulaire$
petit!
être!
perdre!
forêt!
Le! petit! était! perdu!
dans! la! forêt!
Un texte est un vecteur
?! ?! ?! ?! ?! ?! ?!
petit!
perdre!
être! forêt!
Un texte est un vecteur
#VWD Sylvain Peyronnet -‐ @speyronnet
LE MOTEUR ANALYSE LE CONTENU DES PAGES
13" SMX$Paris$8$et$9$JUIN$2015$
Cherchons$le$bon$vocabulaire$
Poids pour le vecteur : la
TF.IDF
?! ?! ?! ?! ?! ?! ?!
petit!
perdre!
être! forêt!
Poids d’un terme : TF-IDF14" SMX$Paris$8$et$9$JUIN$2015$
Cherchons$le$bon$vocabulaire$
d1
d2 θ
d1
d2
La similarité est définie par le cosinus de l’angle
proximité sémantique : cosinus de l’angle
Clustering pour être rapide
#VWD Sylvain Peyronnet -‐ @speyronnet
LE MOTEUR DETERMINE LA POPULARITÉ
Initialisation : !!Calcul itératif : !!!
Le PageRank
#VWD Sylvain Peyronnet -‐ @speyronnet
LE MOTEUR DETERMINE LA POPULARITÉ
Considérons le comportement suivant d’un internaute :
• Tirer une page web au hasard
• Tirer un nombre p entre 0 et 1
• Si p > c, alors choisir une page au hasard
• Si p < c choisir au hasard un lien de la page web et aller à la page liée par ce lien (si pas de lien, GOTO 1)
La probabilité que cet internaute se trouve en une page donnée à un moment donné est égale au PR de cette page.
En conséquence, fort PR = forte probabilité d’être visité
#VWD Sylvain Peyronnet -‐ @speyronnet
LE PAGERANK THÉMATIQUE FONCTIONNEMENT DE LA MÉTHODE
ODP
16 thématiques
PR thématique = vecteur de
dimension 16
Calcul du PR composante par composante (sujet par sujet)
T1 T2 ... T15 T16
HORS LIGNE
#VWD Sylvain Peyronnet -‐ @speyronnet
Taher Haveliwala - 2003
LE PAGERANK THÉMATIQUE FONCTIONNEMENT DE LA MÉTHODE
requête q
On cherche les sujets pour q
EN LIGNE
théma x théma y théma z
Combinaison des PR pour
x, y, z
Classement
SERPs
On combine les thématiques pour q pour construire
un q-PRComme le PR usuel
#VWD Sylvain Peyronnet -‐ @speyronnet
POPULARITÉ : À RETENIR
#VWD Sylvain Peyronnet -‐ @speyronnet
Un lien à une valeur proportionnelle à la
popularité de la source ET à la
proximité thématique entre les
pages
La popularité dépend des structures de liens : il faut faire
« cycler » le surfeur aléatoire
Il faut rester « naturel », en
optimisant on dévie du comportement
statistique et on peut être pénalisé
LES RÉSEAUX, LA RÉPONSE À TOUT ?
#VWD Sylvain Peyronnet -‐ @speyronnet
casino
poker
argent
hôtel
voiture de luxe
voyage
transport
las vegas
Un réseau c’est plus que la simple continuité thématique !
LE BON RÉSEAU ET LE MAUVAIS RÉSEAU
#VWD Sylvain Peyronnet -‐ @speyronnet
Quand on monte un réseau de sites, on essaie d'être naturel !• C'est toujours dommage de subir une pénalité sur un réseau complet… surtout quand les sites sont propres
• On essaie d'optimiser le PageRank du réseau, tout en restant raisonnable : Google devrait le comprendre (et passer à côté)
• On pense à la continuité thématique
LE BON RÉSEAU
#VWD Sylvain Peyronnet -‐ @speyronnet
Quelle structure de liens adopter pour éviter d’être détecté ? !Etre furtif, c’est possible si on est prêt à gagner moins de PR : !•Graphe aléatoire de Barabási - Albert • Graphe Small World (Beta model ou kleinberg)
Avant de penser aux optimisations, on pense à la robustesse vis à vis de Google !
IDÉE : GRAPHE ALÉATOIRE NATUREL
#VWD Sylvain Peyronnet -‐ @speyronnet
Un graphe naturel pour représenter le web est !1. Orienté : chaque lien a un sens u→v ≠ v→u
2. Petit monde :
• Petit diamètre : Il y a un chemin court entre presque toutes les paires de pages
• Routage glouton efficace : On peut trouver un chemin court avec une connaissance locale du graphe
IDÉE : GRAPHE ALÉATOIRE NATUREL
#VWD Sylvain Peyronnet -‐ @speyronnet
Un graphe naturel pour représenter le web est !1. Orienté : chaque lien a un sens u→v ≠ v→u!
2. Petit monde : !
• Clusterisé: !
Si et alors la proba que est grandeu→v ou
v→uv→w ou
w→u( ( u→w ou
w→u( ( ( (
GRAPHE DE BARABASI - ALBERT
#VWD Sylvain Peyronnet -‐ @speyronnet
• Les noeuds sont ajoutés 1 par 1
• La probabilité Pi qu’un nouveau noeud soit relié à i est :
« Plus j’ai de liens, plus j’attire de liens ! »
degré de i
somme des degrés de tous les noeuds
IL EXISTE DES OUTILS POUR GÉNÉRER LES GRAPHES
#VWD Sylvain Peyronnet -‐ @speyronnet
IL EXISTE DES OUTILS POUR GÉNÉRER LES GRAPHES
#VWD Sylvain Peyronnet -‐ @speyronnet
IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU
#VWD Sylvain Peyronnet -‐ @speyronnet
Les thématiques doivent être proche Votre plus gros site
est celui a plus fort PR du réseau
Tous les sites ne sont pas à vous !
#VWD Sylvain Peyronnet -‐ @speyronnet
IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU
Les thématiques doivent être proche
Utiliser Salton + TF.IDF
Utiliser les TF thématiques de Majestic
Utiliser un mind mapping (type cocooning^^) + aide à la rédaction
Faire à la main la proximité thématique
IL SUFFIT ENSUITE DE CONSTRUIRE LE RÉSEAU
#VWD Sylvain Peyronnet -‐ @speyronnet
Votre plus gros site est celui a plus fort
PR du réseau
Car c’est celui qui sera le plus facile à positionner
Tous les sites ne sont pas à vous !
Trop de travail !
Plus de risques de se faire détecter par Google
Un réseau = un mix de sites perso et extérieurs, bien linkés
ACCROCHE DU RÉSEAU À L’EXTÉRIEUR
#VWD Sylvain Peyronnet -‐ @speyronnet
Il faut obtenir des liens depuis le web vers votre réseau !1. Thématiser au maximum !2. Privilégier peu de liens d’accroche, mais avec fort Trust !3. Plus un site du réseau à un fort PR interne au réseau plus il doit y avoir de liens vers lui
BONUS DU « PENSER RÉSEAU »
#VWD Sylvain Peyronnet -‐ @speyronnet
Avec le réseau vous maitrisez tout ! !Les problèmes de conversion disparaissent en partie car vous pouvez avoir une stratégie de conversion sur le réseau, et donc spécialiser les sites tout en gardant un entonnoir de conversion efficace. !Un site d’info sur un produit, un site sur la réglementation, un site sur les utilisateurs, etc. Puis un site de vente au centre du réseau !
CONCLUSION
#VWD Sylvain Peyronnet -‐ @speyronnet
A vous de jouer !
Recommended