15
Faculté Polytechnique Séminaire M@rsouin 2012 Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ? Dr Ir Robert Viseur Brest, 24-25 mai 2012

Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Embed Size (px)

DESCRIPTION

Les moteurs de recherche commerciaux tels que Google, Bing ou Yahoo! ont séduit les chercheurs de diverses disciplines pour l'utilisation des résultats de recherche ou du nombre de résultats estimé. La webométrie est la discipline dédiée à l'étude de ces pratiques. De nombreuses études montrent les limites des moteurs en la matière. Ces études deviennent cependant rapidement dépassées du fait des modifications régulièrement apportées aux techniques d'indexation, à la syntaxe d'interrogation ou aux interfaces de programmation (APIs). Cette recherche s'attachera à confirmer les limites mises en évidence pour les moteurs de recherche Bing et Google, et identifiera de nouvelles limitations liées à l'utilisation des opérateurs booléens.

Citation preview

Page 1: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Faculté Polytechnique

Séminaire M@rsouin 2012Le chercheur peut-il se fier aux volumétries

indiquées par les moteurs de recherche commerciaux ?

Dr Ir Robert Viseur

Brest, 24-25 mai 2012

Page 2: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 2

Contexte (1/2)

Point de départ : Démarrage d'une recherche nécessitant une mesure

de la popularité d'entreprises, de marques, de produits sur Internet, utilisant les APIs de moteurs de recherche.

Constat : problèmes dans les volumétries des résultats de recherche (testé avec Google).

→ Question : Peut-on se fier aux volumétries estimées par les

moteurs de recherche ?

Page 3: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 3

Contexte (2/2)

Intérêt ? Littérature professionnelle encourageant l'usage des

APIs. De nombreuses recherches utilisent les résultats issus

des moteurs de recherches commerciaux. Usages variés : traitement de la langue, analyse des

sentiments (texte), analyse des performances des entreprises, évaluation automatique de la qualité de revues ou d'articles, etc.

Cadre théorique existant : Webométrie : étude quantitative des phénomènes relatifs

au Web (voir notamment Thelwall). Exemple d'éléments étudiés : classements et volumétries.

Page 4: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 4

Points forts et points faibles des moteurs commerciaux (1/2)

Points forts : Index de grande taille. Richesse de la syntaxe d'interrogation (opérateurs).

Points faibles : Secret des algorithmes de classements.

Existence d'associations préférentielles entre sites commerciaux et moteurs de recherche.

Biais géographiques. Interdiction des requêtes automatiques.

Obligation de passer par des APIs. Passage progressif vers un modèle payant (pour tous les moteurs). Diverses restrictions d'utilisation (utilisation des données, trafic

maximum autorisé, etc.).

Page 5: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 5

Points forts et points faibles des moteurs commerciaux (2/2)

Points faibles (suite) : Évolutions dans le temps.

Exemple : Yahoo ! → nouvel algorithme de classement, évolution de la syntaxe disponible, passage au modèle payant, etc.

Alternatives : Utilisation d'une méthode de prédiction des

volumétries. Création d'index spécialisés (ex.: technologies libres

comme Lucene, SolR, etc.).

Page 6: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 6

Problème de la volumétrie

Volumétrie : nombre de résultats estimé pour chaque requête.

Les problèmes connus : Instabilité dans le temps (répétition de requêtes). Différences entre le nombre estimé dans la WUI et le

nombre estimé dans l'API. Manque flagrant de fiabilité pour certaines requêtes.

Exemple : « link: » sous Google. Obsolescence rapide des études pratiques compte tenu

de la vitesse d'évolution des APIs (et plus largement des moteurs de recherche).

Voir notamment : Mayr et Tosques, 2005 ; McCown et Nelson, 2007.

Page 7: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 7

Hypothèses

Trois hypothèses testées : 1. Les requêtes complexes, ou booléennes, donnent

des résultats conformes à la théorie des ensembles. 2. La volumétrie donnée par l'API est différente de la

volumétrie donnée par la WUI. 3. La volumétrie donnée par l'API n'est pas

proportionnelle à la volumétrie donnée par la WUI.

Page 8: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 8

Méthodologie

Hypothèse 1 : Les rapports q1 et q2 doivent tendre vers 1.

Hypothèse 2 : Rapports des volumétries (WUI et API).

Hypothèse 3 : Corrélation entre volumétries (WUI et API)

Au total : 120 requêtes.

Page 9: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 9

Résultats : Hypothèse 1

Rapport entre les nombres de résultats obtenus et attendus dans le cas de requêtes booléennes.

Résultats : Bing : ok ; Google : nok. Remarques :

Interprétation de l'opérateur AND dans Google ? Attention à l'écriture de l'opérateur OR (vs or)!

Page 10: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 10

Résultats : Hypothèse 2

Rapport entre nombre de résultats estimés.

Résultats : Nombre de résultats envoyés par l'API << WUI

(Google). Phénomène de « Danse » sous Bing ? Comptabilisation différente dans Bing et Google ?

Page 11: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 11

Résultats : Hypothèse 3

Corrélations entre nombre de résultats estimés.

Résultats : Corrélations globalement fortes pour Google. Différence entre requêtes simples et composées ?

Page 12: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 12

Discussion

Apport : Confirmation globale des résultats de recherche antérieurs. Mise en évidence de nouveaux problèmes liés aux requêtes composées.

Bing : Meilleure fiabilité générale comparé à Google. Phénomène de « Danse » ?

Google : Index de tailles différentes entre API et WUI (McCown et Nelson, 2007) ? Différentes méthodes de comptabilisation des pages similaires ou

dupliquées ? Différences explicables par le mécanisme d'analyse des requêtes entrées

par les utilisateurs  (ex. : Cutts, 2010) ?

Recommandations (si API nécessaire): Privilégier Bing (pour le moment...). Analyse préalable des données extraites par API avant utilisation.

Page 13: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 13

Perspectives

Déjà fait : Fonctionnement de la dernière API Google ?

Comparable à l'ancienne API. Influence du ciblage géographique sur les volumétries.

Comportement différent pour Google si ciblage géographique (Web français vs Web mondial).

A faire : Tests sur Yahoo! (après basculement sur technologie Microsoft) Tests sur des moteurs de recherche spécialisés (ex. : Google News). Mise en œuvre de jeux de données plus importants.

Remarque : Mise à jour : annonce du passage de Bing au modèle payant.

Page 14: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 14

Merci pour votre attention.

Des questions ?

Cette présentation est diffusée sous licence CC-BY-ND.

Page 15: Le chercheur peut-il se fier aux volumétries indiquées par les moteurs de recherche commerciaux ?

Université de Mons Dr Ir R. Viseur | FPMs : Service d'Économie et de Management de l'Innovation 15

Contact

Dr Ir Robert Viseur

Assistant @UMONS UMONS, Faculté Polytechnique Rue de Houdain, 9 B-7000 Mons Mail : [email protected]

Guideur technologique @CETIC CETIC Rue des Frères Wright, 29/3 B-6041 Charleroi Mail : [email protected]

Plus d'infos : www.robertviseur.be