@position retour : GoogleArchy

étude
Même les nouveaux sites web seront visibles - Etude @position - janvier 2007


L'étude
Des chercheurs de l'université d'Indiana ont démontré, dans l'article " The egalitarian effect of search engines " (1), que l'effet " Googlearchy " (2) n'existerait pas dans l'absolu.

Cet effet " Googlearchy " repose sur le principe suivant : " la popularité appelle la popularité ". Les pages populaires sont bien positionnées dans les outils de recherche, ce qui leur permet d'être visitées et d'attirer de nouveaux liens vers elles. Ces nouveaux liens créent une croissance de leur popularité, qui leur permet d'être encore mieux positionnées, et donc d'avoir plus de visites, plus de liens etc. C'est un cercle vertueux.
De ce fait, les nouvelles pages indexées dans les moteurs de recherche ne peuvent jamais attirer autant d'internautes que les pages populaires et sont donc moins connues que les pages populaires. Leur potentiel de génération de nouveaux liens est donc plus faible. Du coup, elles sont prises dans un cercle vicieux. Partant du principe que le rang d'une page dans les résultats de recherche repose essentiellement sur les liens entrants, les pages mal classées ne sont jamais sélectionnées par des éditeurs de pages web, qui ne font souvent référence qu'aux pages bien classées dans les moteurs.

Alors que les modèles théoriques abondent dans le sens de l'effet " GoogleArchy ", avec l'influence plus importante sur le trafic, selon le nombre de liens entrants, des moteurs de recherche que de la navigation, les auteurs ont constaté que les trafics mesurés ne correspondaient pas aux modèles (Fig 1). Apparemment, les moteurs de recherche ont un effet régulateur sur le trafic, de sorte que les pages les plus populaires ne se l'accaparent pas complètement.

Fig 1 : Les points représentent les relations empiriques rencontrées par les auteurs entre le nombre de liens entrants (d'après Yahoo et Google) et le trafic (mesuré par Alexa). La zone " searching model " indique le trafic estimé provenant des moteurs de recherche, et la courbe " surfing model " le trafic estimé provenant de la navigation inter-site. (source : http://www.spectrum.ieee.org/feb06/2787)

A partir de la confrontation des données empiriques de trafic pour une sélection de 28.164 pages web (dans Yahoo et Alexa) et les modèles statistiques du trafic issu respectivement de la navigation inter-sites et des moteurs de recherche, les auteurs ont découvert que les relations entre les liens entrants, le PageRank, le rang dans les moteurs et le trafic ne correspondent pas aux modèles prédictifs.

En effet, d'après eux, il faut inclure dans les modèles la sémantique du contenu et de sa prise en compte dans les moteurs de recherche. Tout en proposant un modèle mathématique d'estimation de trafic ajusté sur leurs découvertes, les auteurs indiquent qu'il sera nécessaire d'affiner les modèles théoriques actuelles du comportement des internautes et du classement des pages dans les moteurs de recherche, afin d'être plus représentatifs de l'évolution du web.

Ils concluent également sur le fait que les moteurs de recherche contribuent à la visibilité des nouveaux sites web plus largement que ce qui était jusqu'à présent envisagé.

Considérations pour le référencement

Tout en captivant le lecteur sur la démarche employée pour montrer le caractère infondé d'une " théorie " largement propagée, cet article soulève plusieurs questions par rapport au référencement.

La première concerne l'adéquation des modèles théoriques utilisés, ceux du comportement effectif des internautes et de l'estimation du rang par rapport au PageRank. Les discussions sur les algorithmes employés par les différents moteurs montrent la complexité du calcul de classement, qui ne repose évidemment pas que sur les liens entrants. Les auteurs indiquent que le PageRank correspond à un calcul global au web, alors qu'il faut envisager des aspects locaux pour la détermination du classement. Or ce problème est bien identifié par les acteurs du référencement.

L'influence la sémantique est aussi un facteur de plus en plus déterminant pour le calcul du classement des pages. L'étude réalisée, en dehors de toute connaissance des algorithmes actuels des moteurs de recherche, le mesure, et corrobore le discours des référenceurs à ce sujet.

Une autre question repose sur les modèles théoriques. Ils ne semblent pas prendre en compte l'évolution de la structure du web, même si les auteurs ont pris la précaution de vérifier la stabilité temporelle de l'homogénéité de leur échantillon pour l'analyse empirique de la relation liens entrants / trafic. Or les actions de référencement influent localement, et même globalement, sur la structure du web. Leur échantillon est-il représentatif du web ? De quel partie du web, sinon ?

Enfin, il sera intéressant de vérifier leur modèle de trafic par rapport à ceux mesurés dans le web français.



Bibliographie :
(1) @misc{fortunato-2005,
author = {Santo Fortunato and Alessandro Flammini and Filippo Menczer and Alessandro Vespignani},
title = {The egalitarian effect of search engines},
url = {http://www.citebase.org/abstract?id=oai:arXiv.org:cs/0511005},
year = {2005}
}
Seconde version édité en 2006. http://arxiv.org/abs/cs.CY/0511005

(2) @misc{ heavily-linked-googlearchy-politics,
author = "Matthew Hindman, Kostas Tsioutsiouliklis and Judy A. Johnson",
title = "Googlearchy: How a Few Heavily-Linked Sites Dominate Politics on the Web",
year="2003",
url="citeseer.ist.psu.edu/hindman03googlearchy.html",
url="citeseer.ist.psu.edu/613445.html" }

 
la revue du référencement
www.aposition.com - www.aposition.fr - www.aposition.co.uk
copyright @position 2005 - tous droits de reproduction réservés