|
|
|
 |
| étude |
Le fonctionnement des outils de recherche : la fraicheur
Octobre 2003 / @position |
|
 |
 |
I - L’âge moyen des pages dans google, altavista, alltheweb et inktomi
II - A la loupe, la « Altavista Dance »
|
|
|
|
I - L’âge moyen des pages dans google, altavista, alltheweb et inktomi |
Dans l’édition du mois de juin 2003 de la revue nous vous proposions une comparaison de la taille des base de données des principaux outils de recherche utilisés par les internautes français (voir : la taille des outils de recherche francophones)
Nous nous intéressons ce mois-ci au critère de « fraîcheur » des informations que proposent les moteurs de recherche.
Parmi tous les critères de satisfaction de l’internaute qui utilise un outil de recherche, le fait que les informations présentes dans la base soient les plus récentes possibles est un point essentiel.
Pour un gestionnaire de site ou un spécialiste du référencement, être capable de déterminer le rythme de fonctionnement d’un moteur, les dates de capture et d’apparition des pages dans les résultats est un élément essentiel pour mener une stratégie de visibilité efficace.
N’oublions pas que le critère de « fraicheur » d’une page, ou l’âge estimé d’une information ou d’une page, devient un critère de classement dans les résultats de certains outils.
La gestion de cette fraicheur est un des problèmes les plus complexes pour un moteur de recherche. La capture des pages (crawl), les calculs liés à l’indexation des documents et la publication d’une nouvelle base de données sont traités de manière différente par les principaux acteurs et cette différence est souvent sensible pour l’utilisateur.
|
|
Méthodologie de l’étude
|
Nous avons mesuré quotidiennement, du 11 août au 10 octobre 2003, le nombre de pages créées à une certaine date et présentes le jour de la mesure dans la base de données de chaque outil.
Afin de ne pas surcharger les outils de recherche avec des interrogations automatiques, nous avons limité l’étude aux pages créées dans les 250 jours précédents la date de la mesure.
A partir de ces mesures quotidiennes, nous avons calculé l’âge moyen des pages présentes. Notez bien qu’il s’agit d’une étude portant sur les nouvelles pages ajoutées dans les bases de données et non pas des mises à jour de pages existantes qui sont parfois traitées différemment.
|
|
Résultats et interprétations :
|
Depuis le 11 août, nous avons constaté les évolutions suivantes :
Google est bien l’outil de recherche qui propose les informations les plus récentes. Les pages créées dans les 250 derniers jours ont en moyenne autour de 100 jours.
Un outil de recherche hypothétique qui indexerait tous les jours le même nombre de pages, les publierait immédiatement et ne les enlèverait jamais de la base aurait un âge moyen de 125 jours.
Google est le seul outil de recherche qui propose des informations d’un âge moyen inférieur à ce comportement de référence. Cette différence indique que la durée moyenne que passe une page dans sa base sans être vérifiée est inférieure à 250 jours.
Cette courbe sur 2 mois montre aussi la disparition des ‘google dance’ tel que nous les connaissions. Les mises à jour, incomplètes mais quasi quotidiennes, apportées à la base ne provoquent plus de rupture dans l’âge moyen des pages.
Le deuxième élément marquant de cette étude concerne Altavista. Nous avons eu la chance de capturer une ‘Altavista Dance’, c'est-à-dire une mise à jour très importante de la base de données du moteur.
Autour du 21 Septembre, Altavista a intégré un très grand nombre de nouvelles pages dans sa base de données. La baisse brutale de l’âge moyen des pages indique le moment précis où cette introduction a eu lieu.
Le fait que l’âge moyen baisse de 30 jours peut indiquer un cycle mensuel, nous verrons dans la partie suivante de cette étude que ces pages avaient en majorité étés capturées en Juillet (soit 2 mois avant) ce qui explique que l’âge moyen atteint après cette mise à jour reste élévé (135 jours)
FAST/Alltheweb a un fonctionnement différent, les mises à jour sont effectuées en échangeant une partie de la base de données pour une version plus récente. Il s’agit d’une mise à jour significative mais non complète. Cette mise à jour concerne probablement entre 25% et 33% des pages.
Alltheweb a annoncé avoir dépassé la taille de l’index de google juste avant cette dernière mise à jour importante.
Inktomi est le dernier de l’étude. Il n’y a eu aucun ajout important de pages dans cet outil de recherche depuis le début de notre étude. Le dernier chargement important concerne des pages capturées au mois de Mars 2003 et au tout début du mois d’Avril.
|
|
|
| |
|
suite : La danse Altavista à la loupe >>>
|
|
|
|