|
|
|
 |
| étude |
Le fonctionnement des outils de
recherche :
La mise à jour des bases Inktomi : la "Inktomi Dance"
Novembre 2003 / @position |
|
 |
 |
|
Le 23 Octobre 2003, les bases de données de l'outil de recherche hotbot.fr ont
été mises à jour. Hotbot.fr utilise la base de données Inktomi pour afficher
ses résultats. Nous avons suivi cette mise à jour et mesuré son influence sur
la fraicheur moyenne des pages référencées dans l'outil |
Dans l’édition du mois d'Octobre 2003 de la revue, nous avons suivi avec la même
méthodologie la mise à jour de la base Altavista du 22 Septembre 2003 (voir :
'Altavista dance').
Ce mois-ci nous avons pu suivre une mise à jour importante de l'index Inktomi.
Inktomi est un des plus anciens 'grossistes en urls' et compte, ou a compté,
parmis ses clients les pricipaux portails internet (Lycos, Microsoft, Yahoo,
AOL, ...). Yahoo est propriétaire de l'outil depuis près d'un an et peu
d'informations filtrent encore sur le futur d'Inktomi.
Nous signalions le mois dernier que la base Inktomi était la base contenant le
moins de pages récentes, le dernier ajout important de pages concernant des
pages crées à la fin du mois de mars 2003. (voir :
l'âge des pages dans les principaux outils de recherche).
|
|
Méthodologie de l’étude
|
La revue du référencement mesure quotidiennement le
nombre de pages référencées dans les principaux outils de recherche. La
méthode utilisée permet egalement de connaître la date de création des pages
référencées. L'étude de ces dates permet de déterminer l'âge moyen des
pages et tout changement brusque dans ces chiffres permet de détecter une mise
à jour importante de la base de données.
Les deux courbes ci-dessous présentent le contenu de la base Inktomi dans les
jours précédant et suivant la mise à jour. Pour chaque date (abscisse), la
courbe indique le nombre de pages référencées par Inktomi qui ont été créées par
le webmaster ce jour-là.
|
|
Résultats et interprétations :
|
Depuis le 11 août 2003, nous avons constaté les évolutions suivantes :
Du 11 août 2003 (date de lancement de cette étude) au 21 octobre, la courbe
n'évolue pas. Les seules modifications concernent la partie droite qui est
proche de zéro. Cette stabilité indique que seul un très faible nombre de pages
a été ajouté à la base de données. Inktomi, comme la plupart des outils de
recherche effectue une mise à jour quasi quotidienne pour un petit nombre de
pages.
Au 21 octobre, une page créée dans les 250 derniers jours a, en moyenne, un âge
de 197 jours. Ce qui fait d'Inktomi le moteur de recherche le plus 'en retard'
de notre étude.
La forme de la courbe indique que les pages ont majoritairement été créées au
mois de mars 2003. Ceci permet de déduire que le dernier crawl publié
par Inktomi date de cette période. En effet, lors d'une capture, l'outil de
recherche rencontre statistiquement un plus grand nombre de pages datant des
jours immédiatement inférieurs.
Le crawl Inktomi a donc duré environ 1 mois, ce qui est une durée relativement
longue.
Le 23 octobre, la forme de la courbe change radicalement : la base de données a
été mise à jour. L'analyse de la courbe permet de déduire les caractéristiques
de cette mise à jour.
La première surprise concerne la période du nouveau crawl : les pages publiées
ont été créées en majorité entre mi-mai et fin juin. Au moment de la mise en
ligne des nouveaux résultats, les pages concernées ont déjà plus de 4 mois.
Inktomi a donc mis près de 4 mois pour calculer les nouveaux index et créer les
nouvelles bases de données.
La capture des pages semble avoir duré également beaucoup plus longtemps que la
précédente (environ deux mois).
La courbe caractéristique du précédent crawl n'a pas entièrement disparu. Ceci
peut indiquer qu'Inktomi utilise la version précédente de sa base de données
pour démarrer une nouvelle capture, les pages qui ne sont plus accessibles sont
enlevées de l'index -après vérification- et les nouveaux liens découverts sont
étudiés.
|
|
La fraicheur des outils de recherche en novembre 2003 :
|
Cette mise à jour de la base Inktomi se retrouve sur notre étude comparative
des principaux outils.
Le graphique suivant présente une comparaison, jour après jour, de l'âge moyen
des pages dans 4 outils de recherche internationaux. (voir
la méthodologie)
Google est toujours l’outil de recherche qui propose les informations les plus
récentes. Les pages créées dans les 250 derniers jours ont en moyenne 120 jours
(4 mois) .
rappel : Un outil de recherche hypothétique qui indexerait tous les jours
le même nombre de pages, les publierait immédiatement et ne les enlèverait
jamais de la base, aurait un âge moyen de 125 jours.
Google est le seul outil de recherche qui propose des informations d’un âge
moyen inférieur à ce comportement de référence. Cette différence indique que la
durée moyenne que passe une page dans sa base sans être vérifiée, est inférieure
à 250 jours.
La base de données de Google reste la plus fraîche mais les mises à jour sont
beaucoup moins fréquentes que les mois précédents.
La 'danse' d'Inktomi est visible sur le comparatif car elle permet de rammener
l'age moyen des pages à environ 6 mois. Inktomi reste néanmois la base de
données contenant les informations les plus anciennes.
Les mises à jour incomplètes et plus fréquentes de FAST/Alltheweb permettent à
cet outil de maintenir la fraicheur de sa base à un niveau pratiquement
constant et de dépasser Altavista dont la base a vieilli d'un mois depuis la
denière mise à jour.
|
|
|
| |
voir aussi :
octobre 2003 : La danse Altavista à la loupe
|
|
octobre 2003 : La fraicheur des
outils de recherche
|
|
|
|