@position - SEPTEMBRE 2007
chiffres clés zoom sur... actualité études en cours... dossier
rechercher dans le site
 
faq
Les différentes formes de référencement sur les outils de recherche

inscription
votre adresse email
html texte
inscription à la revue du référencement
 
sondage
La recherche d'images, vous l'utilisez ? 
Jamais
Parfois
Souvent
 
archives
archives dossiers
archives études
archives interviews
archives chiffres clés
archives en cours
archives clin d'oeil
archives zoom
archives FAQ

Voir aussi :
Comment utiliser les mots cles "longue traine" pour ameliorer son roi. @position - Septembre 2007
L'effet Googlearchy @position - Janvier 2007
Google, Le retour de la sémantique @position - Avril 2005
Panorama du web français - Novembre 2004
Panorama du web français - Décembre 2004

version imprimable
étude
Le fonctionnement des outils de recherche :
La mise à jour des bases Inktomi : la "Inktomi Dance"
Novembre 2003 / @position
Le 23 Octobre 2003, les bases de données de l'outil de recherche hotbot.fr ont été mises à jour. Hotbot.fr utilise la base de données Inktomi pour afficher ses résultats. Nous avons suivi cette mise à jour et mesuré son influence sur la fraicheur moyenne des pages référencées dans l'outil

Dans l’édition du mois d'Octobre 2003 de la revue, nous avons suivi avec la même méthodologie la mise à jour de la base Altavista du 22 Septembre 2003 (voir : 'Altavista dance').

Ce mois-ci nous avons pu suivre une mise à jour importante de l'index Inktomi. Inktomi est un des plus anciens 'grossistes en urls' et compte, ou a compté, parmis ses clients les pricipaux portails internet (Lycos, Microsoft, Yahoo, AOL, ...). Yahoo est propriétaire de l'outil depuis près d'un an et peu d'informations filtrent encore sur le futur d'Inktomi.

Nous signalions le mois dernier que la base Inktomi était la base contenant le moins de pages récentes, le dernier ajout important de pages concernant des pages crées à la fin du mois de mars 2003. (voir : l'âge des pages dans les principaux outils de recherche).

Méthodologie de l’étude

La revue du référencement mesure quotidiennement le nombre de pages référencées dans les principaux outils de recherche. La méthode utilisée permet egalement de connaître la date de création des pages référencées. L'étude de ces dates permet de déterminer l'âge moyen des pages et tout changement brusque dans ces chiffres permet de détecter une mise à jour importante de la base de données.

Les deux courbes ci-dessous présentent le contenu de la base Inktomi dans les jours précédant et suivant la mise à jour. Pour chaque date (abscisse), la courbe indique le nombre de pages référencées par Inktomi qui ont été créées par le webmaster ce jour-là.

Résultats et interprétations :

Depuis le 11 août 2003, nous avons constaté les évolutions suivantes :



  • Du 11 août 2003 (date de lancement de cette étude) au 21 octobre, la courbe n'évolue pas. Les seules modifications concernent la partie droite qui est proche de zéro. Cette stabilité indique que seul un très faible nombre de pages a été ajouté à la base de données. Inktomi, comme la plupart des outils de recherche effectue une mise à jour quasi quotidienne pour un petit nombre de pages.
    Au 21 octobre, une page créée dans les 250 derniers jours a, en moyenne, un âge de 197 jours. Ce qui fait d'Inktomi le moteur de recherche le plus 'en retard' de notre étude.

  • La forme de la courbe indique que les pages ont majoritairement été créées au mois de mars 2003. Ceci permet de déduire que le dernier crawl publié par Inktomi date de cette période. En effet, lors d'une capture, l'outil de recherche rencontre statistiquement un plus grand nombre de pages datant des jours immédiatement inférieurs.
    Le crawl Inktomi a donc duré environ 1 mois, ce qui est une durée relativement longue.

  • Le 23 octobre, la forme de la courbe change radicalement : la base de données a été mise à jour. L'analyse de la courbe permet de déduire les caractéristiques de cette mise à jour.

  • La première surprise concerne la période du nouveau crawl : les pages publiées ont été créées en majorité entre mi-mai et fin juin. Au moment de la mise en ligne des nouveaux résultats, les pages concernées ont déjà plus de 4 mois.
    Inktomi a donc mis près de 4 mois pour calculer les nouveaux index et créer les nouvelles bases de données.

  • La capture des pages semble avoir duré également beaucoup plus longtemps que la précédente (environ deux mois).

  • La courbe caractéristique du précédent crawl n'a pas entièrement disparu. Ceci peut indiquer qu'Inktomi utilise la version précédente de sa base de données pour démarrer une nouvelle capture, les pages qui ne sont plus accessibles sont enlevées de l'index -après vérification- et les nouveaux liens découverts sont étudiés.

  • La fraicheur des outils de recherche en novembre 2003 :

    Cette mise à jour de la base Inktomi se retrouve sur notre étude comparative des principaux outils.
    Le graphique suivant présente une comparaison, jour après jour, de l'âge moyen des pages dans 4 outils de recherche internationaux. (voir la méthodologie)



  • Google est toujours l’outil de recherche qui propose les informations les plus récentes. Les pages créées dans les 250 derniers jours ont en moyenne 120 jours (4 mois) .
    rappel : Un outil de recherche hypothétique qui indexerait tous les jours le même nombre de pages, les publierait immédiatement et ne les enlèverait jamais de la base, aurait un âge moyen de 125 jours.
    Google est le seul outil de recherche qui propose des informations d’un âge moyen inférieur à ce comportement de référence. Cette différence indique que la durée moyenne que passe une page dans sa base sans être vérifiée, est inférieure à 250 jours.


  • La base de données de Google reste la plus fraîche mais les mises à jour sont beaucoup moins fréquentes que les mois précédents.

  • La 'danse' d'Inktomi est visible sur le comparatif car elle permet de rammener l'age moyen des pages à environ 6 mois. Inktomi reste néanmois la base de données contenant les informations les plus anciennes.

  • Les mises à jour incomplètes et plus fréquentes de FAST/Alltheweb permettent à cet outil de maintenir la fraicheur de sa base à un niveau pratiquement constant et de dépasser Altavista dont la base a vieilli d'un mois depuis la denière mise à jour.

  •  
     
    voir aussi :
    octobre 2003 : La danse Altavista à la loupe
    octobre 2003 : La fraicheur des outils de recherche
     
    la revue du référencement - - -
    copyright @position 2006 - tous droits de reproduction réservés
    contact crédits plan du site