| Vous avez été nombreux à constater des changements soudains et de grande
amplitude dans les pages de résultats de Google depuis le début du mois de mars.
Nous vous présentons une étude graphique des évolutions survenues dans la base
de données de Google du 2 mars au 17 avril.
Cette étude semble indiquer une modification importante dans le fonctionnement de
l'outil de recherche. |
page 1/4 : La toute première Yahoo-Dance
page 2/4 : La disparition de la base Altavista
page 3/4 : L'intégration des pages référencées par Alltheweb
page 4/4 : Le nouveau Google est plus frais !
|
| 1 - Google toujours
plus frais |
| La dernière Google Dance inaugure un
nouveau rythme pour les mises à jour de l'outil de recherche le plus utilisé au
monde. |
|
Le graphique ci-dessous représente le contenu de la base du moteur Google entre le
2
mars et le 16 Avril. Chaque courbe indique le nombre de pages référencées par le
moteur dont la date de création est indiquée sur l'axe horizontal.


|
- Avant le 12 mars l'évolution du contenu de la base Google correspond à
ce que nous avons l'habitude d'observer depuis l'été 2003. Vous pouvez
comparer avec l'étude réalisée sur 30 jours dans la revue de mars :
le
fonctionnement du référencement quotidien dans les principaux outils de
recherche.
- A partir du 12 mars de nombreuses pages disparaissent des résultats de
Google, c'est le phénomène observé par de nombreux webmasters. Il se
caractérise sur le graphique par la baisse rapide des courbes au fil des
jours. Il semble que Google libère de l'espace pour préparer l'ajout d'un
grand nombre de nouveaux documents.
- Simultanément de nombreuses pages sont ajoutées dans l'index de l'outil
de recherche. Ces pages apparaissent sur la partie droite du graphique.
- Au bout de 30 jours la 'signature' de la nouvelle base Google est très
différente de ce que nous avons l'habitude d'observer. Il apparaît nettement
que les documents les plus récents sont aussi les plus nombreux.
En examinant les courbes de chaque mesure nous observons les
caractéristiques suivantes :
- Certaines pages commencent à apparaître dans la base Google dès le
jour suivant leur création. Il s'agit de pages référencées dans la base
'fraîche' de Google. Dans les pages de résultats de Google elles portent une
mention de date pour indiquer cette caractéristique.
- Un nombre plus faible de pages apparaissent dans la base Google le
deuxième jour après leur création. Ceci indique que Google n'est pas en
mesure d'indexer toutes les pages mises à jour dans les 24 heures .
- Dès le troisième jour certaines pages peuvent disparaître de la
base. Elles n'ont pas eu le temps d'être référencées dans la base de données
principale ce qui indique que les pages peuvent avoir une 'durée de vie'
limitée dans la base dédiée aux documents les plus récents. Ces pages qui
disparaissent ne réintègrerons pas systématiquement dans la base principale.
- Le quatrième jour suivant leur date de création de nombreuses pages
apparaissent dans les résultats de Google. Il s'agit vraisemblablement cette
fois de pages indexées dans la base principale du moteur de recherche.
- De nombreuses pages continues à être ajoutées plus de 4 jours après leur
création.
- Google connaît le plus grand nombre de pages environ 15 jours après leur
création. Au delà de cette durée le nombre de pages référencées diminue.
- Le graphique semble indiquer que deux mises à jour successives de 15
jours ont eu lieu en environ un mois.
- Il est trop tôt pour déterminer si Google sera en mesure d'assurer la
mise à jour complète des quelques milliards de pages indexées de cette
manière. Les prochaines études de la revue se pencheront sur cette
évolution. Nous chercherons tout particulièrement à identifier combien de
bases distinctes sont utilisées pour produire ce résultat apparent de mise à
jour en 'temps réel'.
|
| 2 - La fraîcheur des
résultats de Google et Yahoo en avril |
|
Le graphique ci-dessous représente une comparaison de l'évolution de
l'age moyen des pages indexées dans les bases Yahoo et Google depuis le 1er janvier.
L'age moyen est calculé pour des pages créées durant les 250 jours précédant la
mesure.

- Depuis le 12 mars les pages de résultats de Google présentent des
résultats composés de documents de plus en plus récents. Les informations
proposées aux internautes sont donc plus fraîches.
- La différence de fonctionnement des moteurs Yahoo et Google apparaît
nettement sur ce critère. Yahoo effectue des mises à jour quasiment
complètes de sa base une fois toutes les pages capturées et l'ensemble des
index calculés.
- Au moment ou les nouveaux résultats sont proposés aux internautes, les
documents concernés sont âgés de plusieurs semaines. Même en tenant compte
de la base 'fraîche', les résultats de Yahoo sont en moyenne nettement plus
vieux que les résultats de Google au moment ou ils sont rendus publics. Le
17 avril cette différence moyenne atteint un mois et demi et l'écart
continue de se creuser.
- Dès que la nouvelle base de Yahoo est publiée, l'âge moyen des contenus
augmente.
- En réalisant une apparente mise à jour en 'temps réel', Google cherche à
proposer des résultats de recherche toujours plus pertinents et prend une
nouvelle avance sur ses concurrents.
|
|
retour : La toute première Yahoo-Dance |