@position - SEPTEMBRE 2007
chiffres clés zoom sur... actualité études en cours... dossier
rechercher dans le site
 
faq
Les différentes formes de référencement sur les outils de recherche

inscription
votre adresse email
html texte
inscription à la revue du référencement
 
sondage
La recherche d'images, vous l'utilisez ? 
Jamais
Parfois
Souvent
 
archives
archives dossiers
archives études
archives interviews
archives chiffres clés
archives en cours
archives clin d'oeil
archives zoom
archives FAQ

Voir aussi :
La mécanique quantique au service des outils de recherche d'information. @position - Septembre 2007
Bilan de l'évolution des outils de recherche sur les trois dernières années. @position - Janvier 2005
FAQ: Le référencement et les noms de domaine @position - Juin 2004
Panorama du web français - Octobre 2004
Quel référencement pour quel site ? @position - mars 2003

version imprimable
zoom
"Spam, Damn Spam and Statistics".
Utiliser l’analyse statistique pour détecter les pages de spam.
Microsoft Research, conférence WebDB 2004
Dennis Fetterly, Marc Manasse et Marc Najork sont 3 chercheurs de Microsoft participant au projet ‘PageTurner’. Ce projet est une étude à grande échelle des évolutions des pages internet dans le temps. L’équipe a crawlé toutes les semaines 150 millions de pages et démontré que des méthodes statistiques permettent d’améliorer la réactivité d’un moteur de recherche face aux changements intervenant dans les pages web. Certaines de ces méthodes seront probablement intégrées dans le futur moteur de recherche de Microsoft.

Le 17 juin 2004 l’équipe a présenté à Paris un extrait de leur étude portant plus spécifiquement sur la détection des tentatives de spam.

L’idée à la base de cette étude est que les optimisations apportées aux pages web en vue d’en améliorer le classement doivent nécessairement introduire des différences entre ces pages et les pages ‘moyennes’. Les 3 chercheurs ont donc calculé la distribution statistique de certains critères et vérifié si les pages très éloignées de la moyenne correspondaient à des documents « optimisés ».

Au-delà des conclusions, l’étude fournit des informations sur la forme et l’organisation des pages constituant internet.

Exemple de critère étudié :
Le graphe ci-dessous représente une étude de la variation du nombre de mots dans les pages d’un site.


Sur l’axe vertical le nombre de pages de chaque site.
Sur l’axe horizontal, la variance du nombre de mots dans les pages.
Chaque point correspond donc à un site.


(source : Microsoft research)

L’ensemble des sites forme un nuage, à l’extrême gauche la zone bleue correspond à des sites qui proposent beaucoup de documents non identiques mais possédant sensiblement tous le même nombre de mots.
L’équipe démontre que cette caractéristique est un indicateur fort de spamdexing.


Conclusions de l’étude :
L’équipe identifie 5 critères qui sont autant de signes crédibles de tentative de spamdexing :

La syntaxe des urls :
Une url de page longue de plus de 45 caractères, contenant plus de 6 points, 5 tirets ou 10 chiffres est certainement une page « optimisée ».

Hébergement fortement mutualisé ou présence de nombreux sous domaines
Les serveurs hébergeant plus de 10.000 noms de domaines proposent majoritairement des pages dédiées au spamdexing.

Anomalies dans l’organisation des liens entrant et sortants
L’étude montre que les pages proposant un nombre anormal de liens sortants sont quasi systématiquement des pages destinées à tromper l’outil de recherche.
Plus surprenant, les pages possédant un trop grand nombre de liens entrants sont aussi très suspectes et la majorité d’entre elles correspondent à du spam.

Le rythme de modification des contenus
A chaque visite le moteur de recherche calcule les changements intervenus dans le contenu depuis la dernière capture. Il apparaît que les pages dont le contenu change trop souvent sont le plus souvent des pages de spam.

Duplication excessive des contenus
Pour chaque document l’outil calcule le nombre de document dont le contenu est très proche. Ces documents sont similaires mais pas nécessairement identiques.
A partir d’un certain seuil, le nombre de documents similaires identifiés est un signe crédible de spamdexing.


L’équipe suggère que des critères de ce type doivent être introduits dans les formules utilisées pour classer les sites dans les moteurs de recherche.

Texte complet de l’étude :
Spam, Damn Spam, and Statistics: Using Statistical Analysis to Locate Spam Web Pages
http://webdb2004.cs.columbia.edu/papers/1-1.pdf

 
la revue du référencement - - -
copyright @position 2006 - tous droits de reproduction réservés
contact crédits plan du site