| Dennis Fetterly, Marc
Manasse et Marc Najork sont 3 chercheurs de Microsoft
participant au projet ‘PageTurner’. Ce projet est
une étude à grande échelle des évolutions des pages
internet dans le temps. L’équipe a crawlé toutes
les semaines 150 millions de pages et démontré que
des méthodes statistiques permettent d’améliorer
la réactivité d’un moteur de recherche face aux
changements intervenant dans les pages web. Certaines
de ces méthodes seront probablement intégrées dans
le futur moteur de recherche de Microsoft. |
Le 17 juin 2004
l’équipe a présenté à Paris un extrait de leur étude portant
plus spécifiquement sur la détection des tentatives de spam.
L’idée à la base de cette étude est que les optimisations
apportées aux pages web en vue d’en améliorer le classement
doivent nécessairement introduire des différences entre ces
pages et les pages ‘moyennes’. Les 3 chercheurs ont donc
calculé la distribution statistique de certains critères
et vérifié si les pages très éloignées de la moyenne correspondaient
à des documents « optimisés ».
Au-delà des conclusions, l’étude fournit des informations
sur la forme et l’organisation des pages constituant internet.
Exemple de critère
étudié :
Le graphe ci-dessous représente une étude de la variation
du nombre de mots dans les pages d’un site.
Sur l’axe vertical le nombre de pages de chaque site.
Sur l’axe horizontal, la variance du nombre de mots dans
les pages.
Chaque point correspond donc à un site.

(source : Microsoft research)
L’ensemble des sites forme un nuage, à l’extrême gauche
la zone bleue correspond à des sites qui proposent beaucoup
de documents non identiques mais possédant sensiblement
tous le même nombre de mots.
L’équipe démontre que cette caractéristique est un indicateur
fort de spamdexing.
Conclusions de
l’étude :
L’équipe identifie 5 critères qui sont autant de signes
crédibles de tentative de spamdexing :
La syntaxe des urls :
Une url de page longue de plus de 45 caractères, contenant
plus de 6 points, 5 tirets ou 10 chiffres est certainement
une page « optimisée ».
Hébergement fortement mutualisé ou présence de nombreux
sous domaines
Les serveurs hébergeant plus de 10.000 noms de domaines
proposent majoritairement des pages dédiées au spamdexing.
Anomalies dans l’organisation des liens entrant et sortants
L’étude montre que les pages proposant un nombre anormal
de liens sortants sont quasi systématiquement des pages
destinées à tromper l’outil de recherche.
Plus surprenant, les pages possédant un trop grand nombre
de liens entrants sont aussi très suspectes et la majorité
d’entre elles correspondent à du spam.
Le rythme de modification des contenus
A chaque visite le moteur de recherche calcule les changements
intervenus dans le contenu depuis la dernière capture. Il
apparaît que les pages dont le contenu change trop souvent
sont le plus souvent des pages de spam.
Duplication excessive des contenus
Pour chaque document l’outil calcule le nombre de document
dont le contenu est très proche. Ces documents sont similaires
mais pas nécessairement identiques.
A partir d’un certain seuil, le nombre de documents similaires
identifiés est un signe crédible de spamdexing.
L’équipe suggère que des critères de ce type doivent
être introduits dans les formules utilisées pour classer
les sites dans les moteurs de recherche.
Texte complet de
l’étude :
Spam, Damn Spam, and Statistics: Using Statistical Analysis
to Locate Spam Web Pages
http://webdb2004.cs.columbia.edu/papers/1-1.pdf
|