 |
Dans votre étude, vous définissez une page de spamdexing comme une page créée pour tromper les outils de recherche. Concrètement, quel(s) critère(s) discriminent(s) utilisez vous pour séparer le bon grain de l'ivraie ?
Notre définition d'une page de spam est grosso modo la même que celle de Yahoo (http://help.yahoo.com/help/us/ysearch/deletions/deletions-05.html ) . Afin de vérifier nos outils heuristiques, nous effectuons un contrôle humain sur un échantillon aléatoire de pages.
Vous donnez l'impression de considérer que les pages créées uniquement pour les outils de recherche sont forcements inutiles pour les internautes. Imaginons un site Internet dont le contenu est inaccessible aux spiders des outils de recherche, pour des raisons purement techniques. Assimileriez vous toute tentative de résoudre ce problème comme une tentative de spam ?
Que proposeriez vous ?
Tant que nous continuons les vérifications humaines, cette page ne sera pas considéré comme du spam.
Votre analyse est une approche statistique du spam, fondée sur des critères relativement simples. Vots résultats montrent que des recensements qualititatifs objectifs peuvent aider à la detection du spam. Êtes vous surpris par les résultats de votre étude ? Aviez vous prévu ces resultants?
Oui, nous nous y attendions. Au cours d'études précédentes, nous avions remarqué que lors de l'application de mesures variées à des pages web, les mesures qui sortaient du lot étaient causées par des pages de spam. Cela nous a donné l'idée d'examiner la distribution statistique de quelques unes de ces mesures et d'étudier les résultats non conformes à la moyenne dans cet objectif bien précis.
Le type de mesures opérées et le périmètre de l'étude vous font supposer que la plus grande partie du spam que vous observé est généré par des outils automatiques. Etes vous aussi intéressé par le spam réalisé manuellement ?
Les expériences décrites dans l'étude sur le spam sont principalement destinées à identifier le spam automatique. Mais, évidement, nous nous intéressons aussi à des études qui identifient le spam généré manuellement.
Vos conclusions portent sur les propriétés des URLs, les relations entre adresses IP et noms de domaine, les liens hypertextes et les propriétés du contenu (notamment la fraîcheur. Avez-vous testé d'autres critères (dont les résultats auraient été trop mitigés pour être publié) ? Si non, comment avez vous choisi ces critères là ?
Les mesures statistiques que nous avons indiquées dans notre étude sont principalement celles qui nous sont venues les premières à l'esprit, le résultat d'une intuition sur les critères qui pourraient être corrélés avec le fonctionnement actuels des outils de recherches. Nous avons étudié une palette d'autres critères, mais malheureusement les résultats de ces études sont encore confidentiels.
Pour certains des critères utilisés, il n'est pas absurde de penser que ce qui peut être considéré comme la moyenne varie considérablement d'un type de sites à un autre. Par exemple, une page de 55 mots peut être considérée comme très légère dans un environnement éditorial, dans la moyenne dans un environnement institutionnel, et peut être la page la plus chargée dans un environnement de sites de photos et d'images.
Avez-vous des données qui confirment ou infirme cette intuition ? Est-ce la raison pour laquelle vous analysez la variance en fonction de l'hôte unique et non pas par rapport à l'environnement dans son ensemble ?
En effet, des sites différents peuvent avoir des caractéristiques très hétérogènes. Par exemple, les pages en .edu sont en général plus courtes que les pages des autres domaines. Ainsi, pour certaines mesures, il est intéressant de comparer la variance entre les pages d'un domaine hôte, alors que pour d'autres mesures il est plus pertinent de comparer les moyennes entre les différents domaines.
Est ce que vous pensez que certaines de vos mesures ne risquent pas d'assimiler les hébergements mutualisés à du spam?
Cela peut arriver pour quelques mesures (par exemple, certains sites de blog ont un sous domaine par utilisateur), mais il y a de nombreuses manières de lutter contre ces faux résultats. En général, nos techniques étant heuristiques, il y a toujours un risque de mauvaise classification, mais nous continuons à travailler sur la technique pour augmenter sa pertinence.
|