Google victime de son filtre bayésien anti spam ?

Quel rapport entre l’évolution parfois décevante des résultats du moteur de recherche Google et le filtre anti spam bayésien ? C’est toute l’ambiguïté de la démarche commerciale des moteurs de recherche sponsorisés…

Le moteur de recherche Google, qui appartient aujourd’hui au paysage Internet, plus d’un internaute sur deux y déposant des requêtes, est d’abord victime de son succès !

Après être devenu un outil de recherche pour les hackers, en particulier avec la capacité de son robot à indexer de nombreux formats de fichiers présents sur les serveurs, et pour certains au contenu confidentiel non protégé, il est devenu un outil majeur pour les spammeurs. Les pages de résultats de Google sont en effet aujourd’hui spammées par des pages web sans intérêt particulier, sauf d’afficher des liens commerciaux ou de renvoyer vers des sites qui pratiquent l’affiliation payante. Ainsi, à chaque clic, l’auteur du site qui pratique le spam se voit rémunéré, et le visiteur ? tout comme le moteur, mais seulement jusqu’à un certain point ! – trompés. Filtrer les sites spammés Cette pratique, assimilable au spam, s’est largement répandue ces derniers mois, et participe à polluer les résultats des moteurs de recherche, à décevoir leurs clients et à dévaloriser la pertinence du moteur. Google n’est plus ce qu’il était ! Pour revenir à plus de pertinence, il faut soit nettoyer la base, tâche ardue lorsque les milliards de données sont réparties sur des dizaines de milliers de postes en architecture parallèle. D’autant qu’après la pertinence des algorithmes d’extraction et de classement des résultats, le volume de la base indexée est un argument marketing important. La solution la plus rapide et la plus simple à déployer pour écrémer les résultats semble donc d’intervenir au niveau de la requête de l’internaute, c’est-à-dire d’appliquer des filtres avant d’afficher les résultats. Le filtre bayésien a la faveur des moteurs de recherche C’est à ce niveau, celui du tri et du classement des résultats qui seront envoyés à l’internaute en réponse à sa requête, qu’interviennent les filtres bayésiens. Il s’agit en effet d’une méthode statistique avancée qui calcule la probabilité qu’un site ou une page proposé en résultat soit spammé. La méthode reste sémantique, puisqu’elle associe un ‘taux de spam’ aux mots clés de la requête de l’internaute, qu’elle compare à un ‘taux de probabilité de spam’ associé au contenu des sites indexés dans la base du moteur. Ainsi, une requête sur un mot clé unique sera ‘nettoyée’ plus largement qu’une requête associant plusieurs mots clés. Un filtre qui influe sur la pertinence des résultats La démarche est intéressante, mais le résultat laisse à désirer ! Implémenté par Google au cours du mois d’octobre 2003, le filtre bayésien anti spam a eu des répercussions dramatiques sur les résultats proposés par le moteur, faisant disparaître des sites légitimes, avec parfois l’effet inverse à celui escompté. Dans les semaines qui ont suivies, les résultats ont été améliorés, sans doute avec l’intervention manuelle des responsables de Google pour nettoyer la base. Mais la pertinence du moteur reste encore douteuse sur certaines requêtes. Nouvelle évolution majeure des algorithmes de Google à la mi novembre 2003. Cette fois, ce sont surtout des sites historiques, indexés depuis longtemps, techniquement très pertinents, et sans aucune pratique de techniques assimilables au spam, qui sont propulsés dans l’arrière boutique? Tester les résultats Comment s’assurer de l’influence du filtre bayésien sur les résultats affichés ? Google dispose d’une option qui permet de désactiver le philtre. Il suffit de placer dans la requête une commande ‘ -site:google.com ‘, qui indique au moteur de ne pas appliquer les critères proposés en mode standard, puisque la requête ne passe pas par la moulinette de filtrage de Google.com. La différence entre les résultats proposés avec ou sans filtre est généralement surprenante, et laisse planer un doute quant à l’efficacité des algorithmes bayésiens en matière de qualité d’extraction des résultats. Des sites d’une grande pertinence se trouvent relégués au fin fond des résultats proposés, et loin d’une réelle visibilité. L’ambiguïté du ratio pertinence/revenus Mais pour le moteur, la démarche reste ambiguë ! En effet, les spammeurs sont les premiers à acheter du mot clé, car ils cherchent à se positionner au mieux sur les requêtes des internautes afin d’attirer un revenu issu de l’affiliation. Le spam participe donc, sans doute largement, aux revenus générés par les liens payants, AdWords de Google ou liens sponsorisés d’Overture et eSpotting. C’est là toute l’ambiguïté de la lutte contre le spam à la source des moteurs de recherche, mais aussi des annuaires ou des portails? Car ces pratiques participent activement à leurs revenus !