Pour gérer vos consentements :
Categories: Régulations

Google victime de son filtre bayésien anti spam ?

Le moteur de recherche Google, qui appartient aujourd’hui au paysage Internet, plus d’un internaute sur deux y déposant des requêtes, est d’abord victime de son succès !

Après être devenu un outil de recherche pour les hackers, en particulier avec la capacité de son robot à indexer de nombreux formats de fichiers présents sur les serveurs, et pour certains au contenu confidentiel non protégé, il est devenu un outil majeur pour les spammeurs. Les pages de résultats de Google sont en effet aujourd’hui spammées par des pages web sans intérêt particulier, sauf d’afficher des liens commerciaux ou de renvoyer vers des sites qui pratiquent l’affiliation payante. Ainsi, à chaque clic, l’auteur du site qui pratique le spam se voit rémunéré, et le visiteur ? tout comme le moteur, mais seulement jusqu’à un certain point ! – trompés. Filtrer les sites spammés Cette pratique, assimilable au spam, s’est largement répandue ces derniers mois, et participe à polluer les résultats des moteurs de recherche, à décevoir leurs clients et à dévaloriser la pertinence du moteur. Google n’est plus ce qu’il était ! Pour revenir à plus de pertinence, il faut soit nettoyer la base, tâche ardue lorsque les milliards de données sont réparties sur des dizaines de milliers de postes en architecture parallèle. D’autant qu’après la pertinence des algorithmes d’extraction et de classement des résultats, le volume de la base indexée est un argument marketing important. La solution la plus rapide et la plus simple à déployer pour écrémer les résultats semble donc d’intervenir au niveau de la requête de l’internaute, c’est-à-dire d’appliquer des filtres avant d’afficher les résultats. Le filtre bayésien a la faveur des moteurs de recherche C’est à ce niveau, celui du tri et du classement des résultats qui seront envoyés à l’internaute en réponse à sa requête, qu’interviennent les filtres bayésiens. Il s’agit en effet d’une méthode statistique avancée qui calcule la probabilité qu’un site ou une page proposé en résultat soit spammé. La méthode reste sémantique, puisqu’elle associe un ‘taux de spam’ aux mots clés de la requête de l’internaute, qu’elle compare à un ‘taux de probabilité de spam’ associé au contenu des sites indexés dans la base du moteur. Ainsi, une requête sur un mot clé unique sera ‘nettoyée’ plus largement qu’une requête associant plusieurs mots clés. Un filtre qui influe sur la pertinence des résultats La démarche est intéressante, mais le résultat laisse à désirer ! Implémenté par Google au cours du mois d’octobre 2003, le filtre bayésien anti spam a eu des répercussions dramatiques sur les résultats proposés par le moteur, faisant disparaître des sites légitimes, avec parfois l’effet inverse à celui escompté. Dans les semaines qui ont suivies, les résultats ont été améliorés, sans doute avec l’intervention manuelle des responsables de Google pour nettoyer la base. Mais la pertinence du moteur reste encore douteuse sur certaines requêtes. Nouvelle évolution majeure des algorithmes de Google à la mi novembre 2003. Cette fois, ce sont surtout des sites historiques, indexés depuis longtemps, techniquement très pertinents, et sans aucune pratique de techniques assimilables au spam, qui sont propulsés dans l’arrière boutique? Tester les résultats Comment s’assurer de l’influence du filtre bayésien sur les résultats affichés ? Google dispose d’une option qui permet de désactiver le philtre. Il suffit de placer dans la requête une commande ‘ -site:google.com ‘, qui indique au moteur de ne pas appliquer les critères proposés en mode standard, puisque la requête ne passe pas par la moulinette de filtrage de Google.com. La différence entre les résultats proposés avec ou sans filtre est généralement surprenante, et laisse planer un doute quant à l’efficacité des algorithmes bayésiens en matière de qualité d’extraction des résultats. Des sites d’une grande pertinence se trouvent relégués au fin fond des résultats proposés, et loin d’une réelle visibilité. L’ambiguïté du ratio pertinence/revenus Mais pour le moteur, la démarche reste ambiguë ! En effet, les spammeurs sont les premiers à acheter du mot clé, car ils cherchent à se positionner au mieux sur les requêtes des internautes afin d’attirer un revenu issu de l’affiliation. Le spam participe donc, sans doute largement, aux revenus générés par les liens payants, AdWords de Google ou liens sponsorisés d’Overture et eSpotting. C’est là toute l’ambiguïté de la lutte contre le spam à la source des moteurs de recherche, mais aussi des annuaires ou des portails? Car ces pratiques participent activement à leurs revenus !

Recent Posts

ChatGPT : le Financial Times signe avec OpenAI

FT Group, éditeur du Financal Times, a signé un accord avec OpenAI afin d'utiliser ses…

2 jours ago

Les hyperscalers renforcent leurs recherches et datacenters pour l’IA

Au premier trimestre, Microsoft, Meta/Facebook et Alphabet/Google ont déjà investi plus de 32 milliards $…

2 jours ago

Cybersécurité : Darktrace dans l’escarcelle de Thoma Bravo

La société britannique de cybersécurité Darktrace a accepté une offre de rachat de 5,32 milliards…

2 jours ago

Étude Trends of IT 2024 : comment les managers IT développent leurs projets

Silicon et KPMG lancent la deuxième édition de l'étude Trends of IT. Cette édition 2024…

2 jours ago

Atos : l’Etat veut acquérir les activités souveraines

Le ministère de l'économie a adressé une lettre d'intention à la direction d'Atos pour racheter…

3 jours ago

Arnaud Monier – SNCF Connect & Tech : « Notre moteur, c’est l’innovation et nous procédons par incrémentation »

Directeur Technologie de SNCF Connect & Tech, Arnaud Monier lance une campagne de recrutement pour…

3 jours ago