Linkedin s’attaque aux « méchants » robots du web

« Entre décembre 2015 et aujourd’hui, des inconnus et/ou entités employant divers logiciels automatisés (souvent appelés « bots ») ont extrait et copié les données de plusieurs pages LinkedIn. Pour accéder à ces informations […], ces inconnus ont contourné plusieurs techniques de LinkedIn visant à empêcher la récupération automatisée en masse, et ont sciemment et volontairement violé diverses restrictions d’accès et d’utilisation spécifiées dans le contrat d’utilisation de LinkedIn […]. Ce faisant, ils ont violé une série de lois fédérales et étatiques, y compris la Loi sur les fraudes informatiques et les actes abusifs (la CFAA, NDLR). » C’est notamment en ces termes que LinkedIn argumente la plainte qu’il a déposée le 8 août dernier devant un tribunal de San Jose en Californie. Le réseau social entend ainsi poursuivre une centaine d’individus ou entités accusés de récolter illégalement des profils d’utilisateurs sur sa plate-forme.

Pour l’heure, l’identité de ces « scrapers » reste inconnue. Mais le réseau social, qui revendique quelque 433 millions de membres actifs (dont 105 millions très actifs), espère obtenir du futur procès, s’il a lieu, la possibilité de demander l’identification par le tribunal des utilisateurs ou entreprises qui se cachent derrière les adresses IP derrière lesquelles se cachent ces aspirateurs de données. Une manière de préserver son emprise sur les CV de ses membres.

Des barrières volontairement contournées

Pour justifier sa démarche, l’entreprise de mise en relations de professionnels insiste sur le fait que les robots contournent volontairement les barrières mises en place pour récupérer les données. Linkedin a développé plusieurs outils, FUSE, Quicksand et Sentinel, qui limitent notamment le nombre de profils visités dans un temps donné et bloquent les adresses IP suspectes (avec l’outil Org Block).

Paradoxalement, la plate-forme sociale ne cherche pas à interdire l’accès aux robots des moteurs de recherche légitimes, à commencer par Google, afin d’indexer ses contenus et lui offrir une plus grande visibilité sur le Net. « LinkedIn dresse une liste blanche d’un certain nombre de fournisseurs de services populaires et de bonne réputation, les moteurs de recherche et d’autres plates-formes, afin de leur permettre d’interroger et d’indexer le site, sans être soumis à toutes ces mesures de sécurité », précise dans sa plainte le fournisseur du service récemment acquis par Microsoft (pour 23,3 milliards d’euros).

Distinguer les gentils des méchants robots

Reste à savoir comment Linkedin distingue les « gentils » scrapers (autrement dit ceux qui peuvent lui donner de la visibilité) des « méchants » (ceux qui exploitent les données sans retour de bénéfices). D’autant que, selon TechCrunch, la plainte ne précise pas quels usages sont faits des données considérées comme dérobées illégalement. De fait, la démarche de Linkedin pourrait aussi bien viser les cybercriminels (qui exploiteraient les données pour préparer des attaques par ingénierie sociale) qu’un éventuel concurrent ou encore un projet comme ICwatch, initiative Open Source de Transparency Toolkit pour collecter et analyser les profils des personnes travaillant dans le secteur du renseignement. Ce projet pioche ses données dans les bases de LinkedIn, d’Indeed et autres sources publiques.

Autant de questions que devra étudier la Justice californienne pour recevoir, ou non, la plainte. Des cas précédents de poursuites sur la base de la CFAA, chez Craiglist (contre 3Taps) ou Facebook (contre Power Ventures), ont été jugés recevables. Linkedin pourrait dont entrer dans cette catégorie et bénéficier de la procédure judiciaire qui permettra, dans un premier temps, d’identifier les utilisateurs qui violent les conditions d’utilisation du réseau social.

Au-delà de cette affaire propre à l’entreprise de Mountain View, l’usage des robots qui parcourent le web de page en page pour collecter des données comme pour générer du trafic artificiel reste problématique. Selon Imperva Incapsula, les ‘bots’ sont responsables de 48,5% du trafic web en 2015. Dont 29% est issu de « mauvais » robots, et 19,5% seulement de « bons » bots. Si l’usage des agents automatisés malicieux reste constant d’année en année (autour de 30%), les visites de pages web par des humains ont repris du poil de la bête pour dépasser les 50% l’an dernier, selon la société spécialisé dans la sécurisation des pages et applications web. Un constat qui ne s’était pas vu depuis au moins 2012.

Lire également

Des millions de comptes Twitter à risque après le piratage de Linkedin
LinkedIn s’affiche au plus haut, avant de basculer chez Microsoft
LinkedIn renforce son profil Social Selling avec PointDrive