Évitez pickle, préférez-lui safetensor ? Les recommandations de l’ANSSI sur l’IA générative vont dans ce sens.
Certains formats de stockage des paramètres du modèle (poids, biais…) peuvent présenter un risque d’exécution de code arbitraire, souligne l’agence. Par exemple ceux qui implémentent des fonctionnalités de chargement d’objets sérialisés. On privilégiera des formats qui séparent strictement données de paramètres et données de code exécutable… comme safetensor.
Entre autres conseils, l’ANSSI invite à ne pas mutualiser les composants GPU avec d’autres applications métier du SI. Il en va d’une logique de protection contre les fuites de données. Une mutualisation entre modèles d’IA est cependant envisageable si ces derniers correspondent à un même niveau de sensibilité et à des besoins de sécurité homogènes.
Dans le cas de la virtualisation, on s’assurera que les hyperviseurs ayant accès aux GPU soient dédiés aux systèmes d’IA. Ou, au minimum, qu’il existe une fonction de filtrage matériel (exemple : IOMMU).
Plus globalement, on cloisonnera chaque phase du système d’IA (entraînement, déploiement, production) dans un environnement dédié. L’isolation peut se faire au niveau du réseau, du système, du stockage, des comptes et des secrets. Elle est d’autant plus importante que les populations ayant accès à chaque environnement ne sont généralement pas les mêmes.
Parallèlement à ce cloisonnement, il s’agira de maîtriser les interactions du système d’IA avec d’autres applications métier. Les flux doivent :
– Être filtrés au niveau réseau, chiffrés et authentifiés
– Utiliser des protocoles sécurisés en cas d’usage d’un fournisseur d’identité
– Embarquer un contrôle des autorisations d’accès à la ressource en complément de l’authentification
– Faire l’objet d’une journalisation au niveau de granularité adéquat
Pour la journalisation à l’échelle du système d’IA, il faut bien distinguer les requêtes des utilisateurs et les données réellement envoyées au modèle. Un prétraitement peut effectivement avoir lieu, autant pour des raisons de performance que de sécurité.
On pensera à inclure, dans la journalisation, les appels à des plug-in, les recours à des données additionnels, les traitements des filtres en sortie, etc.
Il importe de prendre en compte les enjeux de confidentialité des données dès la conception du système d’IA. Mais appliquer des mesures de protection sur les données que les modèles sont amenés à manipuler peut se révéler difficile : volume possiblement très important, sources multiples parfois « mélangées » dans un même jeu, potentiel besoin de mise à jour régulière, éventuel usage lors de différentes phases du projet…
Les enjeux de confidentialité dépendent du scénario de partage de responsabilités retenu. L’ANSSI en propose un exemple, schématisé ci-dessous.
Le déploiement d’un système d’IA exposé sur Internet implique la mise en place d’une passerelle sécurisée. Avec, entre autres mesures :
– Dédier une fonction de reverse proxy avant l’accès au service web
– Mettre en place deux zones logiques pour le filtrage réseau à l’aide de pare-feu (un filtrage externe en frontal d’Internet, un interne avant l’accès au système d’IA)
– Ne pas exposer un annuaire interne de l’entité pour l’authentification sur le système d’IA
– Éviter de mutualiser sur un même hyperviseur des fonctions de sécurité distinctes de la passerelle
L’ANSSI invite à héberger les systèmes d’IA dans des « environnements de confiance cohérents avec les besoins de sécurité ». Pour les déploiements en cloud public, elle suggère l’option SecNumCloud en cas de traitement de données sensibles. Ainsi que dans le cas où l’impact du système d’IA sur le méteir est considéré comme critique. Ou que les utilisateurs ne sont pas considérés comme de confiance.
Dans l’environnement de production, l’ANSSI recommande d’éviter les méthodes d’apprentissage en continu. C’est-à-dire fondées sur les données envoyées en entrée. L’entraînement hors ligne à partir de jeux de données sélectionnés et testés réduit les risques de dysfonctionnement ou d’empoissonnement du modèle.
Quelques recommandations sont spécifiques au code source que génère l’IA. Mot d’ordre : le contrôler systématiquement. Et donc proscrire l’exécution comme le commit automatiques. Tout en vérifiant l’innocuité des bibliothèques référencées et en intégrant un outil d’assainissement dans l’environnement de développement.
Dans le même esprit, on limitera la génération de code source par IA pour des modules critiques d’applications. Parmi eux, la cryptographie et la gestion des droits d’accès. Par extension, l’ANSSI préconise de proscrire l’usage automatisé de systèmes d’IA pour des actions critiques sur le SI.
Illustration principale © Frenchiebuddha – Adobe Stock
L'expansion des centres de données pour le cloud et l'IA devrait produire 2,5 milliards de…
Un an après le lancement de ChatGPT Enterprise, OpenAI revendique 1 million de clients professionnels.
60 organismes ont travaillé à la rédaction d'un document AFNOR regroupant une trentaine de pratiques…
Incarnée par Ilya Sutskever, Safe Superintelligence Inc a réalisé une levée de fonds stratosphérique de…
Un an après OpenAI avec ChatGPT, Anthropic lance une « formule entreprise » pour Claude.…
Elasticsearch revient à l'open source non pas en réadoptant Apache 2.0, mais en proposant une…