AI Act : des exigences de documentation des modèles prennent forme
Le code de bonnes pratiques destiné à accompagner la mise en application des obligations de l'AI Act approche de sa version finale. Un formulaire de documentation des modèles y a été inclus.

Combien de "jours hardware" pour l'entraînement ?
Le code de bonnes pratiques associé à l'AI Act inclura peut-être cette question à l'adresse des fournisseurs de modèles d'IA à usage général.
Le document est censé constituer, pour ce public, un moyen de mettre en application les principales obligations du règlement. Il est actuellement à l'état de brouillon (l'Union européenne compte le finaliser pour le 2 mai 2025. Y sont consignés 18 engagements, dont 16 concernent uniquement les fournisseurs de modèles présentant un risque systémique. Les deux autres sont applicables à tout fournisseur de modèle à usage général. L'un porte sur la mise en place d'une politique de copyright. L'autre, sur la mise à disposition d'une documentation à l'attention de trois destinataires. En l'occurrence, le Bureau de l'IA, les autorités nationales compétentes et les fournisseurs dits "aval" ; c'est-à-dire ceux qui intègrent les modèles en question dans des systèmes d'IA.
Des éléments de documentation réservés au Bureau de l'IA
Pour faciliter l'exercice de documentation, le code de bonnes pratiques comprend un formulaire. On y retrouve les éléments dont l'AI Act impose la communication (article 53 + annexes XI et XII)... avec un soupçon de granularité supplémentaire. En particulier sur trois informations que les fournisseurs devront tenir à disposition du Bureau de l'IA, mais pas forcément des autorités nationales (alors que le règlement met ces deux catégories de destinataires sur le même plan).
Lire aussi : IA et propriété intellectuelle : la vision du Cigref
Parmi ces informations, il y a donc le nombre de "jours hardware". Un indicateur qui s'exprimera, par exemple, sous la forme "4 x 105 jours NVIDIA A100 + 2 x 105 jours NVIDIA H100". Aux autorités nationales, les fournisseurs pourront se contenter de communiquer un nombre de jours calendaires.
Autre indicateur qui pourra être transmis uniquement au Bureau de l'IA : la taille totale du modèle. Aux autorités nationales comme d'ailleurs aux fournisseurs aval, il sera possible de ne communiquer qu'une fourchette du nombre de paramètres (1 à 500 millions, 500 millions à 5 milliards, 5 à 15 milliards, etc.).
Le troisième élément "réservé" au Bureau de l'IA n'est à fournir que pour les modèles qui présentent un risque systémique. Il s'agit d'une description détaillée de l'architecture. Pour les autres, le formulaire n'impose qu'une description générale.
Certains éléments ne se destineront au contraire qu'aux fournisseurs aval. Entre autres, la taille d'entrée pour chaque modalité, les moyens techniques nécessaires à l'intégration, le hardware et le software requis, ainsi que les types ou catégories de licences sous lesquelles le modèle pourrait être mis à leur disposition.
Dans tous les cas, après une mise à jour de la documentation, il faudra conserver les anciennes versions pendant 10 ans après la mise sur le marché du modèle.
En matière de copyright, le code impose notamment de ne pas contourner les mesures techniques de type paywall lors du minage de données sur Internet. Et à faire des "efforts raisonnables" pour exclure les sites pirates (l'UE prévoit de publier une liste de domaines). Tout en se rapprochant des détenteurs de droits dans l'optique de standardiser des protocoles de déclaration de droits réservés.
À consulter en complément :
Trois associations professionnelles françaises attaquent Meta pour non-respect du droit d'auteur
IA et propriété intellectuelle : la vision du Cigref
AI Act : la Commission européenne tente de clarifier les usages interdits
Comment les techniques d'attaque sur l'IA évoluent
Illustration générée par IA
Sur le même thème
Voir tous les articles Data & IA