GitLab pousse son IA en local
L'infrastructure portant les fonctionnalités IA de GitLab peut désormais être hébergée sur site ou en cloud privé.

Se renseigner sur un commit spécifique ? Expliquer une vulnérabilité ? Dépanner des jobs CI/CD avec analyse de la cause racine ? Tout cela n'est pas encore disponible avec la version autohébergée de GitLab Duo.
Cette option vient de passer en disponibilité générale. Elle est accessible aux utilisateurs de GitLab Ultimate autogéré, à condition d'avoir souscrit au module Duo Enterprise. La promesse : pouvoir héberger sur site ou en cloud privé l'ensemble de l'infrastructure portant les fonctionnalités de complétion/génération de code et de chatbot.
Huit modèles, dont quatre de Mistral AI
Par "infrastructure", il faut principalement entendre trois composantes : passerelle(s), serveur(s) d'inférence et modèle(s).
La passerelle est fournie sous forme d'image Docker (un déploiement Runway est à l'étude). Une instance à 2 coeurs CPU et 8 Go de RAM peut gérer environ 40 requêtes concurrentes ; sachant qu'il est raisonnable de tabler sur 7 requêtes par seconde pour 1000 utilisateurs actifs, nous annonce-t-on.
Une passerelle peut supporter plusieurs instances GitLab tout comme on peut déployer plusieurs passerelles par instance (ou région géographique).
Lire aussi : Un modèle spécial OCR chez Mistral AI
Huit modèles sont pour le moment pris en charge pour la génération et la saisie semi-automatique de code :
- Mistral 7B Instruct 0.3 (sur vLLM)
- Codestral 22B 0.1 (sur vLLM)
- Mixtral 8x7B Instruct 0.1 (sur vLLM et Amazon Bedrock)
- Mixtral 8x22B Instruct 0.1 (sur vLLM)
- Claude 3.5 Sonnet (sur Bedrock)
- GPT-4 Turbo (sur Azure OpenAI)
- GPT-4o (sur Azure OpenAI)
- GPT-4o mini (sur Azure OpenAI)
Pour le chat, Claude 3.5 Sonnet et GPT-4o sont dits "pleinement" compatibles. Mixtral 8x7B, Mixtral 8x22B, GPT-4 Turbo et GPT-4o mini le sont "partiellement". On peut les utiliser, entre autres, pour se renseigner sur un ticket ou un epic, refactoriser ou corriger du code, écrire des tests et poser des questions sur l'usage de GitLab.
Du DeepSeek en bêta
Sept modèles sont proposés en bêta :
- CodeGemma 2b (sur vLLM, pour la saisie semi-automatique de code)
- CodeGemma 7b Instruct (sur vLLM, pour la génération de code)
- CodeGemma 7b Code (sur vLLM, pour la saisie semi-automatique)
- Code Llama 13B (sur vLLM, pour la génération)
- DeepSeek Coder 33B Instruct (sur vLLM, pour l'un et l'autre)
- DeepSeek Coder 33B Base (sur vLLM, pour la saisie semi-automatique)
- Mistral 7B Instruct 0.2 (sur vLLM et Bedrock, pour saisie semi-automatique, génération et chat)
Pour exécuter les modèles, il est nécessaire de disposer d'au moins 8 coeurs CPU (16 recommandés) et 32 Go de RAM (64 sont préférables pour la plupart). Les modèles 7B exigent au minimum 35 Go de VRAM ; le 22B, 110 Go ; Mixtral 8x7B, 220 Go ; Mixtral 8x22B, 526 Go.
Lire aussi : GPT-4.5, un grand point d'interrogation chez OpenAI
Lorsque l'instance GitLab et la passerelle sont hébergés chez le client, le logging complet des entrées et des sorties est activé. Un feature flag permet de journaliser d'autres infos comme le contexte additionnel.
Pour l'heure, GitHub ne propose pas d'option similaire (Copilot n'est d'ailleurs pas disponible sur l'édition Enterprise Server).
À consulter en complément :
DeepSeek : tour d'horizon des pays qui interdisent son utilisation
Benchmarks d'IA : quelle confiance leur accorder ?
La GenAI au travail, inhibitrice de la pensée critique ?
Les LLM souverains, une question de tokenisation ?
Les LLM sont-ils "conscients" de leurs comportements acquis ?
Quelles approches pour doter les LLM d'une mémoire à long terme ?
Fais mieux : la meilleure consigne à donner à un LLM ?
Illustration © bestforbest - Adobe Stock
Sur le même thème
Voir tous les articles Data & IA