Pour gérer vos consentements :
Categories: Cybersécurité

De PyPi à Stack Overflow, des secrets se perdent

Pour trouver des secrets, vaut-il mieux regarder sur PyPi ou sur Stack Overflow ? En réaction à une analyse portée sur la première option, un développeur s’est intéressé à la seconde.

Son postulat : les commits accidentels sont effectivement une source de leak, mais il en existe peut-être de « moins évidentes ».
Le « déclencheur » : sa contribution au projet Buildozer (empaquetage d’applications mobiles). Cherchant des informations sur Stack Overflow, le dev en question s’est aperçu qu’en cas d’échec d’une commande, les dumps de l’outil contenaient l’intégralité de l’environnement.

Il a donc téléchargé une archive de Stack Overflow – sous la forme d’un fichier XML de 103 Go où chaque ligne est une question ou une réponse – et l’a examiné. Méthode retenue : grep dans zsh, avec un script Rust pour la recherche, plusieurs outils n’ayant pas donné de résultats satisfaisants (erreurs mémoire avec gitleaks et detect-secrets, freeze avec ripgrep, pas d’output avec ripsecrets, etc.).

Après déduplication, le butin se présente comme suit. Les tokens AWS dominent (2897 entrées), devant la catégorie des clés privées (1569), des tokens JSON Web (1147), des clés d’API GCP (995) et des tokens de bots Telegram (283).

La plupart de ces informations sont, en tant que telles, inutiles, constate le développeur. Les tokens AWS, par exemple, prennent de la valeur lorsqu’on leur associe des URL de site. Ceux de Grafana, quand on y couple des URL d’instances. Ceux de Stripe, une fois combinés à des ID clients.

Autre limite, surtout quand on travaille sur une archive : l’ancienneté des données (« Oubliez notamment les JWT, dont la durée de vie moyenne est d’un mois. ») Illustration avec les PAT GitHub : sur les 74 semblant authentiques, uniquement six étaient valides. Et seulement avec un e-mail associé.

PyPi, autre nid à clés AWS

Au rang de ceux qui scannent régulièrement PyPi, il y a GitGuardian. L’éditeur, spécialisé dans la protection des secrets, rend notamment compte de ses trouvailles dans le cadre de son rapport annuel « The State of Secrets Sprawl ».

Récemment, il a dédié une analyse à PyPi. Bilan : quelque 57 000 occurrences de secrets trouvées sur un périmètre comprenant 450 000 projets et 5 millions de versions de packages.

Les secrets se répartissent en 151 types. GitGuardian note, entre autres tendances :

– Qu’au fil des années, le nombre de clés d’API Google a nettement augmenté.
– Que le nombre d’authentifiants de bases de données a crû en popularité en 2022.
– Que le nombre de tokens de bots Telegram valides a plus que doublé début 2021, puis connu un nouveau bond au printemps 2023.

Passé les scripts Python, les principaux emplacements des secrets valides sont des fichiers de configuration ou de documentation (généralement, JSON et yml). GitGuardian précise avoir déniche 209 secrets uniques dans des readme et 675 dans une forme de dossier « test ».

À consulter en complément :

L’art de protéger les secrets : 8 concepts essentiels pour les ingénieurs en cybersécurité
Spoofing sur GitHub : ceci n’est pas un commit Dependabot
Dans le sillage de GitHub, PyPi impose le MFA
Typosquatting de dépendances : gare à cette pratique résiduelle
Stockage sécurisé : les solutions certifiées CSPN

Illustration principale générée par IA

Recent Posts

Atos : l’Etat veut acquérir les activités souveraines

Le ministère de l'économie a adressé une lettre d'intention à la direction d'Atos pour racheter…

24 minutes ago

Arnaud Monier – SNCF Connect & Tech : « Notre moteur, c’est l’innovation et nous procédons par incrémentation »

Directeur Technologie de SNCF Connect & Tech, Arnaud Monier lance une campagne de recrutement pour…

2 heures ago

Etats-Unis : les grands de l’IT licencient au nom de l’IA

Les grands de l'IT suppriment des milliers de jobs au nom du déploiement de. Une…

3 heures ago

Appel de Rome : Cisco rejoint Microsoft et IBM pour une IA éthique

Quatre ans après l’appel de Rome - un pacte présenté en 2020 par le Vatican…

3 heures ago

Legapass : comment protéger ses données privées jusque dans l’au-delà

Comment gérer les données numériques après la mort de son détenteur ? La jeune pousse…

3 jours ago

Iris, un assistant d’IA conversationnelle en langue des signes

Ivès, expert en accessibilité de la surdité, s’est associé à Sopra Steria et à IBM…

3 jours ago