Pour gérer vos consentements :
Categories: Data & Stockage

Arctic Vault : GitHub a-t-il archivé des données indésirables ?

Qu’y a-t-il exactement dans l’Arctic Vault de GitHub ? Peut-être pas forcément ce qui aurait dû s’y trouver. Notamment des données médicales confidentielles.

L’Arctic Vault est la première incarnation* du programme de préservation du code open source GitHub Archive, lancé en novembre 2019. L’initiative a consisté à capturer, le 2 février 2020, un instantané des dépôts publics actifs sur la plate-forme. Puis à stocker l’ensemble sur du film photosensible destiné à l’archivage longue durée (un millier d’années en l’occurrence).

L’ensemble est entreposé dans l’Arctic World Archive. Celle-ci se situe à 250 m de profondeur, dans une ancienne mine de charbon, sur l’île norvégienne de Spitzberg. Une quarantaine de pays reconnaissent l’endroit comme une zone démilitarisée. On y abrite du patrimoine depuis 2017, des manuscrits du Vatican aux toiles de Rembrandt.

Il n’est pas certain que les données médicales en question aient bel et bien fait l’objet d’un archivage. Mais la probabilité est grande. Ne serait-ce que du point de vue temporel. D’après les chercheurs qui les ont détectées, ces informations personnelles (noms, adresses postales, dates de naissance, bilans de santé, numéros de sécurité sociale…) étaient apparues sur des dépôts publics au plus tard en septembre 2019. Et leur suppression n’était intervenue qu’en décembre 2020.

L’Arctic Vault, beaucoup plus que du code ?

À la racine du problème, il y a Med-Data. Cette entreprise américaine fournit au secteur de la santé des solutions de gestion financière. La publication des données sur GitHub serait le fait d’un ancien employé qui aurait sauvegardé ses dossiers personnels.

Sollicité à partir du 8 décembre 2020, Med-Data avait commencé à donner réponse le surlendemain. Il vient tout juste de faire une déclaration publique. Et d’envoyer un courrier aux individus potentiellement concernés. Les clients, eux, sont au courant depuis début février. Memorial Hermann, OSF Healthcare et le centre médical de l’université de Chicago font partie de ceux qui ont relayé l’alerte. La liste complète laisse suggérer que le problème est circonscrit à l’Amérique du Nord.

Med-Data a pris contact avec GitHub pour tenter d’obtenir des journaux d’archivage et discuter d’un éventuel retrait des données. On ignore la tournure des négociations. Officiellement, toute donnée archivée doit le rester. En tout cas au moins pour cinq ans, intervalle auquel GitHub compte réévaluer son programme… et éventuellement capturer d’autres instantanés. Tous ces snapshots ont par ailleurs un statut spécifique vis-à-vis du RGPD, nous explique-t-on.

L’Arctic Vault est censé contenir les dépôts publics qui :

  • Avaient fait l’objet d’au moins un commit depuis le 13 novembre 2019 (date d’annonce du programme)
  • Associaient au moins une étoile et un commit depuis le 2 février 2019
  • Avaient au moins 250 étoiles

* Autre démarche réalisée dans le cadre de GitHub Archive : l’archivage des projets les plus populaires. Également sur du film photosensible, mais mis dans des boîtes qu’on trouve – en double exemplaire – dans quatre lieux :

  • la bibliothèque Bodléienne de l’université d’Oxford (Royaume-Uni) ;
  • celle d’Alexandrie (Égypte) ;
  • celles de l’université de Stanford (Californie) ;
  • et le siège social de GitHub (Californie également).

Illustration principale (archipel du Svalbard) © kenyai / CC BY-NC-ND 2.0

Recent Posts

Apple répond à l’épisode Pegasus avec un « mode isolement »

Apple intègre à la bêta d'iOS un « mode isolement » optionnel qui restreint les…

14 minutes ago

IBM acquiert Databand.ai : de la data quality à l’observabilité des données ?

Data quality ou « observabilité des données » ? IBM préfère le second terme pour…

2 heures ago

Cybersécurité : la Cnil met les collectivités face à leurs responsabilités

La Cnil adresse une forme de rappel à l'ordre aux collectivités territoriales en matière de…

4 heures ago

Bug Bounty : le Pentagone s’offre (encore) les services de hackers

Six ans après son premier bug bounty, le Département de la défense des Etats-Unis lance…

18 heures ago

Typosquatting de dépendances : gare à cette pratique résiduelle

Des chercheurs attirent l'attention sur une campagne de diffusion de code malveillant par l'intermédiaire de…

21 heures ago

Salaires IT : à qui profite le dégel des rémunérations ?

La part des cadres de la fonction informatique qui bénéficient d'une hausse de rémunération retrouve…

22 heures ago