Arctic Vault : GitHub a-t-il archivé des données indésirables ?

GitHub Arctic Vault archivage données médicales

Que contient vraiment l’Arctic Vault de GitHub ? Au-delà du code, probablement au moins des données médicales confidentielles.

Qu’y a-t-il exactement dans l’Arctic Vault de GitHub ? Peut-être pas forcément ce qui aurait dû s’y trouver. Notamment des données médicales confidentielles.

L’Arctic Vault est la première incarnation* du programme de préservation du code open source GitHub Archive, lancé en novembre 2019. L’initiative a consisté à capturer, le 2 février 2020, un instantané des dépôts publics actifs sur la plate-forme. Puis à stocker l’ensemble sur du film photosensible destiné à l’archivage longue durée (un millier d’années en l’occurrence).

L’ensemble est entreposé dans l’Arctic World Archive. Celle-ci se situe à 250 m de profondeur, dans une ancienne mine de charbon, sur l’île norvégienne de Spitzberg. Une quarantaine de pays reconnaissent l’endroit comme une zone démilitarisée. On y abrite du patrimoine depuis 2017, des manuscrits du Vatican aux toiles de Rembrandt.

Il n’est pas certain que les données médicales en question aient bel et bien fait l’objet d’un archivage. Mais la probabilité est grande. Ne serait-ce que du point de vue temporel. D’après les chercheurs qui les ont détectées, ces informations personnelles (noms, adresses postales, dates de naissance, bilans de santé, numéros de sécurité sociale…) étaient apparues sur des dépôts publics au plus tard en septembre 2019. Et leur suppression n’était intervenue qu’en décembre 2020.

L'Arctic Vault, beaucoup plus que du code ?

À la racine du problème, il y a Med-Data. Cette entreprise américaine fournit au secteur de la santé des solutions de gestion financière. La publication des données sur GitHub serait le fait d'un ancien employé qui aurait sauvegardé ses dossiers personnels.

Sollicité à partir du 8 décembre 2020, Med-Data avait commencé à donner réponse le surlendemain. Il vient tout juste de faire une déclaration publique. Et d'envoyer un courrier aux individus potentiellement concernés. Les clients, eux, sont au courant depuis début février. Memorial Hermann, OSF Healthcare et le centre médical de l'université de Chicago font partie de ceux qui ont relayé l'alerte. La liste complète laisse suggérer que le problème est circonscrit à l'Amérique du Nord.

Med-Data a pris contact avec GitHub pour tenter d'obtenir des journaux d'archivage et discuter d'un éventuel retrait des données. On ignore la tournure des négociations. Officiellement, toute donnée archivée doit le rester. En tout cas au moins pour cinq ans, intervalle auquel GitHub compte réévaluer son programme... et éventuellement capturer d'autres instantanés. Tous ces snapshots ont par ailleurs un statut spécifique vis-à-vis du RGPD, nous explique-t-on.

L'Arctic Vault est censé contenir les dépôts publics qui :

  • Avaient fait l'objet d'au moins un commit depuis le 13 novembre 2019 (date d'annonce du programme)
  • Associaient au moins une étoile et un commit depuis le 2 février 2019
  • Avaient au moins 250 étoiles

* Autre démarche réalisée dans le cadre de GitHub Archive : l'archivage des projets les plus populaires. Également sur du film photosensible, mais mis dans des boîtes qu'on trouve - en double exemplaire - dans quatre lieux :

  • la bibliothèque Bodléienne de l'université d'Oxford (Royaume-Uni) ;
  • celle d'Alexandrie (Égypte) ;
  • celles de l'université de Stanford (Californie) ;
  • et le siège social de GitHub (Californie également).

Illustration principale (archipel du Svalbard) © kenyaiCC BY-NC-ND 2.0