Quand Excel embrouille la recherche en génétique

De nombreux fichiers Excel relatifs à des publications scientifiques dans la génétique sont entachés d’erreurs. La faute aux conversions automatiques opérées par le tableur et mal maîtrisées par les utilisateurs.

Mise à jour le 24/08 à 13h15

Une étude originale menée par Mark Ziemann, Yotam Eren et Assam El-Osta montre que de nombreuses publications scientifiques relatives au domaine de la génétique sont erronées, du fait de fautes répétées dans les noms des gènes évoqués.

Parmi 3597 publications étudiées, 704 – pour un total de 987 fichiers – sont touchées par de telles erreurs, soit près de 20 % ! La cause de cette épidémie est simple : l’évocation de gènes suppose souvent l’utilisation de longues listes, qui sont stockées dans un tableau. Problème, Excel confond certains noms de gènes avec des dates ou nombres classiques. Un souci que rencontrent également d’autres tableurs.

Exemple, Septin 2, connu sous le nom de SEPT2, se transforme en 2 septembre sous Excel. Il en va de même avec MARCH1, converti en 1er mars. Quant aux identifiants RIKEN utilisés dans ce secteur, ils sont eux aussi convertis par Excel. Par exemple, 2310009E13 devient 2.31E+13. De nombreux fichiers Excel liés à des publications scientifiques sont touchés par ces problèmes, faussant ainsi les données proposées par les chercheurs.

Un problème qui perdure

Ces documents étant massivement réemployés par la communauté scientifique, ces erreurs se diffusent. Un nettoyage des fichiers Excel en circulation et une meilleure formation des utilisateurs seront requis pour éliminer ce problème, qui atteint aujourd’hui une ampleur inédite. Une suite de scripts Bash est proposée sur SourceForge.net afin d’aider à détecter les erreurs dans les noms de gènes présents au sein de fichiers Excel.

« La conversion automatique des symboles de gènes en dates et nombres à virgule flottante est un aspect problématique d’Excel, expliquent les auteurs de l’étude. La description de ce problème et des solutions de contournement ont été proposées il y a plus d’une décennie. Toutefois, nous constatons que ces erreurs continuent à envahir les fichiers publiés dans la littérature scientifique. »

À lire aussi :

Office 2016 64 bits en test sur OS X
Office Insider accessible depuis la France
LibreOffice : Document Foundation et Free Software Foundation font front commun

Crédit photo : © Darren Baker – Fotolia.com