Journée Recherche SIF – Reproductibilité

Shares

Reproductibilité de la recherche

10 mai 2021 – En visio-conférence

Ressources de la journée

Programme

Matin

  • 9h — Accueil et présentation de la journée
  • 9h15 — Mot du président de la SIF
  • 9h30 — « La Recherche Reproductible : C’est quoi ? Pourquoi en faire ? Comment ? » (Vidéo C. POUZAT)

    Christophe Pouzat, IRMA, Université de Strasbourg et CNRS

    • La présentation commencera par un court historique de la (des) pratique(s) que désigne la « recherche reproductible ». Seront présentés ensuite certains des outils qui ont permis à l’orateur de la pratiquer concrètement depuis 2005. Seront exposés enfin les gains considérables que cette pratique permet dans le cadre de projets impliquant des chercheurs de plusieurs disciplines.
    • Christophe Pouzat est chercheur CNRS à l’IRMA de Strasbourg. Il est neurophysiologiste et travaille sur l’analyse de données. La recherche reproductible lui permet une communication explicite avec les expérimentateurs, ce qui évite bien des erreurs.

  • 10h — « Archiver et référencer le code source des logiciels de recherche pour la Science Ouverte et la Reproductibilité » (Vidéo de R. DI COSMO)

    Roberto Di Cosmo, Software Heritage, Inria et Irif, Université Paris Diderot

    • Le logiciel est un pilier fondamental de la recherche scientifique moderne, et il est primordial d’archiver et de référencer correctement les code source du logiciel utilisé dans toutes les activités de recherche. Dans cette présentation, nous montrerons comment utiliser l’infrastructure Software Heritage pour archiver de façon transparente tous le code source des logiciels et comment obtenir et utiliser les identifiants intrinsèques, spécialement conçus pour le code source des logiciels, qui sont nécessaires pour référencer le code source d’une manière qui facilite la reproductibilité à long terme. Des pointeurs vers des guides détaillés seront fournis.
    • Ancien élève de la Scuola Normale Superiore de Pise, Roberto Di Cosmo a obtenu son doctorat en Informatique à l’Université de Pisa. Après avoir enseigné plusieurs années à l’Ecole Normale Supérieure de Paris, il est devenu Professeur d’Informatique à l’Université Paris Diderot, où il a été directeur adjoint pour l’Informatique dans l’école doctorale ED 386 de 2005 à 2009. Membre du conseil scientifique et du conseil d’administration d’IMDEA Software, membre du comité d’orientation pour la Science Ouverte en France, il est actuallement detaché chez Inria. Suivant de près l’impact de l’Informatique sur la société, il prone depuis longtemps l’adoption du Logiciel Libre, notamment à partir de la publication de son best-seller Le Hold-Up Planétaire en 1998; plus récemment, il s’est intéressé aux questions soulevées par la problématique de la rémuneration des artistes à l’ère d’Internet, avec l’ouvrage Manifeste Pour Une Création Artistique Libre Dans Un Internet Libre. Il a créé le Groupe Thématique Logiciel Libre dans le Pole de compétitivié Systematic à Paris, qui a financé plus de 40 projets de R&D depuis 2007, et il dirige depuis 2010 l’IRILL, une structure de recherche de pointe sur le Logiciel Libre. En 2015, il a été à l’origine de Software Heritage, une initiative qui vise à construire l’archive universelle de tout le code source publiquement disponible, en partenariat avec l’UNESCO.

  • 10h30 — « La reproductibilité des calculs coûteux » (Vidéo de K. HINSEN)

    Konrad Hinsen, Centre de Biophysique Moléculaire, CNRS Orléans

    • Comment assurer ou vérifier la reproductibilité d’un calcul qui occupe un centre de calcul pendant trois semaines ? Comment faire si des contraintes techniques nous obligent à exécuter chaque étape d’un calcul sur un autre ordinateur ? Voici quelques questions auxquelles les outils standard pour la recherche reproductible n’ont pas de réponses. Je vais résumer comment le projet ActivePapers a tenté de relever ces défis, et avec quel degré de succès.
    • Konrad Hinsen, est chercheur en biophysique. Travaille sur la structure et dynamique des protéines avec les méthodes de la simulation moléculaire. Auteur de plusieurs bibliothèques scientifiques en Python. Membre fondateur du projet NumPy. Enseignant pour Software Carpentry. Co-auteur d’un MOOC sur la recherche reproductible.

  • 11h — « La randomisation, une solution aux difficultés de reproductibilité de mesures de performances de processeurs modernes ? » (Vidéo de A. LEGRAND)

    Arnaud Legrand, LIG, Université de Grenoble-Alpes

    • Lorsque l’on parle de problèmes de reproductibilité de la recherche, on met souvent en avant des problèmes de provenance, de manque contrôle du logiciel et de son environnement, de problèmes de stabilité numérique ou encore des difficultés liés à un mauvais usage des statistiques. Les aspects mesures et expériences sont souvent assez peu évoqués, peut-être car les difficultés expérimentales sont un problème ancien et déjà assez bien cerné pour un certain nombre de disciplines (physique, biologie, …). Ce n’est pas forcément le cas en informatique qui est une science relativement jeune. Je reviendrai donc sur ce point en m’intéressant aux processeurs modernes qui sont des objets complexes avec des hiérarchies de caches au comportement parfois opaque, aux stratégies de vectorisation et de réordonnancement dynamique d’instruction obscures, dont la fréquence varie au cours du temps pour s’adapter à la charge de travail et à la température du processeur, etc. Dans ces conditions, effectuer des mesures « fiables » peut vite devenir assez difficile et obtenir des comportement « similaires » entre deux machines supposées identiques, voire sur la même machine à deux périodes différentes peut être un véritable casse-tête. Il convient alors d’adopter des plans d’expériences robustes permettant de se prémunir de ces problèmes ou de les identifier. Je présenterai quelques « histoires d’horreur » et les limitations potentielles de la randomisation dans ce contexte.
    • Arnaud Legrand est chercheur au CNRS à l’Université de Grenoble depuis 2004. Ses recherches portent sur l’étude des infrastructures informatiques distribuées à grande échelle utilisées pour le calcul scientifique. Cela recouvre les questions d’optimisation liées à l’exploitation de ces plateformes (ordonnancement, optimisation combinatoire, théorie des jeux) et les techniques d’évaluation de performance (simulation, visualisation, analyse statistique). Il est l’un des concepteurs du projet SimGrid, un outil de simulation open source dont le but est de faciliter la recherche dans le domaine de l’optimisation des systèmes parallèles et distribués. Depuis 5 ans, il participe à la promotion de meilleures pratiques expérimentales et à l’amélioration de la méthodologie scientifique à travers des tutoriels, des conférences, des cours, et un MOOC sur la recherche reproductible.

Après-midi

  • 14h — « Reproductibilité computationnelle en sciences de la vie et workflows scientifiques : état-des lieux et retour d’expérience » (Vidéo de S. COHEN-BOULAKIA)

    Sarah Cohen-Boulakia, LISN, Université Paris-Saclay

    • Cette présentation dresse le bilan des travaux du groupe de travail ReproVirtuFlow du GDR MaDICS qui s’intéresse à la reproductibilité des analyses de données bioinformatiques. De nombreux outils et familles de solutions existent aujourd’hui pour tendre vers une meilleure reproductibilité computationnelle des résultats bioinformatiques. Nous avons testés ces outils dans le cadre de l’organisation de Reprohackathons, hackathons dont l’objectif est de reproduire un résultat publié. Nos retours d’expérience sont multiples et comportent notamment la définition de différents niveaux de reproductibilité d’une analyse et l’identification de caractéristiques clés des outils existants vis-à-vis de leur capacité à reproduire des résultats.
    • Sarah Cohen-Boulakia est professeur à l’Université Paris-Saclay dans l’équipe Bioinformatique du Laboratoire Interdisciplinaire des Sciences du Numérique (LISN). Elle est directrice du GDR MaDICS. Son domaine d’expertise porte sur la reproductibilité des analyses bioinformatiques et en particulier sur la provenance dans les workflows scientifiques. Elle s’intéresse plus généralement à l’intégration et l’interrogation de données biologiques.

  • 14h30 — « Archiver, identifier, décrire et citer le code source : le dépôt de logiciel de recherche sur l’archive ouverte HAL » (Vidéo de M. GRUENPETER)

    Morane Gruenpeter, Software Heritage

    • Pourquoi déposer et partager vos logiciels de recherche ? Nous allons découvrir 4 cas d’utilisation indispensables pour déchiffrer le dépôt logiciel et les bonnes pratiques associées à chacun :

      • Archiver le code source dans HAL et sur Software Heritage, une action nécessaire pour assurer l’accessibilité au long terme.
      • Identifier la version spécifique avec un identifiant intrinsèque, une première étape pour conquérir le de défi de la reproductibilité
      • Décrire le code source pour une meilleure compréhension du logiciel et pour permettre la découverte du logiciel sur des moteurs de recherche.
      • Citer le logiciel pour attribuer le crédit aux auteurs dans l’écosystème académique.
    • Après avoir été harpiste pendant plusieurs années, Morane a trouvé une nouvelle voie dans l’ingénierie logiciel. Elle a rejoint l’équipe Software Heritage en 2017, à la fin de sa maîtrise en Informatique à l’Université Pierre et Marie Curie. En 2018-2019 elle continue son travail de recherche en collaboration avec le projet européen EU2020 CROSSMINER pour construire le Web sémantique des projets FOSS par la compilation des métadonnées existantes. Elle est une membre active dans plusieurs groupes de travail dans les domaines de la citation du logiciel, de la préservation digitale et du Web sémantique, y compris: FAIRsFAIR for FAIR Software, Software Citation Implementation WG (FORCE11), Software Identification working WG (RDA & FORCE11) et Wikidata for digital preservation (WikiDigi).

  • 15h — « Long term reproducibility » (Vidéo de N. ROUGIER)

    Nicolas Rougier, INRIA Bordeaux

    • ReScience C is an open-access peer-reviewed journal that targets computational research and encourages the explicit replication of already published research, promoting new and open-source implementations in order to ensure that the original research is reproducible. We are organizing the “Ten Years Reproducibility Challenge” and invite researchers to try to run the code they’ve created for a scientific publication that was published more than ten years ago. Sounds easy? We have good reasons to think this might be more difficult than you think. And maybe the first problem to solve is to find the source code, at a time where software heritage did not yet exist. During the talk, I’ll introduce the journal and give an update on the running challenge.
    • Nicolas Rougier is a researcher in computational cognitive neuroscience at Inria and the Institute of Neurodegenerative Diseases (Bordeaux, France). I’m investigating decision making, learning and cognition using computational models of the brain and distributed, numerical and adaptive computing, a.k.a. artificial neural networks and machine learning. His research aims to irrigate the fields of philosophy with regard to the mind-body problem, medicine to account for the normal and pathological functioning of the brain and the digital sciences to offer alternative computing paradigms. Beside neuroscience and philosophy, I’m also interested in open and reproducible science (I’ve co-founded ReScience C with Konrad Hinsen), scientific visualization, Science outreach and computer graphics.

  • 15h30 — « Environnements logiciels reproductibles et transparents avec GNU Guix » (Vidéo de L. COURTÈS)

    Ludovic Courtès, INRIA

    • La reproductibilité des expériences impliquant du logiciel est un enjeu scientifique majeur. Pourtant celle-ci se heurte souvent à la difficulté de répliquer mais aussi d’inspecter et de modifier de manière contrôlée les environnements logiciels de ces expériences. Une réponse populaire à ce problème est l’utilisation d’outils permettant de conserver les octets qui constituent l’environnement logiciel d’une expérience. À cette approche opaque, GNU Guix oppose une approche inspirée de la programmation fonctionnelle où un déploiement logiciel à partir de son code source est vu comme un « calcul » comme un autre, et où chacun de ces calculs est une fonction pure. Dans cet exposé je présenterai ces fondements et montrerai en quoi Guix est une solution utilisable aujourd’hui pour définir des environnements logiciels reproductibles bit à bit. J’aborderai les implications de cette approche sur les pratiques de publication scientifique.
    • Ludovic Courtès est ingénieur de recherche Inria. Il a initié le développement de GNU Guix il y a huit ans. Depuis 2017, il s’intéresse à son utilisation dans le cadre du calcul intensif (HPC) et de la science reproductible avec le projet Guix-HPC. Ludovic est un adepte de la programmation fonctionnelle, notamment en Scheme avec GNU Guile auquel il a contribué. Il se trouve qu’on voit facilement des liens entre programmation fonctionnelle et science reproductible !

  • 16h — Conclusion

Comité d’organisation

  • Bruno Beaufils (SIF)
  • Marla Da Silva (SIF)
  • Roberto Di Cosmo (Inria)
  • Thierry Garcia (SIF)
  • Damien Magoni (SIF)
  • Pierre Paradinas (SIF)
  • Denis Pallez (SIF)
  • Maria Potop-Butucaru (SIF)
  • Marc Shapiro (SIF)