fr [en]
Face aux masses de données disponibles, à la multitude d’outils existants et au caractère complexe des protocoles d’analyse de données scientifiques, reproduire une expérience est particulièrement difficile, comme en témoignent de nombreuses études récentes ( voir Alsheikh-Ali et al. 2011 et Nekrutenko & Taylor, 2012 par exemple). ReProVirtuFlow est une action du GDR MaDICS qui vise à faire un état des lieux complet sur les approches existantes dans ce domaine en considérant en priorité comme éléments de solution: (i) les workflows scientifiques (au sens large), (ii) la provenance des données, (iii) les environnements de calcul virtualisés (machines virtuelles ou conteneurs). Notre consortium regroupe des experts en bases de données, algorithmique, programmation, et environnements virtuels et des responsables de plateformes et centres de collecte de données scientifiques (CNRS INSB pour la biologie et CNRS IN2P3 pour la physique).
Les ReproHackathons
Dans le cadre de notre action, nous lançons l’organisation d’une série de ReproHackathons visant à tester les capacités des systèmes de workflows disponibles à reproduire une expérience scientifique.
Chaque ReproHackathon fournira aux participants :
- un accès au Cloud de l’Institut Francais de Bioinformatique,
- des cas d’utilisation fixés issus de publications scientifiques : pour chaque cas d’utilisation : un pipeline d’analyse et un jeu de données d’entrée, le défi sera de reproduire les résultats de la publication choisie.
Les participants pourront se regrouper en équipes et choisir :
- un cas d’utilisation parmi ceux proposés,
- un système de workflows pour implémenter le cas d’utilisation et tester s’ils retrouvent les résultats attendus.
Liste des ReproHackathons
- Première édition, 1-2 juin 2017, IFB-core, Campus CNRS, Gif-sur-Yvette
- Deuxième édition, 9-10 juillet 2018, LBBE-PRABI, Campus LyonTech-la Doua, Lyon
- Troisième édition, 25-26 novembre 2019, Montpellier
Comité d’organisation
- Sarah Cohen-Boulakia, Université Paris-Sud, Paris-Saclay, Orsay
- Khalid Belhajjame, Université Paris-Dauphine, Paris
- Christophe Blanchet, Institut Français de Bioinformatique, Lyon
- Alban Gaignard, CNRS, institut du thorax, Nantes
- Konrad Hinsen, Centre de Biophysique Moléculaire, Orléans
- Frédéric Lemoine, Institut Pasteur, Paris
- Yvan Le Bras, Muséum National d’Histoire Naturelle, Concarneau
- Fabien Mareuil, Institut Pasteur, Paris
- Hervé Ménager, Institut Pasteur, Paris
- Christophe Pradal, Cirad, Inria, Montpellier
- Philippe Véber, Laboratoire de Biométrie et Biologie Evolutive, Lyon
La série des ReproHackathons est (ou a été) soutenue par le GDR MaDICS, le GDR BIM , le groupe Psay CompBio de l’Université Paris-Saclay et l’Institut Français de Bioinformatique.