IFB_Training_salivarius

Plan de gestion de données créé à l'aide de DMP OPIDoR


Créateur du PGD : Hélène Chiapello


Affiliation du créateur principal : INRAE - Institut national de recherche pour l'agriculture l'alimentation et l'environnement


Modèle du PGD : ANR - Modèle de PGD (français)


Dernière modification du PGD : 05/01/2021


Financeur : Agence nationale de la recherche (ANR)


Résumé du projet :

Streptococcus salivarius est une bactérie de la division des Firmicutes qui colonise l’être humain juste après la naissance et est présente dans différents tissus (bouche, peau, pharynx, tube digestif, voies génito-urinaires, sang,...)

Elle est considérée comme un pathogène opportuniste : certaines souches peuvent provoquer des méningites, des abcès pancréatiques, de l’impétigo, des péritonites, de la sinusite,...

Il existe une grande diversité génomique dans l’espèce majoritairement due aux Éléments Génétiques Mobiles


Chercheur Principal : Hélène Chiapello


Identifiant ORCID : 0000-0001-5102-0632


Contact pour les Données : Hélène Chiapello



IFB_Training_salivarius



1. Description des données et collecte ou réutilisation de données existantes


1a. Comment de nouvelles données seront-elles recueillies ou produites et/ou comment des données préexistantes seront-elles réutilisées ?




Question sans réponse.




1b. Quelles données (types, formats et volumes par ex.) seront collectées ou produites ?



Origine : échantillons humains de différents types (infant oral cavity, blood, feces, cantal, vaginal, skin, milk,...)

Type : lectures (données brutes de séquençage ) au format texte

Plateforme : Illumina, Instrument : HiSeq2000

Format : fastq (format standart)

Volume : XX Go répartis sur environ 40 fichiers

Tableau des échantillons

tax_id scientific_name Strain Origin Isolation Source Sampling year Geographic Location
1304 Streptococcus salivarius B35 lot_labo Human blood 2010 France: Besançon
1304 Streptococcus salivarius B50 lot_labo Human blood 2009 France: Besançon
1304 Streptococcus salivarius B57 lot_labo Human blood 2009 France: Besançon
1304 Streptococcus salivarius B63 lot_labo Human blood 2011 France: Besançon
1304 Streptococcus salivarius F1-4 lot_labo Human feces 2011 France: Vandoeuvre-les-Nancy
1304 Streptococcus salivarius F1-8 lot_labo Human feces 2011 France: Vandoeuvre-les-Nancy
1304 Streptococcus salivarius F4-2 lot_labo Human feces 2011 France: Vandoeuvre-les-Nancy
1304 Streptococcus salivarius F4-20 lot_labo Human feces 2011 France: Vandoeuvre-les-Nancy
1304 Streptococcus salivarius F7-1 lot_labo feces 2011 France: Vandoeuvre-les-Nancy
1304 Streptococcus salivarius L11 lot_labo Human blood  2003 France: Limoges
1304 Streptococcus salivarius L22 lot_labo Human blood  2004 France: Limoges
1304 Streptococcus salivarius L25 lot_labo Human blood  2005 France: Limoges
1304 Streptococcus salivarius L45 lot_labo Human blood  2007 France: Limoges
1304 Streptococcus salivarius L50 lot_labo Human blood  2009 France: Limoges
1304 Streptococcus salivarius L60 lot_labo Human blood  2010 France: Limoges
1304 Streptococcus salivarius L61 lot_labo Human blood  2010 France: Limoges
1304 Streptococcus salivarius L64 lot_labo Human pleural fluid 2010 France: Limoges
1304 Streptococcus salivarius N5 lot_labo Human cerebral abces 2011 France: Nancy
1304 Streptococcus salivarius N20 lot_labo Human abdominal fluid 2010 France: Nancy
1304 Streptococcus salivarius T93 lot_labo Human blood  2003 France: Tours

Tableau des données brutes de séquençage

sample_title instrument_platform instrument_model library_layout insert_size library_strategy library_source Read file 1 Read file 2 read_count fastq_md5 submitted_bytes
Streptococcus salivarius B35 strain ILLUMINA Illumina HiSeq 2000 PAIRED 269 WGS GENOMIC B35.f.fastq.gz B35.r.fastq.gz 7651215 529a26ed9b545e130ef925cb1ab8bf20;cd2effb99d61a004efa0014634e9f8ab 707370408;700263199
Streptococcus salivarius B50 strain ILLUMINA Illumina HiSeq 2000 PAIRED 377 WGS GENOMIC B50.f.fastq.gz B50.r.fastq.gz 16730110 5f061c7f7d1995773c73e768780c00a0;6a0ddfe9d9988b3efc368975ef538b58 1346229638;1399086168
Streptococcus salivarius B57 strain ILLUMINA Illumina HiSeq 2000 PAIRED 345 WGS GENOMIC B57.f.fastq.gz B57.r.fastq.gz 12178649 773637b101512cf4a127438e4c212068;0802e8f75bb0615f3cfdd1fefec40fda 982103587;1008057730
Streptococcus salivarius B63 strain ILLUMINA Illumina HiSeq 2000 PAIRED 255 WGS GENOMIC B63.f.fastq.gz B63.r.fastq.gz 5097999 3b62406b53593a752bc8e2e68dd3d608;8e4bcd00a4e14b00ba4b85f993f34426 411873843;428912990
Streptococcus salivarius F1-4 strain ILLUMINA Illumina HiSeq 2000 PAIRED 288 WGS GENOMIC F14.f.fastq.gz F14.r.fastq.gz 19730212 70c00aa51fecf749ec44d1b7b70ad277;367346c9f30a3e347d15647d1f225ae6 1816385334;1801073235
Streptococcus salivarius F1-8 strain ILLUMINA Illumina HiSeq 2000 PAIRED 303 WGS GENOMIC F18.f.fastq.gz F18.r.fastq.gz 19861928 2450a1ca4db5f702887575bf9ae7fe95;019aa50af526a49140741f8554e09b2a 1595195117;1618696842
Streptococcus salivarius F4-2 strain ILLUMINA Illumina HiSeq 2000 SINGLE   WGS GENOMIC F4-2_CGAGGCTG-TATCCTCT_L008_R1_001.fastq.gz 3618120 ca97ec8aae211f899a2a4e02507d2f31 330408998
Streptococcus salivarius F4-20 strain ILLUMINA Illumina HiSeq 2000 PAIRED 284 WGS GENOMIC F420.f.fastq.gz F420.r.fastq.gz 37084452 de0d8c06d0703e8cf666880f3e9c2475;26194fb26d793306edd59ea5c40b04bc 2984890943;3090959843
Streptococcus salivarius F7-1 strain ILLUMINA Illumina HiSeq 2000 SINGLE   WGS GENOMIC F7-1_AAGAGGCA-TATCCTCT_L008_R1_001.fastq.gz 6719337 04311bf4a9af62abff060294dc942e17 580195399
Streptococcus salivarius L11 strain ILLUMINA Illumina HiSeq 2000 PAIRED 229 WGS GENOMIC L11.f.fastq.gz L11.r.fastq.gz 10321795 8f2932ca4ed993f161f34ee5602e9898;629d3f98690196194288667a15280bdc 957308954;942328186
Streptococcus salivarius L22 strain ILLUMINA Illumina HiSeq 2000 PAIRED 256 WGS GENOMIC L22.f.fastq.gz L22.r.fastq.gz 8648792 36755028a459b6d726732ee4f2cea2f1;2220b626b93a029f5a60ea94776fbf5a 794028470;792354826
Streptococcus salivarius L25 strain ILLUMINA Illumina HiSeq 2000 PAIRED 409 WGS GENOMIC L25.f.fastq.gz L25.r.fastq.gz 17209755 9618c20b2c52b3e027e741dc3a3b5cc1;afd0a65b4cc068e0d7ecd0e308e2a3ff 1390344899;1442806710
Streptococcus salivarius L45 strain ILLUMINA Illumina HiSeq 2000 PAIRED 251 WGS GENOMIC L45.f.fastq.gz L45.r.fastq.gz 29899773 8684068e0bab305f6ae9d86e3881c130;e0ef4118969f4916469598ec98710693 2301431227;2355410597
Streptococcus salivarius L50 strain ILLUMINA Illumina HiSeq 2000 PAIRED 283 WGS GENOMIC L50.f.fastq.gz L50.r.fastq.gz 7471393 deffd7e3f9bb63984dc19f3f2490e317;8e76e2354c6638ddba15e2752ca6d900 602856033;622962491
Streptococcus salivarius L60 strain ILLUMINA Illumina HiSeq 2000 PAIRED 326 WGS GENOMIC L60.f.fastq.gz L60.r.fastq.gz 5080937 6975e29dcdb0e64af327f94711510706;19d9ed7b87c32c7176b94d4cad52a95f 409854637;426999636
Streptococcus salivarius L61 strain ILLUMINA Illumina HiSeq 2000 PAIRED 286 WGS GENOMIC L61.f.fastq.gz L61.r.fastq.gz 9354977 093a467f735ec6d029b6c59b6cbeff02;b48a7c3a854c738067eae81a659bca5d 861423665;862914881
Streptococcus salivarius L64 strain ILLUMINA Illumina HiSeq 2000 PAIRED 274 WGS GENOMIC L64.f.fastq.gz L64.r.fastq.gz 4175017 bb05e6b9527c2958f5b6562533cda7d6;8f9971bed90fa684314cedbc8e47c9e3 338545596;349048968
Streptococcus salivarius N20 strain ILLUMINA Illumina HiSeq 2000 PAIRED 387 WGS GENOMIC N20.f.fastq.gz N20.r.fastq.gz 15682551 631a6a1982dbe0fe7f125514695d6377;47622513ad4fdfbdefc281dbb44627b9 1265764927;1307559495
Streptococcus salivarius N5 strain ILLUMINA Illumina HiSeq 2000 PAIRED 390 WGS GENOMIC N5.f.fastq.gz N5.r.fastq.gz 18564793 7136cb8ad6be37b82e8e6b3424b54953;58bd5db7a43f567b86f92e2456cdc12d 1496574716;1547327015
Streptococcus salivarius T93 strain ILLUMINA Illumina HiSeq 2000 PAIRED 289 WGS GENOMIC T93.f.fastq.gz T93.r.fastq.gz 10313757 a9af1633b91fdd8d727af3156b70c7f6;8210dd1ee954f5fa214a6a7b4ce5481e 953650769;941080363

 




2. Documentation et qualité des données


2a. Quelles métadonnées et quelle documentation (par exemple méthodologie de collecte et mode d'organisation des données) accompagneront les données ?



 Source des métadonnées : Checklist ENA https://www.ebi.ac.uk/ena/browser/checklists 

Trouver la mieux adaptée au jeu de données

Format XML

Organisation : 

- espace projet créé sur l'infrastructure IFB avec l'organisation habituelle /shared/projects/mon_projet

- dépot GitHub ou Gitlab pour le partage du code et de la documentation



2b. Quelles mesures de contrôle de la qualité des données seront mises en œuvre ?



- contrôle de la qualité des données brutes avec fastqc 

- génération d'un rapport de qualité avec multiqc

$ conda install -c bioconda fastqc=0.11.9

$ conda install -c bioconda multiqc=1.9




3. Stockage et sauvegarde pendant le processus de recherche


3a. Comment les données et les métadonnées seront-elles stockées et sauvegardées tout au long du processus de recherche ?



- Données brutes stockées dans un espace projet dédié sauvegardé et accessible en lecture seule de l'infrastructure IFB  /shared/projects/mon_projet

Cet espace est sauvegardé fréquemment 



3b. Comment la sécurité des données et la protection des données sensibles seront-elles assurées tout au long du processus de recherche ?



Création d'un compte personnel avec une adresse institutionnelle

Validation du compte par les administrateurs

Accès par une connexion sécurisée ssh avec mot de passe




4. Exigences légales et éthiques, codes de conduite


4a. Si des données à caractère personnel sont traitées, comment le respect des dispositions de la législation sur les données à caractère personnel et sur la sécurité des données sera-t-il assuré ?



Utilisation de données publiées (voir la publication pour plus d'infos : 



4b. Comment les autres questions juridiques, comme la titularité ou les droits de propriété intellectuelle sur les données, seront-elles abordées ? Quelle est la législation applicable en la matière ?




Question sans réponse.




4c. Comment les éventuelles questions éthiques seront-elles prises en compte, les codes déontologiques respectés ?




Question sans réponse.





5. Partage des données et conservation à long terme


5a. Comment et quand les données seront-elles partagées ? Y-a-t-il des restrictions au partage des données ou des raisons de définir un embargo ?



 

Habituellement les données sont rendues publiques dans une banque international comme l'ENA au moment de la publication. Un identifiant de projet unique permet ensuite à la communauté d'accéder aux données. 



5b. Comment les données à conserver seront-elles sélectionnées et où seront-elles préservées sur le long terme (par ex. un entrepôt de données ou une archive) ?



C'est la banque internationale (ici l'ENA) qui se charge du stockage à long terme



5c. Quelles méthodes ou quels outils logiciels seront nécessaires pour accéder et utiliser les données ?



un terminal ou un navigateur web



5d. Comment l'attribution d'un identifiant unique et pérenne (comme le DOI) sera-t-elle assurée pour chaque jeu de données ?



La banque internationale (ici l'ENA) se charge de la création d'un identifiant pérenne et unique




6. Responsabilités et ressources en matière de gestion des données


6a. Qui (par exemple rôle, position et institution de rattachement) sera responsable de la gestion des données (c'est-à-dire le gestionnaire des données) ?



Le gestionnaire des données est Hélène Chiapello (data broker, Ingénieure de Recherches INRAE/IFB)

 



6b. Quelles seront les ressources (budget et temps alloués) dédiées à la gestion des données permettant de s'assurer que les données seront FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable) ?




Question sans réponse.