Jeu de données#

RAPPEL- Accès au Jupyter Lab (s’il ne tourne pas déjà)#

Présentation du jeu de données#

Immuno-précipitation de chromatine (ChIP-Seq) :

  • Un traitement (ADN fragmenté + immunoprécipitation par Ac. anti-ESR1 )

  • Un control (~ ADN fragmenté)

Télécharger des fichiers#

On peut utiliser un navigateur (e.g Cyberduck) pour téléverser sur le serveur. Mieux, on peut effectuer directement le téléchargement depuis le terminal si on dispose de l’URL. On utilise alors la commande wget.

se déplacer dans l’arborescence de votre projet : /shared/projects/<project> (2325_ebaii à adapter) et dans les sous-répertoires chip-seq puis fastq.

# 2325_ebaii à adapter à votre projet
cd /shared/projects/2325_ebaii/coursLinux/demo/chip-seq/fastq
?2004h

Vérifier qu’on est bien dans le répertoire /shared/projects/<projet>/chip-seq/fastq (<projet> à adapter) avec pwd :

# 2325_ebaii à adapter à votre projet
pwd
/shared/projects/2325_ebaii/coursLinux/demo/chip-seq/fastq

Téléverser un fichier de données fastq avec wget depuis son accès url https://zenodo.org/record/5571592/files/siNT_ER_E2_r3_chr21.fastq.gz :

wget https://zenodo.org/record/5571592/files/siNT_ER_E2_r3_chr21.fastq.gz
--2023-11-04 13:05:15--  https://zenodo.org/record/5571592/files/siNT_ER_E2_r3_chr21.fastq.gz
Resolving zenodo.org (zenodo.org)... 188.185.10.78, 188.185.33.206, 188.185.22.33, ...
Connecting to zenodo.org (zenodo.org)|188.185.10.78|:443... connected.
HTTP request sent, awaiting response... 301 MOVED PERMANENTLY
Location: /records/5571592/files/siNT_ER_E2_r3_chr21.fastq.gz [following]
--2023-11-04 13:05:15--  https://zenodo.org/records/5571592/files/siNT_ER_E2_r3_chr21.fastq.gz
Reusing existing connection to zenodo.org:443.
HTTP request sent, awaiting response... 200 OK
Length: 10857524 (10M) [application/octet-stream]
Saving to: ‘siNT_ER_E2_r3_chr21.fastq.gz’

100%[======================================>] 10,857,524  --.-K/s   in 0.1s    

2023-11-04 13:05:15 (75.4 MB/s) - ‘siNT_ER_E2_r3_chr21.fastq.gz’ saved [10857524/10857524]

Vérifier que le fichier est bien présent :

ls
siNT_ER_E2_r3_chr21.fastq.gz

Décompression#

La commande gunzip permet de décompresser un fichier au format *.gz. Sa syntaxe générale est la suivante: gunzip [-cfhkLNqrtVv] [-S suffix] file [file [...]]

Décompresser le fichier *.gz:

gunzip siNT_ER_E2_r3_chr21.fastq.gz

Regarder l’extension du fichier et remarquer que la partie .gz a disparu :

ls
siNT_ER_E2_r3_chr21.fastq

Les lectures brutes (raw reads) sont au format fastq#

La qualité est généralement au format Sanger (cf. après).

Exercice#

Utilisez une des commandes vues précédemment pour visualiser le contenu du fichier fastq

Utiliser la commande less pour visualiser le contenu du fichier fastq (q pour quitter):

less siNT_ER_E2_r3_chr21.fastq

Le score de qualité Sanger#

Une valeur de score Sanger est attribuée à chaque base séquencée

  • Basée sur p, la probabilité d’erreur (i.e. que la base soit fausse)

Les scores sont encodés en ASCII 33

  • Objectif : compresser les données en diminuant le nombre de caractères utilisés pour encoder la qualité.

Le score de qualité Sanger varie entre 0 et 41 et est encodé avec le code ASCII:

  • ! correspond à 0

  • correspond à 1

  • # correspond à 2

  • $ correspond à 3

  • I correspond à 40