Chapter 10 Intégration des données

10.1 Charger les annotations des gènes

read.table(file = "annotation.csv") 
##                                                      V1
## 1                         id;name;chr;start;stop;strand
## 2            ENSG00000225630;MTND2P28;1;629640;630683;+
## 3        ENSG00000134198;TSPAN2;1;115048011;115089500;-
## 4        ENSG00000116199;FAM20B;1;179025804;179076562;+
## 5        ENSG00000119285;HEATR1;1;236549005;236604504;-
## 6          ENSG00000034510;TMSB10;2;84905625;84906675;+
## 7          ENSG00000198586;TLK1;2;170990823;171231314;-
## 8            ENSG00000157036;EXOG;3;38496127;38542161;+
## 9           ENSG00000157869;RAB28;4;13361354;13484365;-
## 10   ENSG00000250202;RP11-397E7.2;4;86876338;86876652;+
## 11        ENSG00000169570;DTWD2;5;118837322;118988545;-
## 12    ENSG00000269293;ZSCAN16-AS1;6;28121795;28137293;-
## 13        ENSG00000197081;IGF2R;6;159969099;160113507;+
## 14         ENSG00000147274;RBMX;X;136848004;136880764;-
## 15 ENSG00000253991;KB-1562D12.2;8;101528723;101529569;-
## 16          ENSG00000214121;TDPX2;9;12972843;12973438;-
## 17            ENSG00000148090;AUH;9;91213815;91361913;-
## 18        ENSG00000148248;SURF4;9;133361449;133376166;-
## 19         ENSG00000064201;TSPAN32;11;2301997;2318200;+
## 20         ENSG00000183161;FANCF;11;22622519;22626787;-
## 21         ENSG00000121680;PEX16;11;45909669;45918812;-
## 22         ENSG00000254470;AP5B1;11;65775893;65780802;-
## 23       ENSG00000135452;TSPAN31;12;57738013;57750211;+
## 24      ENSG00000251106;FAM206BP;13;46270077;46270617;+
## 25         ENSG00000118939;UCHL3;13;75549480;75606020;+
## 26        ENSG00000238241;CCR12P;13;99407781;99409062;-
## 27          ENSG00000129562;DAD1;14;22564905;22589269;-
## 28        ENSG00000125384;PTGER2;14;52314305;52328606;+
## 29        ENSG00000159433;STARD9;15;42575659;42720981;+
## 30       ENSG00000104164;BLOC1S6;15;45587123;45615999;+
## 31          ENSG00000140416;TPM1;15;63042632;63071915;+
## 32        ENSG00000167005;NUDT21;16;56429133;56452199;-
## 33         ENSG00000185324;CDK10;16;89680737;89696364;+
## 34         ENSG00000161692;DBF4B;17;44708608;44752264;+
## 35        ENSG00000168517;HEXIM2;17;45160700;45170040;+
## 36        ENSG00000262814;MRPL12;17;81703357;81707526;+
## 37        ENSG00000188985;DHFRP1;18;26170726;26171284;-
## 38       ENSG00000267228;IER3IP1;18;47134656;47176281;-
## 39  ENSG00000267699;RP11-729L2.2;18;50968019;51058144;+
## 40       ENSG00000226742;HSBP1L1;18;79964561;79970822;+
## 41         ENSG00000172216;CEBPB;20;50190734;50192689;+
## 42             ENSG00000175221;MED16;19;867630;893218;-
## 43            ENSG00000065717;TLE2;19;2997638;3047635;-
## 44            ENSG00000129932;DOHH;19;3490821;3500940;-
## 45           ENSG00000105229;PIAS4;19;4007646;4039386;+
## 46 ENSG00000279329;CTD-2553L13.9;19;34675717;34677581;-
## 47         ENSG00000105723;GSK3A;19;42230186;42242625;-
## 48         ENSG00000104783;KCNN4;19;43766533;43781257;-
## 49         ENSG00000196867;ZFP28;19;56538948;56556810;+
## 50         ENSG00000099958;DERL3;22;23834503;23839128;-
## 51 ENSG00000248751;RP1-130H16.18;22;30285238;30299482;-

Pas cool…

read.table(file = "annotation.csv", sep = ";")  
##                 V1            V2  V3        V4        V5     V6
## 1               id          name chr     start      stop strand
## 2  ENSG00000225630      MTND2P28   1    629640    630683      +
## 3  ENSG00000134198        TSPAN2   1 115048011 115089500      -
## 4  ENSG00000116199        FAM20B   1 179025804 179076562      +
## 5  ENSG00000119285        HEATR1   1 236549005 236604504      -
## 6  ENSG00000034510        TMSB10   2  84905625  84906675      +
## 7  ENSG00000198586          TLK1   2 170990823 171231314      -
## 8  ENSG00000157036          EXOG   3  38496127  38542161      +
## 9  ENSG00000157869         RAB28   4  13361354  13484365      -
## 10 ENSG00000250202  RP11-397E7.2   4  86876338  86876652      +
## 11 ENSG00000169570         DTWD2   5 118837322 118988545      -
## 12 ENSG00000269293   ZSCAN16-AS1   6  28121795  28137293      -
## 13 ENSG00000197081         IGF2R   6 159969099 160113507      +
## 14 ENSG00000147274          RBMX   X 136848004 136880764      -
## 15 ENSG00000253991  KB-1562D12.2   8 101528723 101529569      -
## 16 ENSG00000214121         TDPX2   9  12972843  12973438      -
## 17 ENSG00000148090           AUH   9  91213815  91361913      -
## 18 ENSG00000148248         SURF4   9 133361449 133376166      -
## 19 ENSG00000064201       TSPAN32  11   2301997   2318200      +
## 20 ENSG00000183161         FANCF  11  22622519  22626787      -
## 21 ENSG00000121680         PEX16  11  45909669  45918812      -
## 22 ENSG00000254470         AP5B1  11  65775893  65780802      -
## 23 ENSG00000135452       TSPAN31  12  57738013  57750211      +
## 24 ENSG00000251106      FAM206BP  13  46270077  46270617      +
## 25 ENSG00000118939         UCHL3  13  75549480  75606020      +
## 26 ENSG00000238241        CCR12P  13  99407781  99409062      -
## 27 ENSG00000129562          DAD1  14  22564905  22589269      -
## 28 ENSG00000125384        PTGER2  14  52314305  52328606      +
## 29 ENSG00000159433        STARD9  15  42575659  42720981      +
## 30 ENSG00000104164       BLOC1S6  15  45587123  45615999      +
## 31 ENSG00000140416          TPM1  15  63042632  63071915      +
## 32 ENSG00000167005        NUDT21  16  56429133  56452199      -
## 33 ENSG00000185324         CDK10  16  89680737  89696364      +
## 34 ENSG00000161692         DBF4B  17  44708608  44752264      +
## 35 ENSG00000168517        HEXIM2  17  45160700  45170040      +
## 36 ENSG00000262814        MRPL12  17  81703357  81707526      +
## 37 ENSG00000188985        DHFRP1  18  26170726  26171284      -
## 38 ENSG00000267228       IER3IP1  18  47134656  47176281      -
## 39 ENSG00000267699  RP11-729L2.2  18  50968019  51058144      +
## 40 ENSG00000226742       HSBP1L1  18  79964561  79970822      +
## 41 ENSG00000172216         CEBPB  20  50190734  50192689      +
## 42 ENSG00000175221         MED16  19    867630    893218      -
## 43 ENSG00000065717          TLE2  19   2997638   3047635      -
## 44 ENSG00000129932          DOHH  19   3490821   3500940      -
## 45 ENSG00000105229         PIAS4  19   4007646   4039386      +
## 46 ENSG00000279329 CTD-2553L13.9  19  34675717  34677581      -
## 47 ENSG00000105723         GSK3A  19  42230186  42242625      -
## 48 ENSG00000104783         KCNN4  19  43766533  43781257      -
## 49 ENSG00000196867         ZFP28  19  56538948  56556810      +
## 50 ENSG00000099958         DERL3  22  23834503  23839128      -
## 51 ENSG00000248751 RP1-130H16.18  22  30285238  30299482      -

Pas encore parfait.

read.table(file = "annotation.csv", sep = ";", header = TRUE)
##                 id          name chr     start      stop strand
## 1  ENSG00000225630      MTND2P28   1    629640    630683      +
## 2  ENSG00000134198        TSPAN2   1 115048011 115089500      -
## 3  ENSG00000116199        FAM20B   1 179025804 179076562      +
## 4  ENSG00000119285        HEATR1   1 236549005 236604504      -
## 5  ENSG00000034510        TMSB10   2  84905625  84906675      +
## 6  ENSG00000198586          TLK1   2 170990823 171231314      -
## 7  ENSG00000157036          EXOG   3  38496127  38542161      +
## 8  ENSG00000157869         RAB28   4  13361354  13484365      -
## 9  ENSG00000250202  RP11-397E7.2   4  86876338  86876652      +
## 10 ENSG00000169570         DTWD2   5 118837322 118988545      -
## 11 ENSG00000269293   ZSCAN16-AS1   6  28121795  28137293      -
## 12 ENSG00000197081         IGF2R   6 159969099 160113507      +
## 13 ENSG00000147274          RBMX   X 136848004 136880764      -
## 14 ENSG00000253991  KB-1562D12.2   8 101528723 101529569      -
## 15 ENSG00000214121         TDPX2   9  12972843  12973438      -
## 16 ENSG00000148090           AUH   9  91213815  91361913      -
## 17 ENSG00000148248         SURF4   9 133361449 133376166      -
## 18 ENSG00000064201       TSPAN32  11   2301997   2318200      +
## 19 ENSG00000183161         FANCF  11  22622519  22626787      -
## 20 ENSG00000121680         PEX16  11  45909669  45918812      -
## 21 ENSG00000254470         AP5B1  11  65775893  65780802      -
## 22 ENSG00000135452       TSPAN31  12  57738013  57750211      +
## 23 ENSG00000251106      FAM206BP  13  46270077  46270617      +
## 24 ENSG00000118939         UCHL3  13  75549480  75606020      +
## 25 ENSG00000238241        CCR12P  13  99407781  99409062      -
## 26 ENSG00000129562          DAD1  14  22564905  22589269      -
## 27 ENSG00000125384        PTGER2  14  52314305  52328606      +
## 28 ENSG00000159433        STARD9  15  42575659  42720981      +
## 29 ENSG00000104164       BLOC1S6  15  45587123  45615999      +
## 30 ENSG00000140416          TPM1  15  63042632  63071915      +
## 31 ENSG00000167005        NUDT21  16  56429133  56452199      -
## 32 ENSG00000185324         CDK10  16  89680737  89696364      +
## 33 ENSG00000161692         DBF4B  17  44708608  44752264      +
## 34 ENSG00000168517        HEXIM2  17  45160700  45170040      +
## 35 ENSG00000262814        MRPL12  17  81703357  81707526      +
## 36 ENSG00000188985        DHFRP1  18  26170726  26171284      -
## 37 ENSG00000267228       IER3IP1  18  47134656  47176281      -
## 38 ENSG00000267699  RP11-729L2.2  18  50968019  51058144      +
## 39 ENSG00000226742       HSBP1L1  18  79964561  79970822      +
## 40 ENSG00000172216         CEBPB  20  50190734  50192689      +
## 41 ENSG00000175221         MED16  19    867630    893218      -
## 42 ENSG00000065717          TLE2  19   2997638   3047635      -
## 43 ENSG00000129932          DOHH  19   3490821   3500940      -
## 44 ENSG00000105229         PIAS4  19   4007646   4039386      +
## 45 ENSG00000279329 CTD-2553L13.9  19  34675717  34677581      -
## 46 ENSG00000105723         GSK3A  19  42230186  42242625      -
## 47 ENSG00000104783         KCNN4  19  43766533  43781257      -
## 48 ENSG00000196867         ZFP28  19  56538948  56556810      +
## 49 ENSG00000099958         DERL3  22  23834503  23839128      -
## 50 ENSG00000248751 RP1-130H16.18  22  30285238  30299482      -

Parfait !

annot <- read.table(file = "annotation.csv", sep = ";", header = TRUE)

Vérifier les dimensions

dim(annot)  
## [1] 50  6

Afficher quelques lignes

head(annot)
##                id     name chr     start      stop strand
## 1 ENSG00000225630 MTND2P28   1    629640    630683      +
## 2 ENSG00000134198   TSPAN2   1 115048011 115089500      -
## 3 ENSG00000116199   FAM20B   1 179025804 179076562      +
## 4 ENSG00000119285   HEATR1   1 236549005 236604504      -
## 5 ENSG00000034510   TMSB10   2  84905625  84906675      +
## 6 ENSG00000198586     TLK1   2 170990823 171231314      -

10.2 Combien ?

  • Combien de gènes sur le chromosome 18 ?
  • Combien de gènes sur le chromosome X ?

10.2.1 Solution pour y répondre

table(annot$chr)
## 
##  1 11 12 13 14 15 16 17 18 19  2 20 22  3  4  5  6  8  9  X 
##  4  4  1  3  2  3  2  3  4  8  2  1  2  1  2  1  2  1  3  1
barplot(sort(table(annot$chr)), horiz = TRUE, las = 1,
            col = "lightblue",  xlab = "Number of genes")

10.3 Ma première bioinformatique intégrative

10.3.1 Étape 1 - Fusionner les tableaux d’expressions et d’annotations :

?merge
exprs_annot <- merge(exprs, annot, by = "id")
head(exprs_annot)
##                id    WT1   WT2    KO1   KO2   meanWT   meanKO        FC
## 1 ENSG00000034510 235960 94264 202381 91336 165112.0 146858.5 0.8894478
## 2 ENSG00000064201    116    71     64    56     93.5     60.0 0.6417112
## 3 ENSG00000065717    118   174    124   182    146.0    153.0 1.0479452
## 4 ENSG00000099958    450   655    301   472    552.5    386.5 0.6995475
## 5 ENSG00000104164   4736  5019   4845  4934   4877.5   4889.5 1.0024603
## 6 ENSG00000104783   9002  8623   7720  7142   8812.5   7431.0 0.8432340
##        mean           M         A    name chr    start     stop strand
## 1 155985.25 -0.16901821 17.248576  TMSB10   2 84905625 84906675      +
## 2     76.75 -0.64000386  6.226893 TSPAN32  11  2301997  2318200      +
## 3    149.50  0.06756328  7.223606    TLE2  19  2997638  3047635      -
## 4    469.50 -0.51550605  8.852078   DERL3  22 23834503 23839128      -
## 5   4883.50  0.00354507 12.253699 BLOC1S6  15 45587123 45615999      +
## 6   8121.75 -0.24599498 12.982338   KCNN4  19 43766533 43781257      -

10.3.2 Étape 2 - Sous-ensemble des lignes pour lesquelles chr vaut 8 :

exprs_chr8 <- exprs_annot[which(exprs_annot$chr == 8),   ]
print(exprs_chr8)
##                 id WT1 WT2 KO1 KO2 meanWT meanKO       FC  mean         M
## 44 ENSG00000253991  77  78 134  92   77.5    113 1.458065 95.25 0.5440546
##           A         name chr     start      stop strand
## 44 6.548152 KB-1562D12.2   8 101528723 101529569      -

10.3.3 Exporter exprs_chr8 dans un fichier

write.table(x = exprs_chr8, file = "exprs_chr8.txt", 
   sep = "\t", 
   row.names = FALSE, 
   col.names = TRUE)

10.4 Visualisation

library(plotly)
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
plot_ly(data = exprs_annot, x = ~A, y = ~M, text = paste("Gene name :", exprs_annot$name), type = 'scatter', mode = 'markers')