Chapter 10 Intégration des données
10.1 Charger les annotations des gènes
read.table(file = "annotation.csv")
## V1
## 1 id;name;chr;start;stop;strand
## 2 ENSG00000225630;MTND2P28;1;629640;630683;+
## 3 ENSG00000134198;TSPAN2;1;115048011;115089500;-
## 4 ENSG00000116199;FAM20B;1;179025804;179076562;+
## 5 ENSG00000119285;HEATR1;1;236549005;236604504;-
## 6 ENSG00000034510;TMSB10;2;84905625;84906675;+
## 7 ENSG00000198586;TLK1;2;170990823;171231314;-
## 8 ENSG00000157036;EXOG;3;38496127;38542161;+
## 9 ENSG00000157869;RAB28;4;13361354;13484365;-
## 10 ENSG00000250202;RP11-397E7.2;4;86876338;86876652;+
## 11 ENSG00000169570;DTWD2;5;118837322;118988545;-
## 12 ENSG00000269293;ZSCAN16-AS1;6;28121795;28137293;-
## 13 ENSG00000197081;IGF2R;6;159969099;160113507;+
## 14 ENSG00000147274;RBMX;X;136848004;136880764;-
## 15 ENSG00000253991;KB-1562D12.2;8;101528723;101529569;-
## 16 ENSG00000214121;TDPX2;9;12972843;12973438;-
## 17 ENSG00000148090;AUH;9;91213815;91361913;-
## 18 ENSG00000148248;SURF4;9;133361449;133376166;-
## 19 ENSG00000064201;TSPAN32;11;2301997;2318200;+
## 20 ENSG00000183161;FANCF;11;22622519;22626787;-
## 21 ENSG00000121680;PEX16;11;45909669;45918812;-
## 22 ENSG00000254470;AP5B1;11;65775893;65780802;-
## 23 ENSG00000135452;TSPAN31;12;57738013;57750211;+
## 24 ENSG00000251106;FAM206BP;13;46270077;46270617;+
## 25 ENSG00000118939;UCHL3;13;75549480;75606020;+
## 26 ENSG00000238241;CCR12P;13;99407781;99409062;-
## 27 ENSG00000129562;DAD1;14;22564905;22589269;-
## 28 ENSG00000125384;PTGER2;14;52314305;52328606;+
## 29 ENSG00000159433;STARD9;15;42575659;42720981;+
## 30 ENSG00000104164;BLOC1S6;15;45587123;45615999;+
## 31 ENSG00000140416;TPM1;15;63042632;63071915;+
## 32 ENSG00000167005;NUDT21;16;56429133;56452199;-
## 33 ENSG00000185324;CDK10;16;89680737;89696364;+
## 34 ENSG00000161692;DBF4B;17;44708608;44752264;+
## 35 ENSG00000168517;HEXIM2;17;45160700;45170040;+
## 36 ENSG00000262814;MRPL12;17;81703357;81707526;+
## 37 ENSG00000188985;DHFRP1;18;26170726;26171284;-
## 38 ENSG00000267228;IER3IP1;18;47134656;47176281;-
## 39 ENSG00000267699;RP11-729L2.2;18;50968019;51058144;+
## 40 ENSG00000226742;HSBP1L1;18;79964561;79970822;+
## 41 ENSG00000172216;CEBPB;20;50190734;50192689;+
## 42 ENSG00000175221;MED16;19;867630;893218;-
## 43 ENSG00000065717;TLE2;19;2997638;3047635;-
## 44 ENSG00000129932;DOHH;19;3490821;3500940;-
## 45 ENSG00000105229;PIAS4;19;4007646;4039386;+
## 46 ENSG00000279329;CTD-2553L13.9;19;34675717;34677581;-
## 47 ENSG00000105723;GSK3A;19;42230186;42242625;-
## 48 ENSG00000104783;KCNN4;19;43766533;43781257;-
## 49 ENSG00000196867;ZFP28;19;56538948;56556810;+
## 50 ENSG00000099958;DERL3;22;23834503;23839128;-
## 51 ENSG00000248751;RP1-130H16.18;22;30285238;30299482;-
Pas cool…
read.table(file = "annotation.csv", sep = ";")
## V1 V2 V3 V4 V5 V6
## 1 id name chr start stop strand
## 2 ENSG00000225630 MTND2P28 1 629640 630683 +
## 3 ENSG00000134198 TSPAN2 1 115048011 115089500 -
## 4 ENSG00000116199 FAM20B 1 179025804 179076562 +
## 5 ENSG00000119285 HEATR1 1 236549005 236604504 -
## 6 ENSG00000034510 TMSB10 2 84905625 84906675 +
## 7 ENSG00000198586 TLK1 2 170990823 171231314 -
## 8 ENSG00000157036 EXOG 3 38496127 38542161 +
## 9 ENSG00000157869 RAB28 4 13361354 13484365 -
## 10 ENSG00000250202 RP11-397E7.2 4 86876338 86876652 +
## 11 ENSG00000169570 DTWD2 5 118837322 118988545 -
## 12 ENSG00000269293 ZSCAN16-AS1 6 28121795 28137293 -
## 13 ENSG00000197081 IGF2R 6 159969099 160113507 +
## 14 ENSG00000147274 RBMX X 136848004 136880764 -
## 15 ENSG00000253991 KB-1562D12.2 8 101528723 101529569 -
## 16 ENSG00000214121 TDPX2 9 12972843 12973438 -
## 17 ENSG00000148090 AUH 9 91213815 91361913 -
## 18 ENSG00000148248 SURF4 9 133361449 133376166 -
## 19 ENSG00000064201 TSPAN32 11 2301997 2318200 +
## 20 ENSG00000183161 FANCF 11 22622519 22626787 -
## 21 ENSG00000121680 PEX16 11 45909669 45918812 -
## 22 ENSG00000254470 AP5B1 11 65775893 65780802 -
## 23 ENSG00000135452 TSPAN31 12 57738013 57750211 +
## 24 ENSG00000251106 FAM206BP 13 46270077 46270617 +
## 25 ENSG00000118939 UCHL3 13 75549480 75606020 +
## 26 ENSG00000238241 CCR12P 13 99407781 99409062 -
## 27 ENSG00000129562 DAD1 14 22564905 22589269 -
## 28 ENSG00000125384 PTGER2 14 52314305 52328606 +
## 29 ENSG00000159433 STARD9 15 42575659 42720981 +
## 30 ENSG00000104164 BLOC1S6 15 45587123 45615999 +
## 31 ENSG00000140416 TPM1 15 63042632 63071915 +
## 32 ENSG00000167005 NUDT21 16 56429133 56452199 -
## 33 ENSG00000185324 CDK10 16 89680737 89696364 +
## 34 ENSG00000161692 DBF4B 17 44708608 44752264 +
## 35 ENSG00000168517 HEXIM2 17 45160700 45170040 +
## 36 ENSG00000262814 MRPL12 17 81703357 81707526 +
## 37 ENSG00000188985 DHFRP1 18 26170726 26171284 -
## 38 ENSG00000267228 IER3IP1 18 47134656 47176281 -
## 39 ENSG00000267699 RP11-729L2.2 18 50968019 51058144 +
## 40 ENSG00000226742 HSBP1L1 18 79964561 79970822 +
## 41 ENSG00000172216 CEBPB 20 50190734 50192689 +
## 42 ENSG00000175221 MED16 19 867630 893218 -
## 43 ENSG00000065717 TLE2 19 2997638 3047635 -
## 44 ENSG00000129932 DOHH 19 3490821 3500940 -
## 45 ENSG00000105229 PIAS4 19 4007646 4039386 +
## 46 ENSG00000279329 CTD-2553L13.9 19 34675717 34677581 -
## 47 ENSG00000105723 GSK3A 19 42230186 42242625 -
## 48 ENSG00000104783 KCNN4 19 43766533 43781257 -
## 49 ENSG00000196867 ZFP28 19 56538948 56556810 +
## 50 ENSG00000099958 DERL3 22 23834503 23839128 -
## 51 ENSG00000248751 RP1-130H16.18 22 30285238 30299482 -
Pas encore parfait.
read.table(file = "annotation.csv", sep = ";", header = TRUE)
## id name chr start stop strand
## 1 ENSG00000225630 MTND2P28 1 629640 630683 +
## 2 ENSG00000134198 TSPAN2 1 115048011 115089500 -
## 3 ENSG00000116199 FAM20B 1 179025804 179076562 +
## 4 ENSG00000119285 HEATR1 1 236549005 236604504 -
## 5 ENSG00000034510 TMSB10 2 84905625 84906675 +
## 6 ENSG00000198586 TLK1 2 170990823 171231314 -
## 7 ENSG00000157036 EXOG 3 38496127 38542161 +
## 8 ENSG00000157869 RAB28 4 13361354 13484365 -
## 9 ENSG00000250202 RP11-397E7.2 4 86876338 86876652 +
## 10 ENSG00000169570 DTWD2 5 118837322 118988545 -
## 11 ENSG00000269293 ZSCAN16-AS1 6 28121795 28137293 -
## 12 ENSG00000197081 IGF2R 6 159969099 160113507 +
## 13 ENSG00000147274 RBMX X 136848004 136880764 -
## 14 ENSG00000253991 KB-1562D12.2 8 101528723 101529569 -
## 15 ENSG00000214121 TDPX2 9 12972843 12973438 -
## 16 ENSG00000148090 AUH 9 91213815 91361913 -
## 17 ENSG00000148248 SURF4 9 133361449 133376166 -
## 18 ENSG00000064201 TSPAN32 11 2301997 2318200 +
## 19 ENSG00000183161 FANCF 11 22622519 22626787 -
## 20 ENSG00000121680 PEX16 11 45909669 45918812 -
## 21 ENSG00000254470 AP5B1 11 65775893 65780802 -
## 22 ENSG00000135452 TSPAN31 12 57738013 57750211 +
## 23 ENSG00000251106 FAM206BP 13 46270077 46270617 +
## 24 ENSG00000118939 UCHL3 13 75549480 75606020 +
## 25 ENSG00000238241 CCR12P 13 99407781 99409062 -
## 26 ENSG00000129562 DAD1 14 22564905 22589269 -
## 27 ENSG00000125384 PTGER2 14 52314305 52328606 +
## 28 ENSG00000159433 STARD9 15 42575659 42720981 +
## 29 ENSG00000104164 BLOC1S6 15 45587123 45615999 +
## 30 ENSG00000140416 TPM1 15 63042632 63071915 +
## 31 ENSG00000167005 NUDT21 16 56429133 56452199 -
## 32 ENSG00000185324 CDK10 16 89680737 89696364 +
## 33 ENSG00000161692 DBF4B 17 44708608 44752264 +
## 34 ENSG00000168517 HEXIM2 17 45160700 45170040 +
## 35 ENSG00000262814 MRPL12 17 81703357 81707526 +
## 36 ENSG00000188985 DHFRP1 18 26170726 26171284 -
## 37 ENSG00000267228 IER3IP1 18 47134656 47176281 -
## 38 ENSG00000267699 RP11-729L2.2 18 50968019 51058144 +
## 39 ENSG00000226742 HSBP1L1 18 79964561 79970822 +
## 40 ENSG00000172216 CEBPB 20 50190734 50192689 +
## 41 ENSG00000175221 MED16 19 867630 893218 -
## 42 ENSG00000065717 TLE2 19 2997638 3047635 -
## 43 ENSG00000129932 DOHH 19 3490821 3500940 -
## 44 ENSG00000105229 PIAS4 19 4007646 4039386 +
## 45 ENSG00000279329 CTD-2553L13.9 19 34675717 34677581 -
## 46 ENSG00000105723 GSK3A 19 42230186 42242625 -
## 47 ENSG00000104783 KCNN4 19 43766533 43781257 -
## 48 ENSG00000196867 ZFP28 19 56538948 56556810 +
## 49 ENSG00000099958 DERL3 22 23834503 23839128 -
## 50 ENSG00000248751 RP1-130H16.18 22 30285238 30299482 -
Parfait !
<- read.table(file = "annotation.csv", sep = ";", header = TRUE) annot
Vérifier les dimensions
dim(annot)
## [1] 50 6
Afficher quelques lignes
head(annot)
## id name chr start stop strand
## 1 ENSG00000225630 MTND2P28 1 629640 630683 +
## 2 ENSG00000134198 TSPAN2 1 115048011 115089500 -
## 3 ENSG00000116199 FAM20B 1 179025804 179076562 +
## 4 ENSG00000119285 HEATR1 1 236549005 236604504 -
## 5 ENSG00000034510 TMSB10 2 84905625 84906675 +
## 6 ENSG00000198586 TLK1 2 170990823 171231314 -
10.3 Ma première bioinformatique intégrative
10.3.1 Étape 1 - Fusionner les tableaux d’expressions et d’annotations :
?merge
<- merge(exprs, annot, by = "id")
exprs_annot head(exprs_annot)
## id WT1 WT2 KO1 KO2 meanWT meanKO FC
## 1 ENSG00000034510 235960 94264 202381 91336 165112.0 146858.5 0.8894478
## 2 ENSG00000064201 116 71 64 56 93.5 60.0 0.6417112
## 3 ENSG00000065717 118 174 124 182 146.0 153.0 1.0479452
## 4 ENSG00000099958 450 655 301 472 552.5 386.5 0.6995475
## 5 ENSG00000104164 4736 5019 4845 4934 4877.5 4889.5 1.0024603
## 6 ENSG00000104783 9002 8623 7720 7142 8812.5 7431.0 0.8432340
## mean M A name chr start stop strand
## 1 155985.25 -0.16901821 17.248576 TMSB10 2 84905625 84906675 +
## 2 76.75 -0.64000386 6.226893 TSPAN32 11 2301997 2318200 +
## 3 149.50 0.06756328 7.223606 TLE2 19 2997638 3047635 -
## 4 469.50 -0.51550605 8.852078 DERL3 22 23834503 23839128 -
## 5 4883.50 0.00354507 12.253699 BLOC1S6 15 45587123 45615999 +
## 6 8121.75 -0.24599498 12.982338 KCNN4 19 43766533 43781257 -
10.3.2 Étape 2 - Sous-ensemble des lignes pour lesquelles chr vaut 8 :
<- exprs_annot[which(exprs_annot$chr == 8), ]
exprs_chr8 print(exprs_chr8)
## id WT1 WT2 KO1 KO2 meanWT meanKO FC mean M
## 44 ENSG00000253991 77 78 134 92 77.5 113 1.458065 95.25 0.5440546
## A name chr start stop strand
## 44 6.548152 KB-1562D12.2 8 101528723 101529569 -
10.4 Visualisation
library(plotly)
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
plot_ly(data = exprs_annot, x = ~A, y = ~M, text = paste("Gene name :", exprs_annot$name), type = 'scatter', mode = 'markers')