Анализ геномных и метагеномных данных в образовательных целях

  • Сергей Владимирович Казаков Университет ИТМО, Санкт-Петербург, Россия
  • Анатолий Абрамович Шалыто Университет ИТМО, Санкт-Петербург, Россия
Ключевые слова: биоинформатика, ДНК, геном, метагеном, секвенирование ДНК, сборка генома de novo, сравнительный анализ метагеномов, персональный компьютер

Аннотация

В работе рассматриваются две задачи анализа данных геномного и метагеномного секвенирования — задача de novo сборки генома (сборка неизвестного генома) и задача сравнительного анализа метагеномов, которая возникает при анализе геномов микроорганизмов из почв, океанов, кишечника человека и т. д. Несмотря на то, что эти задачи в основном возникают у исследователей, работающих в области биологии, их использование в образовательных целях — необходимый шаг при обучении молодых медиков, биологов и биоинформатиков, а также для повышения квалификации специалистов из этих областей. В настоящей статье приводится обзор методов сборки генома и сравнительного анализа метагеномов, исследуется вопрос применимости существующих средств для обучающихся и предлагаются новые подходы к решению данных задач. Такие подходы использовались авторами при обучении студентов в Санкт-Петербургском политехническом университете Петра Великого. В работе также приводятся результаты экспериментов по сравнению предложенных подходов с известными.

Биографии авторов

Сергей Владимирович Казаков, Университет ИТМО, Санкт-Петербург, Россия

Казаков С. В.: Аспирант кафедры «Компьютерные технологии» Университета ИТМО.

Анатолий Абрамович Шалыто, Университет ИТМО, Санкт-Петербург, Россия

Шалыто А. А.: Доктор технических наук, профессор, заведующий кафедрой «Технологии Программирования» Университета ИТМО.

Литература

[1] S. C. Schuster, “Next-generation sequencing transforms today’ s biology,” Nat. Methods, vol. 5, no. 1, pp. 16–18, 2008; doi: 10.1038/NMETH1156
[2] J. R. Miller, S. Koren, and G. Sutton, “Assembly algorithms for next-generation sequencing data,” Genomics, vol. 95, no. 6, pp. 315–327, 2010; doi:10.1016/j.ygeno.2010.03.001
[3] A. A. Sergushichev, A. V. Alexandrov, S. V. Kazakov, F. N. Tsarev, and A. A. Shalyto “Sovmestnoe primenenie grafa de Breina, grafa perekrytii i mikrosborki dlya de novo sborki genoma” [Combining De Bruijn Graphs, Overlap Graphs and Microassembly for De Novo Genome Assembly], Izv. Saratov Univ. (N.S.), Ser. Math. Mech. Inform., vol. 13, no. 2-2, pp. 51–57, 2013 (in Russian).
[4] A. V. Alexandrov, S. V. Kazakov, S. V. Melnikov, A. A. Sergushichev, and F. N. Tsarev, “Metod sborki kontigov genomnykh posledovatel'nostei na osnove sovmestnogo primeneniya grafov de Bryuina i grafov perekrytii” [Genome contigs assembly method based on the Brujin graphs and overlap graphs], Nauchno-tekhnicheskii vestnik informatsionnykh tekhnologii, mekhaniki i optiki, no. 6(82), pp. 93–98, 2012 (in Russian).
[5] A. Alexandrov, S. Kazakov, S. Melnikov, A. Sergushichev, A. Shalyto, and F. Tsarev, “Combining de Bruijn graph, overlaps graph and microassembly for de novo genome assembly,” in Proc. of “Bioinformatics 2012”, Stockholm, Sweden, pp. 72.
[6] A. V. Zimin, G. Marçais, D. Puiu, M. Roberts, S. L. Salzberg, and J. A. Yorke, “The MaSuRCA genome assembler,” Bioinformatics, vol. 29, no. 21, pp. 2669–2677, Nov. 2013; doi: 10.1093/bioinformatics/btt476
[7] R. Chikhi and G. Rizk, “Space-efficient and exact de Bruijn graph representation based on a Bloom filter,” Algorithms for Molecular Biology, vol. 8, no. 22, 2013; doi:10.1186/1748-7188-8-22
[8] A. Bankevich et al., “SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing,” Journal of Computational Biology, vol. 19, no. 5, pp. 455–477, 2012; doi: 10.1089/cmb.2012.0021
[9] D. R. Zerbino and E. Birney, “Velvet: algorithms for de novo short read assembly using de Bruijn graphs,” Genome research, vol. 18, no. 5, pp. 821–829, May 2008; doi: 10.1101/gr.074492.107
[10] D. Kleftogiannis, P. Kalnis, and V. B. Bajic, “Comparing memory-efficient genome assemblers on stand-alone and cloud infrastructures,” PloS one, no. 8(9) e75505, 2013; doi:10.1371/journal.pone.0075505
[11] CLC Genomics Workbench‒QIAGEN Bioinformatics. [Online]. Available: https://www.qiagenbioinformatics.com/products/clc-genomics-workbench
[12] J. Handelsman, M. R. Rondon, S. F. Brady, J. Clardy, and R. M. Goodman “Molecular biological access to the chemistry of unknown soilmicrobes: a new frontier for natural products,” Chemistry&biology, vol. 5, no. 10, pp. R245–R249, 1998; doi:10.1016/S1074-5521(98)90108-9
[13] D. E. Wood and S. L. Salzberg, “Kraken: ultrafast metagenomic sequence classification using exact alignments,” Genome biology, vol. 15, no. 3, R46, 2014; doi:10.1186/gb-2014-15-3-r46
[14] D. T. Truong et al., “MetaPhlAn2 for enhanced metagenomic taxonomic profiling,” Nature methods, vol. 12, no. 10, pp. 902–903, 2015; doi:10.1038/nmeth.3589
[15] B. E. Dutilh et al., “Reference-independent comparative metagenomics using cross-assembly: crass,” Bioinformatics, vol. 28, no. 24, pp. 3225–3231, 2012; doi:10.1093/bioinformatics/bts613
[16] Y.-W. Wu and Y. Ye, “A novel abundance-based algorithm for binning metagenomic sequences usingl-tuples,” Journal of Computational Biology, vol. 18, no. 3, pp. 523–534, 2011; doi:10.1089/cmb.2010.0245.
[17] V. I. Ulyantsev, S. V. Kazakov, V. B. Dubinkina, A. V. Tyakht, and D. G. Alexeev, “MetaFast: fast reference-free graph-based comparison of shotgun metagenomic data,” Bioinformatics, vol. 32, no. 18, pp. 2760-2767, 2016; doi:10.1093/bioinformatics/btw312
Опубликован
2016-06-30
Как цитировать
Казаков, С. В., & Шалыто, А. А. (2016). Анализ геномных и метагеномных данных в образовательных целях. Компьютерные инструменты в образовании, (3), 5-15. извлечено от http://cte.eltech.ru/ojs/index.php/kio/article/view/1397
Выпуск
Раздел
Информатика