Вход

Распознавание G-квадруплексов в геноме Saccharomyces cerevisiae методами глубинного обучения

Рекомендуемая категория для самостоятельной подготовки:
Дипломная работа*
Код 562158
Дата создания 2020
Страниц 31
Мы сможем обработать ваш заказ (!) 5 ноября в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
2 880руб.
КУПИТЬ

Содержание

Список литературы

1. Kolesnikova S., Curtis E.A. Structure and Function of Multimeric G-Quadruplexes, Molecules. 2019 Sep; 24(17): 3074. doi: 10.3390/molecules24173074.
2. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2018 Oct.
3. Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab FlauBERT: Unsupervised Language Model Pre-training for French, 2019 Dec.
4. Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah, Benoît Sagot CamemBERT: a Tasty French Language Model, 2019 Nov.
5. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov RoBERTa: A Robustly Optimized BERT Pretraining Approach, 2019 Jul.
6. Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le XLNet: Generalized Autoregressive Pretraining for Language Understanding, 2019 Jun.
7. Guillaume Lample, Alexis Conneau Cross-lingual Language Model Pretraining, 2019 Jan.
8. Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, 2019 Oct.
9. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, 2019 Sep.
10. Steve G. Hershman, Qijun Chen, Julia Y. Lee, Marina L. Kozak, Peng Yue, Li-San Wang, F. Brad Johnson Genomic distribution and functional analyses of potential G-quadruplex-forming sequences in Saccharomyces cerevisiae, Nucleic Acids Res. 2008 Jan; 36(1): 144–156. doi: 10.1093/nar/gkm986.
11. Aleksandr B. Sahakyan, Vicki S. Chambers, Giovanni Marsico, Tobias Santner, Marco Di Antonio, Shankar Balasubramanian Machine learning model for sequence-driven DNA G-quadruplex formation. 2017 Nov.
12. Латышев П.В. Аннотация генома функциональными элементами методами обучения с учителем, 2019
13. Giovanni Marsico, Vicki S Chambers, Aleksandr B Sahakyan, Patrick McCauley, Jonathan M Boutell, Marco Di Antonio, and Shankar Balasubramanian Whole genome experimental maps of DNA G-quadruplexes in multiple species, 2019 Mar; 47(8): 3862–3874. doi: 10.1093/nar/gkz179.
14. http://www.yeastgenome.org/gene_list.shtml
15. https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM3003554
16. https://pqsfinder.fi.muni.cz/
17. Chaitanya Joshi Transformers are Graph Neural Networks, 2020 Feb.
18. Jay Alammar The Illustrated Transformer, 2018 Jun.
19. Rico Sennrich and Barry Haddow and Alexandra Birch Neural Machine Translation of Rare Words with Subword Units, 2016 Aug.
doi: 10.18653/v1/P16-1162.
20. https://pypi.org/project/simpletransformers/#2020-05-05
21. https://gluebenchmark.com/
22. Taku Kudo and John Richardson Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing, 2018 Nov; doi: 10.18653/v1/D18-2012.
23. Diederik P. Kingma, Jimmy Ba Adam: A Method for Stochastic Optimization, Machine Learning, 2014 Dec

Введение

Введение

G-квадруплексы представляют собой неканонические вторичные структуры, которые могут возникать в последовательностях ДНК и РНК, богатых гуанином. При определенной последовательности азотистых оснований, цепи нуклеиновых кислот могут складываться в четырёхцепочечную спираль, где четыре гуаниновых основания из разных цепей образуют плоскую структуру, удерживаемую парными взаимодействиями G-G. Такие структуры являются стабильными и называются G-тетрадами, квадруплексы могут содержать несколько подобных тетрад [1]. Устойчивость им придает моновалентный катион небольшого размера.

Рис. 1.1. Пример визуализации G-тетрады

G-квадруплексы формируются из наложенных друг на друга G-тетрад, в количестве от 2 до 12, и соединены цепями нуклеиновых кислот.
Ученые на данный момент занимаются тем, что стремятся выявить G-квадруплексы в геномах различных видов. Доказано, что в геноме человека наличие G-квадруплексов коррелируют с появлением раковых опухолей. Однако, для других видов функционал G-квадруплексов изучен гораздо меньше. Данное исследование может помочь выяснить роль, которую эти вторичные структуры играют в геноме Saccharomyces cerevisiae, а также в будущем выявить зависимости появления G-квадруплепксов у разных видов, в том числе и в геноме человека. Основная цель работы – предложить новый для данной области метод глубинного обучения для предсказания образования G-квадруплексов в геноме дрожжей и в идеале повысить точность и полноту предсказания.
Задачу распознавания вторичных структур ДНК можно рассматривать как задачу NLP, где последовательности нуклеотидов будут подаваться на вход модели как предложения естественного языка. Для решения этой задачи были рассмотрены еще не используемые для детекции G-квадруплексов методы глубинного обучения: архитектуры типа “трансформер” – “BERT” [2] и его аналоги: “FlauBERT” [3], “CamemBERT” [4], “RoBERTa” [5], “XLNet” [6], “XLM” [7], “DistilBERT” [8], “ALBERT” [9] и подобраны оптимальные параметры и гиперпараметры для этих моделей.

Фрагмент работы для ознакомления

Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Распознавание G-квадруплексов в геноме Saccharomyces cerevisiae методами глубинного обучения »
Оригинальность работы 91%

Аннотация

G-квадруплексы – это вторичные структуры нуклеиновых кислот, которые образуются на богатых гуанином участках генома. Такие структуры встречаются в геномах различных видов. Исследования показывают, что G-квадруплексы играют важную роль в регуляции ключевых клеточных процессов: транскрипции, трансляции и репликации.
Данная работа посвящена применению методов глубинного обучения для распознавания G-квадруплексов в геноме Saccharomyces cerevisiae. Ранее были рассмотрены методы машинного обучения и методы глубинного обучения для распознавания G-квадруплексов, такие как CNN и RNN, и они показали, что это удобные и продуктивные инструменты для выявления вторичных структур ДНК и РНК.
В настоящей работе была поставлена задача тестирования архитектур, рассчитанных на решение задач NLP, в применимости к проблеме распознавания G-квадруплексов, так как последовательности нуклеотидов можно представить в виде предложений естественного языка. Были выбраны модели типа “трансформеры”, которые на данный момент являются превалирующими в решении задач NLP. Удалось обучить четыре типа моделей: “FlauBERT”, “CamemBERT”, “RoBERTa” и “XLNet”, из которых наилучшую производительность показала “CamemBERT”. В работе была показана возможность применение моделей глубинного обучения на основе архитектур “трансформер” для задач распознавания квадруплексов. “Трасформеры” при решении поставленной задачи показали результаты, сравнимые с CNN и RNN.

G-quadruplexes are secondary structures of nucleic acids. These structures are found in the genomes of various species. Studies show that G-quadruplexes play an important role in the regulation of key cellular processes: transcription, translation, and replication.
This work is devoted to the application of deep learning methods for the recognition of G-quadruplexes in the genome of Saccharomyces cerevisiae. Machine learning methods and deep learning methods for recognizing G-quadruplexes such as CNN and RNN were previously considered, and they showed that they are convenient and productive tools for the detection of secondary structures of DNA and RNA.
In this work, the task was to test architecture, designed to solve NLP problems, because nucleotide sequences can be used in the form of sentences of a natural language. Models of the “transformers” type were chosen, which are currently prevailing in solving NLP problems. I managed to train four types of models: “FlauBERT”, “CamemBERT”, “RoBERTa” and “XLNet”, of which “CamemBERT” showed the best performance. The work showed the possibility of using deep learning models based on “transformer” architectures for G-quadruplex recognition problems. For this task "transformers" showed results comparable to CNN and RNN.

Ключевые слова

Биоинформатика, G-квадруплексы, аннотация функциональных элементов генома, глубинное обучение, нейронные сети, нейронные сети типа “трансформер”.


Список литературы

Список литературы

1. Kolesnikova S., Curtis E.A. Structure and Function of Multimeric G-Quadruplexes, Molecules. 2019 Sep; 24(17): 3074. doi: 10.3390/molecules24173074.
2. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2018 Oct.
3. Hang Le, Loïc Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alexandre Allauzen, Benoît Crabbé, Laurent Besacier, Didier Schwab FlauBERT: Unsupervised Language Model Pre-training for French, 2019 Dec.
4. Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah, Benoît Sagot CamemBERT: a Tasty French Language Model, 2019 Nov.
5. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov RoBERTa: A Robustly Optimized BERT Pretraining Approach, 2019 Jul.
6. Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le XLNet: Generalized Autoregressive Pretraining for Language Understanding, 2019 Jun.
7. Guillaume Lample, Alexis Conneau Cross-lingual Language Model Pretraining, 2019 Jan.
8. Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, 2019 Oct.
9. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, 2019 Sep.
10. Steve G. Hershman, Qijun Chen, Julia Y. Lee, Marina L. Kozak, Peng Yue, Li-San Wang, F. Brad Johnson Genomic distribution and functional analyses of potential G-quadruplex-forming sequences in Saccharomyces cerevisiae, Nucleic Acids Res. 2008 Jan; 36(1): 144–156. doi: 10.1093/nar/gkm986.
11. Aleksandr B. Sahakyan, Vicki S. Chambers, Giovanni Marsico, Tobias Santner, Marco Di Antonio, Shankar Balasubramanian Machine learning model for sequence-driven DNA G-quadruplex formation. 2017 Nov.
12. Латышев П.В. Аннотация генома функциональными элементами методами обучения с учителем, 2019
13. Giovanni Marsico, Vicki S Chambers, Aleksandr B Sahakyan, Patrick McCauley, Jonathan M Boutell, Marco Di Antonio, and Shankar Balasubramanian Whole genome experimental maps of DNA G-quadruplexes in multiple species, 2019 Mar; 47(8): 3862–3874. doi: 10.1093/nar/gkz179.
14. http://www.yeastgenome.org/gene_list.shtml
15. https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM3003554
16. https://pqsfinder.fi.muni.cz/
17. Chaitanya Joshi Transformers are Graph Neural Networks, 2020 Feb.
18. Jay Alammar The Illustrated Transformer, 2018 Jun.
19. Rico Sennrich and Barry Haddow and Alexandra Birch Neural Machine Translation of Rare Words with Subword Units, 2016 Aug.
doi: 10.18653/v1/P16-1162.
20. https://pypi.org/project/simpletransformers/#2020-05-05
21. https://gluebenchmark.com/
22. Taku Kudo and John Richardson Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing, 2018 Nov; doi: 10.18653/v1/D18-2012.
23. Diederik P. Kingma, Jimmy Ba Adam: A Method for Stochastic Optimization, Machine Learning, 2014 Dec
Очень похожие работы
Найти ещё больше
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00506
© Рефератбанк, 2002 - 2024