Вход

Разработка вычислительно эффективного метода получения векторных представлений слов с помощью нейронной сети Transformer

Рекомендуемая категория для самостоятельной подготовки:
Дипломная работа*
Код 489085
Дата создания 2021
Мы сможем обработать ваш заказ (!) 2 мая в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
1 660руб.
КУПИТЬ

Описание

Целью магистерской диссертации является ускорение процесса обучения модели BERT, то есть сделать модель вычислительно проще. Для достижения этой цели ставятся следующие задачи:

– изучение BERT,

– реализация модели BERT,

– обучение модели,

– валидация результатов на задаче классификации текстов,

– модификация модели с целью ускорения процесса обучения.

Для удобства введём англоязычные термины, которым трудно по- добрать аналог в русском языке:

– batch – пакет, набор данных, батч,

– residual connections – остаточные соединения,

– positional encoding – позиционное кодирование.

Содержание

ВВЕДЕНИЕ..................................................................................................... 3

1. Методы вычисления векторных представлений слов с помощью нейронной сети Transformer....................................................................... 6

1.1. Transformer......................................................................................... 6

1.2. Transformer Encoder.......................................................................... 6

1.2.1. Входная последовательности токенов......................................... 7

1.2.2. Таблица векторных представлений............................................. 8

1.2.3. Positional Encoding................................................................. 9

1.2.4. Multi-head Attention............................................................. 10

1.2.5. Residual connections............................................................. 12

1.2.6. Layer normalization.............................................................. 13

1.2.7. Полносвязный слой................................................................... 13

1.2.8. Encoder Layer........................................................................ 14

1.2.9. Encoder Transformer............................................................ 15

1.3. Входной вектор................................................................................ 16

1.3.1. Векторные представления сегментов........................................ 16

1.4. Задачи............................................................................................... 16

1.4.1. Masked Language Model............................................................ 16

1.4.2. Next Sentence Prediction....................................................... 18

1.5. Число обучаемых параметров BERT............................................ 18

1.6. Число операций в BERT................................................................. 19

2. Реализация и эксперимент....................................................................... 21

2.1. Язык программирования и библиотеки................................................ 21

2.2. Набор данных.................................................................................. 21

2.3. Параметры....................................................................................... 21

2.4. Результаты........................................................................................ 22

2.4.1. Pre-training............................................................................ 22

2.4.2. Задача классификации текстов.......................................... 22

2.4.3. Эксперимент по изменение параметров.................................... 22


2.4.4. Эксперимент c изменением числа операций.............................. 25

3. Вычислительно эффективные методы получения векторных представлений слов с помощью Transformer............................................. 29

3.1. Исследование вычислительно эффективных методов полу- чения векторных представлений слов с помощью нейронной

сети Трансформер........................................................................... 29

3.2. Разработка модификации архитектуры нейронной сети Транс- формер.............................................................................................. 31

3.3. Программная реализация модификации нейронной сети Транс- формер 36

3.4. Результаты........................................................................................ 37

3.4.1. Pre-training............................................................................ 37

3.4.2. Pre-training на одной итерации нейронной сети Trans- former с модификацией......................................................................... 40

3.4.3. ELECTRA............................................................................... 44

3.4.4. ELECTRA Pre-training......................................................... 46

3.4.5. ELECTRA Pre-training с модификацией.......................... 48

ЗАКЛЮЧЕНИЕ........................................................................................... 51

СПИСОК ЛИТЕРАТУРЫ.......................................................................... 55

ПРИЛОЖЕНИЯ.......................................................................................... 57

Список литературы

1. Tomas Mikolov. Efficient Estimation of Word Representations in Vector Space / Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean // URL: https://arxiv.org/abs/1301.3781.

2. Matthew E. Peters. Deep contextualized word representations / Matthew

E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer // URL:https://arxiv.org/abs/1802.05365.

3. Jacob Devlin. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // URL:https://arxiv.org/abs/1810.04805.

4. Ashish Vaswani. Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin // URL:https://arxiv.org/abs/1706.03762.

5. Jimmy Lei Ba. Layer Normalization / Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton // URL:https://arxiv.org/abs/1607.06450.

6. Ilya Loshchilov. Decoupled Weight Decay Regularization / Ilya Loshchilov, Frank Hutter // URL:https://arxiv.org/abs/1711.05101.

7. Yang You. Large Batch Optimization for Deep Learning: Training BERT in 76 minutes / Yang You, Jing Li, Sashank Reddi, Jonathan Hseu, Sanjiv Kumar, Srinadh Bhojanapalli, Xiaodan Song, James Demmel, Kurt Keutzer, Cho-Jui Hsieh // URL:https://arxiv.org/abs/1904.00962.

8. Linyuan Gong. Efficient Training of BERT by Progressively Stacking / Linyuan Gong, Di He, Zhuohan Li, Tao Qin, Liwei Wang, Tieyan Liu // URL:https://proceedings.mlr.press/v97/gong19a/gong19a.pdf.

9. Zhenzhong Lan. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations / Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut

// URL:https://arxiv.org/abs/1909.11942.

10. Kevin Clark. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators / Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning // URL:https://arxiv.org/abs/2003.10555.

11. Sheng Shen. Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT / Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer // URL:https://arxiv.org/abs/1909.05840.

12. Geoffrey Hinton. Distilling the Knowledge in a Neural Network / Geoffrey Hinton, Oriol Vinyals, Jeff Dean // URL:https://arxiv.org/abs/1503.02531.

13. Victor Sanh. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter / Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf // URL:https://arxiv.org/abs/1910.01108.

14. Zak Stone. Now you can train TensorFlow machine learning models faster and at lower cost on Cloud TPU Pods / Zak Stone // URL:https://cloud.google.com/blog/products/ai-machine-learning/now- you-can-train-ml-models-faster-and-lower-cost-cloud-tpu-pods.

15. NVIDIA. NVIDIA Tesla V100 GPU Accelerator / NVIDIA // URL:https://images.nvidia.com/content/technologies/volta/pdf/tesla- volta-v100-datasheet-letter-fnl-web.pdf.

16. NVIDIA. NVIDIA Tesla P40 GPU Accelerator / NVIDIA // URL:http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40- Datasheet-NV-Final-Letter-Web.pdf.

17. Ian J. Goodfellow. Generative Adversarial Networks / Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio // URL:https://arxiv.org/abs/1406.2661.

Очень похожие работы
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.005
© Рефератбанк, 2002 - 2024