Рекомендуемая категория для самостоятельной подготовки:
Дипломная работа*
Код |
563591 |
Дата создания |
2021 |
Страниц |
28
|
Мы сможем обработать ваш заказ (!) 20 декабря в 12:00 [мск] Файлы будут доступны для скачивания только после обработки заказа.
|
Содержание
ОГЛАВЛЕНИЕ
1 ВВЕДЕНИЕ .................................................................................................... 5
2 ОБЗОР ЛИТЕРАТУРЫ.................................................................................... 7
2.1 РАСПОЗНАВАНИЕ НЕДЕЙСТВИТЕЛЬНЫХ ВЫРАЖЕНИЙ .......................... 7
2.2 СТАНДАРТНЫЕ МЕТОДЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ............. 9
2.2.1 Предобработка текста................................................................. 9
2.2.2 Признаки TF-IDF ............................................................................ 9
2.2.3 Представления слов fastText ........................................................ 10
2.2.4 Представления слов GloVe .......................................................... 10
2.3 НЕЙРОСЕТЕВЫЕ МЕТОДЫ КЛАССИФИКАЦИИ ТЕКСТА ......................... 10
2.3.1 Свёрточные нейронные сети ...................................................... 10
2.3.2 Рекуррентные нейронные сети................................................... 11
2.3.3 Представления слов ELMo ........................................................... 12
2.3.4 Модели на основе модели Трансформер ..................................... 13
2.4 МЕТОДЫ РАБОТЫ С НЕСБАЛАНСИРОВАННЫМ НАБОРОМ ДАННЫХ ...... 14
2.4.1 Случайное ресемплирование ........................................................ 14
2.4.2 SMOTE............................................................................................ 15
2.4.3 Обратный перевод........................................................................ 15
2.5 ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ............................................................ 15
2.5.1 Библиотека Imblearn [29, 30] ...................................................... 15
2.5.2 Библиотека fastText [31, 32] ........................................................ 16
2.5.3 Библиотека Hugging Face [33, 34] .............................................. 16
2.5.4 Библиотека fairseq [35, 36] .......................................................... 16
3 ПОСТАНОВКА ЗАДАЧИ И ИМЕЮЩИЙСЯ НАБОР ДАННЫХ ....................... 16
4 МЕТОДОЛОГИЯ .......................................................................................... 18
4.1 ПРЕДОБРАБОТКА ДАННЫХ................................................................... 18
4.2 РАБОТА С НЕСБАЛАНСИРОВАННЫМ НАБОРОМ ДАННЫХ ..................... 18
4.3 ПЛАН РЕШЕНИЯ ПОСТАВЛЕННОЙ ЗАДАЧИ .......................................... 18
5 СТАНДАРТНЫЕ МЕТОДЫ ........................................................................... 19
3
5.1 СТАТИСТИЧЕСКИЙ ПОДХОД ................................................................ 19
5.2 TF-IDF И РЕСЕМПЛИРОВАНИЕ ............................................................ 20
5.3 FASTTEXT............................................................................................. 20
6 НЕЙРОСЕТЕВЫЕ МЕТОДЫ ......................................................................... 21
6.1 СВЁРТОЧНЫЕ И РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ ............................. 21
6.1.1 Свёрточные нейронные сети ...................................................... 21
6.1.2 Рекуррентные нейронные сети................................................... 21
6.1.3 Сравнение двух моделей ............................................................... 22
6.2 ЯЗЫКОВЫЕ МОДЕЛИ ВИДА ТРАНСФОРМЕР .......................................... 22
7 КОМБИНАЦИЯ СТАНДРАТНЫХ И НЕЙРОСЕТЕВЫХ МЕТОДОВ ................. 24
7.1 ELMO И ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ ................................................ 24
7.2 АНСАМБЛИРОВАНИЕ ........................................................................... 24
8 РЕЗУЛЬТАТЫ .............................................................................................. 25
9 ЗАКЛЮЧЕНИЕ ............................................................................................ 25
10 СПИСОК ЛИТЕРАТУРЫ .............................................................................. 25
Введение
1 Введение
В настоящее время в мире активно развиваются методы обработки естественного языка (Natural Language Processing). Этому способствует регулярное увеличение количества текстовой информации в мире, а также технологический прогресс и развитие области машинного обучения и анализа данных в целом. Существует несколько классических задач обработки естественного языка, в том числе задачи перевода, распознавания именованных сущностей, семантический анализ текста и др.
Обнаружение и изучение недействительной (контрфактуальной) модальности также является задачей обработки естественного языка. Главным для недействительной модальности является то, что не произошло, но могло или должно было произойти. Выявление недействительных высказываний в языке является важной подзадачей моделирования контрфактуальной семантики, а также может рассматриваться в качестве основы для анализа причинно-следственных связей. Значительное количество исследований было проведено на тему недействительной модальности в таких областях, как социология, психология и философия, однако в области компьютерной лингвистики подобных исследований было немного. Son и др. [4] изучили выявление недействительных выражений в специфическом домене социальных сетей, прочие же исследования были направлены на другое изучение недействительной модальности, например, для генерации текста [15].
Существование вычислительных алгоритмов для распознавания недействительных высказываний значительно упростит их поиск в тексте, что приведёт к ускорению и упрощению будущих исследований недействительной модальности в различных областях науки – поскольку подобные высказывания представляют собой миноритарный класс, их поиск может требовать много времени и ресурсов. Например, подобные алгоритмы могут быть применены для анализа текстов из социальных сетей с целью выявить дискурсивные отношения в социологических исследованиях.
Целью настоящего исследования является конструирование алгоритма бинарной классификации, позволяющего с некоторой точностью определить,
5
содержит ли небольшой текст на английском языке (одно или несколько предложений) недействительные высказывания.
Для оценивания качества и обучения алгоритмов использовался набор данных с соревнования SemEval-2020 [1]. Он состоит из 13000 небольших текстов на английском языке, среди которых только девятая часть содержит в себе недействительные высказывания (таблицы 1.1, 1.2). Так как набор данных сильно не сбалансирован, в качестве основной метрики качества использовалась f-мера по миноритарному классу, а также precision (точность) и recall (полнота).
Во время работы над этим алгоритмом были изучены как статистические методы, так и методы машинного обучения, предназначенные для классификации текстов и (или) последовательностей, а также, в силу особенностей набора данных, были освоены различные методы работы с несбалансированными наборами данных.
Фрагмент работы для ознакомления
ДИПЛОМ
Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Моделирование причинно-следственных связей в языке: обнаружение недействительных высказываний»
Оригинальность работы 88%
Аннотация
Недействительные высказывания, описывающие события, которые не произошли (или не могли произойти) и события, которые могли бы возникнуть
в качестве их последствий, были изучены в различных областях науки, в том числе в лингвистике, философии и социологии. Тем не менее, в сфере вычислительной лингвистики эта тема не была широко изучена. Целью данного исследования является разработка метода для обнаружения подобных высказываний в коротких текстах на английском языке. Лучшим методом оказалась нейросетевая языковая модель, она смогла достичь значения f-меры в 0.86.
Ключевые слова – Недействительные высказывания, Представления слов, fasttext, GloVe, ELMo, BERT, Трансформер, Бинарная классификация, Несбалансированный набор данных
Abstract
Counterfactual statements, which describe an event that did not occur (or could not possibly occur) and its consequents, have been studied in different domains, including linguistics, philosophy, and human studies. Nevertheless, there has not been a great amount of research in computational linguistics. The main goal of this research was to develop a method for detecting counterfactuals in small texts in English. The best method we implemented was a neural net language model, which achieved an F1-score of 0.86 on the test set.
Список литературы
10 Список литературы
(1) CodaLab-Competition. https://competitions.codalab.org/competitions/21691
(2) Nelson Goodman. 1947. “The problem of counterfactual conditionals.“ The Journal of Philosophy 44(5):113–128.
(3) Philip E Tetlock. 1996. “Counterfactual thought experiments in world politics: Logical, methodological, and psychological perspectives.“ Princeton University Press.
(4) Son, Youngseo, Anneke Buffone, Joe Raso, Allegra Larche, Anthony
Janocko, Kevin Zembroski, H. Andrew Schwartz, and Lyle Ungar, “Recognizing counterfactual thinking in social media texts“, In Proceedings of the 55th Annual
25
Meeting of the Association for Computational Linguistics, ACL 2017, pages 654– 658, Vancouver.
(5) Twitter, Inc. https://twitter.com/
(6) Sepp Hochreiter, Ju ̈rgen Schmidhuber, “Long Short-term Memory“, 1997
(7) Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christo- pher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. “Deep contextualized word representations.“ In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 2227–2237.
(8) Nitish Srivastava and Geoffrey Hinton and Alex Krizhevsky and Ilya Sutskever and Ruslan Salakhutdinov, “Dropout: A Simple Way to Prevent Neural Networks from Overfitting“, Journal of Machine Learning Research, 2014
(9) Kingma, D. and Ba, J. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
(10) Mitchell P. Marcus, Mary Ann Marcinkiewicz, and Beat- rice Santorini. 1993. Building a large annotated corpus of english: the penn treebank.
Computational Linguistics, 19(2):313–330.
(11) Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014.
Glove: Global vectors for word representation. In Empirical Methods in Natural Language Processing (EMNLP), pages 1532– 1543.
(12) Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. 2017. Enriching word vectors with subword information. TACL 5:135–146.
(13) N.V.Chawla,K.W.Bowyer,L.O.Hall,andW.P.Kegelmeyer,‘‘SMOTE: Synthetic minority over-sampling technique,’’ J. Artif. Intell. Res., vol. 16, pp. 321–357, Jun. 2002
(14) Sergey Edunov, Myle Ott, Michael Auli, and David Grangier. 2018. Understanding back-translation at scale. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 489–500, Brussels.
(15) Trabasso T., Bartolone J. Story understanding and counterfactual reasoning //Journal of Experimental Psychology: Learning, Memory, and Cognition. – 2003. – Т. 29. – №. 5. – С. 904.
(16) Maximilian Köper, Christian Scheible, and Sabine Schulte im Walde. 2015. Multilingual reliability and “semantic” structure of continuous word spaces. Proc. IWCS 2015.
26
(17) Bojanowski P. et al. Enriching word vectors with subword information //Transactions of the Association for Computational Linguistics. – 2017. – Т. 5. –
С. 135-146.
(18) Pennington J., Socher R., Manning C. D. Glove: Global vectors for word representation //Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). – 2014. – С. 1532-1543.
(19) Kim Y. Convolutional neural networks for sentence classification //arXiv preprint arXiv:1408.5882. – 2014.
(20) Jacovi A., Shalom O. S., Goldberg Y. Understanding convolutional neural networks for text classification //arXiv preprint arXiv:1809.08037. – 2018.
(21) Peters M. E. et al. Deep contextualized word representations //arXiv preprint arXiv:1802.05365. – 2018.
(22) Vaswani A. et al. Attention is all you need //Advances in neural information processing systems. – 2017. – С. 5998-6008.
(23) Devlin J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding //arXiv preprint arXiv:1810.04805. – 2018.
(24) Chawla N. V. et al. SMOTE: synthetic minority over-sampling technique //Journal of artificial intelligence research. – 2002. – Т. 16. – С. 321-357.
(25) Sennrich R., Haddow B., Birch A. Improving neural machine translation models with monolingual data //arXiv preprint arXiv:1511.06709. – 2015.
(26) Edunov S. et al. Understanding back-translation at scale //arXiv preprint arXiv:1808.09381. – 2018.
(27) Yu A. W. et al. Qanet: Combining local convolution with global self-attention for reading comprehension //arXiv preprint arXiv:1804.09541. – 2018.
(28) Xie Q. et al. Unsupervised data augmentation for consistency training. –
2019.
(29) Lemaître G., Nogueira F., Aridas C. K. Imbalanced-learn: A python toolbox to tackle the curse of imbalanced datasets in machine learning //The Journal of Machine Learning Research. – 2017. – Т. 18. – №. 1. – С. 559-563.
(30) https://github.com/scikit-learn-contrib/imbalanced-learn
(31) Joulin A. et al. Bag of tricks for efficient text classification //arXiv preprint arXiv:1607.01759. – 2016.
(32) https://fasttext.cc
27
(33) Wolf T. et al. Huggingface’s transformers: State-of-the-art natural language processing //ArXiv, abs/1910.03771. – 2019.
(34) https://github.com/huggingface/transformers
(35) Ott M. et al. fairseq: A fast, extensible toolkit for sequence modeling //arXiv preprint arXiv:1904.01038. – 2019.
(36) https://github.com/pytorch/fairseq
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00519