Код | 524718 |
Дата создания | 2021 |
Мы сможем обработать ваш заказ (!) 20 декабря в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
|
ДИПЛОМ
Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Моделирование причинно-следственных связей в языке: обнаружение недействительных высказываний»
Оригинальность работы 88%
Аннотация
Недействительные высказывания, описывающие события, которые не произошли (или не могли произойти) и события, которые могли бы возникнуть
в качестве их последствий, были изучены в различных областях науки, в том числе в лингвистике, философии и социологии. Тем не менее, в сфере вычислительной лингвистики эта тема не была широко изучена. Целью данного исследования является разработка метода для обнаружения подобных высказываний в коротких текстах на английском языке. Лучшим методом оказалась нейросетевая языковая модель, она смогла достичь значения f-меры в 0.86.
Ключевые слова – Недействительные высказывания, Представления слов, fasttext, GloVe, ELMo, BERT, Трансформер, Бинарная классификация, Несбалансированный набор данных
Abstract
Counterfactual statements, which describe an event that did not occur (or could not possibly occur) and its consequents, have been studied in different domains, including linguistics, philosophy, and human studies. Nevertheless, there has not been a great amount of research in computational linguistics. The main goal of this research was to develop a method for detecting counterfactuals in small texts in English. The best method we implemented was a neural net language model, which achieved an F1-score of 0.86 on the test set.
ОГЛАВЛЕНИЕ
1 ВВЕДЕНИЕ .................................................................................................... 5
2 ОБЗОР ЛИТЕРАТУРЫ.................................................................................... 7
2.1 РАСПОЗНАВАНИЕ НЕДЕЙСТВИТЕЛЬНЫХ ВЫРАЖЕНИЙ .......................... 7
2.2 СТАНДАРТНЫЕ МЕТОДЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ............. 9
2.2.1 Предобработка текста................................................................. 9
2.2.2 Признаки TF-IDF ............................................................................ 9
2.2.3 Представления слов fastText ........................................................ 10
2.2.4 Представления слов GloVe .......................................................... 10
2.3 НЕЙРОСЕТЕВЫЕ МЕТОДЫ КЛАССИФИКАЦИИ ТЕКСТА ......................... 10
2.3.1 Свёрточные нейронные сети ...................................................... 10
2.3.2 Рекуррентные нейронные сети................................................... 11
2.3.3 Представления слов ELMo ........................................................... 12
2.3.4 Модели на основе модели Трансформер ..................................... 13
2.4 МЕТОДЫ РАБОТЫ С НЕСБАЛАНСИРОВАННЫМ НАБОРОМ ДАННЫХ ...... 14
2.4.1 Случайное ресемплирование ........................................................ 14
2.4.2 SMOTE............................................................................................ 15
2.4.3 Обратный перевод........................................................................ 15
2.5 ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ............................................................ 15
2.5.1 Библиотека Imblearn [29, 30] ...................................................... 15
2.5.2 Библиотека fastText [31, 32] ........................................................ 16
2.5.3 Библиотека Hugging Face [33, 34] .............................................. 16
2.5.4 Библиотека fairseq [35, 36] .......................................................... 16
3 ПОСТАНОВКА ЗАДАЧИ И ИМЕЮЩИЙСЯ НАБОР ДАННЫХ ....................... 16
4 МЕТОДОЛОГИЯ .......................................................................................... 18
4.1 ПРЕДОБРАБОТКА ДАННЫХ................................................................... 18
4.2 РАБОТА С НЕСБАЛАНСИРОВАННЫМ НАБОРОМ ДАННЫХ ..................... 18
4.3 ПЛАН РЕШЕНИЯ ПОСТАВЛЕННОЙ ЗАДАЧИ .......................................... 18
5 СТАНДАРТНЫЕ МЕТОДЫ ........................................................................... 19
3
5.1 СТАТИСТИЧЕСКИЙ ПОДХОД ................................................................ 19
5.2 TF-IDF И РЕСЕМПЛИРОВАНИЕ ............................................................ 20
5.3 FASTTEXT............................................................................................. 20
6 НЕЙРОСЕТЕВЫЕ МЕТОДЫ ......................................................................... 21
6.1 СВЁРТОЧНЫЕ И РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ ............................. 21
6.1.1 Свёрточные нейронные сети ...................................................... 21
6.1.2 Рекуррентные нейронные сети................................................... 21
6.1.3 Сравнение двух моделей ............................................................... 22
6.2 ЯЗЫКОВЫЕ МОДЕЛИ ВИДА ТРАНСФОРМЕР .......................................... 22
7 КОМБИНАЦИЯ СТАНДРАТНЫХ И НЕЙРОСЕТЕВЫХ МЕТОДОВ ................. 24
7.1 ELMO И ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ ................................................ 24
7.2 АНСАМБЛИРОВАНИЕ ........................................................................... 24
8 РЕЗУЛЬТАТЫ .............................................................................................. 25
9 ЗАКЛЮЧЕНИЕ ............................................................................................ 25
10 СПИСОК ЛИТЕРАТУРЫ .............................................................................. 25
10 Список литературы
(1) CodaLab-Competition. https://competitions.codalab.org/competitions/21691
(2) Nelson Goodman. 1947. “The problem of counterfactual conditionals.“ The Journal of Philosophy 44(5):113–128.
(3) Philip E Tetlock. 1996. “Counterfactual thought experiments in world politics: Logical, methodological, and psychological perspectives.“ Princeton University Press.
(4) Son, Youngseo, Anneke Buffone, Joe Raso, Allegra Larche, Anthony
Janocko, Kevin Zembroski, H. Andrew Schwartz, and Lyle Ungar, “Recognizing counterfactual thinking in social media texts“, In Proceedings of the 55th Annual
25
Meeting of the Association for Computational Linguistics, ACL 2017, pages 654– 658, Vancouver.
(5) Twitter, Inc. https://twitter.com/
(6) Sepp Hochreiter, Ju ̈rgen Schmidhuber, “Long Short-term Memory“, 1997
(7) Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christo- pher Clark, Kenton Lee, and Luke Zettlemoyer. 2018. “Deep contextualized word representations.“ In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 2227–2237.
(8) Nitish Srivastava and Geoffrey Hinton and Alex Krizhevsky and Ilya Sutskever and Ruslan Salakhutdinov, “Dropout: A Simple Way to Prevent Neural Networks from Overfitting“, Journal of Machine Learning Research, 2014
(9) Kingma, D. and Ba, J. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
(10) Mitchell P. Marcus, Mary Ann Marcinkiewicz, and Beat- rice Santorini. 1993. Building a large annotated corpus of english: the penn treebank.
Computational Linguistics, 19(2):313–330.
(11) Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014.
Glove: Global vectors for word representation. In Empirical Methods in Natural Language Processing (EMNLP), pages 1532– 1543.
(12) Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. 2017. Enriching word vectors with subword information. TACL 5:135–146.
(13) N.V.Chawla,K.W.Bowyer,L.O.Hall,andW.P.Kegelmeyer,‘‘SMOTE: Synthetic minority over-sampling technique,’’ J. Artif. Intell. Res., vol. 16, pp. 321–357, Jun. 2002
(14) Sergey Edunov, Myle Ott, Michael Auli, and David Grangier. 2018. Understanding back-translation at scale. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 489–500, Brussels.
(15) Trabasso T., Bartolone J. Story understanding and counterfactual reasoning //Journal of Experimental Psychology: Learning, Memory, and Cognition. – 2003. – Т. 29. – №. 5. – С. 904.
(16) Maximilian Köper, Christian Scheible, and Sabine Schulte im Walde. 2015. Multilingual reliability and “semantic” structure of continuous word spaces. Proc. IWCS 2015.
26
(17) Bojanowski P. et al. Enriching word vectors with subword information //Transactions of the Association for Computational Linguistics. – 2017. – Т. 5. –
С. 135-146.
(18) Pennington J., Socher R., Manning C. D. Glove: Global vectors for word representation //Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). – 2014. – С. 1532-1543.
(19) Kim Y. Convolutional neural networks for sentence classification //arXiv preprint arXiv:1408.5882. – 2014.
(20) Jacovi A., Shalom O. S., Goldberg Y. Understanding convolutional neural networks for text classification //arXiv preprint arXiv:1809.08037. – 2018.
(21) Peters M. E. et al. Deep contextualized word representations //arXiv preprint arXiv:1802.05365. – 2018.
(22) Vaswani A. et al. Attention is all you need //Advances in neural information processing systems. – 2017. – С. 5998-6008.
(23) Devlin J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding //arXiv preprint arXiv:1810.04805. – 2018.
(24) Chawla N. V. et al. SMOTE: synthetic minority over-sampling technique //Journal of artificial intelligence research. – 2002. – Т. 16. – С. 321-357.
(25) Sennrich R., Haddow B., Birch A. Improving neural machine translation models with monolingual data //arXiv preprint arXiv:1511.06709. – 2015.
(26) Edunov S. et al. Understanding back-translation at scale //arXiv preprint arXiv:1808.09381. – 2018.
(27) Yu A. W. et al. Qanet: Combining local convolution with global self-attention for reading comprehension //arXiv preprint arXiv:1804.09541. – 2018.
(28) Xie Q. et al. Unsupervised data augmentation for consistency training. –
2019.
(29) Lemaître G., Nogueira F., Aridas C. K. Imbalanced-learn: A python toolbox to tackle the curse of imbalanced datasets in machine learning //The Journal of Machine Learning Research. – 2017. – Т. 18. – №. 1. – С. 559-563.
(30) https://github.com/scikit-learn-contrib/imbalanced-learn
(31) Joulin A. et al. Bag of tricks for efficient text classification //arXiv preprint arXiv:1607.01759. – 2016.
(32) https://fasttext.cc
27
(33) Wolf T. et al. Huggingface’s transformers: State-of-the-art natural language processing //ArXiv, abs/1910.03771. – 2019.
(34) https://github.com/huggingface/transformers
(35) Ott M. et al. fairseq: A fast, extensible toolkit for sequence modeling //arXiv preprint arXiv:1904.01038. – 2019.
(36) https://github.com/pytorch/fairseq