Код | 544165 |
Дата создания | 2021 |
Мы сможем обработать ваш заказ (!) 25 ноября в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
|
Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Применение методов машинного перевода для решения задачи упрощения предложений на русском языке»
Оригинальность работы 97%
Введение
Автоматические методы обработки естественного языка в последние годы вызывают все больший интерес. Исследователям удалось достичь значительных успехов в данной области. Например, уже сегодня люди часто прибегают к машинному переводу для того, чтобы перевести какую-то информацию или общаться на иностранном языке. На данный момент эта задача чаще всего решается с помощью sequence-to-sequence обучения, также как и задача упрощения предложений, которая заключается в превращении исходного предложения в его упрощенный вариант с помощью удаления сложных лексических единиц и синтаксических конструкций или их замены на более простые.
Решение вышеупомянутых задач является одним из приоритетных направлений в сфере обработки естественного языка, так как это существенно помогло бы продвинуться в понимании как структуры отдельных языков, так и связей между разными языками мира в целом. С практической же точки зрения создание системы машинного перевода, позволяющей добиться качества, сопоставимого с эталоном человеческого перевода, открыло бы большие возможности для перевода текстов, принадлежащих специфическим областям. Что касается упрощения предложений, решение этой задачи релевантно для приведения информации в более простой и доступный вид, который будет понятен, например, детям, людям с когнитивными отклонениями и тем, кто только начинает изучать иностранный язык.
Есть много статей, посвященных изучению преимуществ применения методов машинного перевода для автоматического упрощения предложений. Исследователи подробно осветили, как модели, созданные для перевода, могут быть адаптированы для упрощения предложений, а также как автоматически переведенные данные могут быть использованы для обучения или точной настройки моделей. Хотя в этой области было много достижений, все еще остаются и значительные пробелы, обусловленные следующими причинами. Во-первых, применяемые методы машинного перевода по-прежнему допускают серьезные ошибки как на синтаксическом, так и на грамматическом уровне и не учитывают вариативность языка. Более того, отсутствие в некоторых языках, отличных от английского, общедоступного параллельного корпуса для упрощения предложений не позволяет исследователям экспериментировать с текстами на данном языке.
Таким образом, хотя авторы многих исследований успешно рассмотрели обе sequence-to-sequence задачи в отдельности и конкретно то, как машинный перевод может быть использован для создания модели, позволяющей получать упрощенные предложения, - многие проблемы все еще только предстоит решить.
Актуальность данной работы обусловлена тем, что задача автоматического упрощения предложений не была достаточно изучена в русском языке. Данное исследование является частью проекта в рамках соревнования RuSimpleSentEval [1], посвященного автоматическому упрощению предложений. Одной из основных задач проекта было создание первого русскоязычного параллельного корпуса упрощенных предложений. Ранее такого оригинального корпуса, так же, как и автоматически переведенного с английского набора данных для этой задачи не существовало. Кроме того, самой проблеме обучения модели для автоматического упрощения предложений на русском языке не было уделено должное внимание.
Таким образом, основной целью этого исследования является изучение роли машинного перевода в обучении моделей для автоматического упрощения предложений и преодоления проблемы нехватки данных. Данная работа должна внести вклад в изучение машинного перевода как в общем, так и в контексте упрощения русскоязычных предложений.
В таком случае, объектом исследования будут являться методы машинного перевода, а предметом – их применение для перевода параллельных корпусов простых предложений и обучения моделей для упрощения предложений на русском языке.
Оглавление
Введение. 3
1. Обзор задач машинного перевода и упрощения предложений. 7
1.1 Sequence-to-sequence обучение. 7
1.2 Основные методы машинного перевода. 10
1.3 Подходы к задаче упрощения предложений. 13
1.4 Корпусы упрощенных предложений. 17
1.5 Методы и метрики для оценки качества перевода и упрощения. 20
Выводы к главе 1. 22
2. Применение методов машинного перевода для решения задачи упрощения предложений на русском языке. 24
2.1 Автоматический перевод корпуса WikiLarge и анализ результатов. 24
2.1.1 Корпус WikiLarge. 24
2.1.2 Перевод WikiLarge на русский язык. 27
2.1.3 Русскоязычный корпус предложений. 30
2.2 Эксперименты с обучением модели для упрощения предложений на русском языке 31
2.2.1 Базовое решение. 31
2.2.2 Обучение mBART для упрощения предложений. 32
2.2.3 Результаты.. 34
2.3 Качественная оценка перевода и упрощения предложений. 37
2.3.1 Проведение опроса и его результаты.. 37
2.3.2 Отдельные примеры из данных. 40
Выводы к главе 2. 47
Заключение. 49
Список литературы.. 51
Приложения. 57
Список литературы
1. Alva-Manchego, F. Learning how to simplify from explicit labeling of complex-simplified text pairs [Текст] / Alva-Manchego, F., Bingel, J., Paetzold, G., Scarton, C., Specia, L // In Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 2017. - С. 295 - 305.
2. Alva-Manchego, F. Easier Automatic Sentence Simplification Evaluation [Текст] / Alva-Manchego, F., Martin, L., Scarton, C., Specia, L. // EMNLP-IJCNLP 2019 - 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Proceedings of System Demonstrations, 2019. - С. 49–54.
3. Alva-Manchego F. ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations [Электронный ресурс] / Alva-Manchego, F., Martin, L., Bordes, A., Scarton, C., Sagot, B., Specia, L. // arXiv preprint arXiv:2005.00481, 2020 – Режим доступа: https://arxiv.org/pdf/2005.00481.pdf. – 13.05.2021.
4. Bahdanau D. Neural machine translation by jointly learning to align and translate [Текст] / Bahdanau D., Cho K. H., Bengio Y. // 3rd International Conference on Learning Representations, ICLR 2015 - Conference Track Proceedings.: International Conference on Learning Representations, ICLR, 2015.
5. Brouwers, L. Syntactic sentence simplification for French [Текст] / Brouwers, L., Bernhard, D., Ligozat, A. L., François, T. // In Proceedings of the 3rd Workshop on Predicting and Improving Text Readability for Target Reader Populations (PITR), 2014. – С. 47-56.
6. Devlin, J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Текст] / Devlin, J., Chang, M. W., Lee, K., Toutanova, K. // NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, 2018. – С. 4171–4186.
7. Nisioi, S. Exploring neural text simplification models [Текст] / Nisioi, S., Štajner, S., Ponzetto, S. P., Dinu, L. P // In Proceedings of the 55th annual meeting of the association for computational linguistics (volume 2: Short papers), 2017. – С. 85-91.
8. Dong, Y. EditNTS: A Neural Programmer-Interpreter Model for Sentence Simplification through Explicit Editing [Текст] / Dong, Y., Li, Z., Rezagholizadeh, M., Cheung, J. C. K. // ACL 2019 - 57th Annual Meeting of the Association of Computer Linguists, Proceedings Conference., 2019. - С. 3393–3402.
9. Feng, F. Language-agnostic BERT Sentence Embedding [Электронный ресурс] / Feng, F., Yang, Y., Cer, D., Arivazhagan, N., Wang, W. // arXiv preprint arXiv:2007.01852, 2020. - Режим доступа: https://arxiv.org/pdf/2007.01852.pdf – 13.05.2021.
10. Flesch R. A new readability yardstick [Текст] // Journal of applied psychology, Т. 32 №3, 1948. - С. 221–233.
11. Gudkov V. Automatically Ranked Russian Paraphrase Corpus for Text Generation [Электронный ресурс] // Gudkov V., Mitrofanova O., Filippskikh E. // arXiv preprint arXiv:2006.09719, 2020. - Режим доступа: https://arxiv.org/pdf/2006.09719.pdf – 13.05.2021.
12. Hochreiter S. Long Short-Term Memory [Текст] / Hochreiter S., Schmidhuber J.// Neural computation Т. 9. № 8., 1997. - С. 1735–1780.
13. Huang Z. Bidirectional LSTM-CRF Models for Sequence Tagging [Электронный ресурс] / Huang Z., Xu W., Yu K. // arXiv preprint arXiv:1508.01991, 2015 - Режим доступа: https://arxiv.org/pdf/1508.01991.pdf – 13.05.2021.
14. Jordan, M. I. Serial order: a parallel distributed processing approach. Technical report [Текст] // No. AD-A-173989/5/XAB; ICS-8604. California Univ., San Diego, La Jolla (USA). Inst. for Cognitive Science, 1986.
15. Junczys-Dowmunt M. Marian: Fast Neural Machine Translation in C++ [Текст] / Junczys-Dowmunt, M., Grundkiewicz, R., Dwojak, T., Hoang, H., Heafield, K., Neckermann, T., Seide, F., Germann, U., Aji, A.F., Bogoychev, N., Martins, A.F. //ACL 2018 - 56th Annual Meeting of the Association for Computational Linguistics, Proceedings of System Demonstrations, 2018. - С. 116–121.
16. Katsuta, A. Crowdsourced corpus of sentence simplification with core vocabulary [Текст] / Katsuta, A., Yamamoto, K. // In Proceedings of the Eleventh International Conference on Language Resources and Evaluation, 2018.
17. Kuratov Y. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language [Электронный ресурс] / Kuratov Y., Arkhipov M. // arXiv preprint arXiv:1905.07213, 2019. - Режим доступа: https://arxiv.org/pdf/1905.07213.pdf – 13.05.2021.
18. Lavie, A. METEOR: An automatic metric for MT evaluation with high levels of correlation with human judgments [Текст] / Lavie, A., Agarwal, A. // In Proceedings of the second workshop on statistical machine translation, 2007. - С. 228–231.
19. Liu, X. Very deep transformers for neural machine translation [Электронный ресурс] / Liu, X., Duh, K., Liu, L., Gao, J. // arXiv preprint arXiv:2008.07772, 2020. - Режим доступа: https://arxiv.org/pdf/2008.07772.pdf – 13.05.2021.
20. Liu, Y Roberta: A robustly optimized bert pretraining approach [Электронный ресурс] / Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V. // arXiv preprint arXiv:1907.11692, 2019. - Режим доступа: https://arxiv.org/pdf/1907.11692.pdf – 13.05.2021.
21. Liu Y. Multilingual denoising pre-training for neural machine translation [Текст] / Liu, Y., Gu, J., Goyal, N., Li, X., Edunov, S., Ghazvininejad, M., Lewis, M., Zettlemoyer, L. // Transactions of the Association for Computational Linguistics, Т.8, 2020. - С. 726–742.
22. Luong M. T. Effective approaches to attention-based neural machine translation [Текст] / Luong M. T., Pham H., Manning C. D.// Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing. : Association for Computational Linguistics (ACL), 2015. - С. 1412–1421.
23. Martin, L Multilingual unsupervised sentence simplification [Электронный ресурс] / Martin, L., Fan, A., de la Clergerie, É., Bordes, A., Sagot, B. // arXiv preprint arXiv:2005.00352, 2020. - Режим доступа: https://arxiv.org/pdf/2005.00352.pdf – 13.05.2021.
24. Narayan, S. Hybrid simplification using deep semantics and machine translation [Текст] / Narayan, S., Gardent, C. // In The 52nd annual meeting of the association for computational linguistics, 2014. - С. 435–445.
25. Nishihara, D. Controllable text simplification with lexical constraint loss [Текст] / Nishihara, D., Kajiwara, T., Arase, Y. // In Proceedings of the 57th annual meeting of the association for computational linguistics: Student research workshop, 2019. - С. 260–266.
26. Ott M. A Fast, Extensible Toolkit for Sequence Modeling [Текст] / Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., Grangier, D, Auli, M. // NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Demonstrations Session, 2019. - С. 48–53.
27. Papineni, K. Bleu: a method for automatic evaluation of machine translation [Текст] / Papineni, K., Roukos, S., Ward, T., Zhu, W. J. // In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 2002. - С. 311–318.
28. Post, M. A Call for Clarity in Reporting BLEU Scores [Электронный ресурс] // arXiv preprint arXiv:1804.08771, 2018. - Режим доступа: https://arxiv.org/pdf/1804.08771.pdf – 13.05.2021.
29. Rumelhart, D. Learning internal representations by error propagation [Текст] / Rumelhart, D. E., Hinton, G. E., Williams, R. J. // Learning internal representations by error propagation. California Univ San Diego La Jolla Inst for Cognitive Science, 1985.
30. Sennrich. R. A. Neural machine translation of rare words with subword units [Текст] / Sennrich R., Haddow B., Birch A. // 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016 - Long Papers.: Association for Computational Linguistics (ACL), 2016. - С. 1715–1725.
31. Sulem, E. Simple and Effective Text Simplification Using Semantic and Neural Methods [Текст] / Sulem, E., Abend, O., Rappoport, A. // ACL 2018 - 56th Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference (Long Papers Т. 1), 2018. - С. 162–173.
32. Sulem, E BLEU is not suitable for the evaluation of text simplification [Текст] / Sulem, E., Abend, O., Rappoport, A. // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018.: Association for Computational Linguistics, 2020. - С. 738–744.
33. Vaswani A Attention is all you need [Текст] / Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L. Polosukhin, I. // Advances in Neural Information Processing Systems, 2017. - С. 5999–6009.
34. Wu, Y. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation [Электронный ресурс] / Wu, Y., Schuster, M., Chen, Z., Le, Q.V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K. Klingner, J. // arXiv preprint arXiv:1609.08144, 2016. - Режим доступа: https://arxiv.org/pdf/1609.08144.pdf – 13.05.2021.
35. Wubben, S. Simplification by Monolingual Machine Translation [Электронный ресурс] / Wubben, S., Krahmer, E // Radboud Repository of the Radboud University Nijmegen, 2012. - Режим доступа: https://repository.ubn.ru.nl/bitstream/handle/2066/101996/101996.pdf - 13.05.2021.
36. Xu, W. Optimizing statistical machine translation for text simplification [Текст] / Xu, W., Napoles, C., Pavlick, E., Chen, Q., Callison-Burch, C. // Optimizing statistical machine translation for text simplification. Transactions of the Association for Computational Linguistics, Т. 4, 2020. - С. 401–415.
37. Xu, W. Problems in current text simplification research: New data can help [Текст] / Xu, W., Callison-Burch, C., Napoles, C. // Transactions of the Association for Computational Linguistics, 2015. - Т.3. - С. 283–297.
38. Zhang X. Sentence Simplification with Deep Reinforcement Learning [Текст] / Zhang, X., Lapata, M. // EMNLP 2017 - Conference on Empirical Methods in Natural Language Processing, Proceedings, 2017. - С. 584–594.
39. Zhao G. MUSE: Parallel multi-scale attention for sequence to sequence learning [Электронный ресурс] / Zhao, G., Sun, X., Xu, J., Zhang, Z., Luo, L. // arXiv preprint arXiv:1911.09483, 2019. - Режим доступа: https://arxiv.org/pdf/1911.09483.pdf – 13.05.2021.
40. Zhu Z. Monolingual Tree-based Translation Model for Sentence Simplification / Zhu, Z., Bernhard, D., Gurevych, I. // In Proceedings of the 23rd International Conference on Computational Linguistics, 2010. С. 1353–1361.
41. Англо-русский параллельный корпус Яндекса [Электронный ресурс] / Yandex // - Режим доступа: https://translate.yandex.ru/corpus?lang=en – 13.05.2021.