Рекомендуемая категория для самостоятельной подготовки:
Дипломная работа*
Код |
480254 |
Дата создания |
2021 |
Страниц |
47
|
Мы сможем обработать ваш заказ (!) 19 декабря в 12:00 [мск] Файлы будут доступны для скачивания только после обработки заказа.
|
Содержание
Введение 5
Глава 1 Обзор и анализ методов и алгоритмов интеллектуального анализа текстовых данных 7
1.1 Метод токенизации 9
1.2 Частота термина в документе (TF-IDF) 13
1.3 Методы стемминга и лемматизации 15
1.4 Стоп-листинг 19
Глава 2 Обзор и анализ алгоритмов интеллектуального анализа текстовых
данных 22
2.1 Алгоритмы токенизации 22
2.2 Алгоритм TF-IDF 26
2.3 Алгоритм лемматизации WordNet 29
2.4 Алгоритмы стоп-листинга 31
Глава 3 Разработка программы интеллектуального анализа текстовых данных ... 35 3.1 Выбор среды разработки программы 35
3.1.1 Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio 35
3.1.2 Интегрированная среда разработки PyCharm 37
3.1.3 Интегрированная среда разработки Eclipse + PyDEv 38
3.2 Реализация и тестирование программы 41
Заключение 44
Список используемой литературы 45
Введение
Одним из новых направлений в этой области является текстовая аналитика.
Текстовая аналитика - это автоматизированный процесс преобразования больших объемов неструктурированного текста в количественные данные для выявления идей, тенденций и закономерностей. В сочетании с инструментами визуализации данных этот метод позволяет компаниям понять суть цифр и принимать более обоснованные решения [11].
Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.
Фрагмент работы для ознакомления
Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.
Применение алгоритмов интеллектуального анализа текстовых данных представляет актуальность и научно-практический интерес.
Объектом исследования бакалаврской работы являются методы и алгоритмы интеллектуального анализа текстовых данных.
Список литературы
1. Бахтин А.В. Алгоритмы извлечения из неструктурированных текстовых источников метаинформации о научно-технических конференциях. М: МГУ [Электронный ресурс]. URL: https://www.hse.ru/data/2015/06/07/1097438594/presentation_cfp.pdf (дата обращения: 10.06.2021).
2. Библиотека NTLK [Электронный ресурс]. URL: http://www.nltk.org/ (дата обращения: 10.06.2021).
3. ВКонтакте опубликовали библиотеку для предобработки текстовых данных [Электронный ресурс]. URL: https://neurohive.io/ru/novosti/vkontakte- opublikovali-biblioteku-dlya-predobrabotki-tekstovyh-dannyh/ (дата обращения: 10.06.2021).
4. Кластеризация и классификация больших текстовых данных с помощью машинного обучения на Java [Электронный ресурс]. URL: https://itnan.ru/post.php?c=1&p=529548 (дата обращения: 10.06.2021).
5. Краткое руководство. Знакомство с интегрированной средой разработки Visual Studio [Электронный ресурс]. URL: https://docs.microsoft.com/ru-ru/visualstudio/ide/quickstart-ide-orientation?view=vs- 2019 (дата обращения: 10.06.2021).
6. Ле Мань Ха. Оптимизация алгоритма KNN для классификации // ТРУДЫ МФТИ. 2016. Том 8, № 1. С. 92-94.
7. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР. 1965. 163 (4). C. 845–848.
8. Метод TF-IDF [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/TF-IDF (дата обращения: 10.06.2021).
9. Отраднов К.К., Раев В.К. Экспериментальное исследование эффективности методик векторизации текстовых документов и алгоритмов их кластеризации. Вестник РГРТУ. 2018. № 64. С. 74-82.
10. Самуйлов С. В. Алгоритмы и структуры обработки данных : учебное
пособие. Саратов : Вузовское образование, 2016. 132 c. [Электронный ресурс]. URL: https://www.iprbookshop.ru/47275.html (дата обращения: 12.06.2021).
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00402