Вход

Разработка и реализация программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов

Рекомендуемая категория для самостоятельной подготовки:
Дипломная работа*
Код 563566
Дата создания 2016
Страниц 54
Мы сможем обработать ваш заказ (!) 1 июля в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
480руб.
КУПИТЬ

Содержание

Введение 2
1 Задача определения близости текстов и способы ее решения 4
1.1 Цели, задачи и методы сравнения текстов 4
1.2 Обзор методов определения сходства документов 7
1.3 Алгоритм шинглов 11
2 Разработка и реализация программы для определения близости текстов методом шинглов 24
2.1 Анализ задания и архитектурное проектирование программы 24
2.2 Программная реализация алгоритма шинглов для определения близости текстов 31
2.3 Разработка интерфейса в WindowsForms 40
2.4 Тестирование и отладка программы 44
3 Экономическая часть 48
3.1 Расход трудоемкости разработки программного продукта 48
3.2 Расход на оплату труда разработчика программы 50
3.3 Общие затраты на создание программного продукта 51
Выводы и рекомендации 52
Библиографический список 53
Приложение А. 56
Исходный код программы для сравнения документов по алгоритму шинглов. 56

Раздел 1.2
Помимо алгоритма шинглов, программная реализация которого представлена в данной работе, существуют следующие способы определения сходства текстовых документов:
1) Векторная модель, метод «мешка слов». TFij ∙ IDFi меры;
2) Вероятностные методы: метод Байеса, латентное распределение Дирихле (ЛДА);
3) Семантические методы: ассоциативно-семантический подход, латент-но-семантический анализ (ЛСА) и т.д.;
4) Нейронные сети.

Векторная модель и меры TF-IDF используется в поисковых и других системах хранения и сбора информации. Ее частный случай называют модель «мешка слов» (bag of words). Ее отличительная черта – независимость от места слова в тексте.

Раздел 2.3.
Теперь, когда сама программа отлажена, осталось создать интерфейс и перенести ее в WindowsForms. Разработанный интерфейс представлен на рис.2.2.
Как видно на рис.2.2, настройки программы содержат выбор алгоритма хеширования, длины шингла и сдвига. Существует очевидное ограничение: длина сдвига не должна быть больше, чем длина шингла, так как тогда будут неучтенные слова текста. Эта функция подстройки длины шингла и сдвига должна быть реализована в интерфейсе.
При выборе с помощью Radiobutton длины шингла, NumericUpDown для настройки сдвига должен блокировать варианты больше, чем длина шингла. Сдвиг может равняться длине, тогда не будет нахлеста. Конечно, это менее надежный способ, но возможный и используемый. На рис 2.8 показано, где должна быть блокировка.

Введение

Задача определения заимствований и дубликатов является сложной и сильно зависит от типа заимствования: плагиат, использование идеи, копи-паст, рерайтинг и т.д. При этом существуют множество ее разновидностей: установление приоритета в сетевых публикациях, удаление частично измененного копипаста, сравнение документа по контенту, установление смысловой близости документа.

Фрагмент работы для ознакомления

В данной работе рассмотрено создание программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов. Сделан подробный обзор методов и средств решения задачи анализа подобия. Рассмотрен алгоритм шинглов, его сильные и слабые стороны, задачи, в которых его применение наиболее эффективно. Подробно описан процесс создания программы, приведены фрагменты кода, скриншоты и результаты тестирования. Программа выполнена на языке C#, содержит рабочий исходный код в приложении

Список литературы

1. Лексин В. Рекомендательная система: полезные задачи текстмайнинга. Поиск дубликатов и плагиата среди веб-страниц [Электронный ресурс]: Хабрахабр. Блог компании Surfingbird, 2013. URL: http://www.habrahabr.ru.
2. Мешкова Е.В. Анализ современных методов обработки текстовой информации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.]. – Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.
3. Попов А. Поиск в Интернете, внутри и снаружи [Электронный ресурс]: Корабли в бутылках, 2005. URL: http://www.shipbottle.ru
4. Грэхем П. Применение «наивного» Байеса для фильтрации спама в сервисах электронной почты [Электронный ресурс]: Хабрахабр, 2010. URL: http://www.habrahabr.ru
5. Байесовский классификатор. [Электронный ресурс]: Портал о машинном обучении, 2013. URL: http://www.machinelearning.ru
6. Латентное размещение Дирихле (LDA) [Электронный ресурс]: Википедия, 2011. URL: wikihttp://ru.wikipedia.org/wiki
7. Автоматический анализ текста TextAnalyst 2.0[Электронный ресурс]: MicroSystem. Персональная система автоматического анализа текста TextAnalyst, 2012. URL: http://www.analyst.ru
8. Латентно-семантический анализ (ЛСА) [Электронный ресурс]: Вики-педия, 2011. URL: wikihttp://ru.wikipedia.org/wiki,
9. Readings in Latent Semantic Analysis for Cognitive Science and Education [Электронный ресурс]: Сборник статей и публикаций по ЛСА, 2012. URL: http://www.timc.imag.fr/Benoit.Lemaire/lsa.html
10. Мерзленко А.А. Автоклассификация текста с помощью нейронных сетей [Электронный ресурс]: ДонНГУ, 2011. URL: http://masters.donntu.edu.ua
11. Иванов Р. Алгоритм шинглов. Поиск дубликатов текста [Электронный ресурс]: Блог OrionXL, 15.01.2010. URL: www.orionxl.ru
12. Зеленков Ю. Г., Сегалович И.В. «Сравнительный анализ методов определения нечетких дубликатов для Web-документов»// Материалы Всероссийской научной конференции «Электронные библиотеки, перспективные методы и технологии, электронные коллекции», Переславль-Залесский, 2007.
13. Алгоритм шинглов [Электронный ресурс]: Студия дизайна Uniweb, 2015. URL: http:\\www.uniweb.ru
14. Родненко В. Python: Алгоритм Шинглов – поиск нечетких дубликатов текста [Электронный ресурс]: Код – это искусство, 2009. URL: http://www.codeisart.ru
15. Кнут Д., Искусство программирования, т.3. М.: Вильямс, 2000.
16. Петров А.А., Хеширование и хеш-таблицы. [Электронный ресурс]: Файловый архив для студентов, 2014. URL: http://www.studfiles.ru
17. Чмора А., Современная прикладная криптография., М.: Гелиос АРВ, 2006.
18. К.Уотсон, К. Нейгел, Я. Хю Педерсен, Д. Д. Рид, М. Скиннер, Э. Уайт. Visual C# 2008: базовый курс: изд-во "Диалектика", 2009.
19. Шилдгт Г. Полное руководство по С# - 2-e изд., М.:Вильямс, 2010, -1024 с.
20. Хэширование и криптография [Электронный ресурс]: Профессор Web. Руководство по C#, 2015. URL: http://professorweb.ru
21. Пространство имен System.Security.Cryptography [Электронный ресурс]: MSDN – сеть разработчиков Microsoft, 2016. URL: http://msdn.microsoft.com
22. Фридл Дж. Регулярные выражения. – 3-е изд., М.:Символ-Плюс,2012. -560 с.
23. Регулярные выражения в примерах и теории. [Электронный ресурс]: Блог доброго программиста C#, 2014. URL: http://foolsoft.ru
24. Методические указания по выполнению экономической части дипломной работы. – Волгодонск, 2014.
Очень похожие работы
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00485
© Рефератбанк, 2002 - 2024