Вход

Разработка системы сравнительного анализа текстов научных публикаций в некоторых предметных областях

Рекомендуемая категория для самостоятельной подготовки:
Дипломная работа*
Код 458007
Дата создания 2020
Страниц 56
Мы сможем обработать ваш заказ (!) 3 мая в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
1 910руб.
КУПИТЬ

Содержание

ТЕРМИНЫ, ОПРЕДЕЛЕНИЯ И СОКРАЩЕНИЯ 3
ВВЕДЕНИЕ 4
ГЛАВА 1. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА 6
1.1. Общие понятие 6
1.2. Методы Интеллектуального Анализа Данных 7
1.3. Этапы интеллектуального анализа данных 13
1.4. Подходы к анализу близости текста 17
1.5. Анализ аналогов 21
1.6. Технологии и инструменты интеллектуального анализа текста 25
ГЛАВА 2. НАЗНАЧЕНИЕ И СПЕЦИФИКАФИЯ ТРЕБОВАНИЙ 33
2.1. Назначение 33
2.2. Требовании к системе 34
2.3. Ограничении системы 35
ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ 36
3.1. Архитектура Системы 36
3.2. Схемы работы системы 38
ГЛАВА 4. РАЗРАБОТКА СИСТЕМЫ 41
4.1. Использованные технологии 41
4.2 Интерфейс системы 41
4.3. Модель Машинного Обучения 43
ГЛАВА 5. АНАЛИЗ РЕЗУЛЬТАТОВ 44
5.1. Этапы анализа результатов 44
5.2. Тест даты 44
5.3. Оценки эксперта и системы 44
5.4. Формула метода Пирсона и граф результата 46
5.5. Измерение результата 48
5.6. Результат сравнение использование метода Пирсона. 48
ГЛАВА 6. ЗАКЛЮЧЕНИЕ 50
СПИСОК ЛИТЕРАТУРЫ 51
ПРИЛОЖЕНИИ 56

Введение

Актуальность работы:

Технологии интеллектуального анализа текста дают нам много возможностей для анализа гигантских текстовых баз данных, которые с каждым днем растут все больше и больше. В академической среде эта технология используется для многих причин, таких как плагиат и т. д. научных статей. Но есть научные исследования, которые проводятся без знания о существовании других исследований, связанных с темой исследования (без ссылки друг на друга). В результате, не выявленные результаты исследований, которые связанные с исследуемой сфере не используются в других работах, которые могли бы предоставить больше информации, не повторяя их. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
Новизна работы:
Система сравнительного анализа текстов научных публикаций на сходства разрабатывается в первые.
Практическая значимость:
Система предоставит исследователям больше информации об области исследований путем анализа научных работ, которые связаны друг с другом, но не дают ссылки друг на друга.
Объект исследования:
Разработка системы сравнительного анализа текстов научных публикаций на сходства.
Предмет исследования:
Научные работы, которые связаны друг с другом, но не дают ссылки друг на друга.
Задачи:
1. Теоретический обзор интеллектуального анализ текстов.
2. Изучение и выбор средств разработки системы.
3. Разработка системы сравнительного анализа текстов.
4. Тестирование системы.

Фрагмент работы для ознакомления

Дипломная работа выполнена по всем требованиям и защищена на "отлично".

Список литературы

[1] L. Bornmann, R. Mutz. Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references // Journal of the Association for Information Science and Technology. 2015. V.66. № 11. - p. 2215-2222.
[2] S. Inzalkar, J. Sharma. A survey on text mining-techniques and application // International Journal of Research in Science & Engineering. 2015. V.24. -p.1- 14.
[3] U. Singh, S. Hasan. Survey paper on document classification and classifiers // Int. J. Comput. Sci. Trends Technol. 2015. V.3. №2. -p.83-87.
[4] A. Kao, S.R. Poteet. Natural language processing and text mining // Springer Science & Business Media. 2007.
[5] R. Kohavi, F. Provost. Glossary of terms // Machine Learning. 1998. V.30. -p. 271–274.
[6] S. Arthur. Some Studies in Machine Learning Using the Game of Checkers // IBM Journal of Research and Development. 1959. V.3. №3. -p. 210–229.
[7] J.H. Friedman. Data Mining and Statistics: What's the connection? // Computing Science and Statistics. 1998. V.29. №1. -p. 3–9.
[8] S.K. Mohamad, Z. Tasir. Educational data mining: A review // Procedia-Social and Behavioral Sciences. 2013. V.97. -p.320-324.
[9] A. Joshi, R. Kaur. A review: Comparative study of various clustering techniques in data mining // International Journal of Advanced Research in Computer Science and Software Engineering. 2013. V.3. № 3.
[10] K. Varun, C. Anupama. An Empirical Study of the Applications of Data Mining // Techniques in Higher Education. 2011.
[11] N.R. Mabroukeh, C.I. Ezeife. A taxonomy of sequential pattern mining algorithms // ACM Computing Surveys. 2010. V.43. -p.1–41.
[12] A.B.E.D. Ahmed, I.S. Elaraby. Data Mining: A prediction for Student's Performance Using Classification Method // World Journal of Computer Application and Technology. 2014. V.2. № 2. -p.43-47.
[13] J.D. Rennie, L. Shih, J. Teevan, D.R. Karger. Tackling the poor assumptions of naive bayes text classifiers // In Proceedings of the 20th international conference on machine learning (ICML-03). 2003. -p. 616-623.
[14] S.J. Russell, P. Norvig. Artificial intelligence: a modern approach (International Edition). 2002.
[15] W. Cherif, A. Madani, M. Kissi. Towards an efficient opinion measurement in Arabic comments // Procedia Computer Science. 2015. V.73. -p. 122-129.
[16] R.R. Larson. Introduction to information retrieval // Journal of the American Society for Information Science and Technology. 2010. V.61. № 4. -p.852- 853.
[17] T.K. Ho. The random subspace method for constructing decision forests // IEEE transactions on pattern analysis and machine intelligence. 1998. V.20.
№8. -p. 832-844.
[18] J. Friedman, T. Hastie, R. Tibshirani. Sparse inverse covariance estimation with the graphical lasso // Biostatistics. 2008. V.9. № 3. -p. 432-441.
[19] J. Leskovec, A. Rajaraman, J.D. Ullman. Mining of massive datasets // Cambridge university press. 2014.
[20] C. Breitinger, B. Gipp, S. Langer. Research-paper recommender systems: a literature survey // International Journal on Digital Libraries. 2015. V.17. № 4. -p. 305-338.
[23] W.H. Gomaa, A.A. Fahmy. A survey of text similarity approaches // International Journal of Computer Applications. 2013. V.68. № 13.
[24] E.S. Pramukantoro, M.A. Fauzi. Comparative analysis of string similarity and corpus-based similarity for automatic essay scoring system on e-learning gamification // In Advanced Computer Science and Information Systems (ICACSIS). 2016. -p. 149-155.
[22] D.S. Hunnisett, W.J. Teahan. Context-based methods for text categorization // In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. ACM Press, Sheffield, United Kingdom. 2004. -p. 578-579.
[21] H. Liu, H. Motoda. Feature Selection for Knowledge Discovery and Data Mining // Kluwer Academic Publisher. 1998.
[25] G. Oberreuter, J.D. VeláSquez. Text mining applied to plagiarism detection: The use of words for detecting deviations in the writing style // Expert Systems with Applications. 2013. V.40. № 9. -p.3756-3763.
[26] M. Szczuka, A. Janusz. Semantic clustering of scientific articles using explicit semantic analysis // In Transactions on Rough Sets XVI Springer. Berlin. Hiedelberg. 2013. -p. 83-102.
[27] Y. Shinyama. PDFMiner: Python PDF parser and analyzer. 2010. Режим доступа: http://www.unixuser.org/~euske/python/pdfminer/.
[28] K.S. Jones, P. Willet. Readings in Information Retrieval // Morgan Kaufmann, San Francisco. 1997.
[29] A. Shetty, R. Bajaj. Auto Text Summarization with Categorization and Sentiment Analysis // International Journal of Computer Applications. 2015. V.130. № 7. -p. 57-60.
[30] https://analyticsindiamag.com/top-10-programming-languages-data-scientists- learn-2018/
[31] S. Tippmann. Programming tools: Adventures with R // Nature. 2014. V.517.
-p. 109–110. Режим доступа: https://www.nature.com/news/programming- tools-adventures-with-r-1.16609 (дата обращения 22.05.2018).
[32] TIOBE Index for May 2018 // www.tiobe.com. Режим доступа: https://www.tiobe.com/tiobe-index/ (дата обращения 22.05.2018).
[33] D. Kuhlman. A python book: Beginning python, advanced python, and python exercises // Dave Kuhlman. 2009. -p. 1-227.
[34] M. Lutz. Learning Python: Powerful Object-Oriented Programming // O'Reilly Media, Inc. 2013.
[35] Python frameworks: full stack vs micro framework. Режим доступа: https://dzone.com/articles/python-frameworks-full-stack-vs-micro-framework (дата обращения 22.05.2018).
[36] Режим доступа: http://snowball.tartarus.org/algorithms/english/stemmer.html (дата обрашение 26.05.2018)
[37] Корпусы NLTK. Режим доступа: https://raw.githubusercontent.com/nltk/nltk_data/gh- pages/packages/corpora/stopwords.zip (дата обрашение 26.05.2018).
[38] Режим доступа: http://scikit- learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVecto rizer.html. (дата обрашение 26.05.2018)
[39] Режим доступа: https://www.kaggle.com/benhamner/nips-papers/data (дата обрашение. 26.05.2018)
[40] Pearson correlation coefficient statistical guide. Режим доступа: https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient- statistical-guide.php (дата обрашение. 17.06.2018)
[41] B. Li, L. Han. Distance weighted cosine similarity measure for text classification // In International Conference on Intelligent Data Engineering and Automated Learning. Springer, Berlin, Heidelberg. 2013. -p. 611-618.
Очень похожие работы
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00468
© Рефератбанк, 2002 - 2024