Вход

ВКР Выявление пользователей социальных сетей, ведущих здоровый образ жизни

Рекомендуемая категория для самостоятельной подготовки:
Дипломная работа*
Код 523383
Дата создания 2023
Мы сможем обработать ваш заказ (!) 20 декабря в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
2 930руб.
КУПИТЬ

Описание

На 1 февраля 2023 года оригинальность более 80%

Могу проверить вам актуальную оригинальность работы перед покупкой, пишите в личку.

Оригинал документа в pdf, конвертация в Word автоматическая (в word могут быть недочеты, которые вы легко исправите самостоятельно)

Эта работа основана на использовании обработки естественного языка и методов машинного обучения для построения классификаторов, способных предсказать, поведения и тенденции к здоровому образу жизни пользователей социальной сети ВКонтакте.

В результате этой работы, несколько классификаторов машинного обучения обучены выполнять задачу классификации пользователей на основе результатов, которые они дали в опросе, связанным со здоровьем. Различные наборы признаков, полученные из данных, собранных в социальных сетях, в сочетании с различными классификаторами, оцениваются с помощью метрики ROC AUC, чтобы определить, какая комбинация наборов признаков и классификаторов способна выполнить эту задачу. Для выполнения этой задачи используется язык программирования: Python и его различные библиотеки.

Введение

Эта работа заключается в использовании комбинации обработки естественного языка и машинного обучения для прогнозирования того, склоняются ли люди к определенному образу жизни и поведению. Результатом этой работы является оценка работы этих классификаторов машинного обучения.

Тема мониторинга здоровье общества с помощью социальных сетей получает все большее и больше интереса в научном сообществе. В источнике [1] исследователи попытались использовать методы обработки естественного языка для определения отношения пользователей социальных сетей к курению кальянного табака (ККТ). Исследователи попытались выявить потребителей с неоднозначными или смешанными взглядами на ККТ. Выявление таких людей, которые ещё не определились по поводу их отношения к ККТ, позволяет здравоохранительным органам нацеливаться на таких них и направлять им информацию, которая может изменить их мнение о ККТ. Часто когда здравоохранительные органы рассылают информацию публике о вреде употребление табака, табачные компании рассылают, в ответ, информацию которая пытается опровергнуть научные доказательства которые указывают что курение табака это вредно. Один способ избежать контратаки табачных компаний это рассылать такую информацию только некоторым людям которых можно ещё убедить о вреде курения. Методы автоматической классификации таких пользователей может сильно увеличить эффективность трудов здравоохранительных органов с борьбой против курения.

В другом исследовании [2] был использован иной подход к использованию данных, собранных в социальных сетях, в качестве инструмента общественного здравоохранения. Исследователи собрали 4,5 млн. твитов, связанных с диабетом, диетой, физическими упражнениями и ожирением (ДДФуО), и проанализировали их с целью выявления корреляции между этими темами.


Эта работа разделена на введение, четыре главы, заключение и списка литературы.

Введение состоит из мотивации этой работы, списка целей, которые должны быть достигнуты в этой работе, и список завязанных работ, над которыми работают другие академики.

Первая глава этой работы состоит из фундаментальных основ машинного обучения и истории машинного обучения.

Вторая глава этой работы состоит из различных методов, которые могут быть использованы для подготовки текстовых данных для использования в процессе машинного обучения.

Третья глава работы описывает различные способы оценки и тестирования моделей машинного обучения.

Четвертая глава описывает пошаговый процесс извлечения из текста наборов признаков и их использования для обучения классификатора Random Forest.

Вывод состоит из анализа всех результатов, собранных в ходе этой работы.

Содержание

Содержание ..................................................................................................... 3 Введение .......................................................................................................... 4 1. Теоретические сведения из машинного обучения ................................ 8

1.1 История машинного обучения ............................................................... 8 1.2 Основы машинного обучения .............................................................. 10

2. Обзор инструментов ............................................................................. 13 2.1 Очистка текста ...................................................................................... 16 2.2 Методы отображения данных .............................................................. 17 2.3 Методы оценки моделей ...................................................................... 23

3. Практика ................................................................................................ 38 3.1 Классификация пользователей соцсетей ............................................ 43 3.2 Признаки и методы .............................................................................. 46 3.3 Результаты ............................................................................................ 50

Заключение .................................................................................................... 53 Приложения ................................................................................................... 55 Список используемой литературы ............................................................... 58

Список литературы

Список используемой литературы

1. Chu K.H. Identifying Key Target Audiences for Public Health Campaigns: Leveraging Machine Learning in the Case of Hookah Tobacco Smoking. / K.H. Chu, J. Colditz, M. Malik, T. Yates, B. Primack// J Med Internet Res 2019; 21(7):e12443 URL: https://www.jmir.org/2019/7/e12443

2. Karami, A. Characterizing diabetes, diet, exercise, and obesity comments on Twitter. /A. Karami, A.A. Dahl, G. Turner-McGrievy, H. Kharrazi, G. Shaw//International Journal of Information Management,Volume 38, Issue 1,2018, Pages 1-6, ISSN 0268-4012, https://doi.org/10.1016/j.ijinfomgt.2017.08.002. (https://www.sciencedirect.com/science/article/pii/S0268401217306126)

3. Yan, H. Automatic detection of eating disorder‐related social media posts that could benefit from a mental health intervention. / H. Yan, E.E. Fitzsimmons‐Craft, M. Goodman, M. Krauss, S. Das, P. Cavazos‐Rehg// Int J Eat Disord. 2019; 52: 1150– 1156. https://doi.org/10.1002/eat.23148

4. Aphinyanaphongs, Y.Text classification for automatic detection of alcohol use-related tweets: A feasibility study. /Y. Aphinyanaphongs, B. Ray, A. Statnikov, P. Krebs// Proceedings of the 2014 IEEE 15th International Conference on Information Reuse and Integration (IEEE IRI 2014), Redwood City, CA, USA, 2014, pp. 93-97, doi: 10.1109/IRI.2014.7051877.

5. Garimella, V.R.K. Social Media Image Analysis for Public Health. /V.R.K. Garimella, A. Alfayad, I. Weber.// In Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems (CHI '16). Association for Computing Machinery, New York, NY, USA, 5543–5547. DOI:https://doi.org/10.1145/2858036.2858234

6. Prieto V. M. Twitter: a good place to detect health conditions. / V. M Prieto, S.

Matos, M. Alvarez, F. Cacheda // PloS one. – 2014. – Т. 9. – №. 1. – С. e86191.

7. Khalil K. Detection of Social Media Users Who Lead a Healthy Lifestyle. / K. Khalil, M. Stankevich, I. Smirnov, M. Danina // In: Kuznetsov S.O., Panov A.I., Yakovlev K.S. (eds) Artificial Intelligence. RCAI 2020. Lecture Notes in Computer Science, vol 12412. Springer, Cham. https://doi.org/10.1007/978-3-030-59535-7_17

8. Khodorchenko, M. Developing an approach for lifestyle identification based on explicit and implicit features from social media. / M. Khodorchenko, N. Butakov // Procedia Computer Science, 136, 236-245

9. Ilakkuvan, V. (2019). Patterns of Social Media Use and Their Relationship to Health Risks Among Young Adults. / V. Ilakkuvan, A. Johnson, A. C. Villanti, W. D. Evans, M. Turner // Journal of Adolescent Health, 64 (2), 158-164

10. Furini, M. Public Health and Social Media: Language Analysis of Vaccine Conversations. /M. Furini, G. Menegoni // 2018 International Workshop on Social Sensing (SocialSens), Orlando, FL, 2018, pp. 50-55.

11. Eichstaedt, J.C. Facebook language predicts depression in medical records. /J. C. Eichstaedt, R. J. Smith, R. M. Merchant, L. H. Ungar, P. Crutchley, D. Preoţiuc-Pietro, D. A. Asch, H. A. Schwartz // Proceedings of the National Academy of Sciences Oct 2018, 115 (44) 11203-11208; DOI: 10.1073/pnas.1802331115

12. MyStem Homepage, https://tech.yandex.ru/mystem, last accessed 2019/08/19.

13. Straka, M. Tokenizing, pos tagging, lemmatizing and parsing ud 2.0 with udpipe.

/M. Straka, M., J. Straková// In Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies (pp. 88-99).

14. Pedregosa, F. (2011). Scikit-learn: Machine learning in Python. Journal of machine learning research. / F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, J. Vanderplas // 12(Oct), 2825-2830.

15. Chen, T. (2016, August). Xgboost: A scalable tree boosting system. / T. Chen, C. Guestrin // In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining (pp. 785-794).

16. Pennebaker, J. W. (2011). The secret life of pronouns. / J. W. Pennebaker // New

Scientist, 211(2828), 42-45.

17. Stankevich M. (2019) Predicting Depression from Essays in Russian. / M.

Stankevich, I. Smirnov, Y. Kuznetsova, N. Kiselnikova, S. Enikolopov // Computational Linguistics and Intellectual Technologies, DIALOGUE, 18, 637-647.

18. Stankevich, M. (2018). Feature Engineering for Depression Detection in Social Media. / M. Stankevich, V. Isakov, D. Devyatkin, I. Smirnov// In ICPRAM (pp. 426-431).

19. Devyatkin, D.(2014). Intellectual analysis of the manifestations of verbal aggressiveness in the texts of network communities. /D. Devyatkin, Y. Kuznetsova, N. Chudova, A. Shvets // Artificial Intelligence and Decision Making, (2), pp. 27-41.

20. Russel, S. Artificial Intelligence a Modern Approach Third Edition. / S. Russel, P.

Norvig, // Pearson, 2016.

21. Barnwal, S.K. (2017). Using Psycholinguistic Features for the Classification of

Comprehenders from Summary Speech Transcripts. /S.K. Barnwal, U. Shanker.// 122-136. 10.1007/978-3-319-72038-8_10.

22. Salas-Zárate, M. del P.. Automatic detection of satire in Twitter: A psycholinguistic-based approach. / M. del P. Salas-Zárate, M. A. Paredes-Valverde, M. A. Rodriguez-García, R. Valencia-García, G. Alor-Hernández// Knowledge-Based Systems, Volume 128,2017, Pages 20-33, ISSN 0950-7051, https://doi.org/10.1016/j.knosys.2017.04.009.

(https://www.sciencedirect.com/science/article/pii/S0950705117301855)

23. Gou, L. KnowMe and ShareMe: understanding automatically discovered

personality traits from social media and user sharing preferences. /L. Gou, M. Zhou, H. Yang// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. 2014.

24. Forman, G. Learning from Little: Comparison of Classifiers Given Little Training.

/ G. Forman, I. Cohen// PKDD 2004, LNAI 3202, pp. 161–172, 2004.

Очень похожие работы
Найти ещё больше
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00472
© Рефератбанк, 2002 - 2024