Вход

Разработка подсистемы визуализации статистической информации для системы лингвистических исследований

Рекомендуемая категория для самостоятельной подготовки:
Дипломная работа*
Код 563890
Дата создания 2020
Страниц 66
Мы сможем обработать ваш заказ (!) 20 сентября в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
3 560руб.
КУПИТЬ

Содержание

Оглавление
Введение 5
Глава 1 Анализ предметной области 8
1.1 Анализ процесса визуализации информации 8
1.2 Анализ статистической информации в системе лингвистических исследований 17
1.2.1 Описание системы лингвистических исследований 18
1.2.2 Описание маркеров академического текста и их визуализации 19
1.3 Анализ существующих решений для визуализации данных 22
1.4 Анализ процесса формирования дашбордов 27
Глава 2 Анализ инструментальных средств и методов решения задачи 31
2.1 Выбор библиотек для визуализации информации 31
2.2 Выбор фреймворка для реализации системы 36
2.3 Разработка требований к системе 39
Глава 3 Проектирование подсистемы визуализации 41
3.1 Разработка сценариев использования системы 41
3.2 Проектирование основных сущностей системы 48
3.3 Проектирование пользовательского интерфейса 52
Глава 4 Разработка подсистемы визуализации 55
4.1 Разработка основных алгоритмов системы 55
4.2 Тестирование разработанной системы 59
Заключение 63
Библиографический список 65
Приложение А. Техническое задание 68
Приложение Б. Программа и методика испытаний 78
Приложение В. Технико-экономическое обоснование 88
Приложение Г. Руководство пользователя 93
Приложение Д. Руководство программиста 100

Введение

Введение
С начала возникновения человечества вместе с ним зарождалась и развивалась многогранная коммуникационная система – язык. На сегодняшний день существует огромное множество языков, изучением которых занимается специальная наука – лингвистика или языкознание, которая изучает как устную форму языка, так и письменную. Письменная речь богата различными стилями, такими как научный, официально-деловой, публицистический, художественный и другие. Для каждого стиля характерны особые слова и словосочетания, разрешенные или наоборот, запрещенные в каком-либо стиле.
С появлением информационных технологий возник такой раздел языкознания как корпусная лингвистика. В ней производится разработка и анализ текстовых корпусов – подобранных в соответствии с тематикой и обработанных по соответствующим этой теме правилам собраний электронных текстов.
Для исследований в области корпусной лингвистики на базе НИУ ВШЭ разрабатывается система лингвистических исследований, в состав которой входит компонент Paper Cat [1], который в том числе осуществляет анализ и оценку работ студентов в шести разных направлениях подготовки, написанных на английском языке. Оценка работ производится по двум критериям: качественному и количественному. Качественный критерий оценивает соответствие академическому стилю, то есть наличию определенных для предметной области слов, которые система ищет в «эталонных» текстовых корпусах, содержащих научные статьи экспертов в предметной области рассматриваемой работы. Количественный критерий проверяет наличие в тексте определенного количества слов, соответствующих особым частям речи, вариантам их представления или лексическим элементам – маркерам академического текста.
В результате работы Paper Cat собирает статистическую информацию, которая необходима для сравнения работ как внутри корпуса, так и между несколькими корпусами. Получаемый в итоге отчет может стать очень громоздким и трудным для восприятия. Для облегчения восприятия пользователь данной системы может часть информации визуализировать – представить в виде графиков, диаграмм и таблиц.
На данный момент лингвисты, являющиеся пользователями данной системы, для визуализации используют такой инструмент как пакет приложений Microsoft Office, в частности табличный процессор Excel и текстовый процессор Word. Однако количество информации в корпусах растет, соответственно, увеличивается и объем получаемых отчетов, визуализировать которые пользователям приходится самостоятельно. Более автоматизированные инструменты требуют умения работать с базами данных, в частности, с выборкой данных из них используя SQL. Так как лингвисты такими умениями не обладают, возникла необходимость создать модуль, или подсистему, позволяющую визуализировать получаемую в ходе работы с системой статистическую информацию. Кроме приложений Office в качестве приложений, визуализирующих информацию, можно использовать такой инструмент как Voyant Tools – сервис, разработанный специально для визуализации информации по корпусам текстов. Но, к сожалению, такой инструмент не подходит для поставленной задачи в полной мере, так как визуализирует только предустановленные в программе характеристики, а не те, что требуются для системы лингвистических исследований.
Объектом исследования в данной работе являются статистические характеристики текста, а предметом, в свою очередь, средства визуализации статистических параметров текста.
Цель работы – разработка подсистемы визуализации статистических параметров текста для системы лингвистических исследований. Для достижения поставленной цели необходимо выполнить следующие задачи:
1. Провести разработку требований к системе и выбор методов решения задачи:
1.1. Определить функциональные требования к системе: проанализировать данные, которые необходимо визуализировать, зависимости и характеристики, которые должны быть отражены.
1.2. Определить методы и инструментальные средства, которыми можно реализовать выявленные функциональные требования, и выбрать наиболее подходящий из них.
1.3. Разработать техническое задание, в котором отразить все выявленные требования.
1.4. Разработать сценарии использования системы, которые впоследствии станут основой для тестирования.
2. Выполнить проектирование системы:
2.1. Разработать и описать основные сущности системы, согласно которым будет производиться работа системы.
2.2. Выполнить проектирование пользовательского интерфейса.
3. Реализовать систему:
3.1. Реализовать разработанные алгоритмы и интерфейс.
3.2. Разработать на основе сценариев использования системы тесты и выполнить их, отладить систему.
Для достижения цели используются языки JavaScript, HTML и CSS, библиотека Google Charts и интерфейс дашборда как способ представления данных в системе.
Полученная в результате разработки система будет использоваться научно-учебной лабораторией учебных корпусов для визуализации результатов лингвистических исследований, а также департаментом иностранных языков НИУ ВШЭ-Пермь для визуализации и последующего анализа студенческих работ. Работа состоит из четырех глав: «Анализ предметной области», «Анализ инструментальных средств и методов решения задачи», «Проектирование подсистемы» и «Разработка подсистемы».

Фрагмент работы для ознакомления

Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «РАЗРАБОТКА ПОДСИСТЕМЫ ВИЗУАЛИЗАЦИИ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ ДЛЯ СИСТЕМЫ ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЙ»

Аннотация
Н. Работа содержит 62 страницы основного текста, включая 4 главы: «Анализ предметной области» «Анализ инструментальных средств и методов решения задачи», «Проектирование подсистемы», «Разработка подсистемы».
В первой главе содержится анализ предметной области: анализ процесса визуализации информации, анализ статистической информации в системе лингвистических исследований, анализ существующих решений и анализ процесс формирования интерфейса дашборд. Во второй главе проводится выбор инструментов для решения поставленной задачи: библиотеки для визуализации информации и фреймворка для реализации системы, и формулируются основные требования к разрабатываемой системе. В третьей главе описываются сценарии использования системы и разработка алгоритмов основных функций системы, также проектируется графический интерфейс пользователя. Четвертая глава посвящена описанию реализации основных функций системы и ее тестированию. В приложениях содержится техническое задание, программа и методика испытаний, технико-экономическое обоснование системы, руководство пользователя и руководство программиста. Всего в работе 37 рисунков и 17 таблиц без учета приложений. Данная работа может быть интересна лингвистам – сотрудникам научно-учебной лаборатории учебных корпусов и преподавателям английского языка, студентам и исследователям, занимающимся разработкой схожих систем.

Список литературы

Библиографический список
1. Smirnova E. A., Strinyuk S. A., Lanin V. Software development for corpus research in English studies: the experience of the National Research University Higher School of Economics, Perm, Russia, in: The Development of Writing Programmes in Russia. USA: WAC Clearinghouse, 2020.
2. M. Friendly, «A Brief History of Data Visualization», Toronto, Canada, 2006.
3. H. Siirtola, P. Isokoski, T. Säily, T. Nevalainen, «Interactive Text Visualization with Text Variation Explorer», IEEE, 2016.
4. T. Kohonen, Self-Organizing Maps, Third Extended, ser. Springer Series in Information Sciences. SpringerVerlag, 2001.
5. H. Siirtola, K.-J. Räihä, T. Säily, T. Nevalainen, «Information Visualization for Corpus Linguistics: Towards Interactive Tools», ACM, 2010.
6. N. Cao, W. Cui, «Introduction to Text Visualization» eBook in Atlantis Briefs in Artificial Intelligence. Atlantis Press and the author(s), 2016.
7. Frigge, M., Hoaglin, D. C., Iglewicz, B. Some Implementations of the Boxplot // The American Statistician: journal. — 1989. — Vol. 43, no. 1. — P. 50—54.
8. D. J. Slutsky, «The Effective Use of Graphs», Thieme Medical Publishers, New York, NY, USA, 2014.
9. T. M. Annestley, «Put Your Best Figure Forward: Line Graphs and Scattergrams» in Clinical Chemistry, University of Michigan, 2010.
10. Lanin Viacheslav, Philipson Sofia Academic Style Marker Ontology Design // В кн.: Proceedings of the 9th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management Vol. 2: KEOD. , 2017. С. 189-194.
11. S. Strinyuk, V. Lanin, «Evaluation Software in Assessment of L2 Academic Writing», a report of the conference «MOOCs, Language Learning and Mobility», 2017.
12. Пакет программ LibreOffice [Электронный ресурс] // LibreOffice [сайт] URL: https://ru.libreoffice.org/ (дата обращения 03.12.2019).
13. Студия данных Google [Электронный ресурс] // Google Data Studio [сайт] URL: https://datastudio.google.com/ (дата обращения 03.12.2019).
14. Инструмент бизнес-аналитики PowerBI [Электронный ресурс] // Microsoft PowerBI [сайт] URL: https://powerbi.microsoft.com/ (дата обращения 03.12.2019).
15. Приложение для создания HTML-диаграмм ChartBlocks [Электронный ресурс] // ChartBlocks [сайт] URL: https://www.chartblocks.com/ (дата обращения 03.12.2019).
16. Платформа анализа и визуализации данных Tableau [Электронный ресурс] // Tableau [сайт] URL: https://www.tableau.com/ (дата обращения 03.12.2019).
17. Платформа визуализации данных Plotly [Электронный ресурс] // 14. Plotly [сайт] URL: https://plot.ly/ (дата обращения 03.12.2019).
18. Инструмент визуализации данных Infogram [Электронный ресурс] // Infogram [сайт] URL: https://infogram.com/ (дата обращения 03.12.2019).
19. Платформа визуализации данных DataDeck [Электронный ресурс] // DataDeck [сайт] URL: https://www.datadeck.com/ (дата обращения 03.12.2019).
20. Bloomberg Terminal [Электронный ресурс] // Bloomberg [сайт] URL: https://www.bloomberg.com/professional/solution/bloomberg-terminal/ (дата обращения 03.12.2019).
21. Eikon Thomson Reuters Terminal [Электронный ресурс] // Thomson Reuters [сайт] URL: https://eikon.thomsonreuters.com/index.html (дата обращения 03.12.2019).
22. А. Колоколов, «В чем разница между дашбордом и отчетом» [Электронный ресурс] // Infografer [сайт] URL: http://infographer.ru/v-chem-raznitsa-mezhdu-deshbordom-i-otchetom/ (дата обращения 11.01.2020).
23. Система анализа электронных текстов Voyant Tools [Электронный ресурс] // Voyant-tools [сайт] URL: https://voyant-tools.org/ (дата обращения 27.01.2020)
24. Matplotlib [Электронный ресурс] // Matplotlib [сайт] URL: https://matplotlib.org/ (дата обращения 06.02.2020)
25. Plotly [Электронный ресурс] // Plotly [сайт] URL: https://plotly.com/ (дата обращения 06.02.2020)
26. Chart.js [Электронный ресурс] // Chartjs [сайт] URL: https://www.chartjs.org/ (дата обращения 06.02.2020)
27. Dygraphs [Электронный ресурс] // Dygraphs [сайт] URL: http://dygraphs.com/ (дата обращения 06.02.2020)
28. D3.js [Электронный ресурс] // D3js [сайт] URL: https://d3js.org/ (дата обращения 06.02.2020)
29. InfoVis Toolkit [Электронный ресурс] // IVTK.sourceforge [сайт] URL: http://ivtk.sourceforge.net/ (дата обращения 06.02.2020)
30. JpGraph [Электронный ресурс] // JpGraph [сайт] URL: https://jpgraph.net/ (дата обращения 06.02.2020)
31. Google Charts [Электронный ресурс] // Developers.Google [сайт] URL: https://developers.google.com/chart (дата обращения 06.02.2020)
32. Flot [Электронный ресурс] // Flot Charts [сайт] URL: https://www.flotcharts.org/ (дата обращения 06.02.2020)
33. Фреймворк Angular [Электронный ресурс] // Angular [сайт] URL: https://angular.io/ (дата обращения 17.02.2020)
34. М. Иванов, Д. Сергиенков, «Удивительный Angular» [Электронный ресурс] // Habr [сайт] URL: https://habr.com/ru/post/348818/ (дата обращения 17.02.2020)
35. Фреймворк Vue.js [Электронный ресурс] // Vue.js [сайт] URL: https://vuejs.org/ (дата обращения 17.02.2020)
36. JavaScript библиотека React [Электронный ресурс] // React.js [сайт] URL: https://ru.reactjs.org/ (дата обращения 17.02.2020)
37. Фреймворк Ember [Электронный ресурс] // Ember.js [сайт] URL: https://emberjs.com/ (дата обращения 17.02.2020)
38. JavaScript библиотека для работы с Excel [Электронный ресурс] // Sheet.js [сайт] URL: https://sheetjs.com/ (дата обращения 03.04.2020)
39. Библиотека JQuery [Электронный ресурс] // JQuery [сайт] URL: https://jquery.com// (дата обращения 29.04.2020)
Очень похожие работы
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00562
© Рефератбанк, 2002 - 2024