Главная » Магазин готовых работ » Информатика, информационные технологии » Дипломные работы

Разработка и программная реализация статистической обработки текста с использованием морфологического анализа

Рекомендуемая категория для самостоятельной подготовки:

Дипломная работа^*

Код	272185
Дата создания	20 марта 2015
Страниц	75
Мы сможем обработать ваш заказ (!) 20 декабря в 12:00 [мск] Файлы будут доступны для скачивания только после обработки заказа.

6 100руб.

КУПИТЬ

Описание

Дипломная работа посвящена разработке и созданию модуля статистической обработки текста с использованием морфологического анализа. Модуль реализован на языке С#.
Данная дипломная работа содержит также исходный код программы на языке С# (рабочий) в Приложении. Для корректной работы необходима установка морфологического модуля, доступного в свободном доступе. Процесс подключения в проект описан, исходный код программы содержит все необходимое.

Работа была защищена в Волгодонском институте сервиса в 2013 г. по специальности "Информационные технологии" (специалисты), оценка -отлично. ...

Содержание

Содержание 3
Введение 6
1 Средства и задачи обработки и анализа текста 8
1.1 Сферы применения обработки и анализа текста 8
1.2 Статистический анализ текста 9
1.2.1 Классификация по ключевым словам 10
1.2.2 Вероятностный метод, основанный на классификаторе Байеса 12
1.2.3 Анализ контекста 13
1.2.4 Автоматическое выделение коллокаций 14
1.2.5 N-граммные методы обработки текстовой информации 15
1.3 Лингвистические методы 16
1.4 Семантический анализ текста и системы, построенные на его основе 18
1.5 Морфологический анализ 25
1.5.1 Основные понятия морфологического анализа 27
2 Анализ средств и методов морфологического анализа 31
2.1 Обзор морфологизаторов, библиотек и модулей 31
2.2 Морфологический анализ и его компоненты 34
2.2.1 Стеммер 35
2.2.2 Лемматизация 36
2.2.3 Вероятностная лемматизация с учетом контекста 37
2.2.4 Отличие лемматизатора от функций морфологического разбора 38
2.3 Русский морфологический словарь 39
2.4 Основные интерфейсы компонента морфологического анализа 42
2.4.1 Интерфейс IParadigm 42
2.4.2 Интерфейсы IParadigmCollection и IPLMLineCollection 44
2.4.3 Интерфейс ILemmatizer 46
3 Программная реализация статистической обработки текста с использованием морфологического анализа 49
3.1 Постановка задачи на дипломное проектирование 49
3.2 Обобщенный алгоритм работы программы 50
3.3 Подключение библиотек морфологического анализатора 50
3.4 Построение морфологической интерпретации слов входного текста 53
3.5 Обработка массива слов и получение кода текущей словоформы 55
3.6 Применение обобщенного типа коллекции List<T> 56
3.7 Подсчет статистики употребления частей речи 57
3.8 Тестирование программы 59
4 Экономическое обоснование целесообразности разработки программы для статистического анализа с использованием морфологического анализа 63
4.1 Расход трудоемкости разработки программного продукта 63
4.2 Расход на оплату труда разработчика программы 65
4.3 Общие затраты на создание программного продукта 66
4.4 Целесообразность создания продукта 67
Выводы и рекомендации 68
Библиографический список 69
Приложение А. Исходный код программы 73

Введение

Автоматическая обработка текстовой информации важна для работы поисковых систем, систем классификации и реферирования, извлечения знаний, текстмайнинга, парсинга и т.д., в общем, практически для большинства систем обработки информации, поскольку большая ее часть находится в текстовой форме.
К основным задачам обработки текста относятся:
 извлечение смысла;
 классификация и категоризация;
 документооборот;
 автореферирование;
 извлечение знаний, текстмайнинг;
 автоматическая генерация текста;
 определение авторства, стиля, уникальности и прочих характеристик;
 поиск по запросу, по ключевым словам, поиск по образцу;
 парсинг и грабберство.
Помимо этих основных задач можно отметить и такие актуальные те-мы, как сравнение контента, определение копипаста, дублей документов, а также от сеет из выдачи поисковых систем практически идентичных документов.

В современных информационных системах, а особенно работающих как непосредственно с текстами, невозможно обойтись без методов и средств обработки текстов.
Интересной и достаточно новой сферой приложения такого анализа являются социальные сети, дающие возможность не только извлекать данные, но и знания, а также анализировать разноплановую информацию как в научных, так и в деловых целях.

В представленной дипломной работе рассматриваются основные направления и методы обработки текстов, а также подробно рассмотрена структура и основные понятия морфологических модулей, сделан обзор морфологических модулей и библиотек на русском языке.

Фрагмент работы для ознакомления

Например, популярный движок для работы с морфологией в php – phpMorphy. Это морфологический модуль, написанный на php. Он также основан на словарях проекта AOT. Оба продукта распространяются под лицензией LGPL.Возможности проекта phpMorphy:Получение базовой формы словаПолучение всех словоформ словаПолучение грамматических характеристик для каждой словоформыПредсказание ненайденных в словаре словХарактеристики:Анализ производится по словарю, размер словаря для русского языка ~4Mb. Скорость работы ~700 слов в секунду в нормальном режиме и ~1000 слов с загруженным в память словарем (без предсказания).Модуль phpMorphy можно бесплатно скачать с официального сайта. Также существует морфологический анализатор Бойко-Шуклина [24], дающий хорошие результаты обработки. Библиотека Morphology.NET, которая предназначена для морфологического анализа слов, в качестве источника данных использует сетевую объектно-ориентированную базу данных Cerebrum, которую разработал Дмитрий Шуклин. В базе больше 3000000 слов русского языка. Данные можно экспортировать в CSV и INI файлы. Однако довольно сложно найти ее последние обновления для работы с платформой .NET, если они вообще есть.Также существуют и профессиональные коммерческие программные морфологические модули. Например, компания «Информатик» предлагает для разработчиков программные морфологические модули, которые предназначены для решения широкого класса задач, требующих средств поиска и анализа текстовой информации: информационно-поисковые системы, аналитические системы и каталоги электронных документов. В морфологических модулях компании «Информатик» используются передовые технологии обработки текста, лингвистические и математические алгоритмы, которые могут быть использованы для контекстного поиска документов с учетом всех словоформ, нахождения синонимов, проверки грамматики, проверки орфографии и для решения задач, построенных на основе анализа информационных массивов.Разработанные компанией «Информатик» морфологические модули используют в своих системах такие организации как: Samsung, Syngenta, Quantum Art, ALP, Яndex и многие другие. Например, морфологический модуль поставляется в виде динамической библиотеки (*.dll) для Windows. Однако у них есть серьезный недостаток – очень высокая цена. Исходя из рассмотренных скриптов и модулей, для реализации морфологической обработки был выбран морфологический модуль рабочей группы АОТ. Он хорошо зарекомендовал себя, активно используется, на основе словарей АОТ создаются новые проекты, ведется постоянная работа по улучшению библиотек и модулей. 2.2 Морфологический анализ и его компоненты В целом рассмотрим общую структуру морфологического модуля. Для различных систем алгоритмы лингвистической обработки могут несколько отличаться, однако общий принцип сохраняется. Рассмотрены модули на примере морфологического анализатора компании АОТ (Россия).В модуль морфологического анализа входят стеммер и лемматизатор. Также они могут быть самостоятельными компонентами, используемыми в создании приложений.2.2.1 СтеммерСтемминг – отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Разумеется, в таком виде стеммер может работать только с языками, которые реализуют словоизменение через аффиксы. Примерами таких языков являются русский и английский [18].Обычно стеммером пользуются для поиска текста с имитацией учета морфологии. Под имитацией подразумевается неустранимо большое количество ошибок и нерелевантных результатов, которые возникают, если применять только стеммер. В русском языке источником ошибок при стемминге являются всевозможные изменения корня слова – беглые гласные, к примеру. Наглядно проблемы, связанные с использованием стеммера, можно продемонстрировать для русского существительного кошка. Родительный падеж множественного числа имеет форму кошек. Таким образом, самый длинный общий префикс всех форм существительного кошка – это кош. Если выполнить поиск текста по этому префиксу, то в результатах с большой вероятностью будут такие слова, как кошмар. Замечу, что обычно реализации стеммера идут немного другим путем и допускают ошибку иного рода - они возвращают при стемминге префикс кошк и таким образом из результатов поиска исчезают фрагменты текста с формой кошек.В качестве решения проблемы плохих результатов поиска со стеммером для русского языка можно использовать два дополнительных модуля грамматического словаря – лемматизатор и флексер (склонение и спряжение). 2.2.2 ЛемматизацияС помощью лемматизатора можно приводить слова к базовой форме, поэтому после сопоставления слова со стемом можно уточнить результат с помощью лемматизации [25]. Второй модуль – флексер, который умеет выдавать все грамматические формы слова на основе базовой. Это позволяет уточнять результаты поиска, проверяя найденные фрагменты по набору форм ключевого слова.Динамическая библиотека лемматизации lemmatizator.dll собирается для 32х и 64х битных платформ Windows и Linux, а также Mac OS X. Для платформы .NET в состав SDK включена обертка lemmatizator_fx.dll и пример использования на C#.Лемматизация для PHP выполняется с помощью модуля, который доступен в составе SDK Грамматического Словаря в виде исходного кода Lemmatizator.php. Текст этого модуля и база данных для него генерируются автоматически отдельной служебной утилитой на C#. Все файлы PHP лемматизатора находятся в подкаталоге ...\demo\ai\solarix\Grammar_Engine\Lemmatizator\PHP.Лемматизатор не требует наличия других библиотек из состава SDK, так как содержит все необходимые алгоритмы, словарную базу и вероятностную модель морфологии в двух своих файлах.Задача лемматизации. При лемматизации берется слово и получается для него лемму – нормальную (начальную, словарную) форму: словарем – словарь. Для русского языка это означает, что существительное в любой грамматической форме приводится к форме именительного падежа. Для подавляющего большинства русских существительных нормальная форма также означает единственное число, хотя для некоторых существительных, не употребляющихся в единственном числе, это может быть и форма множественного числа: санками – санки. Русский лексикон сформирован таким образом, что названия словарных статей всегда соответствуют начальной форме существительного. Поэтому лемматизация может быть побочным продуктом морфологического анализа. Однако морфологический анализ сам по себе достаточно тяжел и требует наличия очень большой словарной базы. Поэтому в некоторых случаях полезным оказывается описанный лемматизатор – более компактный и простой, требующий минимум ресурсов и внешних зависимостей.В некоторых приложениях может быть полезным расширить задачу лемматизации так, чтобы заменять уменьшительные и усилительные формы на нейтральные: саночками – саночки, или приводить деепричастия к форме инфинитива: катаясь – кататься. Это выходит за рамки данного алгоритма лемматизации, но может быть реализовано с помощью такого инструмента грамматического словаря, как тезаурус.2.2.3 Вероятностная лемматизация с учетом контекста В лемматизатор входит вероятностная модель морфологии – обучаемая по специально размеченному корпусу числовая база данных [25]. При первом обращении к функции sol_LemmatizePhrase [W,A,8] движок подгружает эту модель в оперативную память и затем использует ее для выбора более вероятной леммы. Увеличение точности, привносимое этой моделью, полностью определяется процессом обучения и ограничениями самой модели. В лабораторных условиях вероятностная модель морфологии позволяет улучшить точность примерно до 98-99%.Для ранее упоминавшегося примера неоднозначной лемматизации роем – рой | рыть вероятностная модель стремится опереться на самое частотное употребление в контекста пчелиным роем – пчелиный рой или учесть синтаксические закономерности мы роем – я рыть (после личного местоимения в именительном падеже обычно идет личная форма глагола в соответствущей форме), рой улетел – рой улететь (после императива инфинитив употребляется только для некоторых модальных глаголов, в число которых рыть не входит).Проиллюстрировать использование морфологической модели в лемматизаторе можно с помощью консольного отладчика Syntax. После его запуска введите директиву #lemmatize и затем предложение «мы ели суп, а вдоль аллеи стояли раскидистые ели».2.2.4 Отличие лемматизатора от функций морфологического разбораОсновное и единственное назначение лемматизатора – вернуть для исходного слова его базовую словарную форму. Например, для русских существительных это форма именительного падежа единственного числа, для глаголов – форма инфинитива. Существует и обратная операция – получение нужной грамматической формы слова из базовой, для существительных она называется склонение, для глаголов – спряжение.В ходе морфологического разбора слова в качестве одного из «побочных» результатов также получается нормальная форма слова, благодаря тому, что морфологический анализатор распознает исходное слово как форму конкретной словарной статьи. Но в отличие от лемматизатора назначение морфологического разбора включает в себя получение множества другой информации о морфологических свойствах слова. Например, при морфологическом разборе существительного определяется его постоянные свойства (грамматические атрибуты) – перечислимость, одушевленность, род, и непостоянные (грамматические измерения) – падеж, число.Таким образом, лемматизатор – это максимально упрощенный и оптимизированный морфологический анализатор. С точки зрения прикладного программиста использование лемматизатора тоже намного проще, если сравнивать с набором функций полного морфологического анализа. Среди заложенных конструктивных недостатков лемматизатора необходимо отметить то, что он ограниченно учитывает только ближайший контекст слова и таким образом не может сам выбрать часть речи, к которой необходимо нормализовать слово. Например, при лемматизации слова простынь получается две леммы – существительное простынь и глагол простыть. Если лемматизируемое слово употреблено в контексте, который известен встроенной модели морфологии, то лемматизатор выберет более частотный и, возможно, осмысленный вариант, иначе шансы на правильный результат будут определяться скорее случайными факторами, а именно порядком следования созданных при обучении правил. Морфологический анализатор текста умеет учитывать контекст слова и отбрасывать недопустимые варианты.2.3 Русский морфологический словарьКак уже отмечалось выше, разработка морфологических модулей всегда базируется на морфологических словарях. Русский морфологический словарь Диалинг (АОТ), используемый в данной дипломной работе, базируется на грамматическом словаре А.А.Зализняка [26]. Включает на данный момент 161 тысяч лемм.При лемматизации для каждого слова входного текста выдается множество морфологических интерпретаций следующего вида:лемма (всегда пишется большими буквами);морфологическая часть речи;набор общих граммем (которые относятся ко всем словоформам парадигмы слова).множество наборов граммем.Полный перечень русских частей речи, используемых в системе Диалинг, приведен в таблице 2.1.Таблица 2.1 – Перечень русских частей речи в системе ДиалингЧасть речи в системе ДиалингПримерРасшифровкаCмамасуществительноеПкрасныйприлагательноеМСонместоимение-существительноеГидетглагол в личной формеПРИЧАСТИЕидущийпричастиеДЕЕПРИЧАСТИЕидядеепричастиеИНФИНИТИВидтиинфинитивМС-ПРЕДКнечегоместоимение-предикативМС-Пвсякийместоименное прилагательноеЧИСЛвосемьчислительное (количественное)ЧИСЛ-Пвосьмойпорядковое числительноеНкрутонаречиеПРЕДКинтереснопредикативПРЕДЛподпредлогСОЮЗисоюзМЕЖДоймеждометиеЧАСТже, бычастицаВВОДНконечновводное словоКР_ПРИЛкрасивакраткое прилагательноеКР_ПРИЧАСТИЕпостроенакраткое причастиеГраммема – это элементарный морфологический описатель, относящий словоформу к какому-то морфологическому классу, например, словоформе стол с леммой СТОЛ будут приписаны следующие наборы граммем: "мр, ед, им, но", "мр, ед, вн, но" [27]. Таким образом, морфологический анализ выдает два варианта анализа словоформы стол с леммой СТОЛ внутри одной морфологической интерпретации: с винительным (вн) и именительным падежами (им).Ниже перечислены все используемые граммемы:мр, жр, ср – мужской, женский, средний род;од, но – одушевленность, неодушевленность;ед, мн – единственное, множественное число;им, рд, дт, вн, тв, пр, зв – падежи: именительный, родительный, дательный, винительный, творительный, предложный, звательный;– обозначает второй родительный или второй предложный падежи;св, нс – совершенный, несовершенный вид;пе, нп – переходный, непереходный глагол;дст, стр – действительный, страдательный залог;нст, прш, буд – настоящее, прошедшее, будущее время;пвл – повелительная форма глагола;1л, 2л, 3л – первое, второе, третье лицо;0 – неизменяемое.кр – краткость (для прилагательных и причастий).сравн – сравнительная форма (для прилагательных).имя, фам, отч – имя, фамилия, отчество.лок, орг – локативность, организация.кач – качественное прилагательное.вопр,относ – вопросительность и относительность (для наречий).дфст – слово обычно не имеет множественного числа.опч – частая опечатка или ошибка.жарг, арх, проф – жаргонизм, архаизм, профессионализм.аббр – аббревиатура.безл – безличный глагол.Одной словоформе может соответствовать много морфологических интерпретаций. Например, у словоформы стали две интерпретации:{СТАЛЬ, C, "но", ("жр,ед,рд","жр,ед,дт", "жр,мн,им", "жр,мн,вн") };{СТАТЬ, Г, "нп,св",("мн,дст,прш")}.Для решения конфликта пользователь может выбрать несколько вариантов, исходя из поставленной задачи:может сам выбирать нужное решение в случае конфликта;назначить выбор, исходя из статистики (представлена в модуле статистики, который также подключается);подключить более сложный модуль морфологического разбора, описанный в 2.1.4, который решает данную задачу, исходя из определения места слова в предложении.Проанализировав представленные варианты, было принято решение использовать модуль статистики. Вариант выбран потому, что при статистическом анализе текста, в отличие от задачи извлечения смысла, несколько ошибок по сравнению с текстами в десятки или сотни тысяч не имеют большого значения. Зато подключение модуля морфологического разбора, и решение таких конфликтов существенно замедлит работу программы.2.4 Основные интерфейсы компонента морфологического анализа Это описание COM-интерфейса морфологического анализатора системы Диалинг (от рабочей группы АОТ) взято на официальном сайте рабочей группы АОТ [28]. Для Unix-разработчиков у разработчиков нет специального документа, но по их словам, «в целом Unix-версия повторяет структуру всех представленных здесь интерфейсов, достаточно только переименовать основные типы» (BSTR в string, BOOL в bool и т.д.). Программный интерфейс компонента морфологического анализа работает для русского, английского и немецкого языков.Компонент экспортирует четыре интерфейса, которые будут рассмотрены ниже.2.4.1 Интерфейс IParadigmИнтерфейс IParadigm представляет собой полную парадигму одного слова. Полная парадигма слова содержит все возможные формы данного слова, а также его нормальную форму. Помимо этого в парадигме слова содержатся данные о его статистической частоте встречаемости слова в массиве обучающих текстов, номер парадигмы и более специфические характеристики. Более полно понятие парадигма в лингвистике рассмотрено в разделе 1.5.1.Нормальная форма слова – это родительская форма словоформы, от которой выведены все остальные. Для существительных это именительный падеж, единственное число (или множественное, для ряда слов: «туфли», «очки»). Для глаголов – инфинитив.Основные свойства интерфейса IParadigm, представляющего полную парадигму одного слова, показаны в таблице 2.2.Таблица 2.2 – Основные свойства интерфейса IParadigmНазваниеТип возвращаемого значенияНазначениеNormBSTRНормальная форма словаCountlongКоличество словоформ в парадигмеFormBSTRСловоформа, по ее порядковому номеру в парадигмеAncodeBSTRИнформация о словоформе в кодах agramtab.tab, по ее порядковому номеру в парадигмеTypeAncodeBSTRОбщий анкод парадигмыParadigmIDlongУникальный идентификатор парадигмыSrcAncodeBSTRИнформация о найденной словоформе в кодах agramtab.tabSrcNormBSTRНормальная форма слова, которое служит родителем искомого при предсказанииWordWeightlongЧастота встречаемости слова в массиве обучающих текстовHomonymWeightlongЧастота встречаемости омонимаFoundedBOOLTRUE, если слово найдено в словареBaseLengthUINTДлина псевдоосновы (неизменной части парадигмы)Именно данный интерфес позволяет получить нормальную форму слова и информацию о текущей словоформе в кодах agramtab.tab. Их список хранится вместе с библиотеками установленного на компьютере морфологического анализатора компании АОТ.Коды содержат информацию о части речи, роде, числе, падеже и других характеристиках слова (таблица 2.3). Также коды могут указывать на устаревшую, архаическую форму, сленг или просторечную форму слова.Таблица 2.3. – Пример кодов agramtab.tab для существительных КодыСУЩЕСТВИТЕЛЬНЫЕсуществительные мужского родааааб Эфавагадаемр,ед,им (мужской род, единственное число, именительный падеж)мр,ед,рд (мужской род, единственное число, родительный падеж)мр,ед,рд,2(мужской род, единственное число, родительный падеж)мр,ед,дт(мужской род, единственное число, дательный падеж)мр,ед,вн(мужской род, единственное число, винительный падеж)мр,ед,тв(мужской род, единственное число, творительный падеж)мр,ед,пр(мужской род, единственное число, предложный падеж)2.4.2 Интерфейсы IParadigmCollection и IPLMLineCollectionДанный интерфейс позволяет создавать коллекцию объектов IParadigm. Это очень полезное свойство. Оно не только записывает полностью парадигму в коллекцию, но и позволяет легко импортировать данные в новую коллекцию типа List, и работать в дальнейшем с коллекцией. Свойства интерфейса IParadigmCollection показаны в таблице 2.4.Таблица 2.4 – Основные свойства интерфейса IParadigmCollectionНазваниеАтрибутыТип возвра-щаемого значенияАргументы с типомНазначениеCountЧтениеlong Количество объектов в коллекцииItemЧтениеIParadigmНомер элемента от 0Получить элемент коллекции по номеру (допустим доступ по [])Интерфейс IPLMLineCollection позволяется создавать коллекцию строк, порожденных графематическим анализом, к которым добавлены нормальная форма, коды agramtab.tab и ParadigmID.Свойства интерфейса IPLMLineCollection показаны в таблице 2.5.Таблица 2.5 – Основные свойства интерфейса IPLMLineCollectionНазваниеАтрибутыТип возвращаемого значенияАргументы с типомНазначениеCountЧтениеlong Количество объектов в коллекцииItemЧтение/ ЗаписьBSTRНомер элемента от 0Доступ к элементу коллекции по номеру ( допустим доступ по [])Как видно из таблицы 2.5, основное отличие данного интерфейса от схожего с ним IParadigmCollection состоит в типе возвращаемого значения Item: в первом случае это тип IParadigm (объект IParadigm), а во втором – типа string.Обработка в строку позволяет расширить ряд методов данного интерфейса, особенно за счет методов, обрабатывающих строки.Методы IPLMLineCollection:HRESULT Remove([in] long pos) – удалить строчку с номером pos.HRESULT SaveToFile([in] BSTR filename) – сохранить коллекцию в файл filename.HRESULT ProcessPlmLines([in] IGraphmatFile* piGraphmatFile) – по интерфейсу piGraphmatFile.HRESULT AttachLemmatizer(ILemmatizer* pVal) – присоединяет морфологический словарь, где pVal – указатель на морфологию.HRESULT CopyItems(IUnknown* pVal) импортирует все строки из pVal, где pVal – указатель на интерфейс IPLMLineCollection.HRESULT Clear()обнуляет коллекцию.Кроме того, данный интерфейс позволяет создавать собственные коллекции 2.4.3 Интерфейс ILemmatizer Этот интерфейс представляет собой собственно морфоанализатор. Основные его свойства позволяют решать возникшие неоднозначные значения словоформы, рассмотренные в 2.1.3 и 2.1.4. С помощью интерфейса ILemmatizer возможно выбрать один из вариантов разрешения неоднозначности, описанных в 2.2. Это возможно с помощью свойств, приведенных в таблице 2.6.Таблица 2.

Список литературы

Библиографический список
1. Мешкова Е.В. Анализ современных методов обработки текстовой ин-формации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.]. – Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.
2. Статистическая обработка текстов и сборка N-грамм [Электронный ресурс]: Все о статистической обработке, 2009. URL: http://www.solarix.ru/
3. Что такое тезаурус?(Обзор терминологии) [Электронный ресурс]: Минерва Плюс, 2011. URL: http://www.minervaplus.ru/
4. Лившиц Ю.В. Курс лекций «Алгоритмы для интернета» Автоматиче-ская классификация текстов, СПбГУ ИТМО, 2006.
5. Ягунова Е.В., Пивоварова Л.М Извлечение и классификация коллокаций на материале научных текстов [Электронный ресурс]: Проект МониторингаРунета, 2012. URL: http://www.webground.su
6. Мазов Н.А. N-граммные методы обработки текстовой информации. [Электронный ресурс]:Государственная публичная научно-техническая библиотека, 2010. URL: http://www.gpntb.ru

При подготовке к работе использовались материалы компании АОТ, так как именно их морфологический модуль использован в работе, а также материалы, посвященные построению систем для семантического и морфологического анализа (например, SyTech, Сyc – проект по созданию объёмной онтологической базы знаний, SNePS, Диалог и т.д.). Также использовались научные статьи, посвященные анализу и обработке текстов. Для основных определений использовалась Википедия.

15. Леонтьева Н.Н. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация. Проблемы создания системы автоматического перевода: Сб. научн. трудов МГПИИЯ им. М. Тореза. – М., 1987. – С. 6 – 25.
16. Леонтьева Н.Н. ПОЛИТекст: информационный анализ политических текстов: Сб. НТИ. – 1995

Если вы не нашли подходящую готовую работу, закажите новую работу у экспертов

Очень похожие работы

Найти ещё больше

Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.

^* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.

Другие дипломные работы

Единый сельскохозяйственный налог (ЕСХН)

Вердикт присяжных заседателей

Социально-психологический климат организации

bmt: 0.00388