Вход

Опыт разработки модели распознавания русской речи со сверхбольшим словарем

Рекомендуемая категория для самостоятельной подготовки:
Реферат*
Код 371721
Дата создания 08 января 2018
Страниц 9
Мы сможем обработать ваш заказ 24 ноября в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
590руб.
КУПИТЬ

Описание

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН, г. Санкт-Петербург
В статье описывается процесс создания статистических моделей русского языка для систем распознавания слитной речи. Модели языка были созданы по текстовому корпусу, сформированному из новостных лент ряда интернет-сайтов электронных газет, была проведена автоматическая статистическая обработка текстового корпуса. Также в статье представлены результаты экспериментов по распознаванию слитной речи со сверхбольшим словарем с применением и-граммных моделей языка.
Введение
Одной из основных нерешенных проблем в области речевых исследований является автоматическое стенографирование или распознавание слитной разговорной речи. Согласно принятой сейчас в мире классификации, малым словар ...

Содержание

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН, г. Санкт-Петербург
В статье описывается процесс создания статистических моделей русского языка для систем распознавания слитной речи. Модели языка были созданы по текстовому корпусу, сформированному из новостных лент ряда интернет-сайтов электронных газет, была проведена автоматическая статистическая обработка текстового корпуса. Также в статье представлены результаты экспериментов по распознаванию слитной речи со сверхбольшим словарем с применением и-граммных моделей языка.
Введение
Одной из основных нерешенных проблем в области речевых исследований является автоматическое стенографирование или распознавание слитной разговорной речи. Согласно принятой сейчас в мире классификации, малым словарем распознавания считается словарь в единицы и десятки слов [3]. Задач и приложений, где используется малый словарь распознавания, достаточно много: распознавание последовательностей цифр, номеров телефонов; системы речевого командного управления и т.д. Средний распознаваемый словарь содержит сотни слов. Такого словаря достаточно для большинства диалоговых или запросно- ответных систем.

Введение

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН, г. Санкт-Петербург
В статье описывается процесс создания статистических моделей русского языка для систем распознавания слитной речи. Модели языка были созданы по текстовому корпусу, сформированному из новостных лент ряда интернет-сайтов электронных газет, была проведена автоматическая статистическая обработка текстового корпуса. Также в статье представлены результаты экспериментов по распознаванию слитной речи со сверхбольшим словарем с применением и-граммных моделей языка.
Введение
Одной из основных нерешенных проблем в области речевых исследований является автоматическое стенографирование или распознавание слитной разговорной речи. Согласно принятой сейчас в мире классификации, малым словар ем распознавания считается словарь в единицы и десятки слов [3]. Задач и приложений, где используется малый словарь распознавания, достаточно много: распознавание последовательностей цифр, номеров телефонов; системы речевого командного управления и т.д. Средний распознаваемый словарь содержит сотни слов. Такого словаря достаточно для большинства диалоговых или запросно- ответных систем.

Фрагмент работы для ознакомления

Затем из текстов удаляются знаки препинания, расшифровываются общепринятые сокращения (например, «см», «кг»). В словах, начинающихся с заглавной буквы, происходит замена заглавной буквы на строчную. Если все слово написано заглавными буквами, то замена не делается, так как это слово, вероятно, является аббревиатурой. На данный момент общий объем корпуса после его обработки составляет свыше 110 млн словоупотреблений (около 750 Мб данных).Рисунок 1 — Диаграмма процесса создания модели языкаНа базе собранного русскоязычного текстового корпуса был создан частотный словарь, размер которого составляет около одного миллиона уникальных словоформ. Статистическая модель языка была создана с помощью программного модуля обработки и анализа текстов CMU (Cambridge Statistical Language Modeling Toolkit)[4]. Модель языка создавалась в несколько этапов. Вначале количество биграмм составляло 22,7 млн, триграмм — 56,4 млн, количество уникальных слов в текстах (словарь) — 937 тыс. Поскольку в обрабатываемом тексте присутствует достаточно большое число редких слов и слов с опечатками, при построении модели языка был введен порог K, то есть и-граммы, у которых частота появления меньше K, удалялись из модели языка. Для биграммной модели языка был утсановлен порог K=2. При создании триграммной модели языка был выбран порог K=3, поскольку при меньшем пороге из-за большого числа триграмм вероятность некоторых из них была настолько мала, что возникали ошибки при округлении, в результате чего сумма вероятностей оказывалась больше 1. Затем для слов, которые использовались в этих моделях языка, были автоматически созданы транскрипции [1]. и-граммы со словами, для которых транскрипции не могли быть созданы автоматически, были удалены из модели языка. Однако из-за удаления некоторых и-грамм из модели языка появились слова, которые в модели не приводят к конечному результату (разрывают цепочку слов), поскольку встречаются в и-граммах не во всех позициях. Поэтому модель языка была также сокращена путем удаления и-грамм, содержащих такие слова. В результате в конечной биграммной модели количество уникальных словоформ составило 208 тыс., количество биграмм — 6,01 млн, в триграммной модели количество уникальных словоформ — 76 тыс., триграмм — 3,43 млн.2. Результаты распознавания речи с использованием п-граммных моделей языкаДля распознавания слитной русской речи использовался разработанный в СПИИРАН декодер SIRIUS [8]. В качестве фонетических единиц при распознавании речи применялись контекстно-зависимые фоны (трифоны). Запись обучающего и тестового речевого корпуса для системы производилась с частотой дискретизации 44 кГц, 16 бит на отсчет, моно, отношение сигнал/шум больше 35 дБ. Для обучения системы распознавания речи были использованы 300 вручную размеченных фраз из речевого корпуса [6]. Система была обучена на записях одного диктора и является, таким образом, дикторозависимой. Для тестирования системы были записаны 100 слитно произнесенных фраз, состоящих из 1068 слов (7191 символов); фразы взяты из материалов интернет-газеты «Фонтанка.т» (www.fontanka.ru). В текстовом корпусе, используемом для тестирования, количество биграмм, присутствующих в модели языка, составило 83,58 %, триграмм — 35,83 %, при этом для словаря объемом 208 тыс. слов относительное количество внесловарных слов было равно 0,75 %, для словаря объемом 76 тыс. слов — 4,87 %. Для этого тестового корпуса вычислены величины энтропии и коэффициента неопределенности (perplexity) статистической модели языка [7]. Для униграммной модели величина коэффициента неопределенности составила 5493,11, энтропии — 12,42 бит/слово, для биграммной модели коэффициент неопределенности равен 776,67, энтропия — 9,60 бит/слово, для триграммной модели коэффициент неопределенности равен 452,14, энтропия — 8,82 бит/слово. Полученные значения являются достаточно большими. Например, для английского языка при размере словаря в 200 тыс. слов, коэффициент неопределенности для биграммной модели равен 232 [9], при этом энтропия будет приблизительно равна 7,9 бит/слово.Результаты распознавания слов и символов (под символом понимаются буква и знак пробела) с применением различных моделей языка представлены в таблицах 1 и 2. Методика оценивания результатов распознавания описана в [10]. Для нульграммной, униграммной и биграммной модели использовался одинаковый словарь объемом в 208 тыс. слов, для триграммной модели объем словаря был 75 тыс. слов. При использовании нульграммной модели (то есть при распознавании без модели языка) точность распознавания слов оказалась отрицательной и равной -20,97 %, это связано с тем, что количество вставленных слов было больше чем количество правильно распознанных. Использование униграммной модели позволило повысить точность распознавания слов до 30,06 %. Наилучшие результаты были достигнуты при применении биграммной модели, где точность распознавания слов составила 36,89 %. При применении триграммной модели точность распознавания упала до 24,72 %. Снижение точности при распознавании с триграммной моделью языка связано с малым размером словаря, используемым в данной модели, в результате чего в тестовых фразах количество триграмм, присутствующих в модели языка, было также мало (35,83 %). Однако точность распознавания с использованием триграммной модели была значительно выше, чем при распознавании речи без применения модели языка, но с большим словарем.

Список литературы

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН, г. Санкт-Петербург
В статье описывается процесс создания статистических моделей русского языка для систем распознавания слитной речи. Модели языка были созданы по текстовому корпусу, сформированному из новостных лент ряда интернет-сайтов электронных газет, была проведена автоматическая статистическая обработка текстового корпуса. Также в статье представлены результаты экспериментов по распознаванию слитной речи со сверхбольшим словарем с применением и-граммных моделей языка.
Введение
Одной из основных нерешенных проблем в области речевых исследований является автоматическое стенографирование или распознавание слитной разговорной речи. Согласно принятой сейчас в мире классификации, малым словарем распознавания считается словарь в единицы и десятки слов [3]. Задач и приложений, где используется малый словарь распознавания, достаточно много: распознавание последовательностей цифр, номеров телефонов; системы речевого командного управления и т.д. Средний распознаваемый словарь содержит сотни слов. Такого словаря достаточно для большинства диалоговых или запросно- ответных систем.
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
© Рефератбанк, 2002 - 2020