Вход

Представление знаний в экспертных системах. Редактирование ( автоматическая обработка текстовых массивов ).

Рекомендуемая категория для самостоятельной подготовки:
Курсовая работа*
Код 283641
Дата создания 06 октября 2014
Страниц 30
Мы сможем обработать ваш заказ (!) 25 апреля в 14:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
1 600руб.
КУПИТЬ

Описание

Заключение
В соответствии с общей схемой статической экспертной системы для ее функционирования требуются следующие знания:
• знания о процессе решения задачи (т.е. управляющие знания), используемые интерпретатором (решателем);
• знания о языке общения и способах организации диалога, используемые лингвистическим процессором (диалоговым компонентом);
• знания о способах представления и модификации знаний, используемые компонентом приобретения знаний;
• поддерживающие структурные и управляющие знания, исполь-зуемые объяснительным компонентом.
Для динамической экспертной системы, кроме того, необходимы следующие знания:
1) знания о методах взаимодействия с внешним окружением;
2) знания о модели внешнего мира.
Зависимость состава знаний от требований пользователя проявляется в следующем:
• как ...

Содержание

СОДЕРЖАНИЕ
Введение 3
1. Экспертные системы, их особенности. Применение экспертных систем 4
1.1. Особенности экспертных систем 4
1.2. Первые экспертные системы 5
2. Структура экспертной системы 7
2.1. База экспертных знаний 7
2.2. Семантическая сеть 8
3. Автоматическая обработка текстовых массивов 13
3.1 Исходные данные для анализа и обобщения 13
3.2 Базовые инструментальные средства 19
3.3 Расширенные инструментальные средства 22
3.4 Средства построения терминологической базы 23
Заключение 29
Список литературы 30

Введение

СОДЕРЖАНИЕ
Введение 3
1. Экспертные системы, их особенности. Применение экспертных систем 4
1.1. Особенности экспертных систем 4
1.2. Первые экспертные системы 5
2. Структура экспертной системы 7
2.1. База экспертных знаний 7
2.2. Семантическая сеть 8
3. Автоматическая обработка текстовых массивов 13
3.1 Исходные данные для анализа и обобщения 13
3.2 Базовые инструментальные средства 19
3.3 Расширенные инструментальные средства 22
3.4 Средства построения терминологической базы 23
Заключение 29
Список литературы 30

Фрагмент работы для ознакомления

А =
где
μi - степень принадлежности элемента ui подмножеству А;
знак суммирования обозначает объединение одноточечных множеств ui / μi ;
черта не является символом деления.
Так, например, терму «высокий» для значения некоторого параметра химико-технологического процесса можно сопоставить нечеткое множество А универсального множества U = 0+1+2+3+4+5 (диапазона значений параметра):
A = 0/0 + 1/0,2 + 2/0,4 + 3/0,6 + 4/0,8 + 5/1
Если μi непрерывная функция, то нечеткое подмножество А представляется в виде:
А = ,
где знак интегрирования обозначает операцию объединения одноточечных множеств
u / μA(u).
Нечеткое множество можно представить в виде совокупности пар (x,μA(x)), образованной значениями базовой переменной х є Х и из функций принадлежности μА(х), устанавливающих связь между этими значениями и числами на отрезке [0;1].
Функция принадлежности характеризует степень субъективной уверенности эксперта в том, что данное значение базовой шкалы соответствует нечеткому множеству.
Для интерпретации, например, лингвистической переменной «возраст» можно использовать нечеткие множества «Детский», «Юный», «Молодой», «Зрелый», «Старый» и базовую шкалу в диапазоне от 0 до 120 лет. Функция принадлежности будет определять степень соответствия данного количества лет с данной категорией возраста.
На основе моделей представления нечетких знаний реализуются, в частности, методы принятия решений в условиях неопределенности.
Совершенствование методологии представления знаний обеспечивает дальнейшее развитие технологии экспертных систем.
Для решения задач прогностического анализа, бизнес-анализа и интеллектуального анализа данных необходимо хранить и обрабатывать сложные и часто очень разные информационные структуры. Весьма вероятно ― особенно если это коммерческая или финансовая информация, ― что значительное количество обрабатываемых данных поступает из реляционных баз данных. Они следуют строгой структуре и требуют значительного объема подготовительной работы, такой как предварительная разработка схемы и модели данных. Новое поколение NoSQL- и документо-ориентированных баз данных значительно упрощает большую часть этой подготовки, позволяя создавать и хранить информацию в гибком формате. Кроме того, можно разработать методы извлечения этих данных в требуемом фиксированном формате. В этой статье говорится о том, как использовать документо-ориентированные базы данных для обработки и анализа данных в составе комплексного решения.
3. Автоматическая обработка текстовых массивов
3.1 Исходные данные для анализа и обобщения
Первый и основной вопрос, который надо решить при представлении знаний, - это вопрос определения состава знаний, т.е. определение того, «ЧТО ПРЕДСТАВЛЯТЬ» в экспертной системе. Второй вопрос касается того, «КАК ПРЕДСТАВЛЯТЬ» знания. Необходимо отметить, что эти две проблемы не являются независимыми. Действительно, выбранный способ представления может оказаться непригодным в принципе либо неэффективным для выражения некоторых знаний.
Вопрос «КАК ПРЕДСТАВЛЯТЬ» можно разделить на две в значительной степени независимые задачи: как организовать (структурировать) знания и как представить знания в выбранном формализме.
Стремление выделить организацию знаний в самостоятельную задачу вызвано, в частности, тем, что эта задача возникает для любого языка представления и способы решения этой задачи являются одинаковыми (либо сходными) вне зависимости от используемого формализма.
Итак, в круг вопросов, решаемых при представлении знаний, будем включать следующие:
определение состава представляемых знаний;
организацию знаний;
представление знаний, т.е. определение модели представления. Состав знаний ЭС определяется следующими факторами:
проблемной средой;
архитектурой экспертной системы;
потребностями и целями пользователей;
языком общения.
В соответствии с общей схемой статической экспертной системы (см. рис. 1) для ее функционирования требуются следующие знания:
Рис.1. Структура статической ЭС
знания о процессе решения задачи (т.е. управляющие знания), используемые интерпретатором (решателем);
знания о языке общения и способах организации диалога, используемые лингвистическим процессором (диалоговым компонентом);
знания о способах представления и модификации знаний, используемые компонентом приобретения знаний;
поддерживающие структурные и управляющие знания, используемые объяснительным компонентом.
Для динамической ЭС, кроме того, необходимы следующие знания:
1) знания о методах взаимодействия с внешним окружением;
2) знания о модели внешнего мира.
Зависимость состава знаний от требований пользователя проявляется в следующем:
какие задачи (из общего набора задач) и с какими данными хочет решать пользователь;
каковы предпочтительные способы и методы решения;
при каких ограничениях на количество результатов и способы их получения должна быть решена задача;
каковы требования к языку общения и организации диалога;
какова степень общности (конкретности) знаний о проблемной области, доступная пользователю;
каковы цели пользователей.
Состав знаний о языке общения зависит как от языка общения, так и от требуемого уровня понимания.
С учетом архитектуры экспертной системы знания целесообразно делить на интерпретируемые и неинтерпретируемые . К первому типу относятся те знания, которые способен интерпретировать решатель (интерпретатор). Все остальные знания относятся ко второму типу. Решатель не знает их структуры и содержания. Если эти знания используются каким-либо компонентом системы, то он не «осознает» этих знаний. Неинтерпретируемые знания подразделяются на вспомогательные знания, хранящие информацию о лексике и грамматике языка общения, информацию о структуре диалога, и поддерживающие знания. Вспомогательные знания обрабатываются естественно-языковой компонентой, но ход этой обработки решатель не осознает, так как этот этап обработки входных сообщений является вспомогательным для проведения экспертизы. Поддерживающие знания используются при создании системы и при выполнении объяснений. Поддерживающие знания выполняют роль описаний (обоснований) как интерпретируемых знаний, так и действий системы. Поддерживающие знания подразделяются на технологические и семантические. Технологические поддерживающие знания содержат сведения о времени создания описываемых ими знаний, об авторе знаний и т.п. Семантические поддерживающие знания содержат смысловое описание этих знаний. Они содержат информацию о причинах ввода знаний, о назначении знаний, описывают способ использования знаний и получаемый эффект. Поддерживающие знания имеют описательный характер.
Интерпретируемые знания можно разделить на предметные знания, управляющие знания и знания о представлении. Знания о представлении содержат информацию о том, каким образом (в каких структурах) в системе представлены интерпретируемые знания.
Предметные знания содержат данные о предметной области и способах преобразования этих данных при решении поставленных задач. Отметим, что по отношению к предметным знаниям знания о представлении и знания об управлении являются метазнаниями. В предметных знаниях можно выделить описатели и собственно предметные знания. Описатели содержат определенную информацию о предметных знаниях, такую, как коэффициент определенности правил и данных, меры важности и сложности. Собственно предметные знания разбиваются на факты и исполняемые утверждения. Факты определяют возможные значения сущностей и характеристик предметной области. Исполняемые утверждения содержат информацию о том, как можно изменять описание предметной области в ходе решения задач. Говоря другими словами, исполняемые утверждения - это знания, задающие процедуры обработки. Однако мы избегаем использовать термин «процедурные знания», так как хотим подчеркнуть, что эти знания могут быть заданы не только в процедурной, но и в декларативной форме.
Управляющие знания можно разделить на фокусирующие и решающие. Фокусирующие знания описывают, какие знания следует использовать в той или иной ситуации. Обычно фокусирующие знания содержат сведения о наиболее перспективных объектах или правилах, которые целесообразно использовать при проверке соответствующих гипотез. В первом случае внимание фокусируется на элементах рабочей памяти, во втором - на правилах базы знаний. Решающие знания содержат информацию, используемую для выбора способа интерпретации знаний, подходящего к текущей ситуации. Эти знания применяются для выбора стратегий или эвристик, наиболее эффективных для решения данной задачи.
Качественные и количественные показатели экспертной системы могут быть значительно улучшены за счет использования метазнании, т.е. знаний о знаниях. Метазнания не представляют некоторую единую сущность, они могут применяться для достижения различных целей. Перечислим возможные назначения метазнаний:
1) метазнания в виде стратегических метаправил используются для выбора релевантных правил;
2) метазнания используются для обоснования целесообразности применения правил из области экспертизы;
3) метаправила используются для обнаружения синтаксических и семантических ошибок в предметных правилах;
4) метаправила позволяют системе адаптироваться к окружению путем перестройки предметных правил и функций;
5) метаправила позволяют явно указать возможности и ограничения системы, т.е. определить, что система знает, а что не знает.
Вопросы организации знаний необходимо рассматривать в любом представлении, и их решение в значительной степени не зависит от выбранного способа (модели) представления. Выделим следующие аспекты проблемы организации знаний:
организация знаний по уровням представления и по уровням детальности;
организация знаний в рабочей памяти;
организация знаний в базе знаний.
Ключевым понятием консолидации является источник данных — объект, содержащий структурированные данные, которые могут оказаться полезными для решения аналитической задачи. Необходимо, чтобы используемая аналитическая платформа могла осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат. В противном случае очевидно, что объект не может считаться источником данных.
Аналитические приложения, как правило, не содержат развитых средств ввода и редактирования данных, а работают с уже сформированными выборками. Таким образом, формирование массивов данных для анализа в большинстве случаев ложится на плечи заказчиков аналитических решений.
Основные задачи консолидации данных
В процессе консолидации данных решаются следующие задачи:
выбор источников данных;
разработка стратегии консолидации;
оценка качества данных;
обогащение;
очистка;
перенос в хранилище данных.
Сначала осуществляется выбор источников, содержащих данные, которые могут иметь отношение к решаемой задаче, затем определяются тип источников и методика организации доступа к ним. В связи с этим можно выделить три основных подхода к организации хранения данных.
Данные, хранящиеся в отдельных (локальных) файлах, например в текстовых файлах с разделителями, документах Word, Excel и т.д. Такого рода источником может быть любой файл, данные в котором организованы в виде столбцов и записей. Столбцы должны быть типизированы, то есть содержать данные одного типа, например только текстовые или только числовые. Преимущество таких источников в том, что они могут создаваться и редактироваться с помощью простых и популярных офисных приложений, работа с которыми не требует от персонала специальной подготовки. К недостаткам следует отнести то, что они далеко не всегда оптимальны с точки зрения скорости доступа к ним, компактности представления данных и поддержки их структурной целостности. Например, ничто не мешает пользователю табличного процессора разместить в одном столбце данные различных типов (числовые и текстовые), что впоследствии обязательно приведет к проблемам при их обработке в аналитическом приложении.
Базы данных (БД) различных СУБД, таких как Oracle, SQL Server, Firebird, dBase, FoxPro, Access и т.д. Файлы БД лучше поддерживают целостность структуры данных, поскольку тип и свойства их полей жестко задаются при построении таблиц. Однако для создания и администрирования БД требуются специалисты с более высоким уровнем подготовки, чем для работы с популярными офисными приложениями.
Специализированные хранилища данных (ХД) являются наиболее предпочтительным решением, поскольку их структура и функционирование специально оптимизируются для работы с аналитической платформой. Большинство ХД обеспечивают высокую скорость обмена данными с аналитическими приложениями, автоматически поддерживают целостность и непротиворечивость данных. Главное преимущество ХД перед остальными типами источников данных — наличие семантического слоя, который дает пользователю возможность оперировать терминами предметной области для формирования аналитических запросов к хранилищу.
При разработке стратегии консолидации данных необходимо учитывать характер расположения источников данных — локальный, когда они размещены на том же ПК, что и аналитическое приложение, либо удаленный, если источники доступны только через локальную или Глобальную компьютерные сети. Характер расположения источников данных может существенно повлиять на качество собранных данных (потеря фрагментов, несогласованность во времени их обновления, противоречивость и т.д.).
3.2 Базовые инструментальные средства
Для того чтобы экспертная система могла управлять процессом поиска решения, была способна приобретать новые знания и объяснять свои действия, она должна уметь не только использовать свои знания, но и обладать способностью понимать и исследовать их, т.е. экспертная система должна иметь знания о том, как представлены ее знания о проблемной среде. Если знания о проблемной среде назвать знаниями нулевого уровня представления, то первый уровень представления содержит метазнания, т.е. знания о том, как представлены во внутреннем мире системы знания нулевого уровня. Первый уровень содержит знания о том, какие средства используются для представления знаний нулевого уровня. Знания первого уровня играют существенную роль при управлении процессом решения, при приобретении и объяснении действий системы. В связи с тем, что знания первого уровня не содержат ссылок на знания нулевого уровня, знания первого уровня независимы от проблемной среды.
Число уровней представления может быть больше двух. Второй Уровень представления содержит сведения о знаниях первого уровня, т.е. знания о представлении базовых понятий первого уровня. Разделение знаний по уровням представления обеспечивает расширение области применимости системы.
Выделение уровней детальности позволяет рассматривать знания с различной степенью подробности. Количество уровней детальности во многом определяется спецификой решаемых задач, объемом знаний и способом их представления. Как правило, выделяется не менее трех уровней детальности, отражающих соответственно общую, логическую и физическую организацию знаний. Введение нескольких уровней детальности обеспечивает дополнительную степень гибкости системы, так как позволяет производить изменения на одном уровне, не затрагивая другие. Изменения на одном уровне детальности могут приводить к дополнительным изменениям на этом же уровне, что оказывается необходимым для обеспечения согласованности структур данных и программ. Однако наличие различных уровней препятствует распространению изменений с одного уровня на другие.
Другой важной задачей, которую требуется решить в рамках консолидации, является оценка качества данных с точки зрения их пригодности для обработки с помощью различных аналитических алгоритмов и методов. В большинстве случаев исходные данные являются «грязными», то есть содержат факторы, не позволяющие их корректно анализировать, обнаруживать скрытые структуры и закономерности, устанавливать связи между элементами данных и выполнять другие действия, которые могут потребоваться для получения аналитического решения. К таким факторам относятся ошибки ввода, пропуски, аномальные значения, шумы, противоречия и т.д. Поэтому перед тем, как приступить к анализу данных, необходимо оценить их качество и соответствие требованиям, предъявляемым аналитической платформой. Если в процессе оценки качества будут выявлены факторы, которые не позволяют корректно применить к данным те или иные аналитические методы, необходимо выполнить соответствующую очистку данных.
Очистка данных — комплекс методов и процедур, направленных на устранение причин, мешающих корректной обработке: аномалий, пропусков, дубликатов, противоречий, шумов и т.д.
Еще одной операцией, которая может понадобиться при консолидации данных, является их обогащение.
Обогащение — процесс дополнения данных некоторой информацией, позволяющей повысить эффективность решения аналитических задач.
Обогащение позволяет более эффективно использовать консолидированные данные. Его необходимо применять в тех случаях, когда данные содержат недостаточно информации для удовлетворительного решения определенной задачи анализа. Обогащение данных позволяет повысить их информационную насыщенность и, как следствие, значимость для решения аналитической задачи.
Место консолидации в общем процессе анализа данных может быть представлено в виде структурной схемы (рис. 2).
Рис. 2. Процесс консолидации данных
В основе процедуры консолидации лежит процесс ETL (extraction, transformation, loading). Процесс ETL решает задачи извлечения данных из разнотипных источников, их преобразования к виду, пригодному для хранения в определенной структуре, а также загрузки в соответствующую базу или хранилище данных. Если у аналитика возникают сомнения в качестве и информативности исходных данных, то при необходимости он может задействовать процедуры оценки их качества, очистки или обогащения, которые также являются составными частями процесса консолидации данных.
3.3 Расширенные инструментальные средства
Рабочая память (РП) экспертных систем предназначена для хранения данных. Данные в рабочей памяти могут быть однородны или разделяются на уровни по типам данных. В последнем случае на каждом уровне рабочей памяти хранятся данные соответствующего типа. Выделение уровней усложняет структуру экспертной системы, но делает систему более эффективной. Например, можно выделить уровень планов, уровень агенды (упорядоченного списка правил, готовых к выполнению) и уровень данных предметной области (уровень решений).
В современных экспертных системах данные в рабочей памяти рассматриваются как изолированные или как связанные. В первом случае рабочая память состоит из множества простых элементов, а во втором - из одного или нескольких (при нескольких уровнях в РП) сложных элементов (например, объектов). При этом сложный элемент соответствует множеству простых, объединенных в единую сущность. Теоретически оба подхода обеспечивают полноту, но использование изолированных элементов в сложных предметных областях приводит к потере эффективности.

Список литературы

Список литературы:
1. Джексон П. Введение в экспертные системы. – М.: Издательский дом «Вильямс», 2001. – 624 с.
2. Попов Э.В., Фоминых И.Б., Кисель Е.Б., Шапот М.Д. Статиче-ские и динамические экспертные системы: Учебное пособие. – М.: Финансы и статистика, 1996. – 320 с.
3. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. – СПб.: Питер, 2001. – 384 с.
4. Рыбина Г.В. Проектирование систем, основанных на знаниях: Учебное пособие. – М.: МИФИ, 1997. -104 с.
5. Кофман А. Введение в теорию нечетких множеств: Перевод с англ. – М.: радио и связь, 1982. – 432 с.

Очень похожие работы
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00503
© Рефератбанк, 2002 - 2024