Код | 296267 | ||
Дата создания | 2016 | ||
Страниц | 31 ( 14 шрифт, полуторный интервал ) | ||
Источников | 6 | ||
Изображений | 12 | ||
Файлы
|
|||
Без ожидания: файлы доступны для скачивания сразу после оплаты.
Ручная проверка: файлы открываются и полностью соответствуют описанию. Документ оформлен в соответствии с требованиями ГОСТ.
|
Интеллектуальный анализ данных, или Data Mining, – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Выделяют пять стандартных типов закономерностей (задач), которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация, прогнозирование.
Системный подход реализуется в методологии системного анализа, который является одним из эффективных инструментов исследования социально-экономических и политических процессов.
Цель анализа состоит в выявлении закономерностей вида классификации, кластеризации и формировании правил для разработки системы поддержки принятия решений, основанной на знаниях.
В данном курсовом проекте будет рассмотрена теория на тему «Технология обогащения данных» применяемая в интеллектуальном анализе данных. А также рассмотрен пример практического применения данной теории на примере. Будут выявлены различия между субъектами РФ по уровню расхода и дохода бюджетных средств.
Целью работы является теоретическое осмысление теории по теме, познание необходимости и сферы практического применения данной теории в классификации и анализе данных, их роли в кластерном анализе данных.
Для достижения поставленной цели в работе решались следующие основные задачи:
1.1 Обогащение данных
В большинстве случаев хранилища данных создаются и поддерживаются для обеспечения эффективного анализа данных на предприятии.
Очевидно, что данные, собираемые для задач анализа, должны быть полными и достоверными, поскольку на основе неполных или недостоверных данных нельзя сделать правильные выводы о состоянии бизнеса и путях его совершенствования.
...
1.2 Данные и информация
Помимо достоверности и полноты данных, существует еще один фактор, непосредственно влияющий на эффективность их анализа, — информационная насыщенность. Вообще говоря, данные и информация не совсем одно и то же. Каждый сталкивался с ситуацией, когда, несмотря на наличие данных, извлечь из них какую-либо информацию оказывалось невозможно. Например, если вывести на экран компьютера текст с неправильной кодировкой шрифта, мы увидим вместо букв непонятные закорючки, фигурки, спецсимволы и т.д. Данные есть — информации нет. То же самое произойдет, если вы попытаетесь читать текст на иностранном языке, которого не знаете и символы которого вам неизвестны, например, на китайском. При этом мы понимаем, что информация есть, но мы не можем ее распознать и осмыслить.
...
2.2 Анализ методом главных компонент
Метод главных компонент (ГК) осуществляет переход к новой системе координат в исходном пространстве признаков, являющейся системой ортонормированных линейных комбинаций. Метод ГК заключается в нахождении набора из p ортогональных векторов в n-мерном исходном пространстве данных; поскольку при этом p< Первый ГК соответствует наибольшему собственному числу и рассчитывается как линейная комбинация исходных признаков, обладающая наибольшей дисперсией. Таким образом, первый ГК берется вдоль направления с максимальной дисперсией. Второй ГК лежит в подпространстве, перпендикулярном тому, где находится первый ГК. В пределах этого подпространства второй ГК берется вдоль направления с максимальной дисперсией. Затем третий ГК находится в направлении наибольшей дисперсии в подпространстве, перпендикулярном первым двум и т.д. ... Таблица 1 - Исходная сводка метода ГК ... Таблица 2 - Веса признаков в главных компонентах ... Таблица 3 - Характеристика классов относительно компонент ... Таблица 4 - Характеристика классов относительно признаков ... 2.3 Кластерный анализ Кластерный анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации Введем исходные данные в электронную таблицу STATGRAPHICS (20x8). Для более детального анализа проделаем ряд операций. Получим дендрограмму методом Варда для трех кластеров (классов) ... Таблица 5 - Сводка кластерного анализа ... Таблица 6 - Подробный отчет о критериях ... Таблица 7 - Принадлежность объектов к кластерам ... 2.4 Кластерный анализ с применением карт Кохонена Для решения задачи кластеризации используется метод самоорганизующихся карт Кохонена с реализацией на основе нейросетевого пакета SOMap analyzer 1.0. Самоорганизующиеся карты Кохонена представляют собой прямонаправленные нейронные сети, которые используют алгоритм обучения без учителя, и с помощью процесса самоорганизации формируют выходные ячейки в топологическую карту, имеющую двухмерную структуру. ... Таблица 8 - Характеристика кластеров по признакам ... ЗАКЛЮЧЕНИЕ С целью формирования примера по теме «Технологии обогащения данных» в рамках курсовой работы выполнено формирование знаний с помощью технологий интеллектуального анализа данных путем применения: метода главных компонент, кластерного анализа, метода построения деревьев решений и нейросетевых методов построения карт Кохонена. По результатам применения метода главных компонент выделено три кластера и определены наиболее характерные признаки кластеров и их состав. Получены следующие правила: ...