Вход

Технологии обогащения данных

Рекомендуемая категория для самостоятельной подготовки:
Курсовая работа*
Код 296267
Дата создания 2016
Страниц 31 ( 14 шрифт, полуторный интервал )
Источников 6
Изображений 12
Файлы
DOCX
Технологии обогащения данных.docx[Word, 345 кб]
Без ожидания: файлы доступны для скачивания сразу после оплаты.
Ручная проверка: файлы открываются и полностью соответствуют описанию.
Документ оформлен в соответствии с требованиями ГОСТ.
690руб.
КУПИТЬ

Образцы страниц
развернуть (31)

Технологии обогащения данных Образец 121919
Технологии обогащения данных Образец 121920
Технологии обогащения данных Образец 121921
Технологии обогащения данных Образец 121922
Технологии обогащения данных Образец 121923
Технологии обогащения данных Образец 121924
Технологии обогащения данных Образец 121925
Технологии обогащения данных Образец 121926
Технологии обогащения данных Образец 121927
Технологии обогащения данных Образец 121928
Технологии обогащения данных Образец 121929
Технологии обогащения данных Образец 121930
Технологии обогащения данных Образец 121931
Технологии обогащения данных Образец 121932
Технологии обогащения данных Образец 121933
Технологии обогащения данных Образец 121934
Технологии обогащения данных Образец 121935
Технологии обогащения данных Образец 121936
Технологии обогащения данных Образец 121937
Технологии обогащения данных Образец 121938
Технологии обогащения данных Образец 121939
Технологии обогащения данных Образец 121940
Технологии обогащения данных Образец 121941
Технологии обогащения данных Образец 121942
Технологии обогащения данных Образец 121943
Технологии обогащения данных Образец 121944
Технологии обогащения данных Образец 121945
Технологии обогащения данных Образец 121946
Технологии обогащения данных Образец 121947
Технологии обогащения данных Образец 121948
Технологии обогащения данных Образец 121949

Содержание

ВВЕДЕНИЕ ... 3
1 Технологии обогащения данных ... 4
1.1 Обогащение данных ... 4
1.2 Данные и информация ... 4
1.3 Необходимость обогащения данных ... 7
1.4 Основные определения ... 8
2 Различия между субъектами РФ по уровню расхода и дохода бюджетных средств ... 12
2.1 Исходные данные ... 12
2.2Анализ методом главных компонент ... 12
2.3 Кластерный анализ ... 20
2.4 Кластерный анализ с применением карт Кохонена ... 24
ЗАКЛЮЧЕНИЕ ... 30
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ... 31

Введение

Интеллектуальный анализ данных, или Data Mining, – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Выделяют пять стандартных типов закономерностей (задач), которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация, прогнозирование.

Системный подход реализуется в методологии системного анализа, который является одним из эффективных инструментов исследования социально-экономических и политических процессов.

Цель анализа состоит в выявлении закономерностей вида классификации, кластеризации и формировании правил для разработки системы поддержки принятия решений, основанной на знаниях.

В данном курсовом проекте будет рассмотрена теория на тему «Технология обогащения данных» применяемая в интеллектуальном анализе данных. А также рассмотрен пример практического применения данной теории на примере. Будут выявлены различия между субъектами РФ по уровню расхода и дохода бюджетных средств.

Целью работы является теоретическое осмысление теории по теме, познание необходимости и сферы практического применения данной теории в классификации и анализе данных, их роли в кластерном анализе данных.

Для достижения поставленной цели в работе решались следующие основные задачи:

  • изучить теоретические сведения по теме;
  • рассмотреть применение теории на конкретном примере.

Фрагмент работы для ознакомления

1.1 Обогащение данных

В большинстве случаев хранилища данных создаются и поддерживаются для обеспечения эффективного анализа данных на предприятии.

Очевидно, что данные, собираемые для задач анализа, должны быть полными и достоверными, поскольку на основе неполных или недостоверных данных нельзя сделать правильные выводы о состоянии бизнеса и путях его совершенствования.

...

1.2 Данные и информация

Помимо достоверности и полноты данных, существует еще один фактор, непосредственно влияющий на эффективность их анализа, — информационная насыщенность. Вообще говоря, данные и информация не совсем одно и то же. Каждый сталкивался с ситуацией, когда, несмотря на наличие данных, извлечь из них какую-либо информацию оказывалось невозможно. Например, если вывести на экран компьютера текст с неправильной кодировкой шрифта, мы увидим вместо букв непонятные закорючки, фигурки, спецсимволы и т.д. Данные есть — информации нет. То же самое произойдет, если вы попытаетесь читать текст на иностранном языке, которого не знаете и символы которого вам неизвестны, например, на китайском. При этом мы понимаем, что информация есть, но мы не можем ее распознать и осмыслить.

...

2.2 Анализ методом главных компонент

Метод главных компонент (ГК) осуществляет переход к новой системе координат в исходном пространстве признаков, являющейся системой ортонормированных линейных комбинаций. Метод ГК заключается в нахождении набора из p ортогональных векторов в n-мерном исходном пространстве данных; поскольку при этом p<

Первый ГК соответствует наибольшему собственному числу и рассчитывается как линейная комбинация исходных признаков, обладающая наибольшей дисперсией. Таким образом, первый ГК берется вдоль направления с максимальной дисперсией. Второй ГК лежит в подпространстве, перпендикулярном тому, где находится первый ГК. В пределах этого подпространства второй ГК берется вдоль направления с максимальной дисперсией. Затем третий ГК находится в направлении наибольшей дисперсии в подпространстве, перпендикулярном первым двум и т.д.

...

Таблица 1 - Исходная сводка метода ГК

...

Таблица 2 - Веса признаков в главных компонентах

...

Таблица 3 - Характеристика классов относительно компонент

...

Таблица 4 - Характеристика классов относительно признаков

...

2.3 Кластерный анализ

Кластерный анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации

Введем исходные данные в электронную таблицу STATGRAPHICS (20x8). Для более детального анализа проделаем ряд операций. Получим дендрограмму методом Варда для трех кластеров (классов)

...

Таблица 5 - Сводка кластерного анализа

...

Таблица 6 - Подробный отчет о критериях

...

Таблица 7 - Принадлежность объектов к кластерам

...

2.4 Кластерный анализ с применением карт Кохонена

Для решения задачи кластеризации используется метод самоорганизующихся карт Кохонена с реализацией на основе нейросетевого пакета SOMap analyzer 1.0.

Самоорганизующиеся карты Кохонена представляют собой прямонаправленные нейронные сети, которые используют алгоритм обучения без учителя, и с помощью процесса самоорганизации формируют выходные ячейки в топологическую карту, имеющую двухмерную структуру.

...

Таблица 8 - Характеристика кластеров по признакам

...

ЗАКЛЮЧЕНИЕ

С целью формирования примера по теме «Технологии обогащения данных» в рамках курсовой работы выполнено формирование знаний с помощью технологий интеллектуального анализа данных путем применения: метода главных компонент, кластерного анализа, метода построения деревьев решений и нейросетевых методов построения карт Кохонена.

По результатам применения метода главных компонент выделено три кластера и определены наиболее характерные признаки кластеров и их состав. Получены следующие правила:

...

Список литературы [ всего 6]

  1. Назаров М.Г. Курс социально– экономической статистики: Учебник для вузов. – М.: ЮНИТИ-ДАНА, 2000. – 109 с.
  2. Дубров A.M., Мхитарян B.C., Трошин Л. И. Многомерные статистические методы: Учебник. – М.: Финансы и статистика, 1998.
  3. Федин Ф.О., Федин Ф. Ф. Анализ данных. Часть 2: Инструменты Data Mining: Учебное пособие. – М.: МГПУ, 2012. – 37, 38 с.
  4. ...
Очень похожие работы
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00859
© Рефератбанк, 2002 - 2024