Вход

КЛАСТЕРНЫЙ АНАЛИЗ СОСТОЯНИЯ ИНФОРМАЦИОННОГО ПОТЕНЦИАЛА РЕГИОНОВ ЮФО С ПРИМЕНЕНИЕМ OLAP-ТЕХНОЛОГИЙ

Рекомендуемая категория для самостоятельной подготовки:
Дипломная работа*
Код 381631
Дата создания 2017
Страниц 111
Мы сможем обработать ваш заказ (!) 1 ноября в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
3 880руб.
КУПИТЬ

Описание

Современные условия глобализации формируются под существенным влияние информационных инструментов, которые, формируясь на уровне хозяйствующих субъектов, оказывают значительное влияние на социально-экономическое развитие страны в целом. При этом эффективность управления любой хозяйственной системой напрямую зависит от рациональности использования информационных ресурсов. В связи с этим оперативность в получении информации, ее полнота и актуальность повышают эффективность принятия управленческих решений.
Кроме того, определенное значение имеет открытость экономики России и связанная с ней конкуренция с высокоразвитыми экономическими субъектами, в которых высокий уровень развития рыночной экономики достигается, в том числе, посредством реализации сложной аналитической работы с использование ...

Содержание


ВВЕДЕНИЕ 4
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ ИССЛЕДОВАНИЯ ИНФОРМАЦИОННОГО ПОТЕНЦИАЛА В РЕГИОНАЛЬНОЙ ХОЗЯЙСТВЕННОЙ СИСТЕМЕ 9
1.1. Информационный потенциал хозяйственных систем, его сущность и структура 9
1.2. Существующие подходы к оценке информационного потенциала региональной хозяйственной системы 21
1.3. Построение концептуальной модели структуры показателей для оценки информационного потенциала региональной хозяйственной системы 32
1.4. Состояние и развитие процессов информатизации в федеральных округах России 41
ГЛАВА 2. МЕТОДОЛОГИЯ И ИНФОРМАЦИОННЫЕ СРЕДСТВА АНАЛИЗА ДАННЫХ С ИСПОЛЬЗОВАНИЕМ OLAP-ТЕХНОЛОГИЙ 51
2.1. Сущность и применение OLAP-технологий 51
2.2. Методы исследования с помощью OLAP-технологий 63
2.3. Этапы разработки хранилищ данных 72
2.4. Программные средства проектированияи разработки хранилищ данных 80
ГЛАВА 3. ПРОЕКТИРОВАНИЕ ХРАНИЛИЩА ДАННЫХ И КЛАСТЕРИЗАЦИЯ ПОКАЗАТЕЛЕЙ ИНФОРМАЦИОННОГО ПОТЕНЦИАЛА РЕГИОНАЛЬНОЙ ХОЗЯЙСТВЕННОЙ СИСТЕМЫ В DEDUCTOR ACADEMIC 92
3.1. Проектирование структуры хранилища данных «Показатели информационного потенциала региональной хозяйственной системы России» 92
3.2. Кластерный анализ показателей информационного потенциала региональных хозяйственных систем РФ в DeductorAcademic 99
ЗАКЛЮЧЕНИЕ 108
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ 111


Введение

Актуальность темы исследования.Для реализации государственной политики в области социально-экономического развития субъектов Российской Федерации определяется необходимость аккумулирования, обработки и хранения внушительных объемов информации из различных источников данных. При этом эффективным инструментом автоматизации процессов сбора и обработки обширных и многогранных данных о социально-экономических процессах, происходящих в регионах, является современные программные средства, которые позволяют реализовать мониторинг, анализ и прогнозирование социально-экономического развития субъектов Российской Федерации.
Вместе с тем, оптимизация и совершенствование любого явления или процесса невозможно без актуального, полного анализа их состояния. Данный факт определяет целесообразность формиро вания системы показателей, на основании которой представляется возможным выполнить кластерный анализ федеральных округов (далее - ФО) России по уровню информационного потенциала.
В современных условиях социально-экономический потенциал ФО определяется, в большей степени, его информационным развитием. Состояние и перспективы информатизации обусловливаются постепенной переориентацией правительства, местных органов власти и предпринимателей на ценности информационного общества.
Информационный капитал, оказывая определяющее воздействие на скорость и направленность трансформационных процессов, формирует динамический, стремительно меняющийся облик социально-экономической среды региона, что обусловливает исключительную важность его эффективного использования.
Внедрение средств интеллектуального анализа позволяет отказаться от обработки поступающей информации в ручном режиме, снизить возможность ошибок и влияния «человеческого фактора» при обработке данных и подготовке аналитических справок.
Потребность в повышении качества такого анализа определяет необходимость использования эффективных методов и средств, которыми на современном этапе являются технологии, позволяющие реализовать многомерный анализ.В числе таких информационных технологий следует выделить программное средство DeductorAcademic, который позволит спроектировать и разработать хранилище данных, а также провести кластерный анализ показателей информационного потенциала на примере ФО России. Высокий уровень динамики развития информационных процессов и явлений определяет данное направление как исключительно актуальное, требующее формирования теоретико-методологической базы с последующей реализацией в практической деятельности.
Целью выпускной квалификационной работы является проведение кластерного анализа показателей информационного потенциала ФО Россиив DeductorAcademic.
Для достижения данной цели необходимо выполнить следующие задачи:
исследовать сущность и структуру информационного потенциала хозяйственных систем;
провести сравнительный анализ существующих подходов оценки информационного потенциала региона;
разработать концептуальную модель структуры показателей для оценки информационного потенциала региона России;
проанализировать текущее состояние и развитие процессов информатизации в регионах России;
изучить технологическое и программное обеспечение средств проектирования и разработки хранилищ данных;
спроектировать структуру хранилища данных «Показатели информационного потенциала ФО России»;
провести кластерный анализ показателей информационного потенциала ФО РоссиивDeductorAcademic;
интерпретировать результаты кластерного анализа состояния информационного потенциала ФО России.
Объектом исследования выпускной квалификационной работы является информационный потенциал ФО России.
Предметом исследованияданной работы являются социально-экономические процессы и явления, возникающие в процессе проектирования хранилища данных для проведения кластерного анализа информационного потенциала ФО России.
Теоретико-методологической основой исследования для написания выпускной квалификационной работы стали труды российских и зарубежных авторов, таких как:Бабичева Л.Г., Громова Г.Р.,Дейнека О.С.,Дубровский Е.Н.,Еркина А.В., Ершов Ю.В.,Иншакова О.В., Калинникова И.О., Казарина С.В., Колина К.К., Корсукова С.А.,ЛайчукО.В. и Николаевой Л.А., Мартинович Е.Г., Петровой Е.А., Чернышовой И.Г., Шиляева А.А., Эрроу К.идр., которые в своих трудах исследовали теоретические и прикладные основы анализа сущности информационного потенциала и информатизации регионов.
В работе были изучены труды отечественных и зарубежных авторов, в которых рассматриваются аспекты проектирования хранилищ данных, раскрываются их сущность и назначение, а также использование для обработки многомерных данных,Барсегян А.А., Бершадского А.М., Евсюкова А.А.,Золотарева С.В.,Инмона Б., ИшенинаП.П., Кудрявцева Ю.П., Куприянова М.С., Кимбалла Р., Орешкова В.И., Паклина Н.Б., Полубоярова В.В., СахароваA.A., Степаненко В.В.,СпирлиЭ.,Третьяковой Ю.Н., Инмона Б. и др..
Методы и средства автоматизации. Для достижения поставленной цели исследования были использованы следующие методы:
методы научного обобщения, сравнения, системного анализа;
методы абстракции, индукции и дедукции, анализа и синтеза;
методы сравнительного анализа;
экономико-математические и статистические методы.
В работе используются следующие инструментальные средства: DeductorStudioAcademic.
Информационную базуисследования составили постановления правительства РФ, статистические материалы Федеральной службыгосударственной статистики РФ, в том числе по регионам России, аналитические материалы по ФО России, статистические сборники социально-экономических показателей за 2010-2015 года, данные периодической печати.
Практическая значимость выпускной квалификационной работы состоит в возможности использования теоретических выводов и практических рекомендаций при разработке региональных целевых программ социально-экономического развития и программ информатизации.
Структура работы. Выпускная квалификационная работа состоит из введения, трех глав, заключения, списка использованной литературы.
Во введении определены актуальность выбранной темы, цель, задачи, объект и предмет исследования, средства, методы и структура выпускной квалификационной работы.
Первая глава содержит теоретические аспекты исследования экономического содержания и структурыинформационного потенциала хозяйственных систем, сравнительный анализ существующих подходов оценки информационного потенциала региона, на основании которых была разработанаконцептуальная модель структуры показателей для оценки информационного потенциала региона, анализ текущего состояния и развития процессов информатизации в регионах.
Во второй главе работы описано технологическое и программное обеспечение проектирования и создания хранилищ данных, описание методов анализа данных.
В третьей главе содержится подробное описание процесса проектирования структуры хранилища данных«Показатели информационного потенциала ФО России». Также содержится процесс проведения кластерного анализа показателей информационного потенциала ФО Россиив DeductorAcademic и интерпретация полученных результатов.
В заключении представлены выводы теоретического, методического и практического характера, основанные на результатах исследования.

Фрагмент работы для ознакомления

В качестве основных функций централизованного хранилища данных следует выделить:полный и своевременный сбор и обработку информации от источников данных;надежное и защищенное хранение данных;предоставление данных для аналитических работ.Централизованное хранилище данных, как правило, содержит такой объем информации, что ее полное раскрытие может привести к серьезным последствиям. В этом случае ЦХД требует создания вокруг себя надежного периметра информационной безопасности. Структуры данных в хранилище должны быть оптимизированы под требования долговременного, надежного и защищенного хранения. В этом случае целесообразно использование схемы ELT, которое означает, что ЦХД должно осуществлять и трансформацию данных.Предоставление данных для аналитических работ требует реорганизации структур данных под каждую специфическую задачу. Многомерному анализу необходимы кубы данных; статистический анализ, как правило, работает с рядами данных; сценарный анализ и моделирование могут использовать файлы MS Excel. Основной задачей хранилища является предоставление данных для анализа в простой и понятной форме. Хранилище не обязательно должно содержать огромное количество данных. Основное требование к хранилищу — оно должно быть удобно для анализа, поэтому данные в нем упорядочены.Для эффективной работы аналитику требуется централизация всех данных и соответствующее структурирование информации, а также удобные инструменты для просмотра и визуализации информации. Традиционные отчеты, построенные на основе единого хранилища, лишены гибкости. С ними нельзя работать в интерактивном режиме, т.е. их нельзя свернуть, развернуть, покрутить, чтобы получить необходимое представление данных.OLAP организует данные в виде многомерных кубов (cubes). Многомерный куб представить себе невозможно, но куб — знакомая всем фигура, как и трехмерное пространство. Поэтому целесообразно говорить о кубе, как о пространстве, но не о трехмерном, а о многомерном или о гиперкубе и гиперпространстве. Получаемая при этом модель данных является естественной и интуитивно понятной. В качестве осей многомерной системы координат выступают основные атрибуты анализируемого процесса.Аналитик при анализе показателей деятельности оперирует многомерными представлениями. Он рассматривает систему показателей в зависимости от влияния конкретных факторов. Исходя из этого, определенный признак можно представить в виде трехмерного куба (см. рис. 9), грани которого изображают массивы данных по факторам, а внутри куба находятся значения исследуемого признака.Такое представление данных обеспечивает мощный механизм для анализа и создания любых запросов. Выбирая конкретный временной период, товар и регион, можно получить соответствующий показатель объема продаж. Однако надо заметить, что не все ячейки куба могут быть заполнены. Например, если нет информации о продажах Товара 2 по Региону 3 в III квартале, значение в соответствующей ячейке просто не будет определено.Трехмерный куб для многомерного анализа данных продаж(Полубояров, В. В. Использование MS SQL Server Analysis Services 2008 для построения хранилищ данных / В. В. Полубояров. — М.: Интуит, 2010. С. 8)Многомерный анализ определяется как одновременный анализ по нескольким измерениям. По каждому измерению производится консолидация данных. Любое направление консолидации включает серию последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению.Для извлечения информации из кубов данных используются различные операции манипулирования измерениями:Операция «Вращение». Изменение порядка представления (визуализации) измерений называется Вращением (Rotate). Эта операция обеспечивает возможность визуализации данных в форме, наиболее комфортной для их восприятия.Отношения и иерархические отношения. Измерений может быть гораздо больше, и между их значениями обычно существует множество различных Отношений (Relation). В свою очередь, множество Отношений может иметь иерархическую структуру — Иерархические отношения.Операция Детализации (DrillDown) - переход от более агрегированных к более детализированным данным называется операцией. Формирование «Среза». Пользователя редко интересуют все потенциально возможные комбинации значений измерений. Более того, он практически никогда не работает одновременно сразу со всем кубом данных. Подмножество куба, получившееся в результате фиксации значения одного или более измерений, называется Срезом (Slice), а сама операция называется «разрезанием» куба. Аналитик как бы берет и «разрезает» измерения куба по интересующим его меткам. Этим способом аналитик получает двумерный срез куба (отчет) и с ним работает. Структура отчета представлена на рисунке 11.Структура аналитического отчета(Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям: Учеб. пособие. 2-е изд., испр. - СПб.: Питер, 2013. С. 78)OLAP-отчет — управляемая динамическая OLAP-таблица, которая сопровождается синхронной диаграммой (графиком).Измерения отображаются в названиях строк и столбцов таблицы, соответствующие им факты и итога (агрегированные факты) — в ячейках таблицы. Колонки и строки являются инструментами управления таблицей. Пользователь может перемещать их, фильтровать, сортировать, детализировать/обобщать и выполнять другие OLAP-операции. При этом таблица автоматически вычисляет новые итоги (агрегаты). Управляя OLAP-таблицей, можно из одного набора данных сформировать множество отчетов.Кроме того, основу многомерного анализа на основе OLAP-технологий составляют таблицы фактов и таблицы измерений.Таблица фактов — является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или событиях, совокупность которых будет в дальнейшем анализироваться. Обычно говорят о четырех наиболее часто встречающихся типах фактов. К ним относятся:факты, связанные с транзакциями (Transaction facts). Они основаны на отдельных событиях (типичными примерами которых являются телефонный звонок или снятие денег со счета с помощью банкомата);факты, связанные с «моментальными снимками» (Snapshot facts). Основаны на состоянии объекта (например, банковского счета) в определенные моменты времени, например на конец дня или месяца. Типичными примерами таких фактов являются объем продаж за день или дневная выручка;факты, связанные с элементами документа (Line-item facts). Основаны на том или ином документе (например, счете за товар или услуги) и содержат подробную информацию об элементах этого документа (например, количестве, цене, проценте скидки);факты, связанные с событиями или состоянием объекта (Event or state facts). Представляют возникновение события без подробностей о нем (например, просто факт продажи или факт отсутствия таковой без иных подробностей).Таблица фактов, как правило, содержит уникальный составной ключ, объединяющий первичные ключи таблиц измерений. Чаще всего это целочисленные значения либо значения типа «дата/время» — ведь таблица фактов может содержать сотни тысяч или даже миллионы записей, и хранить в ней повторяющиеся текстовые описания, как правило, невыгодно — лучше поместить их в меньшие по объему таблицы измерений. При этом как ключевые, так и некоторые неключевые поля должны соответствовать будущим измерениям OLAP-куба. Помимо этого таблица фактов содержит одно или несколько числовых полей, на основании которых в дальнейшем будут получены агрегатные данные.Таблицы измерений содержат неизменяемые либо редко изменяемые данные. В подавляющем большинстве случаев эти данные представляют собой по одной записи для каждого члена нижнего уровня иерархии в измерении. Таблицы измерений также содержат как минимум одно описательное поле (обычно с именем члена измерения) и, как правило, целочисленное ключевое поле (обычно это суррогатный ключ) для однозначной идентификации члена измерения. Если будущее измерение, основанное на данной таблице измерений, содержит иерархию, то таблица измерений также может содержать поля, указывающие на «родителя» данного члена в этой иерархии. Нередко (но не всегда) таблица измерений может содержать и поля, указывающие на «прародителей», и иных «предков» в данной иерархии (это обычно характерно для сбалансированных иерархий), а также дополнительные атрибуты членов измерений, содержавшиеся в исходной оперативной базе данных (например, адреса и телефоны клиентов). Каждая таблица измерений должна находиться в отношении «один ко многим» с таблицей фактов. Отметим, что скорость роста таблиц измерений должна быть незначительной по сравнению со скоростью роста таблицы фактов; например, добавление новой записи в таблицу измерений, характеризующую товары, производится только при появлении нового товара, не продававшегося ранее.Обобщая все вышесказанное, авторы различных исследований выделяют 12 признаков OLAP-данных:многомерная концепция. OLAP оперирует данными, которые являются многомерными массивами. Число измерений OLAP-кубов не ограничено;прозрачность. Использование в OLAP-системах на открытые технологии, поддерживающие гетерогенные источники данных;доступность. Возможность представления пользователю единой логической схемы данных;постоянная скорость выполнения запросов. Сохранение производительности при росте числа измерений;архитектура клиент/сервер. Системы базируются на открытых интерфейсах и имеют модульную структуру;различное число измерений. Отсутствие ограничений на трехмерном измерении, эквивалентность систем при применении любых функций;динамическое представление разреженных матриц. Не каждая ячейка системы содержит данные;многопользовательский режим;неограниченные многомерные операции, которые не должны накладывать ограничения на отношения между ячейками;интуитивно понятный инструментарий манипулирования данными;гибкость настроек конечных отчётов;отсутствие ограничений на количество измерений и уровней агрегации данных. Таким образом, средства OLAP являются такими инструментами, которые способны обеспечить оперативность и гибкость в получении различных отчетов, существенно расширяя возможности участников процесса подготовки и принятия решений.Методы исследования с помощью OLAP-технологийПосле настройки OLAP-системы на данные в определенной предметной области пользователь имеет возможность работать с интерактивной OLAP-таблицей, быстро получать ответы на ключевые вопросы путем простых манипуляций мышью над OLAP-таблицей. При этом будут доступны некоторые стандартные методы анализа, вытекающие из природы OLAP-технологии.Факторный (структурный) анализ. Например, анализ структуры продаж для выявления важнейших составляющих в интересующем пользователя разрезе. Для этого вида анализа удобно использовать столбчатую или круговую диаграмму.Анализ динамики. Выявление тенденций, сезонных колебаний. Наглядно динамику отображает график типа «Линия».Анализ зависимостей. Сравнение объемов продаж разных товаров во времени для выявления необходимого ассортимента — «корзины». Для этого также удобно использовать график типа «Линия».Сопоставление (сравнительный анализ). Сравнение результатов продаж во времени, или за заданный период, или для заданной группы товаров. В зависимости от количества анализируемых факторов (от 1 до 3) используется диаграмма типа «Пирог» или «Столбцы». Например, сравнение результатов продаж однотипных магазинов для оценки качества работы менеджеров.Для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей используется технология Data Mining, которая представляет собой процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.Основная особенность Data Mining - это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий. В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализ данных. К методам и алгоритмам Data Mining относятся следующие: искусственные нейронные сети;деревья решений;символьные правила;методы ближайшего соседа и k-ближайшего соседа;линейная регрессия;корреляционно-регрессионный анализ; иерархические и неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы; методы поиска ассоциативных правил, в том числе алгоритм Apriori; Большинство аналитических методов, используемые в технологии Data Mining - это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении тех или иных конкретных проблем, обусловленная появившимися возможностями технических и программных средств.Все методы Data Mining подразделяются на две большие группы по принципу работы с исходными обучающими данными. В этой классификации верхний уровень определяется на основании того, сохраняются ли данные после Data Mining либо они дистиллируются для последующего использования. Непосредственное использование данных, или сохранение данных. В этом случае исходные данные хранятся в явном детализированном виде и непосредственно используются на стадиях прогностического моделирования и/или анализа исключений. Проблема этой группы методов заключается в том, что при их использовании могут возникнуть сложности анализа сверхбольших баз данных. В качестве основных методов данной группы следует выделить: кластерный анализ;метод ближайшего соседа;метод k-ближайшего соседа;рассуждение по аналогии. Выявление и использование формализованных закономерностей, или дистилляция шаблонов. При технологии дистилляции шаблонов один образец (шаблон) информации извлекается из исходных данных и преобразуется в некие формальные конструкции, вид которых зависит от используемого метода Data Mining. Этот процесс выполняется на стадии свободного поиска, у первой же группы методов данная стадия в принципе отсутствует. На стадиях прогностического моделирования и анализа исключений используются результаты стадии свободного поиска, они значительно компактнее самих баз данных. Конструкции этих моделей могут быть трактуемыми аналитиком либо нетрактуемыми ("черными ящиками"). К методам данной группы относятся:логические методы: нечеткие запросы и анализы, символьные правила, деревья решений, генетические алгоритмы. Методы данной группы являются наиболее интерпретируемыми - они оформляют найденные закономерности, в большинстве случаев, в достаточно прозрачном виде с точки зрения пользователя. Полученные правила могут включать непрерывные и дискретные переменные.методы визуализации; методы кросс-табуляции: агенты, баесовские (доверительные) сети, кросс-табличная визуализация; методы, основанные на уравнениях. Методы этой группы выражают выявленные закономерности в виде математических выражений - уравнений. Следовательно, они могут работать лишь с численными переменными, и переменные других типов должны быть закодированы соответствующим образом. Это несколько ограничивает применение методов данной группы, тем не менее они широко используются при решении различных задач, особенно задач прогнозирования. Основными методами данной группы являются статистические методы и нейронные сети Статистические методы наиболее часто применяются для решения задач прогнозирования. Существует множество методов статистического анализа данных, среди них, например, корреляционно-регрессионный анализ, корреляция рядов динамики, выявление тенденций динамических рядов, гармонический анализ. Различные методы Data Mining характеризуются определенными свойствами, которые могут быть определяющими при выборе метода анализа данных. Методы можно сравнивать между собой, оценивая характеристики их свойств. Среди основных свойств и характеристик методов Data Mining выделяют следующие: точность, масштабируемость, интерпретируемость, проверяемость, трудоемкость, гибкость, быстрота и популярность. На основе указанных свойств определяется целесообразность и эффективность использования представленных методов в каждом конкретном случае исследования.В рамках данного исследования более подробно рассмотрим кластерный анализ.В случае анализа больших объемов информации применение стандартных методов обработки либо недостаточно, либо они неэффективны. Поэтому, целесообразно использование методов кластерного анализа, которые имеют определённые достоинства и недостатки. Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ, в отличие от большинства математико-статистических методов, не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет рассматривать множество исходных данных практически произвольной природы. Несмотря на их популярность, кластерные методы все еще понимаются хуже, чем такие многомерные статистические процедуры, как факторный анализ, дискриминантный анализ и многомерное шкалирование.В качестве основных особенностей кластерного анализа следует выделить:Многие методы кластерного анализа – довольно простые процедуры, которые, как правило, не имеют достаточного статистического обоснования. Другими словами, большинство методов кластерного анализа являются эвристическими (подкреплёнными лишь опытом разработчиков). Они – не более чем правдоподобные алгоритмы, используемые для создания кластеров объектов. В этом резкое отличие, например, от методов факторного анализа, который хорошо обоснован статистически. Методы кластерного анализа разрабатывались для многих научных дисциплин, а потому несут на себе отпечатки специфики этих дисциплин. Это важно отметить, потому что каждая дисциплина предъявляет свои требования к отбору данных, к форме их представления, к предполагаемой структуре классификации. Кластерные методы не более чем правила для создания групп, поэтому пользователь должен знать те особенности, которые часто сопровождают обсуждение и описание методов кластеризации. Разные кластерные методы порождают различные решения для одних и тех же данных. Одной из причин неодинаковых решений является то, что кластерные методы получены из разных источников, которые предопределяли использование различных правил формирования групп. Данная ситуация вносит в работу c кластерным анализом путаницу не только для начинающих, но и для опытных пользователей. Кроме того, желательно имeть специальную методику, позволяющую проверить, насколько «ecтecтвeнны» гpуппы, выдeлeнныe мeтoдoм клаcтepизации в набope данных.Основной целью клаcтepнoгo анализа является поиск существующих структур. В то же время, его действие состоит в привнесении структуры в анализируемые данные, т.е. методы клаcтepизации необходимы для обнаружения структуры в данных, которую нелегко найти при визуальном обследовании или c помощью экспертов. Эта ситуация отличается от ситуации дискриминантного анализа, который более точно определяется как процедура идентификации – она приписывает объекты к уже существующим группам, а не созидает новые гpуппы. Хотя цель клаcтepизации и заключается в нахождении структуры, на деле кластерный метод привносит структуру в данные и эта структура может не совпадать c искомой, «реальной» структурой. Кластерный метод всегда размещает объекты по группам, которые могут радикально различаться по составу, если применяются различные методы клаcтepизации. Ключом к использованию клаcтepнoгo анализа является умение отличать «реальные» группировки от навязанных мeтoдoм клаcтepизации данных.

Список литературы

1. Абашкин, В.Л. Кластерная политика в России: от теории к практике/ В.Л. Абашкин, А.Д. Бояров, Е.С. Куценко //Форсайт. - 2012. - №3. - С.17..
2. Абрамов,Р.Н. Сетевые структуры и формирование информационного общества // СОЦИС. — 2012. - № 3
3. Базы данных Oracle [Электронный ресурс]. — Режим доступа: http://www.oracle.com/technetwork/ru/database/express-edition/overview/index.html
4. Бершадский, А.М. Мониторинг социально-экономических систем с использованием многомерных баз данных (МБД) и технологии OLAP / А.М. Бершадский, Е.И. Косникова, В.В. Эпп // Спрос и предложение на рынке труда и рынке образовательных услуг в регионах России: сборник докладов VIII Всероссийской научно-практ. Интернет-конференции – Петрозаводск: Изд-во ПетрГУ, 2011. - Кн. I. –С.96-103.
5. Гранберг, А. Г. Основы региональной экономики: Учебник для вузов. — 3-е изд. М: ГУ ВШЭ, 2011.-495 с.
6. Горинов, М.Н - Экономический потенциал региона: социально-экономическая сущность и модель оценки. /Муфтахутдинова, Х.Р. // Вестник ИжГТУ. – 2007. – № 4. – С. 30-36.
7. Гутман, Г.В. Управление региональной экономикой. / Мироедов А.А., Федин С.В. М.: Финансы и статистика, 2011. - 176 с.
8. Дейнека, О.С. Атрибутивная картина наркотической зависимости в информационном обществе / О.С. Дейнека, Е.В. Боброва // Технологии информационного общества. Интернет и современное общество: тр. V Всерос. объединенной конф. - СПб.: Изд-во СПбГУ, 2002. - С. 27-30.
9. Евсюков, А.А. Средства оперативного геомоделирования в информационно-аналитических системах: автореферат диссертации кандидата технических наук: 05.13.11. – Красноярск: ИВМ СО РАН, 2007. – 123 с.
10. Емельянов, О.О. Концептуальная модель оценки эффективности инновационной деятельности // Фундаментальные исследования. – 2014.– С. 1604-1608
11. Еркин, А.В. Понятия «информация» и «информационная безопасность»: от индустриального общества к информационному / А.В. Еркин // Информационное общество. - 2012. - № 1. - С. 68-74.
12. Ершов, Ю.М. Информационный потенциал регионов/ Ю.М. Ершов // Электронный научный журнал факультета журналистики МГУ им. Ломоносова [Электронный ресурс]. - Москва: МГУ им. Ломоносова, 2008. - № 2. - 0420800082/0050. – Режим доступа: http://www.mediascope.ru/?q=node/221
13. Иншаков, О.В. «Ядро развития» в контексте новой теории факторов производства /О.В. Иншаков//Экономическая наука современной России. – 2003 . - №1. - С.11-25.
14. Индекс развития ИКТ (ICTDevelopmentIndex — IDI) [Электронный ресурс] - Режим доступа: http://www.itu.int/ITU-D/ict/publications/idi/
15. Индекс готовности к сетевому обществу (NetworkedReadinessIndex — NRI) [Электронный ресурс] - Режим доступа: http://reports.weforum.org/global-information-technology-2011/
16. Индекс экономики знаний (KnowledgeEconomyIndex — KEI) [Электронный ресурс] - Режим доступа:http://info.worldbank.org/etools/kam2/KAM_page5.aspСахаровA.A.
17. Интегрированные хранилища данных Teradata [Электронный ресурс]. - Режим доступа: http://www.teradata.com.ru/Russian/Teradata_Database/?LangType=1049&LangSelect=true
18. Ишенин, П.П. Инструментальные средства построения комплексов моделей и аналитических приложений в OLAP-технологии: автореферат диссертации кандидата технических наук: 05.13.11. – Красноярск: ИВМ СО РАН, 2011. – 24 с.
19. Исследовательскийцентр «The Economist Intelligence Unit». [Электронный ресурс] Режим доступа: http://www.eiu.com/home.aspx
20. Кайшева, Л.И. Кластерный механизм управления региональным развитием и налогообложение кластерных структур / Л. И. Кайшева, Р.А. Кулик, Н.Н. Волкова, М.И. Левкивский, Е.М. Козаченко, Т.В. Сахно.
21. Кадочников, А. А. Технологии и программное обеспечение информационно-аналитических систем на основе геоинформационного интернет-сервера: Дис....канд. техн. наук: 05.13.11. — Красноярск, 2006. - 173 с.
22. Казакова, Н. А. Методология статистического мониторинга и анализа инвестиционного развития региона: диссертация...доктора экономических наук: 08.00.12. — Москва, 2008.- 285 с.
23. Казарин, С.В. Совершенствование системы управления информатизацией региона: дис…канд. эконом.наук. — Самара, 2015. — 126 с.
24. Калинникова, И. О. Управление социально-экономическим потенциалом региона: Учебное пособие. — СПб.: Питер, 2009. — 240 с.
25. Концепции построения и реализации информационных систем, ориентированных на анализ данных. [Электронный ресурс] Режим доступа: http://www.olap.ru/basic/saharov.asp
26. «Концепция формирования и развития единого информационного пространства России и соответствующих государственных информационных ресурсов» [Электронный ресурс]. - Режим доступа: http://www.sbras.ru/win/laws/russ_kon.htm
27. Корсукова, С.А. Информационный потенциал как ресурс экономического развития России в современных условиях. – Электронный ресурс. - Режим доступа: http://www.dslib.net/ekonomsociologia/informacionnyj-potencial-kak-resursjekonomicheskogo-razvitija-rossii-v-sovremennyh
28. Костюк, В. Н. Информация как социальный и экономический ресурс /В. Н. Костюк, Ин-т «Открытое общество». – М.: Магистр, 1997 . – 48 с.
29. Ковалев, С.В. Методическая база оценки затрат на внедрение информационных технологий / С.В. Ковалев // Информационные технологии моделирования и управления. – 2012. – №1(60). – С. 87–95.
30. Кудрявцев, Ю.П. OLAP-технологии: обзор решаемых задач и исследований// Бизнес-информатика. – 2012. – № 1. – С. 66-80
31. Лайчук, О.В Интеллектуально-информационный потенциал: вопросы теории и практики: монография./ Николаева Л.А. – Иркутск: Изд-во БГУЭП, 2009. – 140 с.
32. Лебедев, В.В. Информационные технологии бизнес-аналитики. Система подготовки принятия решения Deductor. Учебно-методическое пособие. Кафедра информационных технологий в бизнесе. НИУ ВШЭ ПФ, 2011 г. С. 14
33. Мартинович, В.Г. Ключевые характеристики и приоритетные исследования информационного потенциала региона // Материалы III Международной научно-практической конференции. – [Электронный ресурс]. — Режим доступа: http://mns2013.3dn.ru/publ/sekcija_1/kljuchevye_kharakteristiki_i_prioritetnye_issledovanija_informacionnogo_potenciala_regiona/2-1-0-7
34. Мироедов, А.А. Информационное обеспечение механизмов управления регионом /А.А. Мироедов.-М.:Финансы и статистика, 2011.-128с.
35. Некрасов, В. OLAP-анализ посещаемости Web-сайта / PC Week/КБ. 2002. № 3
36. Обзор возможностей применения ведущих СУБД для построения хранилищ данных (DataWarehouse) [Электронный ресурс] Режим доступа: http://www.olap.ru/basic/dbms.asp
37. Паклин, Н.Б. Бизнес-аналитика: от данных к знаниям: Учеб.пособие. 2-е изд., испр. - СПб.: Питер, / Орешков В.И. 2013. С. 78.
38. Петрова, Е.А. Информационное развитие региональных хозяйственных систем: дис…доктора. эконом. наук: 08.00.05. — Волгоград, 2009. —398 с.
39. Петрова Е.А. Информационное развитие региональных хозяйственных систем: теория, методология и практика / Е.А. Петрова // Приоритеты России. - 2011. - № 31. – С. 16-21
40. Полубояров, В. В. Использование MS SQL ServerAnalysisServices 2008 для построения хранилищ данных / В. В. Полубояров. — М.: Интуит, 2010. — 487 с.
41. Пилясов, А. Н. Синергия пространства: региональные инновационные системы, кластеры и перетоки знания // Смоленск: Ойкумена. – 2012. – 490 с.
42. Приказ Минрегиона РФ от 27.02.2007 N 14 "Об утверждении Требований к стратегии социально-экономического развития субъекта Российской Федерации"
43. Постановление Правительства РФ от 15.04.2014 N 313 (ред. от 21.10.2016) "Об утверждении государственной программы Российской Федерации "Информационное общество (2011 - 2020 годы)"
44. Программные решения компании IBM [Электронный ресурс] Режим доступа: http://www-03.ibm.com/software/products/ru/retail
45. Рейтинг развития электронного правительства (E-governmentdevelopmentrank) [Электронный ресурс] – Режим доступа: http://www.unpan.org/
46. Сахаров,A.A. Концепции построения и реализации информационных систем, ориентированных на анализ данных. [Электронный ресурс]. — Режим доступа: http://www.olap.ru/basic/saharov.asp
47. Стратегия Microsoft в области создания хранилищ данных: платформа для совершенствования процессов принятия решений за счет облегчения доступа и анализа данных [Электронный ресурс] Режим доступа: http://www.olap.ru/desc/microsoft/SQL7_dwa.asp
48. Технология анализа данных. DataMining, VisualMining, TextMining, OLAP/ А. А. Барсегян, M. С. Куприянов, В. В. Степаненко, И. И. Холод. СПб.: БХВ-Петербург, 2007. - 59 с.
49. Третьякова, Ю.Н. О практических аспектах OLAP – технологии // Актуальные проблемы прикладной математики, информатики и механики. /Золотарев С.В. Материалы Международной научно - технической конференции, 2015. - 271 – 272с.
50. Федеральный закон от 27.07.2006 N 149-ФЗ (ред. от 06.07.2016) "Об информации, информационных технологиях и о защите информации"
51. Федин, Ф. О. Анализ данных. Часть 2: Инструменты DataMining: учебное пособие. / Федин Ф. Ф.- М.: MillУ, 2012. - 308 с.
52. Финансово-кредитный энциклопедический словарь / Коллектив авторов; Под общей редакцией А.Г. Грязновой. - М.: Финансы и статистика, 2010. - 327с.
53. Цильковский, И.А. Методы анализа знаний и данных: конспект лекций / И. А. Цильковский, В.М. Волкова. - Новосибирск: Изд-во НГТУ, 2012. - 48 с.
54. Чернышова И. Г. Методика оценки организационно-информационного потенциала предприятия // Вестник Брянского государственного технического университета. – 2012. - 166-17 с..
55. Чугунов, А. В. Социальная информатика: Учебное пособие. – СПб.: НИУ ИТМО. 2012. – 223 с.
56. Чубукова, И.А. DataMining [Электронный ресурс] - Электрон.текстовые данные.— М.: Интернет-Университет Информационных Технологий (ИНТУИТ), / Чубукова И.А.. 2016.— 470 c
57. Шиляев, А.А. Эффективность инвестиций в информационные технологии: подходы к измерению и оценке / А.А. Шиляев // Бизнес-образование. - 2003. - № 2 (15). - С. 155-172.
58. Hakansson, N. and Arrow, K. (1972). Essays in the Theory of Risk-Bearing.TheJournalofFinance, 27(5), p.1193
59. Inmon, W. and Krishnan, K. (2011). Building the unstructured data warehouse. 1st ed. BradleyBeach, NJ: TechnicsPublications.
60. Kimball, R. and Ross, M. (2013). The data warehouse toolkit. 1st ed. Hoboken: Wiley.
61. Polyanalyst [Электронный ресурс]. — Режим доступа: http://www.megaputer.com/
62. SASEnterpriseMiner [Электронный ресурс]. — Режим доступа: http://www.sas.com/
63. SPSS [Электронный ресурс]. — Режим доступа: http://www.spss.com/clementine/
64. StatisticaDataMiner [Электронный ресурс]. — Режим доступа: http://www.StatSoft.com/
65. Weka [Электронный ресурс]. — Режим доступа:http://www.cs.waikato.ac.nz/ml/weka/index.html
66. WorldWideWebFoundation [Электронный ресурс] Режим доступа:http://webfoundation.org/
67. Ysander, B. and Arrow, K. (1975).The Limits of Organization.The Swedish Journal of Economics, 77(2), p.275.
Очень похожие работы
Найти ещё больше
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00534
© Рефератбанк, 2002 - 2024