Вход

Метрики применяемые в Data mining

Рекомендуемая категория для самостоятельной подготовки:
Курсовая работа*
Код 296262
Дата создания 15 апреля 2014
Страниц 28
Мы сможем обработать ваш заказ (!) 25 апреля в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
1 330руб.
КУПИТЬ

Описание

Работа была сдана на 5. Есть практический пример написанный в пакете статистика. ...

Содержание

1. Амосов, О.С. Интеллектуальные информационные системы. Нейронные сети и нечеткие системы: Учеб. Пособие [Текст] / О.С. Амосов. – Комсомольск-на-Амуре: ГОУВПО «КнАГТУ», 2004. – 104 с.
2. Белов, В.Г. О перспективах искусственного интеллекта [Текст] / В.Г. Белов. – М.: Дело, 2006. – 82 с.
3. Галушкин, А.И. Применения нейрокомпьютеров в финансовой деятельности [Текст] / А.И. Галушкин. – Новосибирск: Наука, 2002. – 215с.
4. Ефимов, Д.В. Нейросетевые системы управления [Текст] / Д.В. Ефимов. – М.: Высшая школа, 2002. — 184 с.
5. Каллан, Р. Основные концепции нейронных сетей [Текст] / Р. Каллан. – М.: Вильямс, 2001. — 288 с.
6. Короткий, С.А. Нейронные сети Хопфилда [Текст] / С.А. Короткий. – М.: ЮНИТИ-ДАНА, 2005. – 315 с.
7. Круглов, В.В. Искусственные нейронные сети. Теория и практика [Текст] / В.В. Круглов. – М.: Горячая линия - Телеком, 2001. — 382 с.
8. Терехов, С.А. Лекции по теории и приложениям искусственных нейронных сетей [Текст] / С.А. Терехов. – Снежинск: ВНИТФ, 2003. – 183 с.
9. Уоссермен, Ф. Нейрокомпьютерная техника: Теория и практика [Текст] / Ф. Уоссермен . — М.: Мир, 2006. — 240 с.
10. Хайкин, С. Нейронные сети: полный курс [Текст] / С. Хайкин. – М.: Вильямс, 2006. — 1104 с.

Введение

Выдержка из введения:

Целью работы является теоретическое осмысление понятия метрик, познание необходимости и сферы практического применения метрик в классификации и анализе данных, их роли в кластерном анализе данных.
Для достижения поставленной цели в работе решались следующие основные задачи:
1. Произвести исследование предметной области – выявить пути классификации данных, обосновать необходимость классификации, как процесса, предшествующего анализу данных;
2. Выявить самые распространенные метрики и дать им характеристику;
3. Изучить теоретические особенности метрик;
4. Рассмотреть практическое применение метрик на примере одной конкретной метрики.

Фрагмент работы для ознакомления

Метрики или меры бывают двух типов: меры сходств и меры различий. Обычно расстояние между точками и в метрическом пространстве обозначается или  .Если задана функция , то близкие с точки зрения этой метрики объекты считаются однородными, принадлежащими к одному классу. Очевидно, что необходимо при этом сопоставлять с некоторыми пороговыми значениями, определяемыми в каждом конкретном случае по – своему. Таким значением выступает матрица расстояний.Матрица расстояний – это квадратная матрица типа "объект – объект" (порядка ) содержащая в качестве элементов расстояния между объектами в метрическом пространстве. Свойства матрицы являются отражением свойств самих расстояний. На каждом шаге в матрице расстояний ищется минимальное значение, соответствующее расстоянию между двумя наиболее близкими кластерами. Найденные кластеры объединяются, образуя новый кластер. Эта процедура повторяется до тех пор, пока не будут объединены все кластеры.В общем виде матрица представлена на формуле 1.(1)В широком смысле расстояния являются отражением такого понятия как различие, что двойственно понятию сходства, а элементы матрицы различия (в общем виде - матрицы дивергенций) двойственны элементам матрицы сходства (в общем виде - матрицы конвергенций). Связь между мерой сходства и мерой различия можно записать как: , где - мера различия;- мера сходства. Следовательно, все свойства мер сходства можно экстраполировать на соответствующие им меры различия с помощью простого преобразования и наоборот.Пусть измерений представлены в виде матрицы данных размером : Тогда расстояние между парами векторов могут быть представлены в виде симметричной матрицы расстояний:Меру близости (сходства) объектов удобно представить как обратную величину от расстояния между объектами. Т.е. это является понятие сходства между объектами и . Неотрицательная вещественная функция называется мерой сходства, если :1) для ;2) 3) Пары значений мер сходства можно объединить в матрицу сходства:Величину называют коэффициентом сходства. В общем, можно сказать, что расстояния используются намного чаще, чем меры сходства: их чаще реализуют в статистических программах (Statistica, SPSS и др.) в модуле кластерного анализа.Рассмотрим некоторые метрики, применяемые в задачах кластерного анализа.1.2Наиболее используемые метрикиИзвестно, что существует обобщённая мера расстояний, предложенная Германом Минковским:.Пусть – объекты, каждый из которых задан набором признаков. Распределения объектов по кластерам на однородные в некотором смысле группы должно удовлетворять критерию оптимальности, который выражается в терминах расстояния между любой парой объектов рассматриваемой совокупности. В качестве расстояния (метрики) может быть взята любая неотрицательная действительная функция , определенная на множестве и удовлетворяющая следующим условиям: тогда и только тогда, когда ;;.В вышеуказанное семейство расстояний входят:Евклидово расстояниеЭто наиболее часто используемый тип расстояния. Он является простым геометрическим расстоянием в многомерном пространстве и вычисляется как:Где , — значения -го признака у -го (-го) объекта (.Оно используется в следующих случаях:а) наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное распределение с ковариационной матрицей вида , где - единичная матрица, т.е. исходные признаки взаимно независимы и имеют одну и ту же дисперсию;б) исходные признаки однородны по физическому смыслу и одинаково важны для классификации.Естественное с геометрической точки зрения евклидово пространство может оказаться бессмысленным (с точки зрения содержательной интерпретации), если признаки измерены в разных единицах. Чтобы исправить положение, прибегают к нормированию каждого признака путем деления центрированной величины на среднее квадратическое отклонение и переходят от матрицы к нормированной матрице с элементами:где — значение -го признака у -го объекта, — среднее значение - го признака, — среднее квадратическое отклонение -го признака.Однако эта операция может привести к нежелательным последствиям. Если кластеры хорошо разделимы по одному признаку и не разделимы по другому, то после нормирования дискриминирующие возможности первого признака будут уменьшены в связи с усилением «шумового» эффекта второго.«Взвешенная» евклидова метрика«Взвешенное» евклидово расстояние определяется из выражения:Оно применяется в тех случаях, когда каждой -й компоненте вектора наблюдений удается приписать некоторый «вес» , пропорциональный степени важности признака в задаче классификации. Обычно принимают , где . Цель «взвешивания» признака состоит в том, чтобы обеспечить максимальную дискриминирующую способность признака для разделения на кластеры.Определение весов, как правило, связано с дополнительными исследованиями, например с организацией опроса экспертов и обработкой их мнений. Определение весов только по данным выборки может привести к ложным выводам.lm – нормыТакже называется манхэттенским, сити - блок расстоянием или расстоянием городских кварталов. Это расстояние является разностью по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако отметим, что для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). Хеммингово расстояние вычисляется по формуле:где – координаты - го и - го объектов в - мерном пространстве, – величина - той характеристики - го ( - го) объекта (; – количество объектов; – весовой коэффициент - го признака.Существуют используемые расстояния и вне данного семейства. Наиболее известным является:Расстояние МахаланобисаВ математической статистике расстояние Махалано́биса — мера расстояния между векторами случайных величин, обобщающая понятие евклидова расстояния. С помощью расстояния Махаланобиса можно определять сходство неизвестной и известной выборки. Оно отличается от расстояния Евклида тем, что учитывает корреляции между переменными и инвариантно к масштабу.Формально, расстояние Махаланобиса от многомерного вектора до множества со средним значением и матрицей ковариации определяется следующим образом:Если матрица ковариации является единичной матрицей, то расстояние Махаланобиса становится равным расстоянию Евклида. Если матрица ковариации диагональная (но необязательно единичная), то получившаяся мера расстояния носит название нормализованное расстояние Евклида.Хеммингово расстояниеИспользуется как мера различия объектов, задаваемых дихотомическими признаками. Оно задается с помощью формулы, представленной на следующей формулеХеммингово расстояние равно числу vi,j несовпадений значений соответствующих признаков в рассматриваемых i-ом и j-ом объектах.Степенное расстояниеПрименяется в случае, когда необходимо увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Степенное расстояние вычисляется по следующей формуле:где и – параметры, определяемые пользователем. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра – и — равны двум, то это расстояние совпадает с расстоянием Евклида.Рассмотрим практическое применение метрик на примере «НАЗВАНИЕ МЕТРИКИ».ГЛАВА 2Практическое применение метрик в STATISTICA2.

Список литературы

ВВЕДЕНИЕ ………………………………………………………………..3
ГЛАВА 1 Понятие метрики……………………………………………..5
1.1 Общие положения . 5
1.2 Наиболее используемые метрики ………………………… 8
1.2.1 Евклидово расстояние…………………………….9
1.2.2 «Взвешенная» евклидова метрика……………..10
1.2.3 lm – нормы..………………………………………11
1.2.4 Расстояние Махаланобиса…………………….....12
1.2.5 Хеммингово расстояние…………………………12
1.2.6 ..Степенное расстояние …………………………….13
ГЛАВА 2 Практическое применение метрик в STATISTICA……….14
2.1 Краткие сведения о пакете STATISTICA ………………..….14
2.2 Использование пакета STATISTICA c применением
евклидовой метрики…………………………………………………….17
ЗАКЛЮЧЕНИЕ ……………………………………………………….…..28
СПИСОК ЛИТЕРАТУРЫ ……………………………………………….. 29
Очень похожие работы
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00498
© Рефератбанк, 2002 - 2024