Вход

Выбор числа кластеров на основе анализа последовательности итеративных аномальных кластеров

Рекомендуемая категория для самостоятельной подготовки:
Дипломная работа*
Код 563206
Дата создания 2021
Страниц 26
Мы сможем обработать ваш заказ (!) 23 сентября в 12:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
2 950руб.
КУПИТЬ

Содержание

Содержание




1 Аннотация ........................................................................................................... 3
2 Annotation ............................................................................................................ 4
3 Введение............................................................................................................... 5
4 Обзор литературы.............................................................................................. 7
5 Метод аномальных кластеров и Intelligent K-means ................................... 8
5.1 Метод аномальных кластеров .................................................................. 8
5.2 Intelligent K-means ....................................................................................... 9
6 Метод Локтя...................................................................................................... 11
7 Метод разнородности ...................................................................................... 13
8 Данные ............................................................................................................... 14
9 Оценка качества............................................................................................... 17
10 Результаты ..................................................................................................... 19
11 Заключение .................................................................................................... 21
11.1 Выводы........................................................................................................ 21
11.2 Дальнейшая работа................................................................................... 21
12 Список источников ...................................................................................... 23
13 Приложения................................................................................................... 24

Введение

3 Введение

Кластеризация является одним из самых главных методов анализа данных, основная задача которого заключается в разбиении объектов на группы, называемые кластерами. Каждая группа должна содержать в себе "похожие" объекты, следовательно объекты разных групп должны быть как можно более разными, основываясь на их признаках. Основное различие между кластеризацией и классификацией заключается в том, что список групп четко не определен, данная задача решается в процессе работы алгоритма. Применение кластерного анализа в целом сводится к следующим этапам:
1 Выбор набора объектов для кластеризации.

2 Определение набора переменных, которые будут использоваться для оценки объектов в выборке. При необходимости значения переменных стандартизируются.

3 Расчет расстояний между объектами множества с использованием оптимальной метрики.

4 Использование метода кластерного анализа для создания групп похожих объектов (кластеров).

5Представление результатов анализа.

После получения и анализа результатов можно скорректировать

выбранную метрику и метод кластеризации для получения оптимального результата.

Для этой работы ключевым алгоритмом является K-means, популярный алгоритм кластеризации, основная суть которого заключается в итеративном пересчете центра масс для каждого кластера на каждом шаге, после чего объекты снова делятся на кластеры в соответствии с тем, какой из новых центров был ближе к обновленному центру. Однако количество кластеров не всегда известно заранее, поэтому некоторые алгоритмы кластеризации необходимо модифицировать для решения задач, в которых не указано количество кластеров, на которые должны быть разделены эти объекты.


Главной целью ВКР является реализация и оценка качества метода аномальных кластеров, который итеративно находит в исходном множестве кластеры, рассматривая удаленность объектов от опорной точки. Также были рассмотрены метод локтя, рассматривающий инерцию кластеров, diversity method, рассчитывающий для каждого числа кластеров энтропию, и метод I-nice.

В качестве результата данной работы представлена реализация методов выбора оптимального числа кластеров для улучшения алгоритма K-means и сравнение результатов их работы на реальных данных для оценки качества их работы.

Для реализации методов и алгоритмов использовался язык программирования Python 3.7 в среде Google Colaboratory.

Фрагмент работы для ознакомления

Добрый день! Уважаемые студенты, Вашему вниманию представляется дипломная работа на тему: «Выбор числа кластеров на основе анализа последовательности итеративных аномальных кластеров Choosing the right number of clusters using the sequence of iterative anomalous clusters.»

1 Аннотация

Одной из главных проблем алгоритмов кластерного анализа является выбор числа кластеров, на которые будет разбиваться множество объектов. Данная работа посвящена изучению возможности использования для этой цели метода аномальных кластеров, который выводит центры аномальных кластеров

в качестве входных данных популярного алгоритма K-средних. Также в рамках проекта были рассмотрены прочие методы для определения оптимального числа кластеров и их сравнение с вышеупомянутым методом аномальных кластеров.


Ключевые слова — выбор числа кластеров, кластеризация, K-means, Аномальные кластеры

Список литературы

12 Список источников

[1] - Boris G Mirkin, 2019, Core Partitioning: K-means and Similarity Clustering, In book: Bondgraphen (pp.293-403).

[2] - Kingrani, Suneel Kumar and Levene, Mark and Zhang, Dell (2018) Estimating the number of clusters using diversity. Artificial Intelligence Research 7 (1), pp. 15-22. ISSN 1927-6974.

[3] - Md Abdul Masud, Joshua Zhexue Huang, Chenghao Wei, Jikui Wang, Imran Khan, Ming Zhong, 2018, I-nice: A new approach for identifying the number of clusters and initial cluster centres.

[4] - Yu-Lin He, Hong-Lian Qin, Joshua Zhexue Huang, Yi Jin, 2020, Novel electricity pattern identification system based on improved I-nice algorithm

[5] - Renato Cordeiro de Amorim, Vladimir Makarenkov, Boris Mirkin, 2016, A-Wardpβ: Effective hierarchical clustering using the Minkowski metric and a fast k-means initialisation

[6] - Yulin He, Yingyan Wu, Honglian Qin, Joshua Zhexue Huang, Yi Jin, 2020, Improved I-nice clustering algorithm based on density peaks mechanism

[7] - https://archive.ics.uci.edu/ml/index.php

[8] - https://www.kaggle.com/camnugent/california-housing-prices
Очень похожие работы
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00421
© Рефератбанк, 2002 - 2024