Кластерный анализ (классификация без обучения)

Кластерный анализ представляет собой статистический метод, включающий набор различных алгоритмов, для распределения объектов по кластерам ( claster – гроздь, скопление). Разбиение объектов Н на целое число кластеров К, так чтобы каждый объект принадлежал одному и только одному подмножеству разбиения. При этом объекты, принадлежащие одному и тому же кластеру, должны быть сходными, а объекты, принадлежащие разным кластерам – разнородными.
Решением задачи кластерного анализа являются разбиения, удовлетворяющие критерию оптимальности. Этот критерий называют целевой функцией, в качестве которой, может быть, например, минимум суммы квадратов отклонений признаков объектов группы от среднего значения

min Σ(xi – xср)2

Сходство и разнородность объектов в группах буде характеризоваться некоторой величиной, которая получила названия – функция расстояния. Чем больше функция расстояния между объектами, тем более они разнородны. Понятно, что если эта функция превышает некий установленный предел, то объекты следует соотносить к разным группам (кластерам). В зависимости от используемого алгоритма кластеризации различают следующие функции расстояния:
- евклидова метрика (Σxi – xj)2)1/2;
- манхэттенское расстояние Σ|xi – xj|;
- расстояние Чебышева max|xi – xj|,
и др. рассматриваются как отдельные кластеры. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и, с учетом принятой функции расстояния, по формуле пересчитываются все расстояния. При достижении целевой функции итерации прекращаются.

Powered by Drupal - Design by artinet