Метод нечёткой кластеризации C-средних

Метод нечёткой кластеризации C-средних (англ. fuzzy clustering, soft k-means, c-means) позволяет разбить имеющееся множество элементов мощностью N {\displaystyle N} на заданное число нечётких множеств k {\displaystyle k} . Метод нечеткой кластеризации C-средних можно рассматривать как усовершенствованный метод k-средних, при котором для каждого элемента из рассматриваемого множества рассчитывается степень его принадлежности (англ. responsibility) каждому из кластеров.

Алгоритм был разработан J.C. Dunn в 1973[1] и улучшен J.C. Bezdek в 1981[2].

Алгоритм:

  1. Задать случайным образом k {\displaystyle k} центров кластеров c j   ,   j = 1.. k {\displaystyle c_{j}\ ,\ j=1..k} ;
  2. Рассчитать матрицу принадлежности элементов к кластерам r {\displaystyle r} . В случае нормального распределения: r i j = N ( d ( x i , c j ) | μ = 0 , σ ) j k N ( d ( x i , c j ) | μ = 0 , σ ) {\displaystyle r_{ij}={\frac {{\mathcal {N}}(d(x_{i},c_{j})|\mu =0,\sigma )}{\displaystyle \sum _{j}^{k}{\mathcal {N}}(d(x_{i},c_{j})|\mu =0,\sigma )}}} , где x i {\displaystyle x_{i}} i {\displaystyle i} -й элемент множества, c j {\displaystyle c_{j}} — центр кластера j {\displaystyle j} , d ( x i , c j ) {\displaystyle d(x_{i},c_{j})}  — расстояние между точками x i {\displaystyle x_{i}} и c j {\displaystyle c_{j}} , N {\displaystyle {\mathcal {N}}} — плотность вероятности нормального распределения в точке d ( x i , c j ) {\displaystyle d(x_{i},c_{j})} .
  3. Переместить центры кластеров c j i r i j x i i r i j {\displaystyle c_{j}\leftarrow {\frac {\displaystyle \sum _{i}r_{ij}x_{i}}{\displaystyle \sum _{i}r_{ij}}}} ;
  4. Рассчитать функцию потерь (например, исходя из принципа максимального правдоподобия). В случае нормального распределения функция потерь будет равна: J = j k i N d ( x i , c j ) 2 r i j {\displaystyle J=\displaystyle \sum _{j}^{k}\sum _{i}^{N}d(x_{i},c_{j})^{2}r_{ij}} ;
  5. Если значение функции потерь уменьшается, то повторить цикл с п.2.

Метод нечеткой кластеризации C-средних имеет ограниченное применение из-за существенного недостатка — невозможность корректного разбиения на кластеры, в случае когда кластеры имеют различную дисперсию по различным размерностям (осям) элементов (например, кластер имеет форму эллипса). Данный недостаток устранен в алгоритмах Mixture models и GMM (Gaussian mixture models).

Ссылки

  1. Dunn J.C. A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters // Journal of Cybernetics. — 1973. — 17 сентября (т. 3, № 3). — С. 32–57. — ISSN 0022-0280. — doi:10.1080/01969727308546046.
  2. Bezdek, James C. Pattern Recognition with Fuzzy Objective Function Algorithms. — 1981. — ISBN 0-306-40671-3.
Перейти к шаблону «Машинное обучение»
Задачи
Обучение с учителем
Кластерный анализ
Снижение размерности
Структурное прогнозирование
Выявление аномалий
Графовые вероятностные модели
Нейронные сети
Обучение с подкреплением
Теория
Журналы и конференции
  • NeurIPS
  • ICML
  • ML
  • JMLR
  • ArXiv:cs.LG