Все о кластеризации: иерархическая кластеризация (агломеративная, разделительная), разделенная кластеризация (K-средние, нечеткие C-средние)

В неконтролируемом обучении данные не имеют меток. Машина просто ищет любую закономерность, которую может найти.

Контролируемое обучение

Работает с помеченными данными, когда шаблоны вывода известны системе.

Менее сложный.

Проводит оффлайн анализ.

Сравнительно более точные и надежные результаты.

Включите классификацию и регрессию. Включите классификацию и регрессию.

Обучение без учителя

Работайте с немаркированными данными, в которых выходные данные основаны только на наборе восприятий.

Более сложный.

Выполняйте анализ в реальном времени.

Умеренно точные, но надежные результаты.

Включите проблемы кластеризации и ассоциативного анализа правил.

Кластеризация:

«Кластеризация» — это процесс группировки похожих объектов вместе. Цель этого метода неконтролируемого машинного обучения — найти сходство в точке данных и сгруппировать похожие точки данных вместе.

Необходимость кластеризации:

  1. Определить внутреннюю группировку в наборе неразмеченных данных.
  2. Для организации данных в кластеры, показывающие внутреннюю структуру данных.
  3. Разделить точки данных.
  4. Чтобы понять и извлечь пользу из больших наборов структурированных и неструктурированных данных.

Типы кластеризации:

  1. Иерархическая кластеризация: древовидная структура с набором вложенных кластеров. Они бывают двух типов. а) агломеративный б) разделительный
  2. Раздельная кластеризация: разделение набора объектов данных на непересекающиеся наборы или кластеры, при котором каждый объект данных находится только в одном подмножестве. Они бывают двух типов: а.) K-средние б.) Нечеткие C-средние.

Агломеративная кластеризация:

В агломеративном или восходящем методе кластеризации мы назначаем каждое наблюдение своему собственному кластеру. Затем вычислите сходство (например, расстояние) между каждым из кластеров и соедините два наиболее похожих кластера. Наконец, повторяйте шаги 2 и 3, пока не останется только один кластер.

Разделительная кластеризация:

В методе разделительной или нисходящей кластеризации мы назначаем все наблюдения одному кластеру, а затем разделяем кластер на два наименее похожих кластера. Наконец, мы рекурсивно работаем с каждым кластером, пока не будет один кластер для каждого наблюдения. Имеются данные о том, что алгоритмы разделения в некоторых случаях создают более точные иерархии, чем алгоритмы агломерации, но концептуально они более сложны.

Работа: Иерархическая кластеризация

  1. Назначьте каждый элемент своему собственному кластеру, так что если у вас есть N элементов, теперь у вас есть N кластеров.
  2. Найдите ближайшую (наиболее похожую) пару кластеров и объедините их в один кластер. Теперь у вас на один кластер меньше.
  3. Вычислите расстояния (сходства) между новым кластером и каждым старым кластером.
  4. Повторяйте шаги два и дерево, пока все элементы не будут сгруппированы в один кластер размера N.

Меры расстояния:

  1. Complete — Linkage Clustering: Найдите максимально возможное расстояние между точками, принадлежащими двум разным кластерам.
  2. Кластеризация с одной связью. Найдите минимально возможное расстояние между точками, принадлежащими двум разным кластерам.
  3. Среднее значение — Кластеризация связей. Найдите все возможные попарные расстояния для точек, принадлежащих двум разным кластерам, а затем рассчитайте среднее значение.
  4. Кластеризация Centroid-Linkage: Найдите центроиды каждого кластера и. рассчитать расстояние между ними.

Алгоритм K-средних: итеративный алгоритм кластеризации, целью которого является нахождение максимумов на каждой итерации.

Шаги:

  1. Укажите желаемое количество кластеров K
  2. Случайным образом назначьте каждую точку данных кластеру
  3. Вычислить центроиды кластера
  4. Переназначьте каждую точку ближайшему центроиду кластера и повторно вычислите центроиды кластера.

Оптимальное количество кластеров:

Это фундаментальная проблема в кластеризации k-средних.

  1. Если вы построите k против SSE, вы увидите, что отчет уменьшается по мере увеличения K.
  2. Это связано с тем, что их размер уменьшается и, следовательно, искажения также меньше.
  3. Цель метода локтя состоит в том, чтобы выбрать k, при котором SSE резко уменьшается.

Логистическая регрессия:

Логистическая регрессия используется для прогнозирования бинарных результатов для заданного набора независимых переменных. Результат зависимой переменной является дискретным, например. Что y принадлежит {0,1}. Двоичная зависимая переменная может иметь только такие значения, как 0 или 1, выигрыш или проигрыш, успешно или неудачно, здорово или больно.

Уравнение сигмовидной функции

Сигмовидная функция — вероятность логистической регрессии, представленная сигмовидной функцией (логистическая функция или S-кривая).

ДОПОЛНИТЕЛЬНЫЙ :

Привет всем,
Надеюсь, у вас все отлично,
Я просматривал Интернет и обнаружил, что люди требуют «Обучение без учителя с помощью (машинного обучения) python», поэтому я создал серию статей о машинном обучении, в том числе « Обучение без присмотра ОБЪЯСНЕНИЕ и КОДИРОВАНИЕ». Если вы увлекаетесь видеообучением, я также предоставляю ссылку на видео. Надеюсь, вам понравится.

Ссылка на видео: https://bit.ly/3AeLxY8