Все о кластеризации: иерархическая кластеризация (агломеративная, разделительная), разделенная кластеризация (K-средние, нечеткие C-средние)
В неконтролируемом обучении данные не имеют меток. Машина просто ищет любую закономерность, которую может найти.
Контролируемое обучение
Работает с помеченными данными, когда шаблоны вывода известны системе.
Менее сложный.
Проводит оффлайн анализ.
Сравнительно более точные и надежные результаты.
Включите классификацию и регрессию. Включите классификацию и регрессию.
Обучение без учителя
Работайте с немаркированными данными, в которых выходные данные основаны только на наборе восприятий.
Более сложный.
Выполняйте анализ в реальном времени.
Умеренно точные, но надежные результаты.
Включите проблемы кластеризации и ассоциативного анализа правил.
Кластеризация:
«Кластеризация» — это процесс группировки похожих объектов вместе. Цель этого метода неконтролируемого машинного обучения — найти сходство в точке данных и сгруппировать похожие точки данных вместе.
Необходимость кластеризации:
- Определить внутреннюю группировку в наборе неразмеченных данных.
- Для организации данных в кластеры, показывающие внутреннюю структуру данных.
- Разделить точки данных.
- Чтобы понять и извлечь пользу из больших наборов структурированных и неструктурированных данных.
Типы кластеризации:
- Иерархическая кластеризация: древовидная структура с набором вложенных кластеров. Они бывают двух типов. а) агломеративный б) разделительный
- Раздельная кластеризация: разделение набора объектов данных на непересекающиеся наборы или кластеры, при котором каждый объект данных находится только в одном подмножестве. Они бывают двух типов: а.) K-средние б.) Нечеткие C-средние.
Агломеративная кластеризация:
В агломеративном или восходящем методе кластеризации мы назначаем каждое наблюдение своему собственному кластеру. Затем вычислите сходство (например, расстояние) между каждым из кластеров и соедините два наиболее похожих кластера. Наконец, повторяйте шаги 2 и 3, пока не останется только один кластер.
Разделительная кластеризация:
В методе разделительной или нисходящей кластеризации мы назначаем все наблюдения одному кластеру, а затем разделяем кластер на два наименее похожих кластера. Наконец, мы рекурсивно работаем с каждым кластером, пока не будет один кластер для каждого наблюдения. Имеются данные о том, что алгоритмы разделения в некоторых случаях создают более точные иерархии, чем алгоритмы агломерации, но концептуально они более сложны.
Работа: Иерархическая кластеризация
- Назначьте каждый элемент своему собственному кластеру, так что если у вас есть N элементов, теперь у вас есть N кластеров.
- Найдите ближайшую (наиболее похожую) пару кластеров и объедините их в один кластер. Теперь у вас на один кластер меньше.
- Вычислите расстояния (сходства) между новым кластером и каждым старым кластером.
- Повторяйте шаги два и дерево, пока все элементы не будут сгруппированы в один кластер размера N.
Меры расстояния:
- Complete — Linkage Clustering: Найдите максимально возможное расстояние между точками, принадлежащими двум разным кластерам.
- Кластеризация с одной связью. Найдите минимально возможное расстояние между точками, принадлежащими двум разным кластерам.
- Среднее значение — Кластеризация связей. Найдите все возможные попарные расстояния для точек, принадлежащих двум разным кластерам, а затем рассчитайте среднее значение.
- Кластеризация Centroid-Linkage: Найдите центроиды каждого кластера и. рассчитать расстояние между ними.
Алгоритм K-средних: итеративный алгоритм кластеризации, целью которого является нахождение максимумов на каждой итерации.
Шаги:
- Укажите желаемое количество кластеров K
- Случайным образом назначьте каждую точку данных кластеру
- Вычислить центроиды кластера
- Переназначьте каждую точку ближайшему центроиду кластера и повторно вычислите центроиды кластера.
Оптимальное количество кластеров:
Это фундаментальная проблема в кластеризации k-средних.
- Если вы построите k против SSE, вы увидите, что отчет уменьшается по мере увеличения K.
- Это связано с тем, что их размер уменьшается и, следовательно, искажения также меньше.
- Цель метода локтя состоит в том, чтобы выбрать k, при котором SSE резко уменьшается.
Логистическая регрессия:
Логистическая регрессия используется для прогнозирования бинарных результатов для заданного набора независимых переменных. Результат зависимой переменной является дискретным, например. Что y принадлежит {0,1}. Двоичная зависимая переменная может иметь только такие значения, как 0 или 1, выигрыш или проигрыш, успешно или неудачно, здорово или больно.
Уравнение сигмовидной функции
Сигмовидная функция — вероятность логистической регрессии, представленная сигмовидной функцией (логистическая функция или S-кривая).
ДОПОЛНИТЕЛЬНЫЙ :
Привет всем,
Надеюсь, у вас все отлично,
Я просматривал Интернет и обнаружил, что люди требуют «Обучение без учителя с помощью (машинного обучения) python», поэтому я создал серию статей о машинном обучении, в том числе « Обучение без присмотра ОБЪЯСНЕНИЕ и КОДИРОВАНИЕ». Если вы увлекаетесь видеообучением, я также предоставляю ссылку на видео. Надеюсь, вам понравится.
Ссылка на видео: https://bit.ly/3AeLxY8