Вы когда-нибудь задумывались, как обрабатываются определенные данные и строятся прогнозы? или как мы классифицируем данные или понимаем закономерности из набора данных?

В этом посте мы узнаем о контролируемом машинном обучении и о том, как оно работает на математическом уровне. Мы рассмотрим различные типы обучения с учителем и попытаемся проанализировать их практическую реализацию. Как обычно, вам не нужен опыт программирования, чтобы понять это, хотя я очень рекомендую вам взглянуть на один из предыдущих постов в блоге Искусственный интеллект и машинное обучение, который можно использовать для лучшего понимания концепций, которые я объясняю. здесь.

Введение

В машинном обучении мы используем данные и анализируем их, чтобы определить закономерность среди них и используем ее для составления прогнозов или классификаций. Когда эти данные хорошо определены и помечены, что означает, когда мы понимаем, что представляет собой каждый из входных параметров, и мы используем определенные алгоритмы для обучения нашей модели с ними, это классифицируется как контролируемое обучение.

Например, если у меня есть набор данных о различных объектах недвижимости, который содержит множество различных параметров, включая местоположение, площадь участка, количество спален, ванных комнат и этажей, а также некоторые другие факторы, а также цену дома. Я могу использовать контролируемое обучение для создания модели машинного обучения, которая при наличии этих параметров может прогнозировать цену собственности. Итак, как только моя модель будет готова, если я предоставлю ей местоположение дома, площадь, а также другие детали в качестве входных данных, тогда она сможет вывести мне цену этого дома.

На основе варианта использования мы можем разделить контролируемое обучение на два типа: регрессии и классификацию.

Регрессии

В статистическом моделировании регрессионный анализ представляет собой набор статистических процессов для оценки отношений между зависимой переменной (часто называемой переменной «результат или отклик) и одной или несколькими независимыми переменными (часто называемой предикторы, ковариаты, объясняющие переменные или признаки).~https://en.wikipedia.org/wiki/Regression_analysis

В приведенном выше определении вы можете соотносить независимые переменные как наши входные параметры (чаще называемые функциями), а зависимые переменные — как наши выходные данные (то, что мы хотим предсказать).

Таким образом, в регрессии модель пытается найти закономерности или связь между функциями и результатом. Как и в нашем примере, площадь дома будет иметь сильную связь (очень коррелированную) с ценой дома, поскольку с увеличением площади увеличивается и цена дома. Принимая во внимание, что такие функции, как широта и долгота, могут не демонстрировать очень прямой сильной связи.
Модель обучается на данных, которые мы ей предоставляем, и, используя их, она придумывает определенные веса для каждой функции, и чем выше вес, тем выше корреляция между функцией и результатом. Затем он может разработать какой-то алгоритм с этими весами, который может предсказывать почти точные или точные результаты.

Точность регрессий обычно проверяется с помощью функций потерь, которые вычисляют разницу между предсказаниями модели и реальными результатами тестовых данных. В зависимости от выбора наших матриц рассчитаем потери.
Если вам интересно узнать о том, как модели оцениваются более подробно, оставьте комментарий к этому посту, и я напишу статью, объясняющую несколько видов показателей оценки.

Наиболее распространенные варианты использования регрессионных моделей включают прогнозирование продаж продукта, исследование рынка, прогнозирование финансовых данных и т. д.

Классификации

В «статистике классификация — это проблема определения того, к какой из множества категорий (подгрупп) относится наблюдение (или наблюдения). ~https://en.wikipedia.org/wiki/Статистическая_классификация

Как следует из названия, в алгоритмах классификации модель пытается предсказать, к какой категории будут принадлежать входные данные. Одним из наиболее типичных вариантов использования для классификации является фильтр спама в электронной почте, поскольку мы используем данные электронной почты, которые имеют множество определенных характеристик, таких как количество слов, доменное имя, количество изображений, количество ссылок и многое другое, и мы пытаемся предсказать, является ли электронное письмо спамом или не использует эти функции.

В алгоритмах классификации модель пытается разделить каждый из признаков в данных на разные кластеры или разделы и пытается найти шаблон в кластерах с результатом. Например, в нашем обнаружении спама в электронной почте количество ссылок можно разделить таким образом, например, если количество ссылок больше 6, то большую часть времени электронное письмо было спамом, а если количество ссылок было меньше 4 , то в большинстве случаев электронная почта не была спамом (или ветчиной). Поэтому мы разделили функцию «количество ссылок» на три кластера (категории): меньше 4, больше 6 и остаток ({4, 5, 6} ссылок) и определили корреляцию с нашей классификацией.

Когда такая кластеризация разработана для всех функций, всем им снова присваиваются веса, и в дальнейшем они используются для прогнозирования результата при тестировании.

Точность модели или оценка модели классификации снова может быть оценена с использованием множества различных матриц, наиболее популярной из которых является точность и полнота, где мы видим, сколько классификаций было предсказано правильно, а сколько было предсказано неправильно, и определяем оценка на основе этого.

С другой стороны, общие варианты использования классификации включают классификацию видов растений, обнаружение изображений, рекомендательные модели и многое другое.

Нейронные сети (дополнительная тема)

Теперь эта тема имеет немного более продвинутую концепцию, но я просто хочу дать вам представление о том, что мы собираемся изучать, поэтому не стесняйтесь пропустить это, если хотите, или же будьте готовы немного повеселиться, углубившись в статистика.

Нейронные сети являются частью глубокого обучения, где алгоритм состоит из формирования нейроноподобного шаблона, где для обработки функций создается несколько слоев, а поскольку существует несколько слоев, также присутствует несколько весов. .

А теперь представьте, что каждая функция проходит через столько обработки, чтобы определить шаблон, который не только ограничен индивидуальной корреляцией функций с результатом, но и обрабатывает все функции вместе и достигает алгоритма, настолько сложного, что модель становится почти такой же точной. как люди. Изображение ниже должно дать вам небольшое представление о том, как это реализовано, и мы будем подробно изучать их в следующих статьях.

Заключение

Регрессия и точность сами по себе состоят из множества различных алгоритмов и типов, и я обязательно сделаю статью, посвященную изучению различных типов регрессий и алгоритмов классификации.

Надеюсь, вам понравилось читать пост. Чтобы следить за новыми статьями, подпишитесь на рассылку в моем официальном блоге: Thinkfeed.