Контролируемое машинное обучение

Вы когда-нибудь задумывались, как обрабатываются определенные данные и строятся прогнозы? или как мы классифицируем данные или понимаем закономерности из набора данных?

В этом посте мы узнаем о контролируемом машинном обучении и о том, как оно работает на математическом уровне. Мы рассмотрим различные типы обучения с учителем и попытаемся проанализировать их практическую реализацию. Как обычно, вам не нужен опыт программирования, чтобы понять это, хотя я очень рекомендую вам взглянуть на один из предыдущих постов в блоге Искусственный интеллект и машинное обучение, который можно использовать для лучшего понимания концепций, которые я объясняю. здесь.

Введение

В машинном обучении мы используем данные и анализируем их, чтобы определить закономерность среди них и используем ее для составления прогнозов или классификаций. Когда эти данные хорошо определены и помечены, что означает, когда мы понимаем, что представляет собой каждый из входных параметров, и мы используем определенные алгоритмы для обучения нашей модели с ними, это классифицируется как контролируемое обучение.

Например, если у меня есть набор данных о различных объектах недвижимости, который содержит множество различных параметров, включая местоположение, площадь участка, количество спален, ванных комнат и этажей, а также некоторые другие факторы, а также цену дома. Я могу использовать контролируемое обучение для создания модели машинного обучения, которая при наличии этих параметров может прогнозировать цену собственности. Итак, как только моя модель будет готова, если я предоставлю ей местоположение дома, площадь, а также другие детали в качестве входных данных, тогда она сможет вывести мне цену этого дома.

На основе варианта использования мы можем разделить контролируемое обучение на два типа: регрессии и классификацию.

Регрессии

В статистическом моделировании регрессионный анализ представляет собой набор статистических процессов для оценки отношений между зависимой переменной (часто называемой переменной «результат или отклик) и одной или несколькими независимыми переменными (часто называемой предикторы, ковариаты, объясняющие переменные или признаки).~https://en.wikipedia.org/wiki/Regression_analysis

В приведенном выше определении вы можете соотносить независимые переменные как наши входные параметры (чаще называемые функциями), а зависимые переменные — как наши выходные данные (то, что мы хотим предсказать).

Таким образом, в регрессии модель пытается найти закономерности или связь между функциями и результатом. Как и в нашем примере, площадь дома будет иметь сильную связь (очень коррелированную) с ценой дома, поскольку с увеличением площади увеличивается и цена дома. Принимая во внимание, что такие функции, как широта и долгота, могут не демонстрировать очень прямой сильной связи.
Модель обучается на данных, которые мы ей предоставляем, и, используя их, она придумывает определенные веса для каждой функции, и чем выше вес, тем выше корреляция между функцией и результатом. Затем он может разработать какой-то алгоритм с этими весами, который может предсказывать почти точные или точные результаты.

Точность регрессий обычно проверяется с помощью функций потерь, которые вычисляют разницу между предсказаниями модели и реальными результатами тестовых данных. В зависимости от выбора наших матриц рассчитаем потери.
Если вам интересно узнать о том, как модели оцениваются более подробно, оставьте комментарий к этому посту, и я напишу статью, объясняющую несколько видов показателей оценки.

Наиболее распространенные варианты использования регрессионных моделей включают прогнозирование продаж продукта, исследование рынка, прогнозирование финансовых данных и т. д.

Классификации

В «статистике классификация — это проблема определения того, к какой из множества категорий (подгрупп) относится наблюдение (или наблюдения). ~https://en.wikipedia.org/wiki/Статистическая_классификация”

Как следует из названия, в алгоритмах классификации модель пытается предсказать, к какой категории будут принадлежать входные данные. Одним из наиболее типичных вариантов использования для классификации является фильтр спама в электронной почте, поскольку мы используем данные электронной почты, которые имеют множество определенных характеристик, таких как количество слов, доменное имя, количество изображений, количество ссылок и многое другое, и мы пытаемся предсказать, является ли электронное письмо спамом или не использует эти функции.

В алгоритмах классификации модель пытается разделить каждый из признаков в данных на разные кластеры или разделы и пытается найти шаблон в кластерах с результатом. Например, в нашем обнаружении спама в электронной почте количество ссылок можно разделить таким образом, например, если количество ссылок больше 6, то большую часть времени электронное письмо было спамом, а если количество ссылок было меньше 4 , то в большинстве случаев электронная почта не была спамом (или ветчиной). Поэтому мы разделили функцию «количество ссылок» на три кластера (категории): меньше 4, больше 6 и остаток ({4, 5, 6} ссылок) и определили корреляцию с нашей классификацией.

Когда такая кластеризация разработана для всех функций, всем им снова присваиваются веса, и в дальнейшем они используются для прогнозирования результата при тестировании.

Точность модели или оценка модели классификации снова может быть оценена с использованием множества различных матриц, наиболее популярной из которых является точность и полнота, где мы видим, сколько классификаций было предсказано правильно, а сколько было предсказано неправильно, и определяем оценка на основе этого.

С другой стороны, общие варианты использования классификации включают классификацию видов растений, обнаружение изображений, рекомендательные модели и многое другое.

Нейронные сети (дополнительная тема)

Теперь эта тема имеет немного более продвинутую концепцию, но я просто хочу дать вам представление о том, что мы собираемся изучать, поэтому не стесняйтесь пропустить это, если хотите, или же будьте готовы немного повеселиться, углубившись в статистика.

Нейронные сети являются частью глубокого обучения, где алгоритм состоит из формирования нейроноподобного шаблона, где для обработки функций создается несколько слоев, а поскольку существует несколько слоев, также присутствует несколько весов. .

А теперь представьте, что каждая функция проходит через столько обработки, чтобы определить шаблон, который не только ограничен индивидуальной корреляцией функций с результатом, но и обрабатывает все функции вместе и достигает алгоритма, настолько сложного, что модель становится почти такой же точной. как люди. Изображение ниже должно дать вам небольшое представление о том, как это реализовано, и мы будем подробно изучать их в следующих статьях.

Заключение

Регрессия и точность сами по себе состоят из множества различных алгоритмов и типов, и я обязательно сделаю статью, посвященную изучению различных типов регрессий и алгоритмов классификации.

Надеюсь, вам понравилось читать пост. Чтобы следить за новыми статьями, подпишитесь на рассылку в моем официальном блоге: Thinkfeed.

материалы по теме:

Новые материалы

Выбросы, как найти выбросы и сводка по 5 числам

Вы когда-нибудь сталкивались с выбросами при обучении модели машинного обучения? или когда-либо думал Что такое выбросы? Выбросы — это точки данных, которые значительно отличаются от остальных..

Котлин с открытым исходным кодом, 2023 г.

Котлин с открытым исходным кодом, 2023 г. Хотите изучить Kotlin, тогда попробуйте проект с открытым исходным кодом Участие в Open Source было одним из лучших шагов, которые я сделал за свою..

Адаптивная минимальная целевая страница, которую вы, как разработчик, любите — Средняя

[Изучение WebGL] Разработчики много не говорят. Их код говорит сам за себя. Итак, вот минимальная целевая страница для разработчиков. Разветвите минимальную целевую страницу, размещенную..

Использование ASP.NET Core для указания, какой элемент на панели навигации является активным

Как установить активный класс меню Bootstrap с помощью ASP.NET Core? Вступление Последние пару лет я использую Bootstrap для определения макета своих веб-сайтов. Это значительно упрощает..

Обзор последних улучшений Elyra Pipeline Editor

Визуальный конвейерный редактор , пожалуй, наиболее часто используемая функция Elyra. Основываясь на отзывах, полученных от пользователей по каналам нашего сообщества , мы улучшили редактор,..

Черт возьми!+ ПЛАТЯТ ли компании, производящие память и дисковые накопители, кодерам за то, чтобы они создавали такие неэффективные…

Святые $h!+ ПЛАТЯТ ли компании, занимающиеся памятью и дисководами, программистам за создание таких неэффективных приложений?

Лучшие компании-разработчики ИИ | Лаборатории Муглов

Ищете топ Компания по разработке искусственного интеллекта ? Moogle labs — это подходящее место, предлагающее лучшие услуги по машинному обучению и разработке искусственного интеллекта, которые..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Computer Science Typescript Javascript Development Javascript Tips Cybersecurity Tech Development Learning Angular Data Productivity ChatGPT Developer Golang NLP CSS Neural Networks Algorithms Reinforcement Learning Reactjs Vuejs Computer Vision Startup