Почему выбор функций?

Роль выбора функций в машинном обучении

Выбор функций играет жизненно важную роль в машинном обучении, а также в прогнозном моделировании. Это одна из мер, лежащих в основе снижения размерности.

Вступление:

Выбор функций - это в основном «процесс выбора подмножества соответствующих функций для обработки без какого-либо преобразования». Это также известно как выбор атрибутов или выбор переменных. Это помогает выбрать наиболее подходящие функции среди доступных. Выбор функции может выполняться вручную или автоматически.

Важность:

Приобретение функций может быть дорогостоящим, поэтому выбор функций полезен.
Если объекты претерпевают преобразование, их единицы измерения теряются. Но при выборе функции единицы измерения сохраняются.
Это помогает повысить точность модели.
Это также сокращает время, необходимое модели для обучения.
Удаляет мусорные данные

Типы выбора функций:

В этом руководстве мы обсудим три основных категории выбора функций вместе с их примерами.

1. Метод фильтрации:

Предполагается, что методы фильтрации являются одномерными, т.е. функция рассматривается независимо или с зависимой переменной. Здесь могут быть выбраны функции с более высокой дисперсией, предполагая, что они могут содержать полезные данные. Следовательно, возникший недостаток заключается в том, что переменная признака и взаимосвязь целевой переменной не поддерживается. Ниже приведены несколько примеров методов фильтрации.

Тест хи-квадрат - этот метод используется для проверки независимости двух событий. Если набор данных состоит из двух событий, мы получаем наблюдаемое значение и ожидаемое значение, и этот тест измеряет, насколько эти два события отклоняются друг от друга.
Порог отклонения. Этот метод отвечает за отбрасывание тех функций, которые не могут соответствовать определенному пороговому значению.
Прирост информации - этот метод предоставляет информацию об атрибутах, заданных в наборе, чтобы мы могли различать разные классы атрибутов.

2. Метод обертки:

Методы оболочки являются стохастическими или, скорее, используют эвристику. На основе выведенных данных он решает, какие функции оставить, а какие выбросить. Здесь добавлены новые функции, чтобы повысить производительность модели. Но каждый раз модели требуется обучение и перекрестная проверка для каждой комбинации набора функций. Таким образом, это дорогостоящий метод. Ниже приведены несколько примеров метода оболочки.

Рекурсивное исключение признаков (RFE) - этот метод подходит для модели и удаляет самый слабый элемент, если не удовлетворяется указанное количество функций. Он ранжирует функции в соответствии с процессом исключения, выполняемым каждый раз, когда функции проверяются и отбрасываются.
Прямой выбор - этот метод начинается без модели элементов и продолжает добавлять переменные, чтобы улучшить производительность модели. Он продолжает добавлять переменные до тех пор, пока добавление переменных не перестанет улучшать производительность модели.
Обратный выбор - это полная противоположность описанному выше методу. Здесь мы начинаем со всех функций и пытаемся удалить самые нерелевантные функции и проверять производительность модели на каждой итерации. Этот процесс продолжается до тех пор, пока не будет видно никаких изменений.

3. Встроенный метод:

Встроенные методы изучают, какие функции лучше всего способствуют точности модели. Этот метод пытается объединить эффективность, а также качества обоих вышеупомянутых методов. Эти методы обладают встроенными методами выбора переменных. Ниже приведены несколько примеров.

Регрессия лассо (оператор наименьшего абсолютного сжатия и выбора) - также известна как регуляризация L1. Метод L1 используется для обобщенных линейных моделей. Это можно понимать как добавление штрафа к сложности для уменьшения проблемы переобучения. По сути, регуляризация - это процесс включения дополнительной информации, чтобы решить некорректно поставленные проблемы или избежать переобучения. Целевая функция для минимизации,

Риджевая регрессия - также известна как регуляризация L2. L2 вычисляет ошибку наименьших квадратов значений коэффициентов, но более чувствителен к выбросам. Разрозненных решений не дает. Он сводит к минимуму влияние неважных функций до значений, близких к нулю. Функция стоимости:

Эластичная чистая регрессия. Обучение выполняется с использованием как L1, так и L2, что позволяет изучать разреженную модель, в которой несколько записей не равны нулю, как у Лассо, а также сохранять свойства регуляризации, аналогичные регрессии Риджа.

Таким образом, использование вышеуказанных методов выбора признаков позволяет легко интерпретировать атрибуты. Это также помогает отбрасывать переменные с менее значимыми значениями, тем самым повышая точность прогнозов, эффективность модели, а также уменьшая временную сложность.

материалы по теме:

Новые материалы

Отслеживание состояния с течением времени с дифференцированием снимков

Время от времени что-то происходит и революционизирует часть моего рабочего процесса разработки. Что-то более забавное вместо типичного утомительного и утомительного процесса разработки. В..

Я предполагаю, что вы имеете в виду методы обработки категориальных данных.

Я предполагаю, что вы имеете в виду методы обработки категориальных данных. Пожалуйста, проверьте мой пост Инструментарий специалиста по данным для кодирования категориальных переменных в..

Игра в прятки с данными

Игра в прятки с данными Я хотел бы, чтобы вы сделали мне одолжение и ответили на следующие вопросы. Гуглить можно в любое время, здесь никто не забивается. Сколько регионов в Гане? А как..

«Раскрытие математических рассуждений с помощью Microsoft MathPrompter и моделей больших языков»

TL;DR: MathPrompter от Microsoft показывает, как использовать математические рассуждения с большими языковыми моделями; 4-этапный процесс для улучшения доверия и рассуждений в математических..

Раскройте свой потенциал в области разработки мобильных приложений: Абсолютная бесплатная серия

Глава 6: Работа в сети и выборка данных Глава 1: Введение в React Native Глава 2: Основы React Native Глава 3: Создание пользовательского интерфейса с помощью React Native Глава 4:..

Все о кейсах: Camel, Snake, Kebab & Pascal

В программировании вы сталкивались с ними при именовании переменной, класса или функции. Поддержание согласованности типов и стилей случаев делает ваш код более читабельным и облегчает совместную..

Как работает дистанционное парное программирование и почему оно может изменить вашу жизнь

Серебряная пуля от одиночества и отвлекающих факторов во время обучения программированию Независимо от того, работаете ли вы или учитесь удаленно, велика вероятность, что одиночество и..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Tech Javascript Development Javascript Tips Cybersecurity Data Development Learning ChatGPT Angular Algorithms Neural Networks CSS NLP Productivity Golang Developer Startup Vuejs Reactjs Reinforcement Learning Computer Vision