Роль выбора функций в машинном обучении

Выбор функций играет жизненно важную роль в машинном обучении, а также в прогнозном моделировании. Это одна из мер, лежащих в основе снижения размерности.

Вступление:

Выбор функций - это в основном «процесс выбора подмножества соответствующих функций для обработки без какого-либо преобразования». Это также известно как выбор атрибутов или выбор переменных. Это помогает выбрать наиболее подходящие функции среди доступных. Выбор функции может выполняться вручную или автоматически.

Важность:

  1. Приобретение функций может быть дорогостоящим, поэтому выбор функций полезен.
  2. Если объекты претерпевают преобразование, их единицы измерения теряются. Но при выборе функции единицы измерения сохраняются.
  3. Это помогает повысить точность модели.
  4. Это также сокращает время, необходимое модели для обучения.
  5. Удаляет мусорные данные

Типы выбора функций:

В этом руководстве мы обсудим три основных категории выбора функций вместе с их примерами.

1. Метод фильтрации:

Предполагается, что методы фильтрации являются одномерными, т.е. функция рассматривается независимо или с зависимой переменной. Здесь могут быть выбраны функции с более высокой дисперсией, предполагая, что они могут содержать полезные данные. Следовательно, возникший недостаток заключается в том, что переменная признака и взаимосвязь целевой переменной не поддерживается. Ниже приведены несколько примеров методов фильтрации.

  • Тест хи-квадрат - этот метод используется для проверки независимости двух событий. Если набор данных состоит из двух событий, мы получаем наблюдаемое значение и ожидаемое значение, и этот тест измеряет, насколько эти два события отклоняются друг от друга.
  • Порог отклонения. Этот метод отвечает за отбрасывание тех функций, которые не могут соответствовать определенному пороговому значению.
  • Прирост информации - этот метод предоставляет информацию об атрибутах, заданных в наборе, чтобы мы могли различать разные классы атрибутов.

2. Метод обертки:

Методы оболочки являются стохастическими или, скорее, используют эвристику. На основе выведенных данных он решает, какие функции оставить, а какие выбросить. Здесь добавлены новые функции, чтобы повысить производительность модели. Но каждый раз модели требуется обучение и перекрестная проверка для каждой комбинации набора функций. Таким образом, это дорогостоящий метод. Ниже приведены несколько примеров метода оболочки.

  • Рекурсивное исключение признаков (RFE) - этот метод подходит для модели и удаляет самый слабый элемент, если не удовлетворяется указанное количество функций. Он ранжирует функции в соответствии с процессом исключения, выполняемым каждый раз, когда функции проверяются и отбрасываются.
  • Прямой выбор - этот метод начинается без модели элементов и продолжает добавлять переменные, чтобы улучшить производительность модели. Он продолжает добавлять переменные до тех пор, пока добавление переменных не перестанет улучшать производительность модели.
  • Обратный выбор - это полная противоположность описанному выше методу. Здесь мы начинаем со всех функций и пытаемся удалить самые нерелевантные функции и проверять производительность модели на каждой итерации. Этот процесс продолжается до тех пор, пока не будет видно никаких изменений.

3. Встроенный метод:

Встроенные методы изучают, какие функции лучше всего способствуют точности модели. Этот метод пытается объединить эффективность, а также качества обоих вышеупомянутых методов. Эти методы обладают встроенными методами выбора переменных. Ниже приведены несколько примеров.

  • Регрессия лассо (оператор наименьшего абсолютного сжатия и выбора) - также известна как регуляризация L1. Метод L1 используется для обобщенных линейных моделей. Это можно понимать как добавление штрафа к сложности для уменьшения проблемы переобучения. По сути, регуляризация - это процесс включения дополнительной информации, чтобы решить некорректно поставленные проблемы или избежать переобучения. Целевая функция для минимизации,

  • Риджевая регрессия - также известна как регуляризация L2. L2 вычисляет ошибку наименьших квадратов значений коэффициентов, но более чувствителен к выбросам. Разрозненных решений не дает. Он сводит к минимуму влияние неважных функций до значений, близких к нулю. Функция стоимости:

  • Эластичная чистая регрессия. Обучение выполняется с использованием как L1, так и L2, что позволяет изучать разреженную модель, в которой несколько записей не равны нулю, как у Лассо, а также сохранять свойства регуляризации, аналогичные регрессии Риджа.

Таким образом, использование вышеуказанных методов выбора признаков позволяет легко интерпретировать атрибуты. Это также помогает отбрасывать переменные с менее значимыми значениями, тем самым повышая точность прогнозов, эффективность модели, а также уменьшая временную сложность.