Простая линейная регрессия и градиентный спуск за 5 минут

Мысли вслух, Борис Крюк

Базовые концепты

Позвольте представить вам уравнение прямой на плоскости: y=kx+b. Так получилось, что многие переменные в мире связаны именно линейной зависимостью.

Конечно, в действительности данные никогда не бывают «чистыми». При построении двух наборов на диаграмме рассеяния мы получаем набор точек, в которых можно найти общий тренд (1).

Таким образом, наше «линейное уравнение» преобразуется в уравнение вида: Y=kx+b+ę. Добавленный параметр ę означает ошибку для каждой точки множества, так как мы «приближаем результат к истине».

Можно ли измерить «силу» линейной зависимости?

Да. Самый простой способ — коэффициент корреляции Пирсона r (2). Если r стремится к 1, мы заключаем, что линейная корреляция сильная. Если r стремится к -1, мы заключаем, что отрицательная линейная корреляция является сильной. Если r = 0, мы заключаем, что переменные линейно некоррелированы.

Задача инженера по машинному обучению — подобрать коэффициенты (k; b) для получения наиболее точного результата аппроксимации. В машинном обучении для этого есть термин: функция стоимости (3). Другими словами, наша задача состоит в том, чтобы минимизировать функцию стоимости.

Как минимизировать функцию стоимости?

Градиентный спуск — это самый простой алгоритм нахождения коэффициентов простой линейной регрессии, чтобы функция стоимости (J) принимала наименьшее значение. Работает это так: мы постоянно обновляем коэффициенты (k;b) следующим образом (4) до сходимости. Альфа означает скорость обучения, которую устанавливает инженер. У сходимости есть четкое определение: если обновление функции стоимости (J) принимает значение меньше, чем Ę=0,001 за цикл, мы объявляем сходимость и считаем, что коэффициенты (k; b) близки к глобальному минимуму функции (5). Таким образом, мы находим коэффициенты (реализации оценок k и b, говоря научным языком), чтобы функция стоимости (J) принимала глобальный минимум.

Делаем градиентный спуск быстрее

При вычислении коэффициентов градиентного спуска вычисляется производная функции (производная — это наклон касательной функции в заданной точке). Именно поэтому мы можем представить, что алгоритм (Градиентный спуск) ищет способ соскользнуть на дно ямы (глобальный минимум функции). Если данные имеют разные масштабы, яма может иметь вид (6), неудобный для сползания вниз. Оказывается, этот вопрос можно решить, «выровняв» границы карьера путем преобразования данных (7). Для этого необходимо привести данные к одному порядку (процесс называется масштабированием признаков).

Есть много способов выполнить этот шаг, но сейчас мы разберем один из самых простых и эффективных: нормализацию Z-показателя. Таким образом, применяя следующие шаги (8) для каждого числа в наборе, мы приводим данные к более однородному состоянию и увеличиваем скорость Градиентного спуска.

Крюк Борис

материалы по теме:

Новые материалы

Упростите преобразование единиц измерения с помощью нашего универсального API преобразования

В современном быстро меняющемся цифровом мире разработчики и пользователи часто сталкиваются с необходимостью конвертировать единицы измерения для различных целей. Независимо от того, создаете ли..

OpenSergo и ShardingSphere от Alibaba Cloud выпускают стандарт управления базами данных для микросервисов…

Фон Недавно компании Alibaba Cloud OpenSergo и ShardingSphere совместно выпустили стандарт управления базами данных для микросервисов. Объединив концепции Database Plus и Database Mesh..

Многопоточность и Executor Framework в Java

Многопоточность и Executor Framework в Java Зачем вообще нужна многопоточность? Потому что современные приложения постоянно создают сложные проблемы с аппаратным обеспечением в..

Неделя 1 — Проект ЛИСТЬЯ

Введение Название проекта происходит от метафоры листа, эта метафора построена на отношениях дерева и листа. Дерево — это ссылка на страну, а ученик — это ссылка на лист. Студент так же важен..

Javascript — Обещание

Что такое Обещание? Согласно определению ecma-262: (Промис — это объект, который используется в качестве заполнителя для конечных результатов отложенных (и, возможно, асинхронных) вычислений.)..

OpenAI исследовал влияние GPT4 на рынок труда

OpenAI исследовал влияние GPT4 на рынок труда Это исследование составило список профессий и уровень их воздействия с появлением LLM и генеративного ИИ. LLM сами по себе эффективны, но..

Что вам не говорят о том, как стать разработчиком программного обеспечения — часть 1

Написано Майклом Роде 7 августа 2016 г. Часть 1: Техническая сторона "Конечно, на это у меня уйдет всего две недели". Это цитата из моего разговора с моим будущим начальником около 3,5..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Computer Science Javascript Development Javascript Tips Cybersecurity Typescript Tech Development Learning Data Angular Productivity ChatGPT Golang Neural Networks Algorithms NLP Developer Reactjs CSS Reinforcement Learning Startup Computer Vision Vuejs