Краткий обзор сегментации чего угодно

Мое общее понимание статьи Segment Anything, опубликованной Meta AI Research.

✨ Краткий обзор

Segment Anything — это проект Meta AI Research, целью которого является создание основной модели для сегментации изображений. Это модель на основе подсказок, предварительно обученная на обширном наборе данных с использованием задачи для обобщения.

Этот проект имеет 3 основных компонента, вытекающих из модели — задача, модель и данные. В документе рассматриваются 3 исследовательских вопроса, каждый из которых связан с одним из компонентов для разработки модели сегментации.

какая задача позволит обобщить с нуля?
какова соответствующая архитектура model?
какие данные могут помочь в этой задаче и модели?

Они начинают с определения оперативной задачи сегментации, которая носит довольно общий характер и обеспечивает надежную цель для предварительного обучения, позволяющую использовать широкий спектр приложений. Для этой задачи требуется модель, которая может адаптироваться к гибким подсказкам и маскам сегментации вывода в режиме реального времени для интерактивного использования. Для обучения надежной модели крайне важен обширный набор данных.

✨ Задача

Вдохновленный недавней тенденцией и достижениями в методах подсказок, в документе предлагается задача сегментации с подсказками, целью которой является получение действительной маски сегментации на основе заданной подсказки сегментации.

В подсказке просто указывается что сегментировать в предоставленном изображении. Он может включать некоторую пространственную или текстовую информацию, которая может помочь в идентификации объекта.

Требование к допустимой выходной маске заключалось в том, что вывод должен быть разумной маской по крайней мере для одного объекта, даже если подсказка неоднозначна и может относиться к нескольким объектам.

✨ Модель

Задача сегментации с подсказками и конечная цель реального использования накладывают ограничения на модель — модель должна поддерживать гибкие подсказки и вычислять маски в реальном времени для обеспечения интерактивности, не допуская двусмысленности.

Исследователи пришли к выводу, что простой дизайн удовлетворяет всем трем ограничениям:

мощный кодировщик изображений вычисляет все встраивания изображений
кодировщик подсказок встраивает подсказку
эти два источника информации объединены в облегченном декодере маски, который предсказывает маски сегментации.

Это называется моделью Segment Anything (SAM). Преимущество разделения SAM на эти компоненты позволяет повторно использовать одну и ту же кодировку изображения с разными подсказками. Чтобы SAM учитывал двусмысленность, исследователи разработали его для прогнозирования нескольких масок для любого заданного запроса, что позволяет SAM естественным образом обрабатывать двусмысленность.

✨ Механизм обработки данных

Для достижения обобщения было важно обучить SAM на крупномасштабном и разнообразном наборе данных. В отличие от типичного подхода к моделям фундаментов, исследователи не могли получить данные онлайн, поскольку масок не так уж много.

Их подход заключался в создании «движка данных», в котором они совместно разработали свою модель с аннотацией набора данных «модель в цикле». Механизм данных имеет три этапа — ручной, полуавтоматический и полностью автоматический.

На первом этапе SAM помогает аннотаторам аннотировать маски, аналогично классической настройке интерактивной сегментации. Однако на втором этапе SAM может автоматически генерировать маски для подмножества объектов, предлагая ему возможные местоположения объектов, а аннотаторы фокусируются на оставшихся объектах. Наконец, на третьем этапе исследователи предложили SAM регулярную сетку точек переднего плана со средним выходом ~ 100 высококачественных масок на изображение.

✨ Набор данных

Окончательный сгенерированный набор данных называется «SA-1B», который включает более 1,1 миллиарда масок — миллиард с буквой b — из примерно 11 миллионов изображений. Набор данных был полностью собран на последнем (третьем) этапе обработки данных и содержит более чем в 400 раз больше масок, чем любой существующий набор данных сегментации — это, мягко говоря, огромный скачок.

✨ Будущая работа

Здорово, что команда Meta AI Research сделала эту модель с открытым исходным кодом и общедоступной. Хотя в целом модель работает достаточно хорошо, это не идеальное решение. Есть модели, которые работают лучше, но они либо ограничены определенной нишей, либо требуют больших вычислительных ресурсов, либо и то, и другое. Но SAM работает в диверсифицированном варианте использования и эффективен. Хотя SAM еще не является базовой моделью, с присоединившимся сообществом мы увидим некоторые огромные достижения, основанные на SAM и SA-1B, и SAM станет одной из базовых моделей для сегментации изображений.

✨ Источник

Сегментируйте что угодно (от Meta AI Research) [segment-anything.com]

✨ Сноска

Привет, надеюсь, вам понравился пост в блоге. Это был просто обзор SAM, в документе подробно обсуждается каждый из компонентов и методология, используемая для разработки SAM. Вы можете прочитать его и получить более глубокие знания.

Рассмотрите возможность подписаться на меня в Medium, Twitter и других платформах, чтобы узнать больше о продуктивности, дизайне и коде.

Twitter | Medium | LinkedIn | Bio Link

материалы по теме:

Новые материалы

Отслеживание состояния с течением времени с дифференцированием снимков

Время от времени что-то происходит и революционизирует часть моего рабочего процесса разработки. Что-то более забавное вместо типичного утомительного и утомительного процесса разработки. В..

Я предполагаю, что вы имеете в виду методы обработки категориальных данных.

Я предполагаю, что вы имеете в виду методы обработки категориальных данных. Пожалуйста, проверьте мой пост Инструментарий специалиста по данным для кодирования категориальных переменных в..

Игра в прятки с данными

Игра в прятки с данными Я хотел бы, чтобы вы сделали мне одолжение и ответили на следующие вопросы. Гуглить можно в любое время, здесь никто не забивается. Сколько регионов в Гане? А как..

«Раскрытие математических рассуждений с помощью Microsoft MathPrompter и моделей больших языков»

TL;DR: MathPrompter от Microsoft показывает, как использовать математические рассуждения с большими языковыми моделями; 4-этапный процесс для улучшения доверия и рассуждений в математических..

Раскройте свой потенциал в области разработки мобильных приложений: Абсолютная бесплатная серия

Глава 6: Работа в сети и выборка данных Глава 1: Введение в React Native Глава 2: Основы React Native Глава 3: Создание пользовательского интерфейса с помощью React Native Глава 4:..

Все о кейсах: Camel, Snake, Kebab & Pascal

В программировании вы сталкивались с ними при именовании переменной, класса или функции. Поддержание согласованности типов и стилей случаев делает ваш код более читабельным и облегчает совместную..

Как работает дистанционное парное программирование и почему оно может изменить вашу жизнь

Серебряная пуля от одиночества и отвлекающих факторов во время обучения программированию Независимо от того, работаете ли вы или учитесь удаленно, велика вероятность, что одиночество и..

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Tech Javascript Development Javascript Tips Cybersecurity Data Development Learning ChatGPT Angular Algorithms Neural Networks CSS NLP Productivity Golang Developer Startup Vuejs Reactjs Reinforcement Learning Computer Vision