Мое общее понимание статьи Segment Anything, опубликованной Meta AI Research.

✨ Краткий обзор

Segment Anything — это проект Meta AI Research, целью которого является создание основной модели для сегментации изображений. Это модель на основе подсказок, предварительно обученная на обширном наборе данных с использованием задачи для обобщения.

Этот проект имеет 3 основных компонента, вытекающих из модели — задача, модель и данные. В документе рассматриваются 3 исследовательских вопроса, каждый из которых связан с одним из компонентов для разработки модели сегментации.

  1. какая задача позволит обобщить с нуля?
  2. какова соответствующая архитектура model?
  3. какие данные могут помочь в этой задаче и модели?

Они начинают с определения оперативной задачи сегментации, которая носит довольно общий характер и обеспечивает надежную цель для предварительного обучения, позволяющую использовать широкий спектр приложений. Для этой задачи требуется модель, которая может адаптироваться к гибким подсказкам и маскам сегментации вывода в режиме реального времени для интерактивного использования. Для обучения надежной модели крайне важен обширный набор данных.

✨ Задача

Вдохновленный недавней тенденцией и достижениями в методах подсказок, в документе предлагается задача сегментации с подсказками, целью которой является получение действительной маски сегментации на основе заданной подсказки сегментации.

В подсказке просто указывается что сегментировать в предоставленном изображении. Он может включать некоторую пространственную или текстовую информацию, которая может помочь в идентификации объекта.

Требование к допустимой выходной маске заключалось в том, что вывод должен быть разумной маской по крайней мере для одного объекта, даже если подсказка неоднозначна и может относиться к нескольким объектам.

✨ Модель

Задача сегментации с подсказками и конечная цель реального использования накладывают ограничения на модель — модель должна поддерживать гибкие подсказки и вычислять маски в реальном времени для обеспечения интерактивности, не допуская двусмысленности.

Исследователи пришли к выводу, что простой дизайн удовлетворяет всем трем ограничениям:

  • мощный кодировщик изображений вычисляет все встраивания изображений
  • кодировщик подсказок встраивает подсказку
  • эти два источника информации объединены в облегченном декодере маски, который предсказывает маски сегментации.

Это называется моделью Segment Anything (SAM). Преимущество разделения SAM на эти компоненты позволяет повторно использовать одну и ту же кодировку изображения с разными подсказками. Чтобы SAM учитывал двусмысленность, исследователи разработали его для прогнозирования нескольких масок для любого заданного запроса, что позволяет SAM естественным образом обрабатывать двусмысленность.

✨ Механизм обработки данных

Для достижения обобщения было важно обучить SAM на крупномасштабном и разнообразном наборе данных. В отличие от типичного подхода к моделям фундаментов, исследователи не могли получить данные онлайн, поскольку масок не так уж много.

Их подход заключался в создании «движка данных», в котором они совместно разработали свою модель с аннотацией набора данных «модель в цикле». Механизм данных имеет три этапа — ручной, полуавтоматический и полностью автоматический.

На первом этапе SAM помогает аннотаторам аннотировать маски, аналогично классической настройке интерактивной сегментации. Однако на втором этапе SAM может автоматически генерировать маски для подмножества объектов, предлагая ему возможные местоположения объектов, а аннотаторы фокусируются на оставшихся объектах. Наконец, на третьем этапе исследователи предложили SAM регулярную сетку точек переднего плана со средним выходом ~ 100 высококачественных масок на изображение.

✨ Набор данных

Окончательный сгенерированный набор данных называется «SA-1B», который включает более 1,1 миллиарда масок — миллиард с буквой b — из примерно 11 миллионов изображений. Набор данных был полностью собран на последнем (третьем) этапе обработки данных и содержит более чем в 400 раз больше масок, чем любой существующий набор данных сегментации — это, мягко говоря, огромный скачок.

✨ Будущая работа

Здорово, что команда Meta AI Research сделала эту модель с открытым исходным кодом и общедоступной. Хотя в целом модель работает достаточно хорошо, это не идеальное решение. Есть модели, которые работают лучше, но они либо ограничены определенной нишей, либо требуют больших вычислительных ресурсов, либо и то, и другое. Но SAM работает в диверсифицированном варианте использования и эффективен. Хотя SAM еще не является базовой моделью, с присоединившимся сообществом мы увидим некоторые огромные достижения, основанные на SAM и SA-1B, и SAM станет одной из базовых моделей для сегментации изображений.

✨ Источник

Сегментируйте что угодно (от Meta AI Research) [segment-anything.com]

✨ Сноска

Привет, надеюсь, вам понравился пост в блоге. Это был просто обзор SAM, в документе подробно обсуждается каждый из компонентов и методология, используемая для разработки SAM. Вы можете прочитать его и получить более глубокие знания.

Рассмотрите возможность подписаться на меня в Medium, Twitter и других платформах, чтобы узнать больше о продуктивности, дизайне и коде.

Twitter | Medium | LinkedIn | Bio Link