Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Vision AI

Изучаем SAM 3: новая модель Meta AI для сегментации объектов

Узнай, как SAM 3, новая модель Meta AI для сегментации объектов, упрощает обнаружение, сегментацию и отслеживание объектов на реальных изображениях и видео.

АБАбирами Вина
5 min read
SAM 3: модель Meta AI для сегментации объектов

19 ноября 2025 года Meta AI выпустила Segment Anything Model 3, также известную как SAM 3. Эта последняя версия модели Segment Anything представляет новые способы обнаружения, сегментации и отслеживания объектов на реальных изображениях и видео с использованием текстовых подсказок, визуальных подсказок и примеров изображений.

Модель SAM 3 создана на базе SAM и SAM 2 и предлагает новые достижения и функции, такие как концептуальная сегментация, обнаружение с открытым словарем и отслеживание видео в реальном времени. Она способна понимать короткие именные фразы, следить за объектами между кадрами и идентифицировать детализированные или редкие концепты, с которыми предыдущие модели не справлялись так стабильно.

В рамках релиза SAM 3 компания Meta также представила SAM 3D. Этот набор моделей нового поколения реконструирует объекты, сцены и целые человеческие фигуры по одному изображению, расширяя экосистему Segment Anything до 3D-понимания. Эти дополнения открывают новые возможности применения в компьютерном зрении, робототехнике, медиаредактировании и творческих рабочих процессах.

В этой статье мы разберемся, что такое SAM 3, чем она отличается от SAM 2, как работает эта модель и каковы ее реальные области применения. Давай начнем!

Link to this sectionЧто такое SAM 3? Взгляд на модель Segment Anything Model 3 от Meta#

SAM 3 — это современная модель компьютерного зрения, которая может идентифицировать, отделять и отслеживать объекты на изображениях и видео на основе простых инструкций. Вместо того чтобы полагаться на фиксированный список меток, SAM 3 понимает естественный язык и визуальные подсказки, что позволяет легко объяснить модели, что именно ты хочешь найти.

Например, с помощью SAM 3 ты можешь ввести короткую фразу, вроде «желтый школьный автобус» или «полосатый кот», кликнуть по объекту или выделить пример на изображении. Модель обнаружит все соответствующие объекты и создаст чистые маски сегментации (визуальный контур, точно показывающий, какие пиксели принадлежат объекту). SAM 3 также умеет сопровождать эти объекты в видеопотоке, сохраняя их идентификацию при движении.

Link to this sectionSAM 3D позволяет выполнять 3D-реконструкцию по одному изображению#

Еще одна захватывающая часть анонса Meta AI — это SAM 3D, которая расширяет проект Segment Anything до 3D-понимания. SAM 3D может взять одно 2D-изображение и реконструировать форму, позу или структуру объекта либо человеческого тела в трех измерениях. Другими словами, модель может оценить, как объект занимает пространство, даже если доступен только один ракурс.

SAM 3D была выпущена в виде двух разных моделей: SAM 3D Objects, которая реконструирует повседневные предметы с учетом геометрии и текстуры, и SAM 3D Body, которая оценивает форму человеческого тела и позу по одному изображению. Обе модели используют результат сегментации SAM 3, а затем создают 3D-представление, соответствующее внешнему виду и положению объекта на исходной фотографии.

Пример использования SAM 3D

Рис. 1. Пример использования SAM 3D. (Источник: Создано с помощью площадки Meta AI segment anything playground)

Link to this sectionSAM 3: новые функции для объединения обнаружения, сегментации и отслеживания#

Вот некоторые из ключевых обновлений, которые вводит SAM 3, чтобы объединить обнаружение, сегментацию и отслеживание в одну унифицированную модель:

  • Задачи концептуальной сегментации: В SAM и SAM 2 сегментация объектов зависела от визуальных подсказок, таких как клики или рамки. SAM 3 добавляет возможность сегментировать объекты на основе короткой текстовой фразы или примера (вырезки) из изображения. Это означает, что модель может идентифицировать все совпадающие экземпляры без необходимости кликать по каждому из них.
  • Текстовые подсказки с открытым словарем: В отличие от предыдущих версий, SAM 3 может интерпретировать короткие фразы на естественном языке. Это устраняет необходимость в фиксированном списке меток и позволяет модели работать с более специфическими или менее распространенными концептами.
  • Одна модель для обнаружения, сегментации и отслеживания: SAM 3 объединяет обнаружение, сегментацию и отслеживание в одну модель, исключая необходимость в отдельных системах для поиска объектов, генерации масок сегментации и их сопровождения в видеокадрах. Это создает более последовательный и оптимизированный рабочий процесс как для изображений, так и для видео, и хотя SAM 2 также предлагала некоторые возможности отслеживания, SAM 3 обеспечивает значительно более высокую и надежную производительность.
  • Более стабильные результаты в сложных сценах: Поскольку SAM 3 может комбинировать текст, примеры изображений и визуальные подсказки, она более надежно справляется с загроможденными или повторяющимися сценами, чем предыдущие версии, полагавшиеся только на визуальные клики.

Концептуальная сегментация SAM 3 с использованием примеров текста или изображений

Рис. 2. SAM 3 представляет концептуальную сегментацию с использованием текста или примеров изображений. (Источник)

Link to this sectionСравнение SAM 3, SAM 2 и SAM 1#

Допустим, ты смотришь видео о сафари с множеством разных животных и хочешь обнаружить и сегментировать только слонов. Как эта задача выглядела бы в разных версиях SAM?

С SAM тебе нужно было бы вручную кликать на каждого слона в каждом кадре, чтобы создать маску сегментации. Отслеживания нет, поэтому каждый новый кадр требует новых кликов.

С SAM 2 ты мог бы кликнуть один раз по слону, получить его маску, и модель отслеживала бы этого же слона на протяжении всего видео. Однако тебе все равно пришлось бы делать отдельные клики, если бы ты хотел сегментировать нескольких слонов (конкретные объекты), так как SAM 2 сама по себе не понимает такие категории, как «слон».

С SAM 3 рабочий процесс становится намного проще. Ты можешь ввести слово «слон» или нарисовать ограничивающую рамку вокруг одного слона, чтобы предоставить пример, и модель автоматически найдет всех слонов на видео, сегментирует и будет отслеживать их на всех кадрах. Она по-прежнему поддерживает клики и рамки, используемые в предыдущих версиях, но теперь также реагирует на текстовые подсказки и примеры изображений, чего SAM и SAM 2 делать не могли.

Link to this sectionКак работает модель SAM 3#

Далее давай подробнее рассмотрим, как работает модель SAM 3 и как она обучалась.

Link to this sectionОбзор архитектуры модели SAM 3#

SAM 3 объединяет несколько компонентов для поддержки концептуальных и визуальных подсказок в единой системе. В основе модели лежит Meta Perception Encoder — унифицированный кодировщик «изображение-текст» от Meta с открытым исходным кодом.

Этот кодировщик может обрабатывать как изображения, так и короткие именные фразы. Проще говоря, это позволяет SAM 3 связывать языковые и визуальные признаки более эффективно, чем предыдущие версии Segment Anything Model.

Поверх этого кодировщика в SAM 3 добавлен детектор, основанный на семействе моделей-трансформеров DETR. Этот детектор идентифицирует объекты на изображении и помогает системе определить, какие объекты соответствуют запросу пользователя.

В частности, для сегментации видео SAM 3 использует компонент отслеживания, построенный на основе банка памяти и кодировщика памяти из SAM 2. Это позволяет модели хранить информацию об объектах между кадрами, чтобы переидентифицировать и отслеживать их с течением времени.

Принцип работы сегментации чего угодно по концептам

Рис. 3. Как работает сегментация всего с помощью концептов (Источник: scontent)

Link to this sectionМасштабируемый движок данных для Segment Anything Model 3#

Для обучения SAM 3 компании Meta потребовалось гораздо больше аннотированных данных, чем существует в интернете. Качественные маски сегментации и текстовые метки сложно создавать в больших масштабах, а полное обведение каждого экземпляра концепта на изображениях и видео — процесс долгий и дорогой.

Чтобы решить эту проблему, Meta создала новый движок данных, который объединяет саму SAM 3, дополнительные AI-модели и работу аннотаторов-людей. Рабочий процесс начинается с конвейера AI-систем, включающего SAM 3 и модель создания подписей на базе Llama.

Эти системы сканируют большие коллекции изображений и видео, генерируют подписи, преобразуют их в текстовые метки и создают предварительные кандидаты масок сегментации. Затем люди и AI-аннотаторы проверяют эти кандидаты.

AI-аннотаторы, обученные соответствовать или даже превосходить точность человека в таких задачах, как проверка качества маски и верификация охвата концептов, отфильтровывают простые случаи. Люди подключаются только для более сложных примеров, с которыми модель все еще может испытывать трудности.

Механизм обработки данных SAM 3

Рис. 4. Движок данных SAM 3 (Источник)

Такой подход дает Meta значительный прирост скорости аннотирования. Благодаря тому, что AI-аннотаторы берут на себя простые случаи, конвейер становится примерно в пять раз быстрее при использовании негативных подсказок и на 36% быстрее при работе с позитивными подсказками в детализированных доменах.

Эта эффективность позволила масштабировать набор данных до более чем четырех миллионов уникальных концептов. Постоянный цикл предложений от AI, корректировок людьми и обновленных прогнозов модели со временем улучшает качество меток и помогает SAM 3 изучать гораздо более широкий набор визуальных и текстовых концептов.

Link to this sectionПовышение производительности SAM 3#

Что касается производительности, SAM 3 демонстрирует явное улучшение по сравнению с ранними моделями. На новом бенчмарке SA-Co от Meta, который оценивает обнаружение и сегментацию концептов с открытым словарем, SAM 3 показывает результат примерно в два раза выше предыдущих систем как на изображениях, так и на видео.

Она также не уступает или превосходит SAM 2 в интерактивных визуальных задачах, таких как point-to-mask и mask-to-masklet. Meta сообщает о дополнительных успехах в более сложных тестах, таких как zero-shot LVIS (где модели должны распознавать редкие категории без примеров обучения) и подсчет объектов (измерение того, обнаружены ли все экземпляры объекта), что подчеркивает более сильную способность к обобщению в разных областях.

В дополнение к этим улучшениям точности, SAM 3 эффективна: она обрабатывает изображение с более чем 100 обнаруженными объектами примерно за 30 миллисекунд на GPU H200 и поддерживает скорость, близкую к реальному времени, при отслеживании нескольких объектов на видео.

Link to this sectionОбласти применения Segment Anything Model 3#

Теперь, когда у нас есть лучшее представление о SAM 3, давай пройдемся по тому, как она используется в реальных приложениях: от продвинутых рассуждений на основе текста до научных исследований и собственных продуктов Meta.

Link to this sectionОбработка сложных текстовых запросов с помощью SAM 3 Agent#

SAM 3 также может использоваться как инструмент внутри более крупной мультимодальной языковой модели, которую Meta называет SAM 3 Agent. Вместо того чтобы давать SAM 3 короткую фразу вроде «слон», агент может разбивать более сложный вопрос на небольшие подсказки, понятные для SAM 3.

Например, если пользователь спрашивает: «Какой объект на картинке используется для управления и направления лошади?», агент пробует разные именные фразы, отправляет их в SAM 3 и проверяет, какие маски имеют смысл. Он продолжает уточнять запрос, пока не найдет нужный объект.

Даже без обучения на специальных наборах данных для рассуждений SAM 3 Agent хорошо показывает себя в бенчмарках, предназначенных для сложных текстовых запросов, таких как ReasonSeg и OmniLabel. Это показывает, что SAM 3 может поддерживать системы, которым требуется как понимание языка, так и детализированная визуальная сегментация.

Link to this sectionНаучные и природоохранные применения SAM 3#

Интересно, что SAM 3 уже используется в исследовательских целях, где важна детальная визуальная разметка. Meta совместно с Conservation X Labs и Osa Conservation создала SA-FARI, общедоступный набор данных мониторинга дикой природы, содержащий более 10 000 видео с фотоловушек.

Каждое животное в каждом кадре помечено рамками и масками сегментации — это заняло бы огромное количество времени при ручной разметке. Аналогично, в океанологических исследованиях SAM 3 используется вместе с FathomNet и MBARI для создания масок сегментации экземпляров для подводной съемки и поддержки новых оценочных бенчмарков.

Такие наборы данных помогают ученым более эффективно анализировать видеоматериалы, а также изучать животных и среду обитания, за которыми обычно трудно следить в широких масштабах. Исследователи могут также использовать эти ресурсы для создания собственных моделей для идентификации видов, анализа поведения и автоматизированного экологического мониторинга.

Link to this sectionКак Meta внедряет SAM 3 в свои продукты#

Помимо использования в исследованиях, SAM 3 обеспечивает работу новых функций и сценариев использования в потребительских продуктах Meta. Вот краткий обзор того, как она уже интегрируется:

  • Редактирование в Instagram: Авторы могут применять эффекты к конкретному человеку или объекту на видео без ручной покадровой обработки.
  • Приложение Meta AI и meta.ai в вебе: SAM 3 поддерживает новые инструменты для изменения, улучшения и ремикширования изображений и видео.
  • Функция «View in Room» в Facebook Marketplace: SAM 3 работает с SAM 3D, позволяя людям просматривать мебель или декор в своих домах с помощью одной фотографии.
  • Исследовательские очки Aria Gen 2: Segment Anything Model 3 помогает сегментировать и отслеживать руки и объекты с точки зрения первого лица, поддерживая исследования в области AR (дополненной реальности), робототехники и контекстного AI.

Link to this sectionОсновные выводы#

SAM 3 — это захватывающий шаг вперед в области сегментации. Она представляет концептуальную сегментацию, текстовые подсказки с открытым словарем и улучшенное отслеживание. Благодаря заметно более высокой производительности как на изображениях, так и на видео, а также дополнению SAM 3D, этот набор моделей открывает новые возможности для визуального AI, творческих инструментов, научных исследований и реальных продуктов.

Присоединяйся к нашему сообществу и изучай наш репозиторий на GitHub, чтобы узнать больше об AI. Если ты хочешь создать собственный проект в области компьютерного зрения, ознакомься с нашими вариантами лицензирования. Узнай больше о таких приложениях, как AI в здравоохранении и компьютерное зрение в ритейле, посетив страницы наших решений.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения