Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Vision AI

Обновления в области исследований ИИ от Meta FAIR: SAM 2.1 и CoTracker3

Исследуй последние модели ИИ от Meta FAIR, SAM 2.1 и CoTracker3, предлагающие расширенные возможности сегментации и отслеживания для разнообразных реальных приложений.

АБАбирами Вина
5 min read
Исследования ИИ от Meta FAIR: SAM 2.1 и CoTracker3

Искусственный интеллект (ИИ) — это область исследований, которая в последнее время наполнена энергией и энтузиазмом: новые инновации и прорывы появляются быстрее, чем когда-либо. За последние несколько недель команда Fundamental AI Research (FAIR) компании Meta представила набор инструментов и моделей, направленных на решение задач в различных областях ИИ. Эти релизы включают обновления, которые могут повлиять на такие разнообразные сферы, как здравоохранение, робототехника и дополненная реальность.

Например, обновленная модель SAM 2.1 улучшает сегментацию объектов, упрощая процесс точного распознавания и выделения объектов на изображениях и видео. В то же время CoTracker3 фокусируется на отслеживании точек, помогая удерживать их в поле зрения в кадрах видео, даже когда объекты перемещаются или частично скрыты.

Meta также представила более легкие и быстрые версии своей языковой модели Llama для эффективного использования на устройствах, наряду с новой технологией тактильного восприятия для робототехники. В этой статье мы разберем последние релизы от Meta FAIR и рассмотрим возможности каждого инструмента. Давай приступим!

Link to this sectionУлучшенная модель Segment Anything Model от Meta: SAM 2.1#

Сегментация объектов — ключевая задача компьютерного зрения, которая позволяет идентифицировать и отделять отдельные объекты внутри изображения или видео, упрощая анализ конкретных областей интереса. С момента выпуска Segment Anything Model 2 (SAM 2) от Meta использовалась для сегментации объектов в различных областях, таких как медицинская визуализация и метеорология. Опираясь на отзывы сообщества, Meta представила SAM 2.1 — улучшенную версию, разработанную для решения проблем, с которыми сталкивались при работе с исходной моделью, и обеспечивающую более высокую общую производительность.

Бенчмаркинг производительности модели SAM 2.1

Рис 1. Бенчмаркинг производительности модели SAM 2.1.

SAM 2.1 включает обновления для лучшей обработки визуально схожих и мелких объектов благодаря новым методам аугментации данных. Модель также лучше справляется с окклюзией (когда части объекта скрыты из виду) за счет обучения на более длинных видеопоследовательностях, что позволяет ей «запоминать» и распознавать объекты с течением времени, даже если они временно перекрыты. Например, если кто-то снимает видео человека, проходящего за деревом, SAM 2.1 может отслеживать человека, когда он появляется с другой стороны, используя свою память о положении объекта и движении, чтобы заполнить пробелы, если обзор был кратковременно прерван.

Наряду с этими обновлениями Meta выпустила SAM 2 Developer Suite, предоставляющий открытый код для обучения и полноценную инфраструктуру для демонстрации, чтобы разработчики могли дообучать SAM 2.1 на своих собственных данных и интегрировать её в широкий спектр приложений.

Link to this sectionCoTracker3: модель отслеживания от Meta, её функции и обновления#

Ещё одна интересная задача компьютерного зрения — отслеживание точек. Она включает в себя сопровождение конкретных точек или признаков через несколько кадров видео. Представь видео с велосипедистом, едущим по трассе: отслеживание точек позволяет модели удерживать точки на велосипедисте, например, на шлеме или колесах, даже если они на мгновение скрыты препятствиями.

Отслеживание точек необходимо для таких приложений, как 3D-реконструкция, робототехника и монтаж видео. Традиционные модели часто полагаются на сложные настройки и большие синтетические наборы данных, что ограничивает их эффективность при применении в реальных сценариях.

Модель отслеживания CoTracker3 от Meta решает эти ограничения за счет упрощения архитектуры модели. Она также внедряет метод псевдо-разметки, который позволяет модели обучаться на реальных, неаннотированных видео, что делает CoTracker3 более эффективной и масштабируемой для практического использования.

Сравнение CoTracker3 с другими моделями отслеживания

Рис 2. Сравнение CoTracker3 с другими моделями отслеживания.

Одной из особенностей, выделяющих CoTracker3, является способность хорошо обрабатывать окклюзии. Используя cross-track attention — метод, позволяющий модели обмениваться информацией между несколькими отслеживаемыми точками, — CoTracker3 может выводить позиции скрытых точек, ссылаясь на видимые. Благодаря этому CoTracker3 разработана для высокой эффективности в динамических средах, таких как сопровождение человека в переполненной толпе.

CoTracker3 также предлагает как онлайн-, так и офлайн-режимы. Онлайн-режим обеспечивает отслеживание в реальном времени, а офлайн-режим можно использовать для более полного отслеживания по всей видеопоследовательности, что идеально подходит для таких задач, как монтаж видео или анимация.

Link to this sectionДругие обновления и исследования от Meta FAIR#

Хотя SAM 2.1 и CoTracker3 демонстрируют последние достижения Meta в области компьютерного зрения, существуют также захватывающие обновления в других областях ИИ, таких как обработка естественного языка (NLP) и робототехника. Давай взглянем на некоторые из этих других недавних разработок от Meta FAIR.

Link to this sectionSpirit LM от Meta: инновации ИИ в языковых и мультимодальных моделях#

Spirit LM от Meta — это новая мультимодальная языковая модель, которая объединяет возможности текста и речи, делая взаимодействие с ИИ более естественным. В отличие от традиционных моделей, которые обрабатывают только текст или только речь, Spirit LM может беспрепятственно переключаться между ними.

Spirit LM может понимать и генерировать язык способами, которые кажутся более человечными. Например, она может улучшить виртуальных помощников, которые могут как слушать, так и отвечать на разговорном или письменном языке, или поддержать инструменты доступности, которые преобразуют речь в текст и наоборот.

Пример преобразования текста в речь с использованием Meta Spirit LM

Рис 3. Пример преобразования текста в речь с использованием Meta Spirit LM.

Более того, Meta разработала методы повышения эффективности больших языковых моделей. Один из них, называемый Layer Skip, помогает снизить потребности в вычислениях и затраты энергии, активируя только те слои, которые необходимы для выполнения данной задачи. Это особенно полезно для приложений на устройствах с ограниченной памятью и мощностью.

Развивая необходимость развертывания приложений ИИ на таких устройствах, Meta также выпустила квантованные версии своих моделей Llama. Эти модели сжаты для более быстрой работы на мобильных устройствах без ущерба для точности.

Link to this sectionВзгляд в будущее оптимизации с Meta Lingua#

По мере того как AI модели растут в размере и сложности, оптимизация их процесса обучения становится критически важной. Что касается оптимизации, Meta представила Meta Lingua — гибкую и эффективную кодовую базу, которая упрощает обучение больших языковых моделей. Модульная архитектура Meta Lingua позволяет исследователям быстро настраивать и масштабировать свои эксперименты.

Исследователи могут тратить меньше времени на техническую настройку и больше времени на реальные исследования. Кодовая база также легкая и простая в интеграции, что делает её подходящей как для небольших экспериментов, так и для крупномасштабных проектов. Устраняя эти технические барьеры, Meta Lingua помогает исследователям быстрее продвигаться вперед и с большей легкостью тестировать новые идеи.

Обзор Meta Lingua

Рис 4. Обзор Meta Lingua.

Link to this sectionУлучшения безопасности ИИ от Meta#

По мере развития технологий квантовых вычислений они приносят новые вызовы для безопасности данных. В отличие от сегодняшних компьютеров, квантовые компьютеры, вероятно, смогут решать сложные вычисления намного быстрее. Это означает, что они потенциально могут взломать методы шифрования, которые в настоящее время используются для защиты конфиденциальной информации. Вот почему исследования в этой области становятся все более важными — разработка новых способов защиты данных необходима, пока мы готовимся к будущему квантовых вычислений.

Чтобы решить эту проблему, Meta разработала Salsa, инструмент, направленный на усиление постквантовой криптографической безопасности. Salsa помогает исследователям тестировать атаки на базе ИИ и выявлять потенциальные слабости, позволяя лучше понимать и устранять уязвимости в криптографических системах. Симулируя передовые сценарии атак, Salsa предоставляет ценную информацию, которая может направить разработку более сильных и устойчивых мер безопасности для квантовой эры.

Link to this sectionИИ в Meta: последние инновации в робототехнике#

Последние работы Meta в области робототехники сосредоточены на том, чтобы помочь ИИ более естественно взаимодействовать с физическим миром путем улучшения тактильного восприятия, ловкости и сотрудничества с людьми. В частности, Meta Digit 360 — это продвинутый тактильный датчик, который дает роботам утонченное чувство осязания. Датчики помогают роботам определять такие детали, как текстура, давление и даже формы объектов. Благодаря этому роботы могут манипулировать объектами с большей точностью, что критически важно в таких областях, как здравоохранение и производство.

Вот некоторые из ключевых особенностей, которые включает Meta Digit 360:

  • Он оснащен 18 различными сенсорными функциями, чтобы иметь возможность захватывать широкий спектр тактильных деталей.
  • Датчик может определять изменения давления силой всего в 1 миллиньютон, позволяя роботам реагировать на тонкие текстуры и едва заметные движения.
  • Он включает более 8 миллионов такселей (крошечных сенсорных точек) по поверхности кончика пальца, обеспечивая карту тактильной информации высокого разрешения.

Расширением Meta Digit 360 является Meta Digit Plexus — платформа, которая интегрирует различные сенсоры касания в одну роботизированную руку. Эта настройка позволяет роботам обрабатывать тактильную информацию из нескольких точек одновременно, подобно тому, как человеческие руки собирают сенсорные данные.

Платформа тактильного зондирования Meta Digit Plexus

Рис 5. Meta Digit Plexus.

Link to this sectionГотовя почву для следующей главы ИИ#

Последние обновления ИИ от Meta, начиная от достижений в компьютерном зрении с SAM 2.1 и CoTracker3 до новых разработок в языковых моделях и робототехнике, показывают, как ИИ постепенно переходит от теории к практическим и эффективным решениям.

Эти инструменты созданы для того, чтобы сделать ИИ более адаптируемым и полезным в различных областях, помогая во всем: от сегментации сложных изображений до понимания человеческого языка и даже работы бок о бок с нами в физическом пространстве.

Уделяя приоритетное внимание доступности и реальным приложениям, Meta FAIR приближает нас к будущему, в котором ИИ сможет решать реальные задачи и значимо улучшать нашу повседневную жизнь.

Тебе любопытен ИИ? Присоединяйся к нашему сообществу для получения последних обновлений и инсайтов, а также загляни в наш репозиторий на GitHub. Ты также можешь изучить, как компьютерное зрение используется в таких отраслях, как беспилотные автомобили и сельское хозяйство!

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения