Meta AI Research: SAM 2.1 и CoTracker3

Искусственный интеллект (ИИ) — это область исследований, которая в последнее время вызывает волнение и энергию, с новыми инновациями и прорывами, появляющимися быстрее, чем когда-либо прежде. В последние несколько недель команда Meta Fundamental AI Research (FAIR) представила набор инструментов и моделей, направленных на решение задач в различных областях ИИ. Эти выпуски включают обновления, которые могут повлиять на такие разные области, как здравоохранение, робототехника и дополненная реальность.

Например, обновленная модель SAM 2.1 улучшает сегментацию объектов, облегчая точную идентификацию и разделение объектов на изображениях и видео. В то же время CoTracker3 уделяет особое внимание отслеживанию точек, помогая track их в видеокадрах даже при перемещении или частичном перекрытии объектов.

Meta также представила более легкие и быстрые версии своей языковой модели Llama для эффективного использования на устройстве, а также новую технологию тактильного зондирования для робототехники. В этой статье мы разберем последние выпуски от Meta FAIR, рассмотрев, что предлагает каждый инструмент. Давайте начнем!

Расширенная модель Segment Anything Model от Meta: SAM 2.1

Сегментация объектов- одна из ключевых задач компьютерного зрения- позволяет идентифицировать и разделять отдельные объекты на изображении или видео, облегчая анализ конкретных областей, представляющих интерес. С момента своего выпуска модель Segment Anything Model 2 (SAM 2) компании Meta используется для сегментации объектов в различных областях, таких как медицинская визуализация и метеорология. Основываясь на отзывах сообщества, Meta представила SAM 2.1 - улучшенную версию, призванную решить некоторые проблемы, возникшие в оригинальной модели, и обеспечить более высокую производительность в целом.

__wf_reserved_inherit — Рис. 1. Бенчмаркинг производительности модели SAM 2.1.

‍

SAM 2.1 содержит обновления, позволяющие лучше справляться с визуально похожими и более мелкими объектами благодаря новым методам увеличения данных. Кроме того, модель лучше справляется с окклюзией (когда часть объекта скрыта от глаз), обучаясь на более длинных видеопоследовательностях, что позволяет ей "запоминать" и распознавать объекты в течение долгого времени, даже если они временно заблокированы. Например, если кто-то снимает видео человека, идущего за деревом, SAM 2.1 может track человека, когда он снова появляется с другой стороны, используя свою память о положении и движении объекта, чтобы заполнить пробелы, когда обзор ненадолго прерывается.

Наряду с этими обновлениями Meta выпустила пакет SAM 2 Developer Suite, предоставляющий учебный код с открытым исходным кодом и полную демонстрационную инфраструктуру, чтобы разработчики могли доработать SAM 2.1 с помощью собственных данных и интегрировать его в ряд приложений.

CoTracker3: модель отслеживания Meta, ее функции и обновления

Еще одна интересная задача компьютерного зрения - отслеживание точек. Она заключается в отслеживании определенных точек или особенностей на нескольких кадрах видео. Рассмотрим видео, на котором велосипедист едет по track - отслеживание точек позволяет модели track точки на велосипедисте, такие как шлем или колеса, даже если они на мгновение скрыты препятствиями.

Отслеживание точек необходимо для таких приложений, как 3D-реконструкция, робототехника и редактирование видео. Традиционные модели часто полагаются на сложные настройки и большие синтетические наборы данных, что ограничивает их эффективность при применении к реальным сценариям.

Модель отслеживания CoTracker3 от Meta решает эти ограничения, упрощая архитектуру модели. Она также представляет собой псевдо-метод маркировки, который позволяет модели учиться на реальных, неаннотированных видео, что делает CoTracker3 более эффективной и масштабируемой для практического использования.

‍

Одна из особенностей CoTracker3 заключается в том, что он хорошо справляется с окклюзиями. Используя track внимание - технику, которая позволяет модели обмениваться информацией по нескольким отслеживаемым точкам, - CoTracker3 может определять положение скрытых точек, ссылаясь на видимые. Благодаря этому CoTracker3 может быть очень эффективен в динамичных средах, например, при слежении за человеком в толпе.

CoTracker3 также предлагает онлайн и офлайн режимы. Онлайн-режим обеспечивает отслеживание в реальном времени. В то время как автономный режим можно использовать для более полного отслеживания по всей видеопоследовательности, что идеально подходит для таких задач, как редактирование видео или анимация.

Другие обновления и исследования от Meta FAIR

В то время как SAM 2.1 и CoTracker3 демонстрируют последние достижения Meta в области компьютерного зрения, есть также интересные обновления в других областях ИИ, таких как обработка естественного языка (NLP) и робототехника. Давайте посмотрим на некоторые из этих последних разработок Meta FAIR.

Spirit LM от Meta: инновации в области ИИ в языковых и мультимодальных моделях

Spirit LM от Meta — это новая мультимодальная языковая модель, которая сочетает в себе возможности текста и речи, делая взаимодействие с ИИ более естественным. В отличие от традиционных моделей, которые обрабатывают только текст или только речь, Spirit LM может плавно переключаться между ними.

Spirit LM способен понимать и генерировать язык способами, которые кажутся более человечными. Например, он может улучшить виртуальных помощников, которые могут как слушать, так и отвечать на устном или письменном языке, или поддерживать инструменты для обеспечения доступности, которые преобразуют речь в текст и наоборот.

‍

Кроме того, Meta разработала методы повышения эффективности больших языковых моделей. Один из них, называемый Layer Skip, помогает снизить вычислительные потребности и энергозатраты, активируя только те слои, которые необходимы для данной задачи. Это особенно полезно для приложений на устройствах с ограниченным объемом памяти и энергопотреблением.

Развивая необходимость развертывания AI приложений на таких устройствах, Meta также выпустила квантованные версии своих моделей Llama. Эти модели сжаты для более быстрой работы на мобильных устройствах без ущерба для точности.

Взгляд в будущее оптимизации с Meta Lingua

По мере того, как AI-модели растут в размерах и сложности, оптимизация процесса их обучения становится критически важной. В отношении оптимизации Meta представила Meta Lingua, гибкую и эффективную кодовую базу, которая упрощает обучение больших языковых моделей. Модульная конструкция Meta Lingua позволяет исследователям быстро настраивать и масштабировать свои эксперименты.

Исследователи могут тратить меньше времени на техническую настройку и больше времени на фактические исследования. Кодовая база также легкая и простая в интеграции, что делает ее подходящей как для небольших экспериментов, так и для масштабных проектов. Устраняя эти технические препятствия, Meta Lingua помогает исследователям быстрее добиваться прогресса и с большей легкостью тестировать новые идеи.

‍

Улучшения Meta в области безопасности AI

По мере развития технологии квантовых вычислений она создает новые проблемы для защиты данных. В отличие от современных компьютеров, квантовые компьютеры, вероятно, смогут решать сложные вычисления гораздо быстрее. Это означает, что они потенциально могут взломать методы шифрования, используемые в настоящее время для защиты конфиденциальной информации. Вот почему исследования в этой области становятся все более важными — разработка новых способов защиты данных имеет важное значение, поскольку мы готовимся к будущему квантовых вычислений.

Для решения этой проблемы Meta разработала Salsa, инструмент, направленный на усиление постквантовой криптографической безопасности. Salsa помогает исследователям тестировать атаки на основе AI и выявлять потенциальные слабые места, позволяя им лучше понимать и устранять уязвимости в криптографических системах. Моделируя сложные сценарии атак, Salsa предоставляет ценную информацию, которая может направлять разработку более надежных и устойчивых мер безопасности для квантовой эры.

AI в Meta: последние инновации в робототехнике

Последние разработки Meta в области робототехники направлены на то, чтобы помочь искусственному интеллекту более естественно взаимодействовать с физическим миром, улучшая восприятие прикосновений, ловкость рук и взаимодействие с человеком. В частности, Meta Digit 360 - это усовершенствованный тактильный датчик, который наделяет роботов утонченным чувством осязания. Сенсоры помогают роботам detect такие детали, как текстура, давление и даже форма объектов. Благодаря этому роботы могут более точно управлять объектами, что крайне важно в таких областях, как здравоохранение и производство.

Вот некоторые из ключевых особенностей Meta Digit 360:

Он оснащен 18 различными функциями зондирования, чтобы иметь возможность фиксировать широкий спектр тактильных деталей.
‍
Датчик может detect изменения давления до 1 миллиньютона, что позволяет роботам реагировать на тонкие текстуры и едва уловимые движения.
‍
Он включает в себя более 8 миллионов такселей (крошечных точек зондирования) на поверхности кончика пальца, обеспечивая карту тактильной информации с высоким разрешением.

Расширением Meta Digit 360 является Meta Digit Plexus, платформа, которая объединяет различные сенсорные датчики на одной роботизированной руке. Эта установка позволяет роботам обрабатывать тактильную информацию из нескольких точек одновременно, подобно тому, как человеческие руки собирают сенсорные данные.

‍

Подготовка почвы для следующей главы AI

Последние обновления Meta в области ИИ, начиная от достижений в компьютерном зрении с SAM 2.1 и CoTracker3 и заканчивая новыми разработками в области языковых моделей и робототехники, показывают, как ИИ неуклонно переходит от теории к практическим, эффективным решениям.

Эти инструменты призваны сделать AI более адаптируемым и полезным в различных областях, помогая во всем, от сегментации сложных изображений до понимания человеческого языка и даже работы вместе с нами в физическом пространстве.

Уделяя приоритетное внимание доступности и применению в реальном мире, Meta FAIR приближает нас к будущему, в котором AI сможет решать реальные задачи и значимо улучшать нашу повседневную жизнь.

Вам интересен AI? Присоединяйтесь к нашему сообществу, чтобы получать последние обновления и аналитические данные, а также ознакомьтесь с нашим репозиторием GitHub. Вы также можете узнать, как компьютерное зрение можно использовать в таких отраслях, как автомобили с автоматическим управлением и сельское хозяйство!

Новые исследования в области ИИ от Meta FAIR: SAM 2.1 и CoTracker3

Расширенная модель Segment Anything Model от Meta: SAM 2.1

CoTracker3: модель отслеживания Meta, ее функции и обновления

Другие обновления и исследования от Meta FAIR

Spirit LM от Meta: инновации в области ИИ в языковых и мультимодальных моделях

Взгляд в будущее оптимизации с Meta Lingua

Улучшения Meta в области безопасности AI

AI в Meta: последние инновации в робототехнике

Подготовка почвы для следующей главы AI

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Инструменты Vision AI для диагностики в здравоохранении

От данных к решениям: использование искусственного интеллекта для разработки корпоративной стратегии

Давайте строить будущее
ИИ вместе!

Новые исследования в области ИИ от Meta FAIR: SAM 2.1 и CoTracker3

Расширенная модель Segment Anything Model от Meta: SAM 2.1

CoTracker3: модель отслеживания Meta, ее функции и обновления

Другие обновления и исследования от Meta FAIR

Spirit LM от Meta: инновации в области ИИ в языковых и мультимодальных моделях

Взгляд в будущее оптимизации с Meta Lingua

Улучшения Meta в области безопасности AI

AI в Meta: последние инновации в робототехнике

Подготовка почвы для следующей главы AI

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Инструменты Vision AI для диагностики в здравоохранении

От данных к решениям: использование искусственного интеллекта для разработки корпоративной стратегии

Давайте строить будущее ИИ вместе!

Давайте строить будущее
ИИ вместе!