Новые исследования в области ИИ от Meta FAIR: SAM 2.1 и CoTracker3

Абирами Вина

5 минут чтения

4 ноября 2024 г.

Ознакомьтесь с новейшими моделями искусственного интеллекта от Meta FAIR - SAM 2.1 и CoTracker3, предлагающими расширенные возможности сегментации и отслеживания для различных реальных приложений.

Искусственный интеллект (ИИ) - область исследований, в которой в последнее время царит оживление и энергия, а новые инновации и прорывы появляются быстрее, чем когда-либо прежде. За последние несколько недель команда Meta's Fundamental AI Research (FAIR) представила набор инструментов и моделей, направленных на решение проблем в различных областях ИИ. Эти релизы включают обновления, которые могут повлиять на такие разные области, как здравоохранение, робототехника и дополненная реальность.

Например, обновленная модель SAM 2.1 улучшает сегментацию объектов, облегчая точную идентификацию и разделение объектов на изображениях и видео. В то же время CoTracker3 уделяет особое внимание отслеживанию точек, помогая сохранять их в видеокадрах даже при перемещении или частичном перекрытии объектов. 

Meta также представила более легкие и быстрые версии языковой модели Llama для эффективного использования на устройстве, а также новую технологию тактильного восприятия для робототехники. В этой статье мы расскажем о последних релизах Meta FAIR и рассмотрим, что предлагает каждый инструмент. Давайте начнем!

Расширенная модель Segment Anything Model от Meta: SAM 2.1

Сегментация объектов- одна из ключевых задач компьютерного зрения- позволяет идентифицировать и разделять отдельные объекты на изображении или видео, облегчая анализ конкретных областей, представляющих интерес. С момента своего выпуска Segment Anything Model 2 (SAM 2) компании Meta используется для сегментации объектов в различных областях, таких как медицинская визуализация и метеорология. Основываясь на отзывах сообщества, Meta представила SAM 2.1 - улучшенную версию, призванную решить некоторые проблемы, возникшие в оригинальной модели, и обеспечить более высокую производительность в целом.

__wf_reserved_inherit
Рис. 1. Бенчмаркинг производительности модели SAM 2.1.

SAM 2.1 содержит обновления, позволяющие лучше справляться с визуально похожими и более мелкими объектами благодаря новым методам увеличения данных. Кроме того, модель лучше справляется с окклюзией (когда часть объекта скрыта от глаз), обучаясь на более длинных видеопоследовательностях, что позволяет ей "запоминать" и распознавать объекты в течение долгого времени, даже если они временно заблокированы. Например, если кто-то снимает видео с человеком, идущим за деревом, SAM 2.1 может отследить его появление с другой стороны, используя свою память о положении и движении объекта, чтобы заполнить пробелы, когда обзор ненадолго прерывается.

Наряду с этими обновлениями Meta выпустила пакет SAM 2 Developer Suite, предоставляющий учебный код с открытым исходным кодом и полную демонстрационную инфраструктуру, чтобы разработчики могли доработать SAM 2.1 с помощью собственных данных и интегрировать его в ряд приложений.

CoTracker3: Модель отслеживания Meta, ее особенности и обновления

Еще одна интересная задача компьютерного зрения - отслеживание точек. Она заключается в отслеживании определенных точек или особенностей на нескольких кадрах видео. Рассмотрим видео, на котором велосипедист едет по дорожке - отслеживание точек позволяет модели отслеживать точки на велосипедисте, такие как шлем или колеса, даже если они на мгновение скрыты препятствиями.

Отслеживание точек необходимо для таких приложений, как 3D-реконструкция, робототехника и видеомонтаж. Традиционные модели часто опираются на сложные установки и большие синтетические наборы данных, что ограничивает их эффективность при применении в реальных сценариях. 

Модель отслеживания CoTracker3 компании Meta устраняет эти ограничения, упрощая архитектуру модели. В ней также представленатехника псевдомаркировки, позволяющая модели обучаться на реальных, неаннотированных видео, что делает CoTracker3 более эффективной и масштабируемой для практического использования.

__wf_reserved_inherit
Рис. 2. Сравнение CoTracker3 с другими моделями отслеживания.

Одна из особенностей CoTracker3 заключается в том, что он хорошо справляется с окклюзиями. Используя кросс-трековое внимание - технику, позволяющую модели обмениваться информацией по нескольким отслеживаемым точкам, - CoTracker3 может определять положение скрытых точек по ссылкам на видимые. Благодаря этому CoTracker3 может быть очень эффективен в динамичных средах, например, при слежении за человеком в толпе. 

CoTracker3 также предлагает онлайн и офлайн режимы. Онлайн-режим обеспечивает отслеживание в режиме реального времени. В то время как автономный режим может использоваться для более полного отслеживания всей видеопоследовательности, что идеально подходит для таких задач, как редактирование видео или анимация

Другие обновления и исследования от Meta FAIR

В то время как SAM 2.1 и CoTracker3 демонстрируют последние достижения Meta в области компьютерного зрения, есть также интересные обновления в других областях ИИ, таких как обработка естественного языка (NLP) и робототехника. Давайте посмотрим на некоторые из этих последних разработок Meta FAIR.

Дух Меты LM: инновации ИИ в языковых и мультимодальных моделях

Spirit LM от Meta - это новая мультимодальная языковая модель, которая сочетает в себе возможности работы с текстом и речью , что делает взаимодействие с ИИ более естественным. В отличие от традиционных моделей, которые работают только с текстом или только с речью, Spirit LM может плавно переключаться между ними. 

Spirit LM может понимать и генерировать язык таким образом, что он становится более похожим на человеческий. Например, он может улучшить работу виртуальных помощников, которые могут слушать и отвечать на устном или письменном языке, или поддерживать инструменты доступности, преобразующие речь в текст. 

__wf_reserved_inherit
Рис. 3. Пример преобразования текста в речь с использованием мета-спирита LM.

Кроме того, Meta разработала методы, позволяющие повысить эффективность больших языковых моделей. Одна из них, называемая Layer Skip, помогает сократить вычислительные потребности и энергозатраты, активируя только те слои, которые необходимы для решения конкретной задачи. Это особенно полезно для приложений на устройствах с ограниченной памятью и мощностью. 

Учитывая необходимость развертывания приложений искусственного интеллекта на таких устройствах, Meta также выпустила квантованные версии своих моделей Llama. Эти модели сжаты, чтобы быстрее работать на мобильных устройствах без потери точности

Взгляд на будущее оптимизации с помощью Meta Lingua

По мере роста размера и сложности моделей искусственного интеллекта оптимизация процесса их обучения приобретает решающее значение. Что касается оптимизации, то компания Meta представила Meta Lingua - гибкую и эффективную кодовую базу, которая упрощает обучение больших языковых моделей. Модульная конструкция Meta Lingua позволяет исследователям быстро настраивать и масштабировать свои эксперименты. 

Исследователи могут тратить меньше времени на техническую настройку и больше - на реальные исследования. Кроме того, кодовая база легка и проста в интеграции, что делает ее подходящей как для небольших экспериментов, так и для масштабных проектов. Устраняя эти технические препятствия, Meta Lingua помогает исследователям быстрее продвигаться вперед и с большей легкостью тестировать новые идеи.

__wf_reserved_inherit
Рис 4. Обзор Meta Lingua.

Усовершенствования Meta в области безопасности искусственного интеллекта

По мере развития технологии квантовых вычислений возникают новые проблемы с безопасностью данных. В отличие от современных компьютеров, квантовые компьютеры, вероятно, смогут решать сложные задачи гораздо быстрее. Это означает, что они могут взломать методы шифрования, используемые в настоящее время для защиты конфиденциальной информации. Именно поэтому исследования в этой области становятся все более важными - разработка новых способов защиты данных необходима, поскольку мы готовимся к будущему квантовых вычислений.

Для решения этой проблемы компания Meta разработала Salsa - инструмент, направленный на укрепление постквантовой криптографической безопасности. Salsa помогает исследователям тестировать атаки, управляемые искусственным интеллектом, и выявлять потенциальные слабости, что позволяет им лучше понять и устранить уязвимости криптографических систем. Моделируя продвинутые сценарии атак, Salsa позволяет получить ценные сведения, на основе которых можно разработать более надежные и устойчивые меры безопасности для квантовой эры.

ИИ на Мета: Последние инновации в области робототехники

Последние разработки Meta в области робототехники направлены на то, чтобы помочь искусственному интеллекту более естественно взаимодействовать с физическим миром, улучшая восприятие прикосновений, ловкость рук и взаимодействие с человеком. В частности, Meta Digit 360 - это усовершенствованный тактильный датчик, который наделяет роботов утонченным чувством осязания. Сенсоры помогают роботам определять такие детали, как текстура, давление и даже форма объектов. Благодаря этому роботы могут более точно управлять объектами, что крайне важно в таких областях, как здравоохранение и производство.

Вот некоторые ключевые особенности Meta Digit 360:

  • Он оснащен 18 различными чувствительными элементами, позволяющими улавливать широкий спектр тактильных деталей.
  • Датчик может определять изменения давления до 1 миллиньютона, что позволяет роботам реагировать на тонкие текстуры и едва уловимые движения.
  • Он включает в себя более 8 миллионов такселей (крошечных сенсорных точек) по всей поверхности кончика пальца, обеспечивая карту сенсорной информации с высоким разрешением.

Продолжением Meta Digit 360 является Meta Digit Plexus - платформа, объединяющая различные сенсорные датчики на одной роботизированной руке. Такая система позволяет роботам обрабатывать информацию о прикосновениях сразу из нескольких точек, подобно тому, как человеческие руки собирают сенсорные данные.

__wf_reserved_inherit
Рис. 5. Метациклическое сплетение.

Создание условий для следующей главы ИИ

Последние обновления Meta в области ИИ, начиная от достижений в компьютерном зрении с SAM 2.1 и CoTracker3 и заканчивая новыми разработками в области языковых моделей и робототехники, показывают, как ИИ неуклонно переходит от теории к практическим, эффективным решениям. 

Эти инструменты призваны сделать ИИ более адаптируемым и полезным в различных областях, помогая во всем: от сегментирования сложных изображений до понимания человеческого языка и даже работы рядом с нами в физических пространствах. 

Отдавая предпочтение доступности и реальному применению, Meta FAIR приближает нас к будущему, в котором ИИ сможет решать реальные проблемы и улучшать нашу повседневную жизнь. 

Вам интересно узнать об искусственном интеллекте? Присоединяйтесь к нашему сообществу и узнавайте о последних обновлениях, а также ознакомьтесь с нашим репозиторием на GitHub. Вы также можете узнать, как компьютерное зрение может быть использовано в таких отраслях, как самодвижущиеся автомобили и сельское хозяйство!

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена