Глоссарий

Заземление

Узнайте, как основы ИИ связывают абстрактные понятия с реальными данными, повышая контекст, точность и доверие в динамичных приложениях.

Заземление - это задача искусственного интеллекта, которая заключается в соединении, или "заземлении", понятий, выраженных на естественном языке, с соответствующими данными в других модальностях, чаще всего визуальными данными, такими как изображения или видео. Проще говоря, речь идет о том, чтобы научить машину понимать, к чему относится фраза "собака ловит фрисби" на конкретном изображении. Это выходит за рамки простого распознавания, связывая лингвистические описания с конкретными объектами, атрибутами и отношениями в перцептивном мире. Заземление - важнейшая способность для создания систем ИИ, которые могут взаимодействовать с миром более человекоподобным образом, преодолевая разрыв между абстрактным языком и конкретными сенсорными данными. Это ключевой компонент продвинутых мультимодальных моделей, объединяющих обработку естественного языка (NLP) и компьютерное зрение (CV).

Как работает заземление

Модели заземления обучаются на больших массивах данных, в которых изображения сочетаются с текстовыми описаниями. Эти описания часто содержат подробные фразы, связанные с конкретными областями или объектами на изображениях, иногда определяемые ограничивающими рамками. Модель, которая обычно использует архитектуру на основе трансформеров, учится создавать богатые числовые представления, или вкрапления, как для текста, так и для изображения. Затем она учится выравнивать эти вкрапления, чтобы представление фразы "высокое здание справа" точно совпадало с представлением соответствующей области пикселей на изображении. Этот процесс является основой проблемы обоснования символов- философской и технической задачи, связанной с тем, как символы (слова) получают свое значение. Современные модели, такие как YOLO-World, являются пионерами в области обнаружения открытого словаря, что представляет собой практическое применение принципов обоснования.

Применение в реальном мире

Заземление позволяет создавать сложные приложения, требующие тонкого понимания визуальных сцен.

  • Интерактивная робототехника: В робототехнике заземление позволяет роботу выполнять команды на естественном языке. Например, пользователь может приказать роботу-складчику "поднять маленькую красную коробку за большой синей". ИИ робота должен обосновать всю эту фразу, понимая объекты, атрибуты (маленький, красный, большой, синий) и пространственные отношения (позади), чтобы правильно выполнить задачу. Это очень важно для различных сфер применения - от автоматизации производства до вспомогательных роботов в здравоохранении.
  • Визуальные ответы на вопросы (VQA) и поиск изображений: Когда вы спрашиваете систему: "Какого цвета машина, припаркованная рядом с пожарным гидрантом?", ей сначала нужно определить фразы "машина" и "пожарный гидрант", чтобы найти их на изображении. Только после этого он сможет определить цвет автомобиля и ответить на вопрос. Это позволит создать более интуитивные и мощные инструменты семантического поиска и поможет в разработке более полезных виртуальных помощников.

Отличия от смежных понятий

Важно отличать заземление от других задач компьютерного зрения.

  • Обнаружение объектов: Стандартное обнаружение объектов идентифицирует экземпляры заранее определенных классов (например, "человек", "велосипед") из фиксированного словаря. В отличие от этого, определение местоположения - это задача с открытым словарем. Она определяет местоположение объектов на основе свободного, описательного естественного языка, например "человек, едущий на велосипеде в солнечный день", с которым стандартные детекторы не справляются.
  • Семантическая сегментация: В этой задаче каждому пикселю изображения присваивается метка класса (например, все пиксели маркируются как "небо", "дорога" или "дерево"). Сегментация является более целенаправленной; она выделяет только конкретный объект или регион, описанный в текстовой подсказке. Она более тесно связана с подзадачей, называемой сегментацией ссылочных выражений, которая является разновидностью сегментации экземпляров.

Проблемы и будущие направления

Разработка надежных моделей заземления сопряжена с рядом трудностей. Присущие человеческому языку неоднозначность и богатство трудно поддаются моделированию. Создание необходимых крупномасштабных, точно аннотированных наборов данных является дорогостоящим и трудоемким процессом; в качестве примера можно привести такие наборы данных, как RefCOCO. Кроме того, вычислительные ресурсы, необходимые для обучения этих сложных моделей, могут быть значительными, часто требуя распределенного обучения или обширного облачного обучения. Еще одним ключевым препятствием является обеспечение эффективной работы моделей для выводов в режиме реального времени.

Будущие исследования, часто публикуемые на таких платформах, как arXiv, направлены на повышение производительности с помощью таких методов, как обучение с нулевого выстрела, чтобы лучше обобщать описания невидимых объектов. Такие организации, как Allen Institute for AI (AI2), активно исследуют эти области. По мере развития технологии заземления она обеспечит более естественное взаимодействие человека и ИИ и приблизит системы ИИ к истинному, действенному пониманию мира.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена