Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Заземление (Grounding)

Узнайте, как grounding в ИИ связывает абстрактные концепции с реальными данными, повышая контекст, точность и доверие в динамических приложениях.

Граундинг — это задача в области искусственного интеллекта, которая включает в себя связывание или «заземление» концепций, выраженных на естественном языке, с соответствующими данными в других модальностях, чаще всего с визуальными данными, такими как изображения или видео. Проще говоря, речь идет об обучении машины понимать, что означает фраза, например, «собака ловит фрисби» на конкретной картинке. Это выходит за рамки простого распознавания, связывая лингвистические описания с конкретными объектами, атрибутами и отношениями в перцептивном мире. Граундинг — это важнейшая возможность для создания систем ИИ, которые могут взаимодействовать с миром более человечным образом, преодолевая разрыв между абстрактным языком и конкретными сенсорными входными данными. Это ключевой компонент передовых мультимодальных моделей, которые объединяют как обработку естественного языка (NLP), так и компьютерное зрение (CV).

Как работает Grounding?

Модели граундинга обучаются на больших наборах данных, которые сопоставляют изображения с текстовыми описаниями. Эти описания часто содержат подробные фразы, связанные с конкретными областями или объектами на изображениях, иногда определяемые ограничивающими рамками. Модель, которая обычно использует архитектуру на основе Transformer, учится создавать богатые числовые представления или эмбеддинги как для текста, так и для изображения. Затем она учится выравнивать эти эмбеддинги, чтобы представление фразы «высокое здание справа» точно соответствовало представлению соответствующей области пикселей на изображении. Этот процесс является основополагающим для проблемы заземления символов, философской и технической задачи, связанной с тем, как символы (слова) получают свое значение. Современные модели, такие как YOLO-World, являются пионерами в области обнаружения с открытым словарем, что является практическим применением принципов граундинга.

Применение в реальном мире

Граундинг позволяет создавать сложные приложения, требующие детального понимания визуальных сцен.

  • Интерактивная робототехника: В робототехнике привязка позволяет роботу выполнять команды на естественном языке. Например, пользователь может поручить складскому роботу «взять маленькую красную коробку за большой синей». ИИ робота должен привязать всю эту фразу, понимая объекты, атрибуты (маленький, красный, большой, синий) и пространственные отношения (за), чтобы правильно выполнить задачу. Это имеет решающее значение для приложений от автоматизации производства до вспомогательных роботов в здравоохранении.
  • Визуальный вопрос-ответ (VQA) и поиск изображений: Когда вы спрашиваете систему: "Какого цвета машина, припаркованная рядом с пожарным гидрантом?", ей сначала нужно привязать фразы "машина" и "пожарный гидрант", чтобы найти их на изображении. Только после этого она может определить цвет машины и ответить на вопрос. Это обеспечивает работу более интуитивно понятных и мощных инструментов семантического поиска и помогает в разработке более полезных виртуальных помощников.

Отличия от связанных концепций

Важно отличать граундинг от других задач компьютерного зрения.

  • Детекция объектов: Стандартное обнаружение объектов идентифицирует экземпляры предопределенных классов (например, «человек», «велосипед») из фиксированного словаря. В отличие от этого, grounding — это задача с открытым словарем. Он определяет местоположение объектов на основе свободной, описательной естественной речи, такой как «человек, едущий на велосипеде в солнечный день», с которой стандартные детекторы не могут справиться.
  • Семантическая сегментация: Эта задача присваивает метку класса каждому пикселю на изображении (например, помечает все пиксели как "небо", "дорога" или "дерево"). Grounding более целенаправлен; он выделяет только конкретный объект или область, описанные текстовым запросом. Он тесно связан с подзадачей, называемой сегментацией ссылочных выражений, которая является формой сегментации экземпляров.

Проблемы и будущие направления

Разработка надежных моделей привязки сопряжена с рядом трудностей. Неоднозначность и богатство человеческого языка сложно поддаются моделированию. Создание необходимых масштабных и точно аннотированных наборов данных является дорогостоящим и трудоемким процессом; примерами являются такие наборы данных, как RefCOCO. Кроме того, вычислительные ресурсы, необходимые для обучения этих сложных моделей, могут быть значительными, часто требуя распределенного обучения или масштабного облачного обучения. Обеспечение эффективной работы моделей для вывода в режиме реального времени является еще одним важным препятствием.

Будущие исследования, часто публикуемые на таких платформах, как arXiv, сосредоточены на улучшении производительности с помощью таких методов, как обучение с нулевым выстрелом, чтобы лучше обобщать на невидимые описания объектов. Такие организации, как Институт искусственного интеллекта Аллена (AI2), активно исследуют эти области. По мере развития технологии обоснования она позволит наладить более естественное взаимодействие человека и ИИ и приблизит системы ИИ к истинному, действенному пониманию мира.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена