Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Заземление (Grounding)

Узнайте, как grounding в ИИ связывает абстрактные концепции с реальными данными, повышая контекст, точность и доверие в динамических приложениях.

Заземление - это процесс искусственного интеллекта (ИИ) соединения абстрактных понятий, обычно слов или фраз из естественного языка, с конкретными представлениями в физическом мире, например пикселями на изображении или сенсорными данными робота. Проще говоря, если компьютер прочитает текст "спящая кошка", то заземление - это способность взглянуть на фотографию и определить конкретную область. где находится кошка. Эта способность позволяет преодолеть семантический разрыв между лингвистическими символами и перцептивной информацией, что в когнитивной науке известно как проблема обоснования символов в когнитивной науке. Хотя традиционные системы могут обрабатывать текст и изображения по отдельности, заземление позволяет мультимодальному ИИ понять взаимосвязь между и, следовательно, более интуитивно понятное человеко-машинное взаимодействие.

Механика заземления

На техническом уровне заземление основано на выравнивании высокоразмерных векторных пространств. Современные модели используют архитектуры глубокого обучения (DL), в частности Трансформатор для преобразования текста и изображений в числовые представления, называемые вкраплениями. Во время обучения обучения модель учится сопоставлять вкрапления текстовой фразы (например, "красная машина") с вкраплениями визуальных признаков, соответствующих этому объекту.

Этот процесс позволяет обнаружить открытую лексику. В отличие от стандартного обнаружения объектов, которое ограничено фиксированным списком предварительно обученных классов (например, 80 классов в COCO), модели с заземлением могут идентифицировать любой объект, описанный в тексте подсказкой. Для этого используется обучение с нулевым результатом, при котором модель идентифицирует объекты, которые она никогда не видела в явном виде во время обучения, просто понимая язык описывающего их. Исследования таких организаций, как OpenAI, в области CLIP заложили основу для согласования этих визуальных и текстовых представлений.

Применение в реальном мире

Заземление преобразует то, как машины интерпретируют намерения пользователя и взаимодействуют с окружающей средой.

  • Робототехника и автономные агенты: В области ИИ в робототехнике, основание необходимо для выполнения команд на естественном языке. Если пользователь говорит роботу-сервисеру "поднять яблоко рядом с кружкой кружкой", робот должен обосновать слова "яблоко", "кружка" и пространственное отношение "рядом" к конкретным физическим координатам в камере. Это позволяет динамически выполнять задачи в неструктурированных средах, что является ключевым направлением исследований в области робототехники в IEEE.
  • Семантический поиск и извлечение информации: Основа основ продвинутых семантические поисковые системы. Вместо того чтобы подбирать ключевых слов, система может искать в базе данных видео по таким сложным запросам, как "велосипедист, поворачивающий налево на закате закате". Система закладывает запрос в визуальное содержимое видеофайлов, чтобы получить точные временные метки. Эта технология улучшает инструменты для понимания видео и управления цифровыми активами управления цифровыми активами.

Заземление с помощью Ultralytics YOLO

Сайт ultralytics пакет поддерживает заземление через YOLO модель. Эта модель позволяет пользователям определять пользовательские классы "на лету" с помощью текстовых подсказок, эффективно "привязывая" текст к изображения без повторного обучения.

Следующий пример демонстрирует, как загрузить предварительно обученную модель и определить пользовательские подсказки для detect определенных объектов:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source
results = model.predict("bus.jpg")

# Show results to see bounding boxes around the grounded objects
results[0].show()

Отличие заземления от смежных понятий

Чтобы понять, что такое заземление, необходимо отличать его от аналогичных задач компьютерного зрения:

  • По сравнению с обнаружением объектов: Стандартное обнаружение, например, выполняемое YOLO11идентифицирует объекты из закрытого набора категорий (например, "человек", "автомобиль"). Основание является открытым и позволяет detect объекты на основе текстовых описаний в свободной форме, отсутствующих не присутствующих в обучающих данных.
  • Сравнение с подписями к изображениям: Подпись к изображению создает текстовое описание на основе изображения (Изображение $\to$ Текст). Подпись обычно работает в обратном или двунаправленном направлении, определяя местоположение визуальных элементов на основе введенного текста (Текст $\to$ Область изображения).
  • По сравнению с семантической сегментацией: В то время как семантическая сегментация классифицирует каждый пикселей в определенную категорию, она не связывает их с конкретными лингвистическими фразами или отдельными экземплярами определяемым сложными атрибутами (например, "блестящее красное яблоко" против просто "яблоко").

Современные вызовы

Несмотря на достигнутые успехи, заземление по-прежнему требует больших вычислительных затрат. Согласование массивных языковых моделей со зрительными кодировщиками зрения требует значительных ресурсовGPU . Кроме того, модели могут не справляться с неоднозначностью: фраза "банк" может относиться как к речному берегу, так и к финансовому учреждению, что требует от ИИ опираться на контекстные окна, чтобы чтобы определить правильное визуальное обоснование.

Обеспечение эффективной работы этих моделей для Выводы в реальном времени - это постоянная область развития. Исследователи также занимаются смещения данных, чтобы убедиться, что модели обоснования обобщают справедливого обобщения моделей обоснования в различных культурах и контекстах - тема, часто обсуждаемая в этике в литературе по ИИ.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас