Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Заземление (Grounding)

Изучите основы заземления в искусственном интеллекте. Узнайте, как связать естественный язык с визуальными данными с помощью Ultralytics и YOLO для обнаружения открытого словаря.

Основание относится к способности системы искусственного интеллекта связывать абстрактные концепции, обычно полученные из естественного языка, с конкретными представлениями в физическом мире, такими как визуальные данные или сенсорные входы. В контексте компьютерного зрения это означает, что модель не просто обрабатывает текст; она может анализировать фразу, такую как «человек, выгуливающий собаку», и точно локализовать эти объекты в изображении или видеопотоке. Этот процесс устраняет разрыв между символьным мышлением и восприятием на уровне пикселей, решая фундаментальную проблему символьного заземления в когнитивной науке. Связывая лингвистические токены с визуальными характеристиками, заземление служит краеугольным камнем современного мультимодального ИИ, позволяя машинам более интуитивно взаимодействовать с динамичной человеческой средой.

Механика заземления

На техническом уровне заземление включает в себя выравнивание данных из разных модальностей в общее высокоразмерное векторное пространство. Передовые архитектуры, часто построенные на основе фреймворка Transformer, используемого в обработке естественного языка (NLP), генерируют числовые представления, известные как вложения, как для текстовых описаний, так и для визуальных входов. Во время обучения модель учится минимизировать расстояние между вложением текстового запроса (например, «синий рюкзак») и вложением соответствующей визуальной области.

Такое выравнивание позволяет осуществлять обнаружение с открытым словарем. В отличие от традиционного контролируемого обучения, где модель ограничена фиксированным набором категорий, заземление позволяет осуществлять обучение без предварительной подготовки. Заземленная модель может идентифицировать объекты, которые она никогда явно не видела во время обучения, при условии, что она понимает язык, описывающий их. Эта гибкость поддерживается такими фреймворками глубокого обучения, как PyTorch, которые облегчают сложные матричные операции, необходимые для этих мультимодальных выравниваний.

Применение в реальном мире

Технологии искусственного интеллекта меняют отрасли промышленности, позволяя системам интерпретировать намерения пользователей и эффективно ориентироваться в неструктурированных средах.

  • ИИ в робототехнике: Основа необходима для автономных агентов, выполняющих устные инструкции. Если складскому роботу дают команду «взять пакет с верхней полки», он должен соотнести понятия «пакет» и «верхняя полка» с конкретными 3D-координатами в поле своего зрения. Эта способность является основным направлением исследований в области робототехники в MIT CSAIL, позволяя роботам безопасно работать рядом с людьми.
  • Семантический поиск и извлечение медиаданных: Основанием для работы служат передовые поисковые системы, которые выходят за рамки сопоставления ключевых слов. Пользователи могут запрашивать видеоархивы с помощью сложных описаний, таких как «велосипедист, поворачивающий налево на закате», и система использует основу для извлечения конкретных временных меток. Это значительно улучшает понимание видео для обеспечения безопасности и управления медиаданными .
  • Вспомогательные технологии: для пользователей с нарушениями зрения заземление позволяет приложениям описывать окружающую обстановку в режиме реального времени или отвечать на вопросы об окружающей среде, опираясь на надежное распознавание изображений, связанное с генерацией речи.

Заземление с помощью Ultralytics YOLO

Ultralytics поддерживает заземление с помощью специализированных архитектур, таких как YOLO. В то время как стандартные модели требуют обучения на конкретных наборах данных, YOLO позволяет пользователям мгновенно определять пользовательские классы обнаружения с помощью текстовых подсказок. Это эффективно «заземляет» ввод естественного языка на изображение без повторного обучения.

Следующий пример демонстрирует, как использовать ultralytics пакет для detect на основе пользовательских текстовых описаний:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Отличие заземления от смежных понятий

Чтобы в полной мере оценить полезность заземления, полезно отличить его от аналогичных задач компьютерного зрения:

  • vs. Обнаружение объектов: Традиционные модели обнаружения, такие как современная YOLO26, идентифицируют объекты из закрытого, заранее определенного набора категорий (например, 80 классов в COCO). Основание является открытым, идентифицируя объекты на основе текста свободной формы.
  • vs. Подписи к изображениям: Подписи генерируют описательное предложение для всего изображения (Изображение $\to$ Текст). Основание обычно работает в обратном направлении или в двух направлениях, находя определенные визуальные элементы на основе введенного текста (Текст $\to$ Область изображения).
  • vs. Визуальный ответ на вопрос (VQA): VQA включает в себя ответ на конкретный вопрос об изображении (например, «Какого цвета автомобиль?»). Основание сосредоточено конкретно на этапе локализации — рисовании ограничительной рамки вокруг упомянутого объекта.

Проблемы и перспективы

Несмотря на достигнутые успехи, заземление по-прежнему требует значительных вычислительных ресурсов. Согласование массивных языковых моделей с кодировщиками изображений требует значительных GPU и эффективного управления памятью, что часто является проблемой, которую решают такие инноваторы в области аппаратного обеспечения, как NVIDIA. Кроме того, модели могут испытывать трудности с лингвистической неоднозначностью, требуя больших контекстных окон, чтобы решить, относится ли слово «летучая мышь» к спортивному инструменту или животному.

Будущие разработки движутся в направлении унифицированных базовых моделей, которые изначально являются мультимодальными. Такие инструменты, как Ultralytics , развиваются, чтобы помочь разработчикам управлять сложными наборами данных, необходимыми для этих задач, предлагая оптимизированные рабочие процессы для аннотирования данных и развертывания моделей. По мере созревания этих технологий мы можем ожидать бесшовной интеграции заземления в пограничные устройства, что позволит создавать более интеллектуальные и отзывчивые приложения искусственного интеллекта.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас