Узнайте, как grounding в ИИ связывает абстрактные концепции с реальными данными, повышая контекст, точность и доверие в динамических приложениях.
Заземление - это процесс искусственного интеллекта (ИИ) соединения абстрактных понятий, обычно слов или фраз из естественного языка, с конкретными представлениями в физическом мире, например пикселями на изображении или сенсорными данными робота. Проще говоря, если компьютер прочитает текст "спящая кошка", то заземление - это способность взглянуть на фотографию и определить конкретную область. где находится кошка. Эта способность позволяет преодолеть семантический разрыв между лингвистическими символами и перцептивной информацией, что в когнитивной науке известно как проблема обоснования символов в когнитивной науке. Хотя традиционные системы могут обрабатывать текст и изображения по отдельности, заземление позволяет мультимодальному ИИ понять взаимосвязь между и, следовательно, более интуитивно понятное человеко-машинное взаимодействие.
На техническом уровне заземление основано на выравнивании высокоразмерных векторных пространств. Современные модели используют архитектуры глубокого обучения (DL), в частности Трансформатор для преобразования текста и изображений в числовые представления, называемые вкраплениями. Во время обучения обучения модель учится сопоставлять вкрапления текстовой фразы (например, "красная машина") с вкраплениями визуальных признаков, соответствующих этому объекту.
Этот процесс позволяет обнаружить открытую лексику. В отличие от стандартного обнаружения объектов, которое ограничено фиксированным списком предварительно обученных классов (например, 80 классов в COCO), модели с заземлением могут идентифицировать любой объект, описанный в тексте подсказкой. Для этого используется обучение с нулевым результатом, при котором модель идентифицирует объекты, которые она никогда не видела в явном виде во время обучения, просто понимая язык описывающего их. Исследования таких организаций, как OpenAI, в области CLIP заложили основу для согласования этих визуальных и текстовых представлений.
Заземление преобразует то, как машины интерпретируют намерения пользователя и взаимодействуют с окружающей средой.
Сайт ultralytics пакет поддерживает заземление через YOLO модель. Эта модель
позволяет пользователям определять пользовательские классы "на лету" с помощью текстовых подсказок, эффективно "привязывая" текст к
изображения без повторного обучения.
Следующий пример демонстрирует, как загрузить предварительно обученную модель и определить пользовательские подсказки для detect определенных объектов:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
Чтобы понять, что такое заземление, необходимо отличать его от аналогичных задач компьютерного зрения:
Несмотря на достигнутые успехи, заземление по-прежнему требует больших вычислительных затрат. Согласование массивных языковых моделей со зрительными кодировщиками зрения требует значительных ресурсовGPU . Кроме того, модели могут не справляться с неоднозначностью: фраза "банк" может относиться как к речному берегу, так и к финансовому учреждению, что требует от ИИ опираться на контекстные окна, чтобы чтобы определить правильное визуальное обоснование.
Обеспечение эффективной работы этих моделей для Выводы в реальном времени - это постоянная область развития. Исследователи также занимаются смещения данных, чтобы убедиться, что модели обоснования обобщают справедливого обобщения моделей обоснования в различных культурах и контекстах - тема, часто обсуждаемая в этике в литературе по ИИ.