Глоссарий

Заземление

Узнай, как основы ИИ связывают абстрактные понятия с данными реального мира, повышая контекст, точность и доверие в динамичных приложениях.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Под заземлением в искусственном интеллекте понимается важный процесс соединения абстрактной информации, например языка или символов, с конкретными сенсорными данными реального мира, такими как изображения или звуки. Это позволяет системам ИИ строить осмысленное понимание мира, связывая понятия, которые они обрабатывают внутри себя (например, слова в текстовом описании), с вещами, которые они воспринимают через датчики (например, объекты в записи с камеры). Эта способность является основополагающей для создания ИИ, который может разумно и контекстуально взаимодействовать с окружающей средой, выходя за рамки простого распознавания образов и достигая формы понимания, более близкой к тому, как люди связывают слова с объектами и действиями. Заземление особенно важно для мультимодальных моделей, которые обрабатывают несколько типов данных одновременно, преодолевая разрыв между различными информационными модальностями, такими как текст и зрение.

Актуальность и ключевые понятия

Заземление особенно важно для зрительно-языковых моделей (ЗЯМ), таких как модельYOLO, которые призваны преодолеть разрыв между визуальным восприятием и пониманием естественного языка (ПЯ). В отличие от традиционного обнаружения объектов, которое обычно идентифицирует объекты, принадлежащие к заранее определенному набору категорий (например, "автомобиль", "человек", "собака"), заземление позволяет моделям находить объекты на основе текстовых описаний в свободной форме. Например, вместо того чтобы просто определять "человек" и "велосипед", заземленная VLM может ответить на запрос "найдите человека в красном шлеме, который едет на синем велосипеде", конкретно определив конфигурацию объекта в кадре изображения или видео. Для этого нужно связать текстовые понятия ("человек", "красный шлем", "едет", "синий велосипед") с соответствующими пикселями и пространственными отношениями в визуальных данных. Эта способность связывать язык с конкретными визуальными деталями улучшает контекстное понимание и тесно связана с достижениями в области семантического поиска, когда смысл, а не просто ключевые слова, управляет поиском информации.

Реальные способы применения заземления

Заземление позволяет создавать более сложные и интерактивные приложения ИИ в различных областях:

  • Интерактивная робототехника: Роботы могут понимать и выполнять команды, отданные на естественном языке, которые ссылаются на конкретные объекты в окружающей среде, например "подними зеленую коробку рядом с окном". Для этого необходимо привязать слова "зеленая коробка" и "окно" к реальным объектам, воспринимаемым сенсорами робота. Узнай больше о роли ИИ в робототехнике и посмотри примеры из практики таких компаний, как Boston Dynamics.
  • Усовершенствованные автономные системы: Самоуправляемые автомобили могут лучше интерпретировать сложные дорожные сценарии, описанные текстом или голосом, например "берегись грузовика, припаркованного впереди". Для этого нужно привязать описание к конкретному автомобилю, идентифицированному системой компьютерного зрения (CV) машины. Узнай о технологиях, которые используют такие компании, как Waymo.
  • Детальный анализ медицинских изображений: Рентгенологи могут использовать текстовые запросы, чтобы точно определить конкретные аномалии или области интереса на медицинских снимках (например, рентгеновских или магнитно-резонансных), например "выделить поражение, описанное в записях пациента". Это повышает эффективность и точность диагностики. Смотри смежные работы по использованию YOLO для обнаружения опухолей и исследования, опубликованные в таких журналах, как "Радиология: Искусственный интеллект.
  • Content-Based Image/Video Retrieval: Пользователи могут искать в огромных базах визуальных данных, используя высокоспецифичные запросы на естественном языке, например "найти фотографии закатов над горами с облаками", выходя за рамки простых тегов или ключевых слов.

Технические аспекты

Для достижения эффективного заземления часто используются продвинутые методы глубокого обучения (DL). Механизмы внимания, в частности кросс-модального внимания, помогают моделям фокусироваться на соответствующих частях как текстового ввода (например, конкретных словах в подсказке), так и сенсорного ввода (например, конкретных областях на изображении). Трансформаторные сети, широко используемые в обработке естественного языка (NLP), часто адаптируются для мультимодальных задач, связанных с заземлением, как это видно на примере таких моделей, как CLIP. Для обучения этих моделей требуются большие, высококачественные аннотированные наборы данных с аннотациями, которые явно связывают текстовые и визуальные элементы, что подчеркивает важность хорошей практики маркировки данных, часто управляемой с помощью таких платформ, как Ultralytics HUB. Для того чтобы научить модели эффективно связывать соответствующие пары текста и изображения, также используются такие техники, как контрастное обучение, часто с помощью таких фреймворков, как PyTorch или TensorFlow.

Отличия от родственных понятий

  • Обнаружение объектов: Стандартное обнаружение объектов идентифицирует экземпляры заранее определенных классов объектов (например, "кошка", "машина") и рисует вокруг них ограничительные рамки. Однако Grounding определяет местоположение объектов на основе потенциально сложных, открытых описаний на естественном языке, не ограниченных фиксированными категориями.
  • Семантическая сегментация: Эта задача присваивает каждому пикселю изображения метку класса (например, обозначить все пиксели как принадлежащие к "дороге", "небу", "зданию"). Задача Grounding сосредоточена на том, чтобы связать конкретную языковую фразу с определенным регионом или объектом на изображении, а не классифицировать каждый пиксель. Это более тесно связано с сегментацией ссылочных выражений, разновидностью сегментации экземпляров.

Вызовы

Разработка надежных средств заземления сталкивается с рядом проблем. Справиться с неоднозначностью и изменчивостью естественного языка очень сложно. Создание необходимых масштабных, точно аннотированных наборов данных трудоемко и дорого. Вычислительные ресурсы, необходимые для обучения сложных мультимодальных моделей, часто включающих распределенное обучение или облачное обучение, могут быть значительными. Обеспечение эффективного заземления моделей для выводов в реальном времени также является значительным препятствием для практического внедрения. Исследования продолжаются в таких областях, как обучение с нулевым выстрелом и обучение с несколькими выстрелами, чтобы улучшить обобщение на невидимые описания объектов и уменьшить зависимость от данных, причем текущие работы часто можно найти на таких платформах, как arXiv.

Заземление остается важнейшим рубежом в ИИ, подталкивая системы к более глубокому, действенному пониманию мира, которое более точно отражает человеческое познание и обеспечивает более естественное взаимодействие человека и ИИ.

Читать полностью