Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Агентный RAG

Изучите Agentic RAG, чтобы усовершенствовать ИИ с помощью автономного мышления. Узнайте, как Ultralytics и Ultralytics обеспечивают интеллектуальный поиск и зрение.

Agentic Retrieval-Augmented Generation (Agentic RAG) — это передовая архитектура искусственного интеллекта (ИИ) , которая улучшает традиционные системы поиска за счет интеграции автономных ИИ-агентов. В то время как стандартные конвейеры RAG работают в линейной последовательности «поиск-генерация», Agentic RAG позволяет большой языковой модели (LLM) действовать в качестве интеллектуального координатора. Этот агент может независимо анализировать запрос пользователя, определять, нужна ли внешняя информация , формулировать несколько поисковых запросов, оценивать найденные данные и итеративно уточнять свои исследования, пока не составит исчерпывающий и точный ответ. Используя возможности вызова функций и использования инструментов, эти системы динамически направляют запросы по различным базам данных, API и аналитическим инструментам, значительно сокращая галлюцинации в LLM при решении сложных многоэтапных задач.

Как работают агентские системы RAG

Основная инновация Agentic RAG заключается в его способности к циклическому повторению и рассуждению. Ведущие агентные ИИ-фреймворки структурируют этот процесс в динамичные, автономные рабочие процессы:

Агентный RAG против стандартного RAG

Для реализации надежных генеративных конвейеров крайне важно отличать агентский RAG от его основополагающих концепций:

  • Стандартное поколение с расширенным поиском (RAG): работает за один проход. Оно извлекает документы на основе семантического сходства и генерирует ответ. Оно испытывает трудности со сложной логикой, которая требует синтеза разнородных источников данных за несколько шагов
  • Агентное RAG: Вводит принятие решений и циклы. Агент оценивает качество поиска и может запускать последующие поиски или различные инструменты перед завершением генерации.
  • Мультимодальный RAG: ориентирован на поиск различных типов данных (изображения, текст, видео). Агентный RAG может управлять мультимодальным RAG , решая, когда искать в визуальной базе данных, а когда — в текстовом документе.

Применение в реальном мире

Agentic RAG трансформирует отрасли, автоматизируя глубокие исследования и сложные задачи по устранению неполадок, которые имитируют человеческое аналитическое мышление.

  • Синтез корпоративных знаний: В корпоративной среде агент может получить запрос «подвести итоги нашей деятельности за третий квартал и сравнить их с последними доходами нашего главного конкурента». Агент самостоятельно запрашивает внутренние финансовые базы данных, выполняет поиск в Интернете в режиме реального времени по документам конкурентов, анализирует цифры с помощью калькулятора и составляет подробный отчет.
  • Автономный контроль качества: В производстве агент может быть поручено выявление первопричины отказа сборки. Он может запустить модель компьютерного зрения (CV) для проверки потока с камеры в реальном времени, запросить исторические журналы обслуживания и синтезировать диагностический отчет на основе визуальных и текстовых данных.

Интеграция Vision AI в агентские рабочие процессы

Модели зрительного восприятия служат мощными сенсорными инструментами для систем Agentic RAG, взаимодействующих с физическим миром. Например , агент может использовать Ultralytics для динамического извлечения визуального контекста из изображения или видеопотока, чтобы ответить на запросы пользователей. Разработчики могут управлять аннотацией данных и обучением этих настраиваемых инструментов зрительного восприятия с помощью Ultralytics .

Следующий Python демонстрирует, как агент искусственного интеллекта может программно вызвать YOLO26 для извлечения структурированных наблюдений из изображения, собирая фактический контекст для следующего шага рассуждения.

from ultralytics import YOLO

# Initialize YOLO26 for the agent's visual retrieval tool
model = YOLO("yolo26n.pt")

# The agent invokes the model on an image to gather visual facts
results = model("https://ultralytics.com/images/bus.jpg")

# The agent parses the detected objects to formulate its next query or action
visual_context = [model.names[int(c)] for c in results[0].boxes.cls]
print(f"Agent Observation: I currently see {', '.join(visual_context)}.")

Соединяя высокопроизводительные модели машинного зрения с механизмами логического вывода, Agentic RAG устраняет разрыв между статическим поиском знаний и динамической, реальной пространственной интеллектуальной обработкой. Для более глубокого изучения развивающейся сферы автономных систем, отчет Stanford AI Index Report предоставляет всесторонний обзор возможностей агентов .

Зарядитесь энергией с помощью Ultralytics YOLO

Получите передовое AI-зрение для ваших проектов. Найдите подходящую лицензию для ваших целей уже сегодня.

Изучите варианты лицензирования