AI Agent
Исследуйте мир ИИ-агентов. Узнайте, как эти автономные системы используют Ultralytics для восприятия, рассуждения и действия в режиме реального времени для решения сложных задач.
ИИ-агент — это автономная система, способная воспринимать окружающую среду, мыслить с помощью сложной
логики для принятия решений и предпринимать конкретные действия для достижения определенных целей. В отличие от статической
модели машинного обучения, которая пассивно
обрабатывает входные данные для получения выходных, агент работает динамично в рамках непрерывного рабочего процесса. Эти системы образуют
«активный» слой
искусственного интеллекта, устраняя
разрыв между цифровыми прогнозами и реальным выполнением. Используя память и адаптивное обучение, агенты могут выполнять
задачи, начиная от автоматизации программного обеспечения и заканчивая физической навигацией, без постоянного вмешательства человека.
Цикл «восприятие-рассуждение-действие»
Функциональность ИИ-агента основана на циклическом процессе, который часто описывается как
цикл «восприятие-действие». Такая архитектура позволяет агенту значимо взаимодействовать со своим
окружением.
-
Восприятие (ощущение): агент собирает информацию из окружающего мира. В
приложениях компьютерного зрения агент использует
камеры в качестве «глаз». Он использует высокоскоростные модели, такие как
YOLO26, для
обнаружения или сегментации объектов, преобразуя необработанные
пиксели в структурированные данные.
-
Рассуждения (мышление): агент обрабатывает воспринятые данные с учетом своих целей. На этом этапе
часто используются
большие языковые модели (LLM) для
семантического понимания или
алгоритмы усиленного обучения для
оптимизации стратегий принятия решений. Продвинутые агенты могут планировать несколько шагов вперед, подобно шахматисту,
предвидя будущие ходы.
-
Действие (выполнение): на основе своих рассуждений агент выполняет задачу. Это может быть цифровое
действие, такое как запрос к базе данных или отправка оповещения, или физическое действие в
робототехнике, такое как подборка роботом определенного предмета
с конвейерной ленты.
ИИ-агент против ИИ-модели
Важно различать агент и модель, поскольку они выполняют разные роли в технологическом стеке.
-
Модель ИИ: Модель — это математический механизм, такой как
нейронная сеть, обученный распознавать шаблоны.
Это инструмент, который дает прогнозы (например, «Это автомобиль»), но по своей сути не действует на их основе.
-
AI Agent: агент — это всеобъемлющая система, которая использует модели в качестве инструментов. Он обладает
агентностью — способностью инициировать изменения. Например, пока модель идентифицирует красный свет, агент принимает решение
задействовать тормоза.
Применение в реальном мире
ИИ-агенты преобразуют отрасли, автоматизируя рабочие процессы, требующие когнитивной гибкости.
-
Интеллектуальное производство: в
промышленной автоматизации визуальные агенты контролируют
производственные линии. Если система контроля качества выявляет дефект,
агент может самостоятельно остановить оборудование и зарегистрировать инцидент, предотвращая потери.
-
Автономная логистика: склады используют роботов-агентов для управления запасами. Эти агенты
перемещаются в динамичной среде, используя
SLAM (одновременная локализация и картографирование)
и модели зрения, чтобы эффективно находить, подбирать и транспортировать посылки.
Создание простого агента видения
Разработчики могут создавать базовые агенты, комбинируя модели восприятия с условной логикой. Следующий Python
демонстрирует простой «агент безопасности», использующий ultralytics пакет. Агент обнаруживает
человека и принимает решение о необходимости срабатывания сигнала тревоги на основе достоверности модели.
from ultralytics import YOLO
# Load the YOLO26 model (The Agent's Perception)
model = YOLO("yolo26n.pt")
# 1. Perceive: The agent analyzes an image
results = model("bus.jpg")
# 2. Reason & 3. Act: Decision logic based on perception
for result in results:
# Check if a 'person' (class 0) is detected with high confidence
if 0 in result.boxes.cls and result.boxes.conf.max() > 0.5:
print("ACTION: Person detected! Initiating security protocol.")
else:
print("ACTION: Area clear. Continuing surveillance.")
Связанные понятия
-
Edge AI: чтобы реагировать в режиме реального времени, агенты
часто работают локально на таком оборудовании, как
NVIDIA , сводя к минимуму задержки за счет обработки
данных у источника, а не в облаке.
-
Искусственный общий интеллект (AGI):
В то время как современные агенты являются специализированными (узкий ИИ), AGI относится к гипотетическим агентам, способным выполнять любые
интеллектуальные задачи, которые может выполнять человек.
-
Генеративный ИИ: современные агенты
часто используют GenAI для создания динамических ответов или кода, действуя как помощники, которые могут генерировать контент в рамках
своего рабочего процесса.
Для тех, кто хочет обучить базовые модели для своих агентов,
Ultralytics предлагает оптимизированную среду для аннотирования
наборов данных и управления процессом обучения. Дополнительную информацию об архитектурах агентов можно найти в исследованиях таких
организаций, как Stanford HAI и
DeepMind.