AI Agent
Погрузись в мир ИИ-агентов. Узнай, как эти автономные системы используют Ultralytics YOLO26 для восприятия, рассуждения и действий в реальном времени при решении сложных задач.
AI-агент — это автономная система, способная воспринимать окружающую среду, рассуждать с помощью сложной логики для принятия решений и выполнять конкретные действия для достижения поставленных целей. В отличие от статической модели машинного обучения, которая пассивно обрабатывает входные данные для получения результата, агент работает динамически в рамках непрерывного рабочего процесса. Эти системы формируют «активный» уровень искусственного интеллекта, устраняя разрыв между цифровыми прогнозами и их выполнением в реальном мире. Используя память и адаптивное обучение, агенты могут справляться с задачами от автоматизации программного обеспечения до физической навигации без постоянного вмешательства человека.
Link to this sectionЦикл восприятия-рассуждения-действия#
Функциональность AI-агента опирается на циклический процесс, который часто называют циклом восприятия-действия. Эта архитектура позволяет агенту осмысленно взаимодействовать с окружающим миром.
-
Восприятие (Sensing): Агент собирает информацию из окружающего мира. В приложениях компьютерного зрения агент использует камеры в качестве «глаз». Он применяет высокоскоростные модели, такие как YOLO26, для выполнения обнаружения объектов или сегментации, преобразуя необработанные пиксели в структурированные данные.
-
Рассуждение (Thinking): Агент обрабатывает воспринятые данные в соответствии со своими целями. Этот этап часто включает большие языковые модели (LLM) для семантического понимания или алгоритмы обучения с подкреплением для оптимизации стратегий принятия решений. Продвинутые агенты могут планировать на несколько шагов вперед, подобно шахматисту, предвидящему будущие ходы.
-
Действие (Executing): На основе своих рассуждений агент выполняет задачу. Это может быть цифровое действие, например, запрос к базе данных или отправка оповещения, либо физическое действие в робототехнике, такое как перемещение конкретного предмета с конвейерной ленты с помощью руки-манипулятора.
Link to this sectionAI-агент против AI-модели#
Важно различать агента и модель, поскольку они выполняют разные роли в технологическом стеке.
- AI-модель: Модель — это математический движок, такой как нейронная сеть, обученная распознавать закономерности. Это инструмент, который предоставляет прогнозы (например, «это автомобиль»), но не действует на их основе автоматически.
- AI-агент: Агент — это охватывающая система, которая использует модели в качестве инструментов. Он обладает агентностью — способностью инициировать изменения. Например, в то время как модель распознает красный свет, агент принимает решение нажать на тормоза.
Link to this sectionРеальные приложения#
AI-агенты трансформируют отрасли, автоматизируя рабочие процессы, требующие когнитивной гибкости.
- Интеллектуальное производство: В промышленной автоматизации визуальные агенты контролируют производственные линии. Если система контроля качества обнаруживает дефект, агент может автономно остановить оборудование и зафиксировать инцидент, предотвращая потери.
- Автономная логистика: Склады используют агентских роботов для управления запасами. Эти агенты перемещаются в динамической среде, используя SLAM (одновременная локализация и построение карты) и модели машинного зрения для эффективного поиска, захвата и транспортировки посылок.
Link to this sectionСоздание простого агента машинного зрения#
Разработчики могут создавать базовых агентов, комбинируя модели восприятия с условной логикой. В следующем примере на Python показан простой «агент безопасности» с использованием пакета ultralytics. Агент обнаруживает человека и решает, нужно ли активировать оповещение, основываясь на уверенности модели.
from ultralytics import YOLO
# Load the YOLO26 model (The Agent's Perception)
model = YOLO("yolo26n.pt")
# 1. Perceive: The agent analyzes an image
results = model("bus.jpg")
# 2. Reason & 3. Act: Decision logic based on perception
for result in results:
# Check if a 'person' (class 0) is detected with high confidence
if 0 in result.boxes.cls and result.boxes.conf.max() > 0.5:
print("ACTION: Person detected! Initiating security protocol.")
else:
print("ACTION: Area clear. Continuing surveillance.")Link to this sectionСвязанные концепции#
- Edge AI: Чтобы реагировать в режиме реального времени, агенты часто работают локально на таком оборудовании, как NVIDIA Jetson, минимизируя задержки за счет обработки данных у источника, а не в облаке.
- Общий искусственный интеллект (AGI): В то время как текущие агенты специализированы (узкий ИИ), AGI относится к гипотетическим агентам, способным выполнять любую интеллектуальную задачу, которую может выполнить человек.
- Генеративный ИИ: Современные агенты часто используют генеративный ИИ для создания динамических ответов или кода, выступая в роли помощников, которые могут генерировать контент как часть своего рабочего процесса.
Для тех, кто хочет обучить базовые модели для своих агентов, платформа Ultralytics предлагает оптимизированную среду для аннотирования наборов данных и управления процессами обучения. Дополнительную информацию об архитектурах агентов можно найти в исследованиях таких организаций, как Stanford HAI и DeepMind.






