Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Компьютерное зрение определяет, как агенты Vision AI принимают решения

Абирами Вина

4 мин чтения

20 января 2025 г.

Узнайте, как AI-агенты используют компьютерное зрение для преобразования различных отраслей. Изучите их применение в таких областях, как безопасность, самоуправляемые автомобили и многое другое.

Каждая отрасль, от производства до розничной торговли, сталкивается со своими собственными проблемами в процессах, и поиск инновационных способов решения этих проблем всегда был ключом к ведению успешного бизнеса. В последнее время агенты ИИ стали популярным решением во многих областях. Эти системы выходят за рамки анализа данных. Они также могут предпринимать действия. 

Например, AI-агенты на производстве могут в режиме реального времени обнаруживать дефекты и автоматически запускать меры контроля качества для обеспечения бесперебойной работы производства. Аналогично, в логистике и розничной торговле они могут контролировать несколько местоположений с помощью интеллектуального видеонаблюдения и мгновенно оповещать команды о необычной активности. 

По мере роста этой тенденции, AI-агенты активно трансформируют отрасли по всему миру. Глобальный рынок AI-агентов достиг 5,1 миллиарда долларов в 2024 году и, по прогнозам, вырастет до 47,1 миллиарда долларов к 2030 году.

__wf_reserved_inherit
Рис. 1. Обзор размера глобального рынка AI-агентов.

Одной из ключевых технологий, лежащих в основе этих достижений, является компьютерное зрение. Позволяя машинам обрабатывать и интерпретировать визуальные данные, Vision AI позволяет агентам ИИ выполнять задачи компьютерного зрения, такие как обнаружение объектов в реальном времени, сегментация экземпляров и отслеживание объектов с невероятной точностью. Он устраняет разрыв между тем, что видят машины, и тем, как они принимают решения, что делает его критически важной частью многих решений на основе ИИ.

В этой статье мы рассмотрим AI-агентов и их связь с компьютерным зрением. Мы также обсудим различные типы AI-агентов и то, как они используются в приложениях, основанных на компьютерном зрении. Начнем!

Что такое AI-агенты?

Прежде чем погрузиться в агентов ИИ на основе зрения, давайте уделим немного времени пониманию агентов ИИ в целом, чтобы увидеть, насколько универсальными могут быть эти системы.

AI-агент — это интеллектуальная система, которая может понимать задачи или вопросы и отвечать на них без помощи человека. Многие AI-агенты используют машинное обучение и обработку естественного языка (NLP) для решения широкого круга задач, от ответов на основные вопросы до управления сложными процессами. 

Некоторые AI-агенты даже обладают способностью учиться и совершенствоваться со временем, в отличие от традиционных AI-систем, которые полагаются на ввод человека для каждого обновления. Вот почему AI-агенты быстро становятся важной частью AI. Они могут автоматизировать задачи, принимать решения и взаимодействовать со своей средой без постоянного контроля. Они особенно полезны для управления повторяющимися и трудоемкими задачами.

Например, AI-агентов можно встретить в таких секторах, как обслуживание клиентов и гостиничный бизнес. AI-агенты используются для обработки возвратов и предоставления персонализированных рекомендаций по продуктам в сфере обслуживания клиентов. Между тем, в индустрии гостеприимства они могут помочь персоналу отеля управлять запросами гостей, оптимизировать обслуживание номеров и предлагать гостям близлежащие достопримечательности. Эти примеры показывают, как AI-агенты делают повседневные процессы быстрее и эффективнее.

Понимание принципов работы агентов Vision AI

Далее, давайте кратко рассмотрим, как работают AI-агенты. Хотя каждый AI-агент уникален и разработан для конкретных задач, все они имеют три основных этапа: восприятие, принятие решений и действие.

Сначала, на этапе восприятия, AI-агенты собирают информацию из различных источников, чтобы понять, что происходит. Далее идет принятие решений. На основе собранной информации они используют свои алгоритмы для анализа ситуации и выбора наилучшего плана действий. И, наконец, действие. Как только решение принято, они его выполняют – будь то ответ на вопрос, выполнение задачи или сообщение о проблеме, требующей вмешательства человека.

Это может показаться простым, но в зависимости от типа AI-агента, часто происходит много закулисной работы, чтобы эти шаги работали. От анализа сложных данных до использования передовых моделей машинного обучения, каждый AI-агент построен для обработки конкретных задач по-своему. 

Например, в то время как многие AI-агенты сосредотачиваются на обработке языка с помощью NLP, другие - известные как vision AI-агенты - интегрируют компьютерное зрение для обработки визуальных данных. Используя передовые модели компьютерного зрения, такие как Ultralytics YOLO11, vision AI-агенты могут выполнять более точный анализ изображений.

__wf_reserved_inherit
Рис. 2. Пример подсчета яблок на изображении с использованием YOLO11.

Агенты Vision AI в самоуправляемых автомобилях

Давайте используем беспилотные автомобили в качестве примера, чтобы увидеть, как агенты vision AI проходят через три основных этапа, описанных выше:

  • Восприятие: Агенты Vision AI в самоуправляемых автомобилях собирают визуальные данные с камер и датчиков, установленных на транспортном средстве. Эти данные включают изображения и видео окружающей среды, такие как другие транспортные средства, пешеходы, светофоры и дорожные знаки.
  • Принятие решений: AI-агент обрабатывает эти визуальные данные, используя такие модели, как YOLO11. Он идентифицирует объекты, такие как автомобили и пешеходы, обнаруживает препятствия или внезапные смены полосы движения и распознает закономерности, такие как транспортный поток и состояние сигналов. Это помогает автомобилю понимать дорожные условия в режиме реального времени.
  • Действие: На основе своего анализа агент ИИ предпринимает действия, такие как рулевое управление, чтобы избежать препятствия, регулировка скорости или остановка на красный свет. Эти решения принимаются быстро, чтобы обеспечить безопасное и эффективное вождение.

Самоуправляемые автомобили Waymo – отличный пример этой технологии. Они используют агенты vision AI, чтобы понимать окружающую среду, принимать решения в реальном времени и безопасно и эффективно перемещаться по дорогам без участия человека.

__wf_reserved_inherit
Рис. 3. Самоуправляемое такси Waymo на базе AI-агентов.

Типы агентов визуального ИИ 

Теперь, когда мы увидели, как работают AI-агенты и как они используют компьютерное зрение, давайте рассмотрим различные типы AI-агентов. Каждый тип предназначен для выполнения определенных задач, от простых действий до более сложных процессов принятия решений и обучения.

Простые рефлекторные агенты

Простые рефлекторные агенты - это самый простой тип ИИ-агентов. Они реагируют на конкретные входные данные с помощью предопределенных действий, основываясь исключительно на текущей ситуации, не учитывая историю или будущие результаты. Эти агенты обычно используют простые правила "если-то" для управления своим поведением.

Что касается анализа изображений, простой рефлекторный агент может быть запрограммирован на обнаружение определенного цвета (например, красного) и запуск немедленного действия (например, выделение или подсчет красных объектов). Хотя это может работать для простых задач, этого недостаточно в более сложных средах, поскольку агент не учится и не адаптируется на основе предыдущего опыта.

Рефлекторные агенты на основе модели

Рефлекторные агенты на основе модели более продвинуты, чем простые рефлекторные агенты, поскольку они используют внутреннюю модель своей среды для лучшего понимания ситуации. Эта модель позволяет им обрабатывать недостающую или неполную информацию и принимать более обоснованные решения. 

Возьмем, к примеру, системы камер видеонаблюдения с искусственным интеллектом. Интегрированные в них агенты Vision AI могут использовать компьютерное зрение для анализа происходящего в режиме реального времени. Они могут сравнивать движения и действия с моделью нормального поведения, помогая выявлять необычную активность, например, кражи в магазинах, и более точно сигнализировать о потенциальных угрозах безопасности.

__wf_reserved_inherit
Рис. 4. Пример использования компьютерного зрения для обнаружения краж.

Агенты, основанные на полезности

Представьте себе дрон общего назначения, используемый для мониторинга посевов. Он корректирует свой маршрут полета, чтобы охватить большую площадь, избегая препятствий, и выбирает лучший маршрут для работы. Это означает, что дрон оценивает несколько потенциальных действий, таких как определение приоритетной области или эффективная навигация, и выбирает то, которое максимизирует его эффективность. 

Аналогично, агенты, основанные на полезности, предназначены для выбора наилучшего действия из нескольких вариантов для достижения наибольшей выгоды или результата. Агенты Vision AI, разработанные для этого, могут обрабатывать и анализировать различные визуальные входные данные, такие как изображения или данные датчиков, и выбирать наиболее полезный результат на основе предопределенных критериев.

 

__wf_reserved_inherit
Рис. 5. Беспилотники, используемые для различных задач, могут применяться для мониторинга посевов.

Агенты, основанные на целях

Агенты, основанные на целях, похожи на агентов, основанных на полезности, поскольку оба стремятся к достижению конкретных целей. Однако агенты, основанные на целях, сосредотачиваются исключительно на действиях, которые приближают их к определенной цели. Они оценивают каждое действие на основе того, как оно помогает достичь их цели, не взвешивая другие факторы, такие как общая ценность или компромиссы.

Например, беспилотный автомобиль действует как агент, ориентированный на цель, когда его задача — добраться до пункта назначения. Он обрабатывает данные с камер ИИ и датчиков для принятия решений, таких как объезд препятствий, соблюдение сигналов светофора и выбор правильных поворотов, чтобы оставаться на курсе. Эти решения полностью определяются тем, насколько хорошо они соответствуют цели безопасного и эффективного достижения пункта назначения. В отличие от агентов, ориентированных на полезность, агенты, ориентированные на цель, сосредотачиваются только на достижении цели, не учитывая дополнительные критерии, такие как эффективность или оптимизация.

__wf_reserved_inherit
Рис. 6. Автомобиль с автопилотом использует компьютерное зрение для идентификации объектов в окружающей среде.

Обучающиеся агенты

Если вы знакомы с компьютерным зрением, возможно, вы слышали о тонкой настройке — процессе, в котором модели улучшаются, обучаясь на новых данных. Обучающиеся агенты работают аналогичным образом, адаптируясь и совершенствуясь со временем по мере приобретения опыта. В таких приложениях, как контроль качества на основе машинного зрения, эти агенты лучше обнаруживают дефекты с каждой проверкой. Эта способность улучшать свою производительность особенно важна в таких областях, как авиация, где безопасность и точность жизненно важны.

Иерархические агенты

Иерархические агенты упрощают сложные задачи, разбивая их на более мелкие и управляемые этапы. Агент верхнего уровня контролирует общий процесс, принимая стратегические решения, в то время как агенты нижнего уровня выполняют конкретные задачи. Это более эффективно, когда речь идет об операциях, включающих несколько этапов и детальное исполнение.

Например, на автоматизированном складе робот более высокого уровня может планировать процесс сортировки, решая, какие предметы должны быть направлены в какие зоны. В то же время роботы более низкого уровня сосредотачиваются на идентификации предметов с помощью компьютерного зрения, анализируя такие характеристики, как размер, форма или этикетки, и организуя их в правильные контейнеры. Четкое разделение обязанностей помогает системе работать бесперебойно.

__wf_reserved_inherit
Рис. 7. Пример роботизированного AI-агента, сортирующего посылки.

Как начать создавать агента vision AI

Ядром ИИ-агента с возможностями компьютерного зрения является модель компьютерного зрения. Одной из самых современных и надежных моделей компьютерного зрения, доступных сегодня, является Ultralytics YOLO11. YOLO11 известна своей эффективностью и точностью в реальном времени, что делает ее идеальной для задач компьютерного зрения.

Вот различные процессы, связанные с созданием собственного ИИ-агента с возможностями YOLO11:

  • Подготовьте набор данных: Соберите и предварительно обработайте размеченные изображения, относящиеся к задаче, которую будет выполнять ваш ИИ-агент.
  • Индивидуальная тренировка модели: Обучите YOLO11 специально на своем наборе данных, чтобы повысить ее точность и производительность для вашего уникального приложения.
  • Интеграция с фреймворком принятия решений: Подключите обученную модель к системе, которая позволяет ИИ-агенту принимать решения на основе визуальных входных данных.
  • Тестирование и доработка: Разверните ИИ-агента, протестируйте его производительность, соберите отзывы и настройте модель для повышения точности и надежности.

Основные выводы

ИИ-агенты, интегрированные с компьютерным зрением — агенты vision AI — меняют отрасли, автоматизируя задачи, ускоряя процессы и улучшая принятие решений. От умных городов, контролирующих дорожное движение, до систем безопасности, использующих распознавание лиц, эти агенты предлагают новые решения общих проблем. 

Они также могут продолжать учиться и совершенствоваться с течением времени, что делает их полезными в меняющихся условиях. С помощью таких инструментов, как YOLO11, создание и использование этих AI-агентов становится проще, что приводит к более разумным и эффективным решениям.

Присоединяйтесь к нашему сообществу и изучите наш репозиторий на GitHub, чтобы узнать больше об ИИ. Ознакомьтесь с различными применениями компьютерного зрения в здравоохранении и ИИ в сельском хозяйстве на страницах наших решений. Ознакомьтесь с доступными вариантами лицензирования, чтобы начать!

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена