Компьютерное зрение определяет то, как агенты с ИИ в области зрения принимают решения
Узнай, как ИИ-агенты используют компьютерное зрение для переосмысления отраслей. Изучи их применения в таких областях, как безопасность, самоуправляемые автомобили и многое другое.

Каждая отрасль, от производства до розничной торговли, сталкивается со своими собственными операционными проблемами, и поиск инновационных способов решения этих задач всегда был ключом к успешному ведению бизнеса. В последнее время агенты AI стали популярным решением во многих областях. Эти системы выходят за рамки простого анализа данных. Они также могут предпринимать действия.
Например, AI агенты в производстве могут обнаруживать дефекты в режиме реального времени и автоматически инициировать меры контроля качества, чтобы поддерживать бесперебойную работу производства. Аналогичным образом, в логистике и розничной торговле они могут контролировать несколько локаций с помощью интеллектуального видеонаблюдения и мгновенно предупреждать команды о необычной активности.
По мере роста этой тенденции агенты AI активно трансформируют отрасли по всему миру. Мировой рынок агентов AI достиг $5,1 млрд в 2024 году, и прогнозируется, что к 2030 году он вырастет до $47,1 млрд.

Рис 1. Обзор объема мирового рынка агентов AI.
Одной из ключевых технологий, стимулирующих эти достижения, является компьютерное зрение. Позволяя машинам обрабатывать и интерпретировать визуальные данные, vision AI делает возможным выполнение агентами AI задач компьютерного зрения, таких как обнаружение объектов в реальном времени, сегментация экземпляров и отслеживание объектов с невероятной точностью. Это устраняет разрыв между тем, что видят машины, и тем, как они принимают решения, что делает данную технологию важнейшей частью многих решений на базе AI.
В этой статье мы изучим агентов AI и их связь с компьютерным зрением. Мы также обсудим различные типы агентов AI и то, как они используются в приложениях на основе зрения. Давай начнем!
Link to this sectionЧто такое агенты AI?#
Прежде чем погрузиться в тему агентов vision AI, давай уделим время пониманию агентов AI в целом, чтобы увидеть, насколько универсальными могут быть эти системы.
Агент AI — это интеллектуальная система, которая может понимать задачи или вопросы и реагировать на них без помощи человека. Многие агенты AI используют машинное обучение и обработку естественного языка (NLP) для выполнения широкого спектра задач: от ответов на простые вопросы до управления сложными процессами.
Некоторые агенты AI даже обладают способностью учиться и совершенствоваться с течением времени, в отличие от традиционных систем AI, которые полагаются на ввод данных человеком для каждого обновления. Именно поэтому агенты AI быстро становятся важной частью AI. Они могут автоматизировать задачи, принимать решения и взаимодействовать со своей средой без постоянного контроля. Они особенно полезны для управления повторяющимися и трудоемкими задачами.
Например, ты можешь встретить агентов AI в таких секторах, как обслуживание клиентов и гостиничный бизнес. В обслуживании клиентов агенты AI используются для обработки возвратов и предложения персонализированных рекомендаций по продуктам. В то же время в индустрии гостеприимства они могут помочь персоналу отеля управлять запросами гостей, оптимизировать обслуживание номеров и предлагать гостям близлежащие достопримечательности. Эти примеры демонстрируют, как агенты AI делают повседневные процессы быстрее и эффективнее.
Link to this sectionПонимание того, как работают агенты vision AI#
Далее давай кратко рассмотрим, как работают агенты AI. Хотя каждый агент AI уникален и разработан для конкретных задач, все они разделяют три основных этапа: восприятие, принятие решений и действие.
Во-первых, на этапе восприятия агенты AI собирают информацию из различных источников, чтобы понять, что происходит. Затем следует принятие решений. На основе собранной информации они используют свои алгоритмы для анализа ситуации и выбора наилучшего плана действий. Наконец, происходит действие. Как только решение принято, они его выполняют — будь то ответ на вопрос, выполнение задачи или сообщение о проблеме для человека.
Это может звучать просто, но в зависимости от типа агента AI за кулисами часто происходит много процессов, обеспечивающих работу этих этапов. От анализа сложных данных до использования передовых моделей машинного обучения — каждый агент AI создан для выполнения конкретных задач своим уникальным способом.
Например, в то время как многие агенты AI фокусируются на обработке языка с помощью NLP, другие — известные как агенты vision AI — интегрируют компьютерное зрение для обработки визуальных данных. Используя передовые модели компьютерного зрения, такие как Ultralytics YOLO11, агенты vision AI могут выполнять более точный анализ изображений.

Рис 2. Пример подсчета яблок на изображении с помощью YOLO11.
Link to this sectionАгенты vision AI в беспилотных автомобилях#
Давай возьмем в качестве примера беспилотные автомобили, чтобы увидеть, как агенты vision AI работают на трех основных этапах, описанных выше:
- Восприятие: Агенты vision AI в беспилотных автомобилях собирают визуальные данные с камер и датчиков, установленных на транспортном средстве. Эти данные включают изображения и видео окружающей среды, такие как другие автомобили, пешеходы, сигналы светофора и дорожные знаки.
- Принятие решений: Агент AI обрабатывает эти визуальные данные с помощью моделей, таких как YOLO11. Он идентифицирует объекты, такие как автомобили и пешеходы, обнаруживает препятствия или внезапную смену полосы движения, а также распознает закономерности, такие как транспортный поток и сигналы светофора. Это помогает автомобилю понимать дорожные условия в режиме реального времени.
- Действие: На основе проведенного анализа агент AI предпринимает действия, например, поворачивает руль, чтобы избежать препятствия, регулирует скорость или останавливается на красный свет. Эти решения принимаются быстро для обеспечения безопасного и эффективного вождения.
Беспилотные автомобили Waymo являются отличным примером этой технологии. Они используют агентов vision AI для понимания окружающей обстановки, принятия решений в реальном времени и безопасной и эффективной навигации по дорогам без участия человека.

Рис 3. Беспилотное такси Waymo на базе агента AI.
Link to this sectionТипы агентов vision AI#
Теперь, когда мы увидели, как работают агенты AI и как они используют компьютерное зрение, давай рассмотрим различные типы агентов AI. Каждый тип предназначен для конкретных задач, от простых действий до более сложного принятия решений и обучения.
Link to this sectionАгенты с простыми рефлексами#
Агенты с простыми рефлексами — это самый базовый тип агента AI. Они реагируют на определенные входные данные с помощью заранее определенных действий, основываясь исключительно на текущей ситуации, без учета какой-либо истории или будущих результатов. Такие агенты обычно используют простые правила «если-то» для управления своим поведением.
Что касается анализа изображений, агент с простыми рефлексами может быть запрограммирован на обнаружение определенного цвета (например, красного) и запуск немедленного действия (например, выделение или подсчет красных объектов). Хотя это может работать для простых задач, этот подход неэффективен в более сложных средах, поскольку агент не учится и не адаптируется на основе предыдущего опыта.
Link to this sectionАгенты с рефлексами на основе моделей#
Агенты с рефлексами на основе моделей более продвинуты, чем агенты с простыми рефлексами, потому что они используют внутреннюю модель своей среды, чтобы лучше понимать ситуацию. Эта модель позволяет им справляться с отсутствующей или неполной информацией и принимать более обоснованные решения.
Возьмем, к примеру, системы камер безопасности с AI. Встроенные в них агенты vision AI могут использовать компьютерное зрение для анализа происходящего в режиме реального времени. Они могут сравнивать движения и действия с моделью нормального поведения, помогая им точнее выявлять необычную активность, такую как магазинные кражи, и отмечать потенциальные угрозы безопасности.

Рис 4. Пример использования компьютерного зрения для обнаружения краж.
Link to this sectionАгенты, основанные на полезности#
Подумай о дроне, основанном на полезности, используемом для мониторинга урожая. Он корректирует свой маршрут полета, чтобы охватить большую площадь, избегая препятствий, и выбирает лучший маршрут для работы. Это означает, что дрон оценивает несколько потенциальных действий, таких как выбор приоритетной области или наиболее эффективная навигация, и выбирает то, которое максимизирует его эффективность.
Аналогичным образом, агенты, основанные на полезности, предназначены для выбора наилучшего действия из нескольких вариантов для достижения наибольшей выгоды или результата. Агенты vision AI, разработанные для этого, могут обрабатывать и анализировать различные визуальные данные, такие как изображения или данные датчиков, и выбирать наиболее полезный результат на основе заранее определенных критериев.

Рис 5. Дроны, основанные на полезности, могут использоваться для мониторинга урожая.
Link to this sectionЦелеориентированные агенты#
Целеориентированные агенты похожи на агентов, основанных на полезности, поскольку оба стремятся к достижению конкретных целей. Однако целеориентированные агенты фокусируются исключительно на действиях, которые приближают их к поставленной цели. Они оценивают каждое действие на основе того, как оно помогает достичь цели, не взвешивая другие факторы, такие как общая ценность или компромиссы.
Например, беспилотный автомобиль работает как целеориентированный агент, когда его задача — добраться до пункта назначения. Он обрабатывает данные с камер AI и датчиков, чтобы принимать решения, такие как объезд препятствий, соблюдение сигналов светофора и выбор правильных поворотов, чтобы следовать маршруту. Эти решения полностью направлены на то, насколько они соответствуют цели добраться до места назначения безопасно и эффективно. В отличие от агентов, основанных на полезности, целеориентированные агенты фокусируются только на достижении цели, не принимая во внимание дополнительные критерии, такие как эффективность или оптимизация.

Рис 6. Беспилотный автомобиль, использующий компьютерное зрение для идентификации объектов в своем окружении.
Link to this sectionОбучающиеся агенты#
Если ты знаком с компьютерным зрением, ты, возможно, слышал о тонкой настройке — процессе, при котором модели улучшаются, обучаясь на новых данных. Обучающиеся агенты работают аналогичным образом, адаптируясь и совершенствуясь с течением времени по мере получения опыта. В таких приложениях, как контроль качества на основе зрения, эти агенты лучше обнаруживают дефекты с каждой проверкой. Эта способность уточнять свою производительность особенно важна в таких областях, как авиация, где безопасность и точность имеют решающее значение.
Link to this sectionИерархические агенты#
Иерархические агенты упрощают сложные задачи, разбивая их на более мелкие, более управляемые этапы. Агент более высокого уровня контролирует общий процесс, принимая стратегические решения, в то время как агенты более низкого уровня выполняют конкретные задачи. Это более эффективно при выполнении операций, которые включают в себя множество шагов и детальное исполнение.
Например, на автоматизированном складе робот более высокого уровня может планировать процесс сортировки, решая, какие предметы должны поступать в какие зоны. В то же время роботы более низкого уровня фокусируются на идентификации предметов с помощью компьютерного зрения, анализируя такие характеристики, как размер, форма или этикетки, и раскладывая их по нужным ячейкам. Четкое разделение обязанностей помогает системе работать бесперебойно.

Рис 7. Пример роботизированного агента AI, сортирующего посылки.
Link to this sectionКак начать создание агента vision AI#
Основой агента AI со способностями зрения является модель компьютерного зрения. Одной из самых современных и надежных моделей компьютерного зрения, доступных сегодня, является Ultralytics YOLO11. YOLO11 известна своей эффективностью и точностью в реальном времени, что делает ее идеальной для задач компьютерного зрения.
Вот различные процессы, связанные с созданием твоего собственного агента AI с возможностями YOLO11:
-
Подготовь набор данных: Собери и предварительно обработай размеченные изображения, относящиеся к задаче, которую будет выполнять твой агент AI.
-
Обучи модель на своих данных: Обучи YOLO11 специально на своем наборе данных, чтобы повысить ее точность и производительность для твоего уникального приложения.
-
Интегрируй с платформой принятия решений: Подключи обученную модель к системе, которая позволяет агенту AI принимать решения на основе визуальных входных данных.
-
Тестируй и совершенствуй: Разверни агента AI, протестируй его производительность, собери отзывы и настрой модель для повышения точности и надежности.
Link to this sectionОсновные выводы#
Агенты AI, интегрированные с компьютерным зрением — агенты vision AI — меняют отрасли, автоматизируя задачи, ускоряя процессы и улучшая принятие решений. От умных городов, управляющих дорожным движением, до систем безопасности, использующих распознавание лиц, эти агенты предлагают новые решения распространенных проблем.
Они также могут продолжать учиться и совершенствоваться с течением времени, что делает их полезными в изменяющихся условиях. С такими инструментами, как YOLO11, создание и использование этих агентов AI становится проще, что ведет к более умным и эффективным решениям.
Присоединяйся к нашему сообществу и загляни в наш репозиторий GitHub, чтобы узнать больше об AI. Изучи различные применения компьютерного зрения в здравоохранении и AI в сельском хозяйстве на наших страницах с решениями. Взгляни на доступные варианты лицензирования, чтобы начать!






