Руководства

Использование обучения с подкреплением в проектах компьютерного зрения

Узнай, как обучение с подкреплением в приложениях компьютерного зрения помогает системам видеть, принимать решения и совершенствоваться в реальных задачах в различных отраслях.

АБАбирами Вина

5 min readJune 5, 2025

Обучение с подкреплением, применяемое в проектах компьютерного зрения

Простой способ объяснить искусственный интеллект (ИИ) — сказать, что это область, сосредоточенная на воссоздании того, как люди думают и учатся. Отсюда и возникает идея методов обучения в ИИ: это различные способы, позволяющие машинам со временем улучшать свою производительность, точно так же, как это делают люди.

Ранее мы изучили ключевые методы обучения ИИ, включая обучение с учителем, без учителя, обучение с подкреплением и обучение с переносом, и то, как каждый из них играет важную роль в том, чтобы помочь моделям ИИ обрабатывать информацию и принимать решения.

Сегодня мы подробнее рассмотрим обучение с подкреплением — метод, который учит системы ИИ учиться на опыте, взаимодействуя со средой и улучшая результаты на основе обратной связи. В частности, мы исследуем, как обучение с подкреплением можно применить в приложениях компьютерного зрения — системах, которые позволяют машинам интерпретировать и понимать визуальную информацию из окружающего мира.

Объединение таких концепций, как обучение с подкреплением и компьютерное зрение, открывает захватывающие новые возможности и является активной областью исследований. Это позволяет системам ИИ распознавать то, что они видят, и принимать обоснованные решения на основе этой визуальной информации.

Link to this sectionЧто такое обучение с подкреплением?#

Обучение с подкреплением — это раздел машинного обучения, в котором агент ИИ учится, совершая действия и получая обратную связь в виде вознаграждений или наказаний. Цель состоит в том, чтобы выяснить, какие действия приводят к наилучшим результатам с течением времени.

Ты можешь представить обучение с подкреплением как дрессировку собаки. Когда собака садится по команде, ты даешь ей лакомство. Через некоторое время собака понимает, что выполнение команды ведет к вознаграждению. В обучении с подкреплением агент ИИ или модель подобны собаке; окружающая среда — это мир вокруг, а вознаграждение помогает модели понять, правильный ли ход она сделала.

Это отличается от обучения с учителем, где модели ИИ показывают много примеров правильных ответов. Например, модели могут показать фотографию собаки и сказать: «Это собака».

Обучение с подкреплением, напротив, не полагается на размеченные данные. Вместо этого оно включает в себя обучение путем пробы различных действий и извлечения уроков из результатов, очень похоже на игру, в которой ты пытаешься понять, какие ходы помогают тебе победить.

Обучение с подкреплением против обучения с учителем

Рис. 1. Обучение с подкреплением против обучения с учителем.

Обучение с подкреплением критически важно для задач, где решения принимаются пошагово и каждый выбор меняет то, что произойдет дальше. Этот тип обучения используется в стратегических видеоиграх, чтобы сделать игровой процесс более сложным и увлекательным для игроков.

Link to this sectionКак работает обучение с подкреплением в решениях на базе ИИ#

Подумай о том, как ты учишься кататься на велосипеде. Сначала ты можешь упасть. Но с практикой начинаешь понимать, что помогает тебе сохранять равновесие. Чем больше ты катаешься, тем лучше получается. Ты учишься на практике, а не просто следуя указаниям, что делать.

Обучение с подкреплением работает похожим образом для ИИ. Модель учится на опыте — пробуя разные действия, наблюдая, что происходит, и постепенно улучшая свою способность принимать правильные решения с течением времени.

Понимание того, как работает обучение с подкреплением

Рис. 2. Понимание принципов работы обучения с подкреплением.

Вот некоторые из ключевых компонентов обучения с подкреплением:

Агент: Агент — это ученик или лицо, принимающее решения. Он взаимодействует со средой, совершая действия, и стремится достичь конкретной цели.
Среда: Среда включает в себя все, с чем взаимодействует агент. Она меняется в ответ на действия агента и предоставляет обратную связь на основе результатов.
Состояние: Состояние представляет собой снимок текущей ситуации в среде. Агент наблюдает за состоянием, чтобы понять свое окружение и определить, какое действие предпринять дальше.
Действие: Действие — это ход или решение, принятое агентом, которое влияет на среду. Каждое действие приводит к новому состоянию и может повлиять на будущие вознаграждения.
Вознаграждение: Вознаграждение — это просто обратная связь от среды, которая говорит агенту, было ли его действие полезным или нет. Положительные вознаграждения побуждают агента повторять хорошие действия, а отрицательные — удерживают от плохих.
Политика: Политика — это стратегия агента по выбору действий на основе текущего состояния. Со временем агент уточняет свою политику, чтобы максимизировать общую сумму вознаграждений, которые он может получить.

Используя эти компоненты вместе, обучение с подкреплением дает системам ИИ возможность изучать эффективные модели поведения через постоянные пробы и ошибки. С каждой попыткой агент становится лучше в выборе действий, которые приводят к более высоким вознаграждениям и лучшим результатам.

Link to this sectionОбучение с подкреплением в инновациях компьютерного зрения#

Компьютерное зрение используется для таких задач, как обнаружение объектов на изображениях, классификация того, что находится на снимке, и сегментация изображения на разные части. Модели компьютерного зрения, такие как Ultralytics YOLO11, поддерживают подобные задачи и могут использоваться для создания эффективных приложений, способных собирать визуальные данные.

Однако, когда эти задачи Vision AI объединяются с обучением с подкреплением, результатом становится решение ИИ, которое не просто видит, но и учится действовать на основе визуальных данных, становясь лучше со временем.

Интересный пример обучения с подкреплением в приложениях компьютерного зрения — использование роботов на складах. Роботы, оснащенные камерами и системами компьютерного зрения, могут анализировать свое окружение, обнаруживать местоположение каждого предмета, определять его форму и размер, а также понимать, как он расположен на полке.

Каждый раз, когда робот пытается взять предмет, он получает обратную связь — успех, если предмет взят правильно, или неудача, если он уронен. Со временем робот узнает, какие действия лучше всего подходят для разных предметов. Вместо того чтобы следовать фиксированному набору инструкций, он постоянно совершенствуется благодаря опыту.

Роботизированная рука, использующая компьютерное зрение и обучение с подкреплением для захвата объектов

Рис. 3. Роботизированная рука, использующая Vision AI и обучение с подкреплением для захвата объектов.

Link to this sectionПрименение обучения с подкреплением в компьютерном зрении#

Теперь, когда у нас есть лучшее понимание того, что такое обучение с подкреплением и какова его роль в компьютерном зрении, давай подробнее рассмотрим некоторые примеры совместного использования этих технологий.

Link to this sectionИнтеграция Vision AI и обучения с подкреплением для более умных транспортных средств#

Автономные транспортные средства могут полагаться как на Vision AI для понимания окружающей обстановки, так и на обучение с подкреплением для принятия решений на основе увиденного. Отличным примером этого на практике является AWS DeepRacer.

AWS DeepRacer — это полностью автономный гоночный автомобиль в масштабе 1/18, который учится водить машину, используя камеру и обучение с подкреплением. Вместо того чтобы получать инструкции, он сам во всем разбирается, пробуя, совершая ошибки и учась на них.

Камера этого крошечного автомобиля работает как пара глаз, фиксируя трассу впереди. Основываясь на том, что она видит, автомобиль учится управлять рулем и регулировать скорость. С каждым кругом он становится лучше. Например, он может научиться проходить повороты по более широкой траектории или замедляться перед крутыми поворотами, учась на прошлых попытках.

Обучение DeepRacer начинается в виртуальной среде, где модель тренирует и оттачивает свои навыки вождения. Как только она достигает определенного уровня производительности, эти навыки переносятся на реальные трассы с физическими автомобилями.

AWS DeepRacer, использующий зрение и обучение с подкреплением для автономного вождения

Рис. 4. AWS DeepRacer использует зрение и обучение с подкреплением для автономного вождения. Источник изображения: Amazon.

Link to this sectionДвижение к автономным хирургическим роботам#

Захватывающая область исследований, которая привлекает внимание, — это интеграция Vision AI и обучения с подкреплением в роботизированной хирургии. На данный момент это приложение по большей части является теоретическим. Исследователи проводят симуляции в виртуальных средах.

Тем не менее ранние эксперименты показывают многообещающие результаты, предполагая, что хирургические роботы в конечном итоге смогут выполнять сложные, деликатные процедуры с большей точностью, адаптивностью и минимальным участием человека.

Хирургические роботы, становящиеся все более совершенными

Рис. 5. Хирургические роботы становятся все более совершенными.

Например, представь ситуацию, когда нужно аккуратно убрать марлевый тампон с места операции. Робот, оснащенный Vision AI, сначала проанализирует сцену, используя сегментацию, чтобы идентифицировать тампон и окружающие ткани.

Затем обучение с подкреплением помогло бы хирургическому роботу решить, как подойти к задаче, определяя оптимальный угол для захвата тампона, силу давления и способ подъема без повреждения близлежащих чувствительных зон. Со временем, благодаря постоянной практике в симулированных средах, робот мог бы научиться выполнять эти тонкие, критически важные движения с возрастающим мастерством и уверенностью.

Link to this sectionПлюсы и минусы обучения с подкреплением в Vision AI#

Обучение с подкреплением позволяет системам Vision AI выйти за рамки простого распознавания и начать принимать решения на основе того, что они видят. Это открывает новые возможности в таких областях, как робототехника, автоматизация и взаимодействие в реальном времени.

Вот некоторые из ключевых преимуществ интеграции обучения с подкреплением в рабочие процессы Vision AI:

Меньшая зависимость от размеченных данных: Эти системы могут учиться в процессе взаимодействия, поэтому им не нужны огромные размеченные наборы данных для начала работы.
Лучшее преодоление неопределенности: Обучение с подкреплением справляется с неполной или зашумленной визуальной информацией, корректируя действия на основе обратной связи, а не полагаясь только на идеальные данные.
Поддержка долгосрочного обучения: Оно помогает моделям улучшаться со временем, обучаясь на последовательностях действий, а не только на одношаговых решениях.

С другой стороны, вот некоторые ограничения обучения с подкреплением, которые стоит учитывать:

Проблема распределения кредита: Агенту бывает сложно понять, какие конкретно действия привели к конечному результату, особенно в длинных последовательностях решений.
Риск небезопасного исследования: Во время обучения агент может попробовать небезопасные или нежелательные действия, которые были бы неприемлемы в реальных приложениях, таких как медицина или автономное вождение.
Медленная сходимость: Модели может потребоваться много времени, чтобы действительно достичь хорошей производительности, особенно в сложных задачах.

Link to this sectionОсновные выводы#

Обучение с подкреплением в проектах компьютерного зрения позволяет системам ИИ понимать свое окружение и учиться действовать на основе опыта. Благодаря таким моделям, как Ultralytics YOLO11, обеспечивающим обнаружение объектов в реальном времени, система может принимать обоснованные решения на основе увиденного.

Этот подход выходит за рамки традиционных методов, позволяя ИИ совершенствоваться через пробы и обратную связь, вместо того чтобы полагаться исключительно на размеченные данные. Это поддерживает непрерывное обучение и помогает создавать более гибкие, адаптивные и интеллектуальные системы Vision AI, которые становятся лучше с течением времени.

Присоединяйся к нашему растущему сообществу. Посети наш репозиторий на GitHub, чтобы глубже погрузиться в ИИ. Хочешь начать свои собственные проекты по компьютерному зрению? Ознакомься с нашими вариантами лицензирования. Узнай больше об ИИ в производстве и Vision AI в автомобильной промышленности на наших страницах с решениями.

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Использование обучения с подкреплением в проектах компьютерного зрения

Link to this sectionЧто такое обучение с подкреплением?#

Link to this sectionКак работает обучение с подкреплением в решениях на базе ИИ#

Link to this sectionОбучение с подкреплением в инновациях компьютерного зрения#

Link to this sectionПрименение обучения с подкреплением в компьютерном зрении#

Link to this sectionИнтеграция Vision AI и обучения с подкреплением для более умных транспортных средств#

Link to this sectionДвижение к автономным хирургическим роботам#

Link to this sectionПлюсы и минусы обучения с подкреплением в Vision AI#

Link to this sectionОсновные выводы#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!