YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

컴퓨터 비전 프로젝트에서 강화 학습 활용

Abirami Vina

5분 분량

2025년 6월 5일

컴퓨터 비전 애플리케이션에서 강화 학습이 시스템이 보고, 결정을 내리고, 여러 산업 분야의 실제 애플리케이션에서 개선되도록 어떻게 돕고 있는지 알아보세요.

인공지능(AI)을 설명하는 간단한 방법은 인간의 사고와 학습 방식을 재현하는 데 초점을 맞춘 분야라는 것입니다. 여기서 AI의 학습 기법이라는 아이디어가 나오는데, 이는 기계가 사람처럼 시간이 지남에 따라 성능을 향상시킬 수 있도록 하는 다양한 방법입니다.

이전에 지도 학습, 비지도 학습, 강화 학습, 전이 학습을 포함한 주요 AI 학습 기술과 각 기술이 AI 모델이 정보를 처리하고 의사 결정을 내리는 데 어떻게 중요한 역할을 하는지 살펴보았습니다.

오늘날 우리는 환경과 상호 작용하고 피드백을 기반으로 개선함으로써 AI 시스템이 경험을 통해 학습하도록 가르치는 기술인 강화 학습을 자세히 살펴볼 것입니다. 특히 기계가 세계의 시각 정보를 해석하고 이해할 수 있도록 하는 시스템인 컴퓨터 비전 애플리케이션에 강화 학습을 적용할 수 있는 방법을 살펴볼 것입니다.

강화 학습 및 컴퓨터 비전과 같은 개념을 결합하면 흥미로운 새로운 가능성이 열리고 활발한 연구 분야가 됩니다. 이를 통해 AI 시스템은 보이는 것을 인식하고 시각적 정보를 기반으로 정보에 입각한 결정을 내릴 수 있습니다. 

강화 학습이란 무엇인가요?

강화 학습은 AI 에이전트가 행동을 취하고 보상 또는 페널티 형태로 피드백을 받아 학습하는 머신 러닝의 한 분야입니다. 목표는 시간이 지남에 따라 어떤 행동이 최상의 결과를 가져오는지 파악하는 것입니다.

강화 학습은 강아지를 훈련시키는 것과 같다고 생각할 수 있습니다. 강아지가 명령에 따라 앉으면 간식을 줍니다. 시간이 지나면 강아지는 앉는 것이 보상으로 이어진다는 것을 알게 됩니다. 강화 학습에서 AI 에이전트 또는 모델은 강아지와 같습니다. 환경은 주변 세계이고 보상은 올바른 행동을 했는지 이해하는 데 도움이 됩니다.

이는 AI 모델에 정답의 많은 예가 제시되는 지도 학습과는 다릅니다. 예를 들어, 모델에 개의 사진을 보여주고 "이것은 개입니다."라고 말할 수 있습니다. 

반면에 강화 학습은 레이블이 지정된 데이터에 의존하지 않습니다. 대신 게임을 하고 어떤 움직임이 승리에 도움이 되는지 알아내는 것과 마찬가지로 다양한 행동을 시도하고 결과로부터 학습하는 것을 포함합니다.

__wf_reserved_inherit
Fig 1. 강화 학습 vs. 지도 학습.

강화 학습은 의사 결정이 단계별로 이루어지고 각 선택이 다음에 일어나는 일을 변경하는 작업에 매우 중요합니다. 이러한 유형의 학습은 플레이어에게 더욱 도전적이고 매력적인 게임 플레이를 제공하기 위해 전략 비디오 게임에서 사용됩니다.

AI 솔루션에서 강화 학습이 작동하는 방식

자전거 타는 법을 배우는 방법을 생각해 보십시오. 처음에는 넘어질 수도 있습니다. 그러나 연습을 통해 균형을 유지하는 데 도움이 되는 것이 무엇인지 파악하기 시작합니다. 더 많이 탈수록 더 잘하게 됩니다. 무엇을 해야 하는지 듣는 것뿐만 아니라 행동함으로써 배우는 것입니다.

강화 학습은 AI에서도 유사한 방식으로 작동합니다. 다양한 행동을 시도하고, 일어나는 일을 관찰하고, 시간이 지남에 따라 올바른 선택을 할 수 있는 능력을 점진적으로 향상시키는 등 경험을 통해 학습합니다.

__wf_reserved_inherit
Fig 2. 강화 학습 작동 방식 이해.

다음은 강화 학습의 주요 구성 요소에 대한 소개입니다.

  • 에이전트: 에이전트는 학습자 또는 의사 결정자입니다. 에이전트는 행동을 취함으로써 환경과 상호 작용하고 특정 목표를 달성하는 것을 목표로 합니다.
  • 환경: 환경에는 에이전트가 상호 작용하는 모든 것이 포함됩니다. 에이전트의 행동에 따라 변경되고 결과에 따라 피드백을 제공합니다.
  • 상태: 상태는 환경에서 현재 상황의 스냅샷을 나타냅니다. 에이전트는 상태를 관찰하여 주변 환경을 이해하고 다음에 수행할 작업을 결정합니다.
  • 행동: 행동은 에이전트가 환경에 영향을 미치는 움직임 또는 결정입니다. 각 행동은 새로운 상태로 이어지고 미래의 보상에 영향을 미칠 수 있습니다.
  • 보상: 보상은 단순히 에이전트의 행동이 유익했는지 여부를 알려주는 환경으로부터의 피드백입니다. 긍정적인 보상은 에이전트가 좋은 행동을 반복하도록 장려하고, 부정적인 보상은 좋지 않은 행동을 억제합니다.
  • 정책: 정책은 현재 상태를 기반으로 행동을 선택하는 에이전트의 전략입니다. 시간이 지남에 따라 에이전트는 획득할 수 있는 총 보상을 최대화하기 위해 정책을 개선합니다.

이러한 구성 요소를 함께 사용함으로써 강화 학습은 AI 시스템이 지속적인 시행착오를 통해 효과적인 행동을 학습할 수 있도록 합니다. 각 시도마다 에이전트는 더 높은 보상과 더 나은 결과로 이어지는 행동을 선택하는 데 능숙해집니다.

컴퓨터 비전 혁신의 강화 학습

컴퓨터 비전은 이미지에서 객체 감지, 그림 속 내용 분류, 이미지를 여러 부분으로 분할하는 작업 등에 사용됩니다. Ultralytics YOLO11과 같은 컴퓨터 비전 모델은 이러한 작업을 지원하며 시각적 통찰력을 수집할 수 있는 영향력 있는 애플리케이션을 구축하는 데 사용할 수 있습니다.  

그러나 이러한 Vision AI 작업이 강화 학습과 결합되면 단순히 보는 것뿐만 아니라 시각적 통찰력을 기반으로 행동하는 방법을 배우고 시간이 지남에 따라 더 나아지는 AI 솔루션이 탄생합니다.

컴퓨터 비전 애플리케이션에서 강화 학습의 흥미로운 예는 창고에서 로봇을 사용하는 것입니다. 카메라와 컴퓨터 비전 시스템을 갖춘 로봇은 주변 환경을 분석하고, 각 품목의 위치를 감지하고, 모양과 크기를 식별하고, 선반에 어떻게 배치되어 있는지 이해할 수 있습니다.

로봇이 물건을 집으려고 할 때마다 피드백을 받습니다. 물건을 올바르게 집으면 성공하고 떨어뜨리면 실패합니다. 시간이 지남에 따라 로봇은 어떤 행동이 다른 물건에 가장 적합한지 학습합니다. 고정된 일련의 지침을 따르는 대신 경험을 통해 지속적으로 개선됩니다.

__wf_reserved_inherit
Fig 3. Vision AI와 강화 학습을 사용하여 물체를 집어 올리는 로봇 팔입니다.

컴퓨터 비전에서 강화 학습의 활용

이제 강화 학습이 무엇인지, 그리고 컴퓨터 비전에서 강화 학습의 역할에 대해 더 잘 이해했으므로, 강화 학습과 컴퓨터 비전이 함께 사용되는 몇 가지 예를 자세히 살펴보겠습니다.

더 스마트한 차량을 위한 Vision AI 및 강화 학습 통합

자율 주행 차량은 주변 환경을 이해하기 위해 비전 AI에 의존하고, 보이는 것을 기반으로 의사 결정을 내리기 위해 강화 학습에 의존할 수 있습니다. 이러한 작동 방식의 좋은 예는 AWS DeepRacer입니다.

AWS DeepRacer는 카메라와 강화 학습을 사용하여 운전하는 방법을 배우는 완전 자율 1/18 스케일 레이싱카입니다. 무엇을 해야 할지 지시받는 대신 시도하고, 실수를 하고, 실수를 통해 배우면서 스스로 알아냅니다.

이 작은 자동차의 카메라는 눈과 같이 작동하여 앞 트랙을 캡처합니다. 보이는 것을 바탕으로 자동차는 조향 방법과 속도를 배우고, 랩을 돌 때마다 실력이 향상됩니다. 예를 들어, 과거의 시도에서 학습하여 더 넓게 회전하거나 급커브 전에 속도를 줄이는 방법을 배울 수 있습니다.

DeepRacer 훈련은 가상 환경에서 시작되며, 모델은 여기서 운전 기술을 연습하고 개선합니다. 특정 수준의 성능에 도달하면 이러한 기술은 실제 자동차가 있는 실제 트랙으로 이전됩니다. 

__wf_reserved_inherit
Fig 4. AWS DeepRacer는 자율 주행을 위해 비전 및 강화 학습을 사용합니다. 이미지 출처: Amazon. 

자율 수술 로봇으로의 전환

주목받고 있는 흥미로운 연구 분야는 로봇 수술에서 비전 AI와 강화 학습을 통합하는 것입니다. 현재 이 애플리케이션은 여전히 대부분 이론적입니다. 연구자들은 가상 환경에서 시뮬레이션을 실행하고 있습니다.

그러나 초기 실험에서는 수술 로봇이 결국 더 큰 정밀도, 적응성 및 최소한의 인간 개입으로 복잡하고 섬세한 절차를 수행할 수 있음을 시사하는 유망한 결과를 보여주고 있습니다.

__wf_reserved_inherit
Fig 5. 수술 로봇이 점점 더 발전하고 있습니다.

예를 들어 수술 부위에서 거즈 조각을 조심스럽게 들어 올려야 하는 상황을 상상해 보십시오. Vision AI가 장착된 로봇은 먼저 장면을 분석하여 분할을 사용하여 거즈와 주변 조직을 식별합니다. 

강화 학습은 수술 로봇이 거즈를 잡을 최적의 각도, 가해야 할 압력의 양, 주변의 민감한 부위를 건드리지 않고 들어 올리는 방법 등을 결정하여 작업에 접근하는 방법을 결정하는 데 도움이 될 것입니다. 시간이 지남에 따라 시뮬레이션 환경에서 반복적인 연습을 통해 로봇은 이러한 미묘하고 중요한 움직임을 점점 더 능숙하고 자신감 있게 수행하는 방법을 배울 수 있습니다.

비전 AI에서 강화 학습의 장단점

강화 학습을 통해 Vision AI 시스템은 단순한 인식을 넘어 보이는 것을 기반으로 의사 결정을 내릴 수 있습니다. 이는 로봇 공학, 자동화 및 실시간 상호 작용과 같은 영역에서 새로운 가능성을 열어줍니다. 

비전 AI 워크플로우에 강화 학습을 통합할 때의 주요 이점은 다음과 같습니다.

  • 레이블이 지정된 데이터에 대한 의존도 감소: 이러한 시스템은 상호 작용을 통해 학습할 수 있으므로 시작하기 위해 거대한 레이블이 지정된 데이터 세트가 필요하지 않습니다.
  • 불확실성을 더 잘 처리: 강화 학습은 완전한 데이터에만 의존하지 않고 피드백을 기반으로 작업을 조정하여 불완전하거나 노이즈가 있는 시각적 정보를 처리할 수 있습니다.
  • 장기 학습 지원: 단일 단계 결정이 아닌 일련의 행동으로부터 학습하여 모델이 시간이 지남에 따라 개선되도록 돕습니다.

반면에, 고려해야 할 강화 학습의 몇 가지 제한 사항은 다음과 같습니다.

  • 신용 할당 문제: 특히 긴 의사 결정 시퀀스에서 에이전트가 최종 결과에 기여한 특정 작업을 파악하기 어려울 수 있습니다.
  • 안전하지 않은 탐색 위험: 학습 중에 에이전트는 의료 또는 자율 주행과 같은 실제 애플리케이션에서 허용되지 않는 안전하지 않거나 바람직하지 않은 행동을 시도할 수 있습니다.
  • 느린 수렴: 모델이 실제로 좋은 성능에 도달하는 데 특히 복잡한 작업의 경우 오랜 시간이 걸릴 수 있습니다.

주요 내용

컴퓨터 비전 프로젝트의 강화 학습은 AI 시스템이 주변 환경을 이해하고 경험을 통해 행동하는 방법을 학습할 수 있도록 합니다. Ultralytics YOLO11과 같은 모델이 실시간 객체 감지를 제공하므로 시스템은 보이는 것을 기반으로 정보에 입각한 결정을 내릴 수 있습니다.

이러한 접근 방식은 레이블이 지정된 데이터에만 의존하는 대신 시행착오와 피드백을 통해 AI가 개선되도록 함으로써 기존 방법을 뛰어넘습니다. 지속적인 학습을 지원하고 시간이 지남에 따라 더 나아지는 보다 유연하고 적응력이 뛰어나며 지능적인 Vision AI 시스템을 구축하는 데 도움이 됩니다.

성장하는 커뮤니티에 참여하세요. GitHub 저장소를 방문하여 AI에 대해 자세히 알아보세요. 자신만의 컴퓨터 비전 프로젝트를 시작하고 싶으신가요? 라이선스 옵션을 살펴보세요. 솔루션 페이지에서 제조업 분야의 AI자동차 산업의 Vision AI에 대해 자세히 알아보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.