비전 AI

액티브 학습은 컴퓨터 비전 개발 속도를 높입니다

컴퓨터 비전에서 어노테이션 노력을 최소화하기 위해 액티브 학습(Active learning)이 어떻게 사용되는지 배우고 다양한 산업 전반에 걸친 실제 응용 사례를 살펴보십시오.

ABAbirami Vina

3 min readJanuary 23, 2025

컴퓨터 비전 모델을 훈련하는 과정은 아이에게 색을 구별하도록 가르치는 것과 매우 비슷합니다. 먼저 색상이 있는 물체 모음이 필요합니다. 그런 다음, 아이가 각 색상을 올바르게 식별하도록 지도해야 하는데, 이 작업은 종종 시간이 많이 걸리고 반복적입니다.

아이들이 배우기 위해 많은 예시가 필요한 것처럼, 비전 모델이 이미지 내의 패턴과 물체를 인식하려면 방대한 라벨링된 데이터 세트가 필요합니다. 그러나 엄청난 양의 데이터를 라벨링하는 데는 많은 시간과 노력, 그리고 자원이 소모됩니다. 능동적 학습과 같은 기술을 활용하면 이 과정을 간소화할 수 있습니다.

능동적 학습(Active learning)은 대규모 데이터 세트에서 가장 중요한 데이터를 선택하여 라벨링하는 단계별 프로세스입니다. 모델은 이 라벨링된 데이터를 통해 학습하여 더욱 정확하고 효과적으로 변합니다. 가장 가치 있는 데이터에만 집중함으로써 필요한 라벨링 양을 줄이고 모델 개발 속도를 높일 수 있습니다.

이 글에서는 능동적 학습이 모델 훈련을 돕고, 라벨링 비용을 절감하며, 모델의 전반적인 정확도를 어떻게 향상시키는지 살펴보겠습니다.

Link to this section이미지 데이터 세트 구축은 쉽지 않습니다#

데이터 세트는 컴퓨터 비전 및 딥러닝 모델의 기반입니다. ImageNet과 같이 널리 사용되는 데이터 세트는 수백만 개의 이미지와 다양한 물체 카테고리를 제공합니다. 하지만 이처럼 거대한 규모의 고품질 데이터 세트를 생성하고 유지 관리하는 데에는 여러 가지 어려움이 따릅니다.

예를 들어, 데이터를 수집하고 라벨링하는 작업에는 시간과 자원, 숙련된 주석 작업자가 필요하며, 특정 애플리케이션에 따라 이 과정이 매우 어려울 수 있습니다. 이미지 데이터셋에 대한 증가하는 수요를 충족하기 위해서는 혁신적이고 더 효율적인 솔루션이 필요하며, 능동 학습(active learning)은 바로 이러한 문제를 해결하고자 합니다.

능동적 학습은 데이터 라벨링 프로세스를 최적화하여 완벽한 솔루션을 제공합니다. 주석 작업에 가장 유익한 데이터 포인트를 전략적으로 선택함으로써, 능동적 학습은 라벨링 노력을 최소화하면서 모델 성능을 극대화합니다.

Link to this section능동적 학습이란 무엇인가요?#

능동적 학습은 모델이 라벨링되지 않은 방대한 데이터 풀에서 가장 중요한 데이터 포인트를 직접 선택하는 반복적인 머신러닝 기법입니다. 선택된 데이터 포인트는 수동으로 라벨링된 후 훈련 데이터 세트에 추가됩니다.

그런 다음 모델은 업데이트된 데이터 세트로 재훈련되며, 다음으로 라벨링할 데이터 포인트 세트를 다시 선택합니다. 이 과정이 반복되면서 모델은 가장 유익한 데이터 포인트에 집중하며 지속적으로 성능을 향상시킵니다. 이 주기는 모델이 원하는 정확도에 도달하거나 미리 설정된 라벨링 기준을 충족할 때까지 계속됩니다.

능동 학습 개요

그림 1. 능동적 학습 개요.

Link to this section능동적 학습의 작동 원리 이해하기#

능동적 학습 기법이 어떤 데이터 포인트에 수동 라벨링이 필요한지, 다음으로 무엇을 라벨링할지 어떻게 결정하는지 궁금할 수 있습니다. 시험 공부에 비유하여 능동적 학습의 원리를 이해해 봅시다. 확실하지 않은 주제에 집중하면서도 철저한 준비를 위해 다양한 과목을 다루는 것과 같습니다.

초기 데이터 선택 과정을 위해 능동적 학습은 불확실성 샘플링(Uncertainty sampling)과 다양성 기반 샘플링(Diversity-based sampling) 같은 전략을 사용합니다. 불확실성 샘플링은 모델이 예측에 가장 자신 없는 데이터 포인트를 우선시하여 어려운 사례에서의 정확도를 개선하는 것을 목표로 합니다. 다양성 기반 샘플링은 광범위한 특성을 포괄하는 데이터 포인트를 선택하여, 모델이 다양한 예시를 학습함으로써 보지 못한 데이터에서도 잘 일반화할 수 있도록 합니다.

왼쪽은 불확실성 샘플링, 오른쪽은 다양성 기반 샘플링

그림 2. 불확실성 샘플링(왼쪽)과 다양성 기반 샘플링(오른쪽).

초기 데이터 선택 후, 능동적 학습은 라벨링을 위해 풀 기반 샘플링(Pool-based sampling)과 스트림 기반 샘플링(Stream-based sampling)이라는 두 가지 주요 접근 방식을 사용합니다. 이는 교사가 학생이 가장 중요한 것에 집중하도록 돕는 방식과 유사합니다.

풀 기반 샘플링에서 모델은 라벨링되지 않은 방대한 데이터 풀을 검색하여 가장 어렵거나 유익한 예시를 선택하는데, 이는 학생이 가장 어렵다고 느끼는 플래시카드를 우선시하는 것과 같습니다. 스트림 기반 샘플링의 경우, 모델은 데이터가 도착할 때마다 라벨링할지 건너뛸지를 결정하며, 이는 학생이 막힐 때만 도움을 요청하는 것과 유사합니다. 두 경우 모두 라벨링된 데이터는 훈련 세트에 추가되고 모델은 스스로 재훈련하며 반복할 때마다 점진적으로 향상됩니다.

Link to this section능동적 학습의 응용 분야 탐색#

능동적 학습은 모델 정확도를 개선하고 데이터 라벨링 프로세스를 간소화함으로써 의료 영상 및 자율 주행과 같은 컴퓨터 비전 애플리케이션에서 중요한 역할을 합니다. 흥미로운 예로 자율 주행 자동차에 사용되는 컴퓨터 비전 모델이 저조도나 안개 낀 환경에서 보행자나 물체를 감지하는 경우를 들 수 있습니다. 능동적 학습은 다양하고 까다로운 주행 시나리오에 집중하여 정확도를 향상시킬 수 있습니다.

구체적으로, 능동적 학습은 이러한 시나리오에서 불확실한 데이터나 프레임을 식별하여 선택적 라벨링을 수행하는 데 사용될 수 있습니다. 이렇게 라벨링된 예시를 훈련 세트에 추가하면 악천후나 야간 주행과 같은 어려운 환경에서도 모델이 보행자와 물체를 더 잘 인식하게 됩니다.

예를 들어, NVIDIA는 자율 주행 모델에서 야간 보행자 감지 성능을 개선하기 위해 능동적 학습을 사용했습니다. 훈련을 위해 가장 유익한 데이터를 전략적으로 선택함으로써, 특히 어려운 시나리오에서 모델의 성능이 크게 향상되었습니다.

능동 학습을 사용하여 우산을 쓴 보행자 감지

그림 3. 능동적 학습을 사용하여 우산을 쓴 보행자 감지.

Link to this section능동적 학습은 라벨링 비용을 절감할 수 있습니다#

능동적 학습의 또 다른 핵심은 라벨링 비용을 절감할 수 있다는 점입니다. 이는 전체 데이터 세트에 대해 주석을 요구하는 대신 가장 중요한 데이터 포인트에만 집중함으로써 이루어집니다. 이러한 타겟팅된 접근 방식은 시간, 노력, 비용을 절약합니다. 불확실하거나 다양한 샘플에 집중함으로써 능동적 학습은 높은 모델 정확도를 유지하면서 필요한 주석 작업 수를 줄입니다.

실제로 연구에 따르면 능동적 학습은 성능 저하 없이 라벨링 비용을 40-60% 절감할 수 있습니다. 이는 데이터 라벨링 비용이 많이 드는 의료 및 제조 산업에서 특히 유용합니다. 주석 프로세스를 단순화함으로써 능동적 학습은 기업이 더 빠르게 모델을 개발하고 정확도를 유지하면서 효율적으로 배포하도록 돕습니다.

Link to this section능동적 학습의 이점#

능동적 학습이 제공할 수 있는 다른 주요 이점은 다음과 같습니다.

클래스 불균형 해결: 능동적 학습은 소수 데이터 클래스의 인스턴스를 라벨링하여 클래스 불균형 문제를 해결하는 데 도움을 줄 수 있습니다. 모델은 데이터가 제한적인 희귀 시나리오에서도 더 나은 성능을 발휘할 수 있습니다.
더 빠른 개발 주기: 더 적은 데이터를 라벨링한다는 것은 간접적으로 머신러닝 및 컴퓨터 비전 모델의 개발 프로세스를 가속화하는 것을 의미하며, 추가적인 반복과 실험을 위한 시간과 자원을 확보할 수 있습니다.
적응성: 불확실하거나 엣지 케이스 샘플에 대해 반복함으로써 훈련 데이터를 지속적으로 개선할 수 있어 동적이거나 진화하는 데이터 세트에 매우 적합합니다.

Link to this section능동적 학습과 AutoML은 함께 작동할 수 있습니다#

AutoML(Automated Machine Learning)은 머신러닝 모델 구축 및 배포에 수반되는 시간 소모적이고 반복적인 작업을 자동화하는 데 중점을 둡니다. 이는 모델 선택 및 성능 평가와 같은 작업을 자동화하여 수동 작업의 필요성을 줄임으로써 머신러닝 워크플로를 간소화합니다.

AutoML을 능동적 학습과 통합하면 모델 개발 수명 주기를 가속화하고 최적화할 수 있습니다. 능동적 학습 구성 요소는 라벨링을 위해 가장 유익한 데이터 포인트를 전략적으로 선택하고, AutoML은 아키텍처, 매개변수 선택 및 튜닝을 자동화하여 모델을 개선합니다.

AutoML 워크플로우

그림 4. AutoML 워크플로.

이 기술들의 결합을 예시를 통해 이해해 보겠습니다.

의료 영상(라벨링된 데이터 세트가 제한적이고 확보 비용이 많이 드는 사례)에서 희귀 질환을 감지하려고 한다고 가정해 봅시다. 능동적 학습은 모델이 분류하지 못하는 엑스레이 이미지의 미세한 변화와 같은 불확실한 데이터를 식별하고 선택할 수 있습니다. 그런 다음, 불확실한 데이터를 우선순위에 두어 수동으로 주석을 달면 모델의 이해도를 높일 수 있습니다.

주석이 달린 데이터를 바탕으로, AutoML은 다양한 아키텍처, 하이퍼파라미터 및 기타 데이터 증강 기술을 탐색하여 모델을 최적화할 수 있습니다. 이러한 반복 프로세스는 의료 전문가가 정확한 진단을 내릴 수 있도록 돕는 Ultralytics YOLO11과 같은 신뢰할 수 있는 비전 모델 개발 속도를 높여줍니다.

Link to this section능동적 학습의 과제#

능동적 학습과 그 기술들은 수많은 이점을 제공하지만, 전략을 구현할 때 고려해야 할 몇 가지 사항이 있습니다.

쿼리 전략 선택: 능동적 학습에는 많은 기술이 포함되며, 최상의 방법을 선택하는 것은 모델의 효과에 상당한 영향을 미칩니다. 부적절한 전략을 선택하면 특정 애플리케이션에 대한 모델 성능이 저하될 수 있습니다.
재훈련 비용: 능동적 학습의 반복적인 특성상 대규모 데이터 세트의 경우 많은 계산 자원이 필요합니다. 모델은 각 라벨링 단계 후에 재훈련되므로 복잡성이 증가합니다.
초기 모델 품질: 능동적 학습의 효과는 초기 모델의 품질에 달려 있습니다. 성능이 낮은 초기 모델은 유익한 데이터 포인트를 정확하게 식별하지 못할 수 있으며, 이로 인해 잘못된 라벨링 요청이 발생하고 전반적인 성능이 저하될 수 있습니다.

Link to this section능동적 학습과 AutoML의 미래#

최근 AI와 컴퓨터 비전 분야의 발전으로 능동적 학습은 더 복잡한 과제를 해결하고 머신러닝 워크플로를 간소화할 준비가 되었습니다. 능동적 학습을 연합 학습(Federated learning) 및 자기 지도 학습(Self-supervised learning)과 같은 기술과 결합하면 비전 모델의 효율성과 확장성을 더욱 향상시킬 수 있습니다.

연합 학습(Federated learning)은 데이터가 원래 위치를 벗어날 필요 없이 분산 프레임워크를 통해 여러 장치나 서버에서 모델을 훈련할 수 있게 합니다. 데이터 프라이버시가 중요한 의료와 같은 산업을 고려할 때, 연합 학습은 민감한 로컬 데이터를 보호하면서 직접 훈련할 수 있게 해줍니다. 원시 데이터를 공유하는 대신 모델 업데이트나 인사이트만 공유되므로 개인 정보는 보호되면서도 훈련 프로세스에 기여할 수 있습니다.

한편, 자기 지도 학습(Self-supervised learning)은 라벨링되지 않은 데이터로 모델을 사전 훈련하여 라벨링된 데이터의 필요성을 줄여줍니다. 이 과정은 모델의 탄탄한 기반을 마련합니다. 그런 다음 능동적 학습은 인간의 주석을 위해 가장 중요한 데이터 포인트를 식별하고 선택하여 모델을 추가로 정교화함으로써 이를 기반으로 구축될 수 있습니다.

Link to this section능동적 학습에서 능동적 영향력으로#

능동적 학습은 데이터 주석의 높은 비용과 더 정확한 모델에 대한 필요성과 같은 컴퓨터 비전의 주요 문제를 해결할 실용적인 방법을 제공합니다. 가장 가치 있는 데이터 포인트만 라벨링하는 데 집중함으로써 사람의 노력을 줄이는 동시에 모델의 성능을 향상시킵니다.

AutoML과 같은 기술과 결합하면, 능동적 학습은 시간 소모적인 작업을 자동화하여 모델 개발을 간소화합니다. 발전이 계속됨에 따라 능동적 학습은 더 스마트하고 효율적인 컴퓨터 비전 시스템을 구축하는 데 필수적인 도구가 될 것입니다.

AI 및 컴퓨터 비전 모델에 대해 자세히 알아보려면 GitHub 저장소를 탐색하고 커뮤니티에 참여하세요. 제조 및 의료 분야의 컴퓨터 비전 적용 사례를 솔루션 페이지에서 확인해 보세요. 또한 라이선스 옵션을 확인하여 지금 바로 비전 AI 여정을 시작하세요.

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

액티브 학습은 컴퓨터 비전 개발 속도를 높입니다

Link to this section이미지 데이터 세트 구축은 쉽지 않습니다#

Link to this section능동적 학습이란 무엇인가요?#

Link to this section능동적 학습의 작동 원리 이해하기#

Link to this section능동적 학습의 응용 분야 탐색#

Link to this section능동적 학습은 라벨링 비용을 절감할 수 있습니다#

Link to this section능동적 학습의 이점#

Link to this section능동적 학습과 AutoML은 함께 작동할 수 있습니다#

Link to this section능동적 학습의 과제#

Link to this section능동적 학습과 AutoML의 미래#

Link to this section능동적 학습에서 능동적 영향력으로#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!