지속적인 학습이 어떻게 AI가 새로운 기술을 습득하면서도 기존 지식을 유지하는지 알아보세요. 핵심 전략을 탐구하고 에지 AI를 위한 Ultralytics 모델을 업데이트하세요.
지속적 학습(CL)은 흔히 평생 학습이라고도 불리며, 인공 지능 모델이 이전에 학습한 정보를 잊지 않으면서 시간이 지남에 따라 새로운 작업을 순차적으로 학습하거나 새로운 지식을 습득하는 능력을 의미합니다. 정적 데이터셋으로 모델을 한 번 훈련시킨 후 배포하는 기존 기계 학습 파이프라인과 달리, 지속적 학습은 새로운 환경에 적응하고 새로운 경험으로부터 지속적으로 학습하는 인간의 능력을 모방합니다. 이 분야의 주요 과제는 재앙적 망각 현상을 극복하는 것이다. 이는 신경망이 새로운 데이터로 훈련될 때, 기존 작업에 최적화된 가중치가 덮어쓰여 기존 작업에 대한 성능이 급격히 저하되는 현상을 말한다.
동적인 실제 환경에서는 데이터 분포가 정적으로 유지되는 경우가 거의 없습니다. 예를 들어 자율주행 차량의 시각 인식 시스템은 초기 훈련 과정에서 학습한 기본 도로 표지판 인식 능력을 상실하지 않으면서도 계절 변화, 새로운 교통 규정 또는 다양한 도시 구조에 적응해야 합니다. 기존 방식인 누적 데이터셋을 기반으로 처음부터 재훈련하는것은 저장 공간 제약이나 개인정보 보호 문제로 인해 계산 비용이 높고 비실용적인 경우가 많습니다. 지속적 학습은 모델이 점진적으로 업데이트되도록 허용함으로써 이러한 문제를 해결하여, 자원이 제한된 에지 AI애플리케이션에 보다 효율적이고 확장 가능하게 만듭니다.
재앙적 망각을 완화하기 위해 연구자들은 여러 전략을 활용한다. 정규화 기법은 손실 함수에 제약을 추가하여 이전 작업에서 식별된 중요한 가중치의 상당한 변화를 방지한다. 재현 기법은 이전 데이터의 소규모 하위 집합을 저장하거나(또는 생성형 AI를 이용해 합성 샘플을 생성) 이를 훈련 중 새 데이터와 혼합한다. 마지막으로, 매개변수 분리 기법은 모델 매개변수의 특정 하위 집합을 서로 다른 작업에 전용하여 새로운 작업에 대한 업데이트가 이전 작업에 최적화된 매개변수에 간섭하지 않도록 보장합니다. 2024년과 2025년의 최근 발전은 비전 언어 모델을활용하여 어떤 특징이 일반적인지, 어떤 특징이 작업 특화적인지 더 잘 식별하는 데 초점을 맞추었습니다.
지속적 학습과 전이 학습을 구분하는 것이 중요하다. 전이 학습에서는 사전 훈련된 모델이 새로운 특정 과제를 해결하기 위한 출발점 역할을 하며, 원래 과제에서의 성능은 일반적으로 무관하다. 목표는 대상 영역에서의 성능을 극대화하는 것이다. 반면 지속적 학습의 목적은 새로운 작업과 모든 기존 작업 모두에서 우수한 성능을 발휘하는 것이다. 마찬가지로 능동적 학습이 훈련을 위해 라벨링할 가장 정보가 풍부한 데이터 포인트를 선택하는 데 초점을 맞추는 반면, 지속적 학습은 시간이 지남에 따라 모델 자체를 업데이트하는 과정에 중점을 둔다.
진정한 지속적인 학습에는 특수한 아키텍처 조정이 필요하지만, 사용자는 기존 데이터의 버퍼와 혼합된 새 데이터로 모델을 미세 조정함으로써 이 워크플로를 시뮬레이션할 수 있습니다. Ultralytics 이러한 데이터셋 관리 및 모델 버전 관리를 간소화합니다. 다음은 Python 사용하여 모델을 업데이트하는 방법의 예시입니다:
from ultralytics import YOLO
# Load a model previously trained on 'dataset_v1.yaml'
model = YOLO("yolo26n-v1.pt")
# Train the model on a new dataset containing new and old samples
# This helps mitigate catastrophic forgetting by "replaying" old data
results = model.train(
data="dataset_v2_combined.yaml",
epochs=50,
imgsz=640,
lr0=0.001, # Lower learning rate for fine-tuning
)
진전이 있었음에도 지속적인 학습은 여전히 활발한 연구 분야로 남아 있다. 새로운 것을 학습하는 능력(가소성)과 기존 지식을 유지하는 능력(안정성) 사이의 균형을 맞추는 최적의 가소성-안정성 딜레마를결정하는 것은 어렵다. 또한 이러한 시스템을 평가하려면 전방 전이(새로운 작업에서의 학습 속도)와 후방 전이(기존 작업에 미치는 영향)를 모두 고려하는 견고한 성능 지표가 필요합니다. 기초 모델이 커짐에 따라, 대규모 시스템을 완전한 재훈련 없이 맞춤화하기 위해서는 저순위 적응(LoRA)과 같은 효율적인 지속적 적응 방법이 점점 더 중요해지고 있습니다.