Catastrophic Forgetting
신경망에서 파괴적 망각(catastrophic forgetting)을 방지하는 방법을 알아보십시오. Ultralytics YOLO 모델을 학습할 때 검증된 완화 전략을 살펴보십시오.
파괴적 망각은 catastrophic interference라고도 흔히 불리며, machine learning에서 널리 연구되는 현상으로, 인공 신경망이 새로운 작업을 학습할 때 이전에 학습한 정보를 갑자기 잃어버리는 것을 의미합니다. 모델이 새로운 데이터셋에 적응하기 위해 순차적 학습을 거칠 때, backpropagation을 사용하는 최적화 알고리즘은 model weights를 업데이트합니다. 이 과정에서 의도치 않게 이전 작업에 필요한 수학적 표현이 덮어쓰여지는 경우가 많습니다. 결과적으로 원래 목적에 맞게 최적화된 AI 시스템이 별도의 대책 없이 새로운 데이터로만 학습될 경우, 초기 작업에서 심각한 성능 저하를 겪을 수 있습니다.
Link to this section파괴적 망각이 발생하는 이유#
deep learning에서 모델의 지식은 상호 연결된 뉴런의 분산 네트워크 전체에 저장됩니다. fine-tuning 과정에서 Stochastic Gradient Descent와 같은 최적화 함수는 새로운 데이터에 대한 오차를 최소화하기 위해 이러한 연결을 조정합니다. 만약 새로운 학습 데이터셋에 원래 클래스의 예제가 포함되어 있지 않다면, 최적화 프로세스는 가중치를 새로운 데이터 분포 쪽으로 이동시키며 기존 분포에 대한 '기억'을 효과적으로 지워버립니다. Recent studies on structural shift는 이러한 내부 붕괴가 현대 neural networks가 인간과 같은 lifelong learning을 즉각적으로 달성하는 데 근본적인 제약을 가한다고 지적합니다.
Link to this section관련 개념 구별하기#
파괴적 망각을 다른 AI 개념과 대조하는 것은 매우 중요합니다:
- Catastrophic Forgetting vs. Model Collapse: 망각은 새로운 작업을 점진적으로 학습할 때 발생하지만, 모델 붕괴(model collapse)는 모델이 다른 AI 모델이 생성한 합성 데이터를 재귀적으로 학습할 때 동일한 작업에 대한 성능이 점진적으로 저하되는 현상을 말합니다.
- Catastrophic Forgetting vs. Continual Learning: Continual learning(연속 학습)은 파괴적 망각을 해결하기 위한 포괄적인 연구 방법론입니다. Continual learning 알고리즘은 모델이 망각 없이 순차적으로 새로운 지식을 습득할 수 있도록 구현하는 것을 목표로 합니다.
Link to this section실제 사례#
파괴적 망각은 dynamic real-world environments에서 작동하는 다양한 AI 도메인 전반에 걸쳐 중대한 도전 과제를 제시합니다:
- Autonomous Systems: 자율 주행 차량의 인식 파이프라인에서 보행자와 표준 교통 표지판을 인식하도록 처음 훈련된 computer vision 시스템이 지역별 공사 표지판을 인식하도록 fine-tuning될 수 있습니다. 안전장치가 없다면, 시스템은 갑자기 보행자를 안정적으로 감지하는 데 어려움을 겪게 되어 심각한 안전 위험을 초래할 수 있습니다.
- Language and Cognitive AI: 의료 진단과 같은 도메인별 작업을 위해 대규모 언어 모델을 커스터마이징할 때, 모델은 대화 정렬(conversational alignment)이나 일반적인 추론 능력을 잊어버릴 수 있습니다. 최근의 comparative analysis on LLMs에 따르면, 고도로 전문화된 텍스트에 대한 표준 fine-tuning은 종종 이전의 safety alignment를 침식시켜 모델이 기본적인 지시 이행 능력을 잃게 만드는 원인이 됩니다.
Link to this section파괴적 망각 극복하기#
AI 엔지니어들은 이 문제를 완화하고 최적의 plasticity-stability dilemma를 유지하기 위해 여러 전략을 사용합니다:
- Dataset Replay and Merging: 가장 신뢰할 수 있는 방법은 원본 training data의 일부를 새로운 데이터와 혼합하는 것입니다. Ultralytics Platform과 같은 도구는 결합된 데이터셋의 관리와 버전 관리를 간소화하여 학습 중에 원본 클래스가 효과적으로 리플레이되도록 보장합니다.
- Elastic Weight Consolidation (EWC): 이 정규화 기법은 이전 작업에 중요했던 파라미터에 대한 업데이트를 제한합니다. recent experiments on overcoming network forgetting에서 강조된 바와 같이, 이러한 핵심 가중치를 식별하고 보존함으로써 모델은 망각을 줄일 수 있습니다.
- Parameter-Efficient Fine-Tuning (PEFT): Low-Rank Adaptation (LoRA)와 같은 방법은 사전 훈련된 핵심 가중치를 고정하고 작고 학습 가능한 행렬을 네트워크에 주입하여 기본 지식이 덮어쓰여지는 것을 방지합니다.
- Freezing Layers: 짧은 학습 세션에서는 백본(backbone)과 넥(neck) 레이어를 고정하여 핵심 특징 추출기가 온전하게 유지되도록 합니다.
- Gradient-Free Optimization: 최신 프레임워크들은 최근 그라디언트 업데이트가 제한된 환경에서도 Forward pass 기반의 방법들이 망각을 효율적으로 완화할 수 있음을 입증했습니다.
Link to this section비전 AI에서의 구현 예시#
Ultralytics YOLO를 새로운 object detection 작업에 적용할 때 레이어를 고정하는 것은 효과적이고 접근하기 쉬운 방법입니다. 다음 예시는 Ultralytics YOLO26 모델을 새로운 데이터셋으로 학습시키면서 초기 10개 레이어를 고정하여 파괴적 망각을 방지하는 방법을 보여줍니다.
from ultralytics import YOLO
# Load a pretrained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a combined dataset while freezing core backbone layers
# The 'freeze=10' argument prevents catastrophic forgetting of foundational visual features
results = model.train(data="combined_dataset.yaml", epochs=20, freeze=10, lr0=0.001)
# Evaluate the model to ensure it retains performance on old and new tasks
metrics = model.val()





