Catastrophic Forgetting

Узнай, как предотвратить катастрофическое забывание в нейронных сетях. Изучи проверенные стратегии смягчения этого эффекта при обучении твоих моделей Ultralytics YOLO.

Катастрофическое забывание, часто называемое катастрофической интерференцией, — это широко изучаемый феномен в машинном обучении, при котором искусственная нейронная сеть внезапно теряет ранее усвоенную информацию при изучении новых задач. Когда модель проходит последовательное обучение для адаптации к новому набору данных, алгоритмы оптимизации, использующие обратное распространение ошибки, обновляют веса модели. Этот процесс часто непреднамеренно перезаписывает математические представления, необходимые для выполнения предыдущих задач. В результате ИИ-система, высокооптимизированная для своей первоначальной цели, может столкнуться с серьезным снижением производительности в этих начальных задачах, если её обучать исключительно на новых данных без применения специальных мер противодействия.

Link to this sectionПочему происходит катастрофическое забывание#

В глубоком обучении знания модели хранятся в распределенной сети взаимосвязанных нейронов. Во время тонкой настройки функции оптимизации, такие как Stochastic Gradient Descent, корректируют эти связи для минимизации ошибки на новых данных. Если новый обучающий набор данных не содержит примеров исходных классов, процесс оптимизации смещает веса в сторону распределения новых данных, фактически стирая «память» о старом распределении. Недавние исследования структурного сдвига показывают, что этот внутренний коллапс фундаментально ограничивает способность современных нейронных сетей к «из коробки» пожизненному обучению, подобному человеческому.

Link to this sectionРазграничение связанных понятий#

Важно отличать катастрофическое забывание от других концепций ИИ:

Катастрофическое забывание vs. Коллапс модели: В то время как забывание происходит из-за инкрементального изучения новых задач, коллапс модели — это постепенная деградация производительности при выполнении одной и той же задачи, когда модель рекурсивно обучается на синтетических данных, созданных другими моделями ИИ.
Катастрофическое забывание vs. Непрерывное обучение: Непрерывное обучение — это общая исследовательская методология, направленная на решение проблемы катастрофического забывания. Алгоритмы непрерывного обучения пытаются позволить моделям последовательно приобретать новые знания, не забывая старые.

Link to this sectionПримеры из реальной жизни#

Катастрофическое забывание создает серьезную проблему в различных областях ИИ, работающих в динамических реальных средах:

Автономные системы: В конвейерах восприятия для автономных транспортных средств система компьютерного зрения, изначально обученная распознавать пешеходов и стандартные дорожные знаки, может быть донастроена для распознавания новых, региональных строительных знаков. Без защитных мер система может внезапно перестать надежно обнаруживать пешеходов, создавая серьезный риск для безопасности.
Языковой и когнитивный ИИ: При настройке больших языковых моделей для специфических задач — например, медицинской диагностики — модель может забыть свои навыки разговорного общения или общие способности к рассуждению. Недавний сравнительный анализ LLM показывает, что стандартная тонкая настройка на узкоспециализированных текстах часто разрушает предварительное согласование безопасности, заставляя модели терять свои базовые способности следовать инструкциям.

Link to this sectionПреодоление катастрофического забывания#

Инженеры ИИ используют несколько стратегий для смягчения этой проблемы и поддержания оптимальной дилеммы пластичности-стабильности:

Повтор и объединение наборов данных: Самый надежный метод — это смешивание подмножества исходных обучающих данных с новыми данными. Такие инструменты, как Ultralytics Platform, упрощают управление и версионирование объединенных наборов данных, гарантируя, что исходные классы эффективно воспроизводятся во время обучения.
Elastic Weight Consolidation (EWC): Этот метод регуляризации ограничивает обновления параметров, которые были критически важны для старых задач. Выявляя и сохраняя эти ключевые веса, модели уменьшают забывание, что подчеркивается в недавних экспериментах по преодолению забывания в сетях.
Эффективная тонкая настройка параметров (PEFT): Такие методы, как Low-Rank Adaptation (LoRA), замораживают основные предобученные веса и внедряют в сеть небольшие обучаемые матрицы, предотвращая перезапись базовых знаний.
Замораживание слоев: При более коротких циклах обучения замораживание слоев backbone и neck гарантирует, что основные экстракторы признаков остаются нетронутыми.
Бесградиентная оптимизация: Новые фреймворки недавно показали, что методы, основанные на прямом проходе (forward pass), также могут эффективно уменьшать забывание в средах, где градиентные обновления ограничены.

Link to this sectionПример реализации в Vision AI#

При адаптации Ultralytics YOLO к новой задаче обнаружения объектов замораживание слоев является эффективным и доступным подходом. В следующем примере показано, как обучить модель Ultralytics YOLO26 на новом наборе данных, предотвращая катастрофическое забывание путем замораживания первых 10 слоев.

from ultralytics import YOLO

# Load a pretrained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a combined dataset while freezing core backbone layers
# The 'freeze=10' argument prevents catastrophic forgetting of foundational visual features
results = model.train(data="combined_dataset.yaml", epochs=20, freeze=10, lr0=0.001)

# Evaluate the model to ensure it retains performance on old and new tasks
metrics = model.val()