Catastrophic Forgetting
Khám phá cách ngăn chặn hiện tượng quên thảm khốc (catastrophic forgetting) trong mạng thần kinh. Tìm hiểu các chiến lược giảm thiểu đã được kiểm chứng khi huấn luyện các model Ultralytics YOLO của bạn.
Quên thảm họa, thường được gọi là can thiệp thảm họa, là một hiện tượng được nghiên cứu rộng rãi trong machine learning, nơi một mạng thần kinh nhân tạo mất thông tin đã học trước đó một cách đột ngột khi học các tác vụ mới. Khi một model trải qua quá trình huấn luyện tuần tự để thích nghi với một tập dữ liệu mới, các thuật toán tối ưu hóa sử dụng backpropagation sẽ cập nhật các model weights. Quá trình này thường vô tình ghi đè lên các biểu diễn toán học cần thiết cho các tác vụ trước đó. Hệ quả là một hệ thống AI được tối ưu hóa cao cho mục đích ban đầu có thể gặp phải tình trạng suy giảm hiệu suất nghiêm trọng trên các tác vụ đó nếu nó chỉ được huấn luyện trên dữ liệu mới mà không có các biện pháp đối phó cụ thể.
Link to this sectionTại sao hiện tượng Quên thảm họa lại xảy ra#
Trong deep learning, kiến thức của model được lưu trữ trên một mạng lưới phân tán gồm các nơ-ron liên kết với nhau. Trong quá trình fine-tuning, các hàm tối ưu hóa như Stochastic Gradient Descent sẽ điều chỉnh các kết nối này để giảm thiểu sai số trên dữ liệu mới. Nếu tập dữ liệu huấn luyện mới không chứa các ví dụ về các lớp (class) ban đầu, quá trình tối ưu hóa sẽ chuyển dịch các trọng số về phía phân phối dữ liệu mới, về cơ bản là xóa đi "bộ nhớ" của phân phối cũ. Các nghiên cứu gần đây về chuyển dịch cấu trúc chỉ ra rằng sự sụp đổ nội bộ này về cơ bản hạn chế khả năng của các neural networks hiện đại trong việc đạt được khả năng lifelong learning giống như con người ngay từ khi khởi tạo.
Link to this sectionPhân biệt các khái niệm liên quan#
Điều quan trọng là phải phân biệt hiện tượng quên thảm họa với các khái niệm AI khác:
- Quên thảm họa so với Sụp đổ Model (Model Collapse): Trong khi việc quên xảy ra do học các tác vụ mới theo phương pháp tăng dần, thì sụp đổ model là sự suy giảm dần dần hiệu suất trên cùng một tác vụ khi model được huấn luyện đệ quy trên dữ liệu tổng hợp do các model AI khác tạo ra.
- Quên thảm họa so với Học liên tục (Continual Learning): Học liên tục là phương pháp nghiên cứu bao quát nhằm giải quyết vấn đề quên thảm họa. Các thuật toán học liên tục cố gắng cho phép các model tiếp nhận kiến thức mới một cách tuần tự mà không bị quên kiến thức cũ.
Link to this sectionVí dụ thực tế#
Quên thảm họa đặt ra một thách thức đáng kể trong nhiều lĩnh vực AI hoạt động trong môi trường thực tế năng động:
- Hệ thống tự hành: Trong các pipeline nhận thức cho xe tự hành, một hệ thống computer vision ban đầu được huấn luyện để nhận diện người đi bộ và biển báo giao thông tiêu chuẩn có thể được fine-tuning để nhận diện các biển báo công trường mới theo khu vực. Nếu không có các biện pháp bảo vệ, hệ thống có thể đột ngột gặp khó khăn trong việc phát hiện người đi bộ một cách đáng tin cậy, tạo ra rủi ro an toàn nghiêm trọng.
- Ngôn ngữ và AI nhận thức: Khi tùy chỉnh các mô hình ngôn ngữ lớn cho các tác vụ chuyên biệt - chẳng hạn như chẩn đoán y tế - model có thể quên đi sự căn chỉnh hội thoại hoặc các kỹ năng suy luận tổng quát. Một phân tích so sánh về LLMs gần đây cho thấy rằng việc fine-tuning tiêu chuẩn trên các văn bản chuyên môn cao thường làm xói mòn sự căn chỉnh an toàn trước đó, khiến các model mất đi khả năng tuân thủ chỉ dẫn cơ bản.
Link to this sectionKhắc phục hiện tượng Quên thảm họa#
Các kỹ sư AI sử dụng một số chiến lược để giảm thiểu vấn đề này và duy trì sự cân bằng tối ưu giữa tính dẻo và tính ổn định:
- Phát lại và Hợp nhất tập dữ liệu: Phương pháp đáng tin cậy nhất là trộn một tập hợp con của dữ liệu huấn luyện gốc với dữ liệu mới. Các công cụ như Ultralytics Platform hợp lý hóa việc quản lý và đánh phiên bản các tập dữ liệu kết hợp để đảm bảo các lớp ban đầu được phát lại hiệu quả trong quá trình huấn luyện.
- Củng cố trọng số đàn hồi (EWC): Kỹ thuật điều chuẩn này giới hạn các cập nhật đối với các tham số quan trọng đối với các tác vụ cũ. Bằng cách xác định và bảo tồn các trọng số chính này, các model giảm thiểu việc quên, như đã nêu trong các thí nghiệm gần đây về việc vượt qua sự quên của mạng.
- Fine-tuning hiệu quả tham số (PEFT): Các phương pháp như Low-Rank Adaptation (LoRA) đóng băng các trọng số tiền huấn luyện cốt lõi và chèn các ma trận nhỏ có thể huấn luyện vào mạng, ngăn chặn kiến thức nền tảng bị ghi đè.
- Đóng băng các lớp (Freezing Layers): Trong các đợt huấn luyện ngắn hơn, việc đóng băng các lớp backbone và neck đảm bảo các bộ trích xuất đặc trưng cốt lõi vẫn còn nguyên vẹn.
- Tối ưu hóa không gradient: Các khung làm việc mới gần đây đã chứng minh rằng các phương pháp dựa trên forward pass cũng có thể giảm thiểu việc quên một cách hiệu quả trong các môi trường nơi các cập nhật gradient bị hạn chế.
Link to this sectionVí dụ triển khai trong AI thị giác#
Khi thích nghi Ultralytics YOLO cho một tác vụ phát hiện đối tượng mới, việc đóng băng các lớp là một cách tiếp cận hiệu quả và dễ tiếp cận. Ví dụ sau đây minh họa cách huấn luyện một model Ultralytics YOLO26 trên tập dữ liệu mới trong khi ngăn chặn tình trạng quên thảm họa bằng cách đóng băng 10 lớp đầu tiên.
from ultralytics import YOLO
# Load a pretrained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a combined dataset while freezing core backbone layers
# The 'freeze=10' argument prevents catastrophic forgetting of foundational visual features
results = model.train(data="combined_dataset.yaml", epochs=20, freeze=10, lr0=0.001)
# Evaluate the model to ensure it retains performance on old and new tasks
metrics = model.val()





