Grokking
Khám phá hiện tượng grokking trong học sâu. Tìm hiểu cách các model Ultralytics YOLO26 chuyển đổi từ ghi nhớ sang tổng quát hóa trong quá trình huấn luyện kéo dài.
Grokking đề cập đến một hiện tượng thú vị trong học sâu (deep learning), nơi một mạng thần kinh, sau khi huấn luyện trong một khoảng thời gian dài đáng kể—thường là rất lâu sau khi nó dường như đã quá khớp (overfitted) với dữ liệu huấn luyện—bất ngờ trải qua sự cải thiện mạnh mẽ về độ chính xác xác thực (validation accuracy). Khác với các đường cong học tập tiêu chuẩn nơi hiệu suất cải thiện dần dần, grokking bao hàm một "chuyển đổi pha" (phase transition) trong đó mô hình chuyển từ việc ghi nhớ các ví dụ cụ thể sang hiểu các mô hình tổng quát hóa. Khái niệm này thách thức tư duy "dừng sớm" (early stopping) truyền thống, cho thấy rằng đối với một số tác vụ phức tạp nhất định, đặc biệt là trong các mô hình ngôn ngữ lớn (LLM) và lập luận thuật toán, sự kiên trì trong huấn luyện là chìa khóa để mở ra trí tuệ thực sự.
Link to this sectionCác giai đoạn của Grokking#
Quá trình grokking thường diễn ra trong hai giai đoạn riêng biệt có thể gây nhầm lẫn cho các kỹ sư dựa vào các chỉ số theo dõi thực nghiệm tiêu chuẩn. Ban đầu, mô hình giảm thiểu nhanh chóng mất mát (loss) trên dữ liệu huấn luyện trong khi hiệu suất trên dữ liệu xác thực vẫn kém hoặc bằng phẳng. Điều này tạo ra một khoảng cách tổng quát hóa lớn, thường được hiểu là quá khớp. Tuy nhiên, nếu việc huấn luyện tiếp tục vượt xa điểm này, mạng thần kinh cuối cùng sẽ "grok" cấu trúc cơ bản, khiến mất mát xác thực giảm mạnh và độ chính xác tăng vọt.
Nghiên cứu gần đây cho thấy sự tổng quát hóa bị trì hoãn này xảy ra vì mạng thần kinh trước tiên học các tương quan "nhanh" nhưng dễ vỡ (ghi nhớ) và chỉ sau đó mới khám phá ra các đặc trưng "chậm" nhưng mạnh mẽ (tổng quát hóa). Hành vi này liên quan chặt chẽ đến hình học của cảnh quan hàm mất mát và động lực tối ưu hóa, như được khám phá trong các bài báo của các nhà nghiên cứu tại OpenAI và Google DeepMind.
Link to this sectionGrokking so với Quá khớp (Overfitting)#
Điều quan trọng là phải phân biệt grokking với hiện tượng quá khớp tiêu chuẩn, vì chúng thể hiện giống nhau trong các giai đoạn đầu nhưng lại khác biệt về kết quả.
- Quá khớp: Mô hình ghi nhớ nhiễu trong tập huấn luyện. Khi quá trình huấn luyện tiến triển, lỗi xác thực tăng lên và không bao giờ phục hồi. Các kỹ thuật điều chỉnh tiêu chuẩn hoặc dừng huấn luyện sớm là những biện pháp khắc phục thông thường.
- Grokking: Mô hình ghi nhớ ban đầu nhưng cuối cùng cấu trúc lại trọng số mô hình bên trong để tìm ra một giải pháp đơn giản và tổng quát hơn. Lỗi xác thực giảm đáng kể sau một thời gian dài ổn định.
Hiểu được sự khác biệt này là rất quan trọng khi huấn luyện các kiến trúc hiện đại như Ultralytics YOLO26, nơi việc tắt các cơ chế dừng sớm có thể là cần thiết để đạt được hiệu suất tối đa trên các tập dữ liệu khó, nặng về mẫu.
Link to this sectionCác ứng dụng trong thực tế#
Mặc dù ban đầu được quan sát trong các tập dữ liệu thuật toán nhỏ, grokking có những tác động quan trọng đối với sự phát triển AI thực tế.
- Lập luận thuật toán: Trong các tác vụ yêu cầu suy luận logic hoặc các phép toán (như cộng mô-đun), các mô hình thường không thể tổng quát hóa cho đến khi chúng trải qua giai đoạn grokking. Điều này rất quan trọng để phát triển các mô hình lập luận có thể giải quyết các vấn đề đa bước thay vì chỉ bắt chước văn bản.
- Huấn luyện mô hình nhỏ gọn: Để tạo ra các mô hình hiệu quả cho AI tại biên, các kỹ sư thường huấn luyện các mạng nhỏ hơn trong thời gian dài hơn. Grokking cho phép các mô hình nhỏ gọn này học các biểu diễn nén, hiệu quả của dữ liệu, tương tự như các mục tiêu hiệu quả của Ultralytics Platform.
Link to this sectionCác phương pháp hay nhất và tối ưu hóa#
Để tạo ra grokking, các nhà nghiên cứu thường sử dụng các chiến lược tối ưu hóa cụ thể. Tốc độ học cao và suy giảm trọng số đáng kể (một dạng điều chỉnh L2) được biết đến là có tác dụng khuyến khích sự chuyển đổi pha. Hơn nữa, lượng dữ liệu đóng một vai trò quan trọng; grokking dễ thấy nhất khi kích thước tập dữ liệu nằm ngay tại ngưỡng mà mô hình có thể xử lý, một khái niệm liên quan đến hiện tượng double descent.
Khi sử dụng các thư viện hiệu năng cao như PyTorch, việc đảm bảo tính ổn định số trong các đợt huấn luyện kéo dài này là rất cần thiết. Quá trình này đòi hỏi tài nguyên tính toán đáng kể, khiến cho các đường ống huấn luyện hiệu quả trên Ultralytics Platform trở nên có giá trị đối với việc quản lý các thử nghiệm dài hạn.
Link to this sectionVí dụ mã: Bật Huấn luyện mở rộng#
Để tạo điều kiện cho grokking tiềm năng, người ta thường phải bỏ qua các cơ chế dừng sớm tiêu chuẩn. Ví dụ sau đây minh họa cách cấu hình một đợt huấn luyện Ultralytics YOLO với số lượng epoch mở rộng và tắt tính năng kiên nhẫn (patience), giúp mô hình có thời gian để chuyển từ ghi nhớ sang tổng quát hóa.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Train for extended epochs to facilitate grokking
# Setting patience=0 disables early stopping, allowing training to continue
# even if validation performance plateaus temporarily.
model.train(data="coco8.yaml", epochs=1000, patience=0, weight_decay=0.01)Link to this sectionCác khái niệm liên quan#
- Double Descent: Một hiện tượng liên quan, trong đó lỗi kiểm thử giảm, tăng, rồi lại giảm khi kích thước mô hình hoặc dữ liệu tăng lên.
- Tổng quát hóa: Khả năng của một mô hình hoạt động tốt trên dữ liệu chưa từng thấy, đây là mục tiêu cuối cùng của quá trình grokking.
- Thuật toán tối ưu hóa: Các phương pháp (như SGD hoặc Adam) được sử dụng để điều hướng cảnh quan mất mát và tạo điều kiện cho sự chuyển đổi pha.






