Tìm hiểu cách trình tối ưu hóa Adam hỗ trợ đào tạo mạng nơ-ron hiệu quả với tốc độ học thích ứng, động lượng và ứng dụng thực tế trong AI.
Adam (Adaptive Moment Estimation) là một thuật toán tối ưu hóa được áp dụng rộng rãi, được sử dụng rộng rãi trong học sâu (DL) và học máy (ML) . Nó được thiết kế để cập nhật hiệu quả các trọng số mạng trong quá trình đào tạo bằng cách điều chỉnh tốc độ học cho từng tham số riêng lẻ. Được giới thiệu trong bài báo " Adam: A Method for Stochastic Optimization " của Diederik P. Kingma và Jimmy Ba, Adam kết hợp các ưu điểm của hai kỹ thuật tối ưu hóa phổ biến khác: AdaGrad (Adaptive Gradient Algorithm) và RMSprop ( Root Mean Square Propagation ). Sự kết hợp này làm cho nó đặc biệt hiệu quả để đào tạo các mạng nơ-ron lớn với nhiều tham số và tập dữ liệu phức tạp.
Adam tính toán tốc độ học thích ứng cho từng tham số dựa trên ước tính của mô men thứ nhất và thứ hai của gradient. Về cơ bản, nó theo dõi giá trị trung bình giảm dần theo cấp số nhân của gradient trong quá khứ (tương tự như động lượng) và giá trị trung bình giảm dần theo cấp số nhân của gradient bình phương trong quá khứ (tương tự như AdaGrad/RMSprop).
So với các thuật toán đơn giản hơn như Stochastic Gradient Descent (SGD) , sử dụng một tốc độ học cố định duy nhất (hoặc tốc độ giảm dần theo lịch trình), khả năng điều chỉnh theo từng tham số của Adam thường cho phép tiến triển nhanh hơn trong việc tìm ra giải pháp tốt, đặc biệt là với bối cảnh mất mát phức tạp.
Adam được ưa chuộng vì nhiều lý do:
Adam là chuyên gia tối ưu hóa cho nhiều mô hình hiện đại:
Trong thị giác máy tính, Adam thường được sử dụng để đào tạo Mạng nơ-ron tích chập (CNN) sâu cho các tác vụ như phân loại hình ảnh , phát hiện đối tượng và phân đoạn hình ảnh . Ví dụ, đào tạo mô hình YOLO Ultralytics để phát hiện đối tượng trong hình ảnh ( như trong tập dữ liệu COCO ) hoặc thực hiện phân đoạn thể hiện có thể tận dụng Adam để hội tụ hiệu quả trong giai đoạn đào tạo . Nó cũng được áp dụng trong phân tích hình ảnh y tế cho các tác vụ như phát hiện khối u .
Adam là trình tối ưu hóa tiêu chuẩn để đào tạo các mô hình ngôn ngữ lớn (LLM) như các biến thể BERT và GPT . Khi đào tạo các mô hình cho các tác vụ như dịch máy , tóm tắt văn bản hoặc phân tích tình cảm , Adam giúp điều hướng hiệu quả bối cảnh hàm mất mát phức tạp liên quan đến các mô hình lớn này ( dựa trên bộ biến đổi ).
Trong vòng Ultralytics hệ sinh thái, Adam và biến thể AdamW (Adam với sự suy giảm trọng số tách rời) là các trình tối ưu hóa khả dụng để đào tạo các mô hình YOLO Ultralytics . Tận dụng tốc độ học thích ứng của Adam có thể đẩy nhanh quá trình hội tụ trong quá trình đào tạo phát hiện đối tượng, phân đoạn thể hiện hoặc các mô hình ước tính tư thế như YOLO11 hoặc YOLOv10 . Trong khi SGD thường là trình tối ưu hóa mặc định và được khuyến nghị cho một số YOLO các mô hình do khả năng khái quát hóa cuối cùng tốt hơn ( tránh tình trạng quá khớp ), Adam cung cấp một giải pháp thay thế mạnh mẽ, đặc biệt hữu ích trong một số tình huống nhất định hoặc trong quá trình thử nghiệm ban đầu và đánh giá mô hình . Bạn có thể dễ dàng cấu hình trình tối ưu hóa và các cài đặt đào tạo khác. Các công cụ như Ultralytics HUB hợp lý hóa quy trình, cho phép người dùng đào tạo các mô hình bằng nhiều trình tối ưu hóa khác nhau, bao gồm Adam, cục bộ hoặc thông qua đào tạo đám mây . Các khuôn khổ như PyTorch và TensorFlow cung cấp các triển khai chuẩn của Adam, được sử dụng trong Ultralytics khung. Để cải thiện hiệu suất hơn nữa, hãy cân nhắc các kỹ thuật như chắt lọc kiến thức hoặc khám phá các kiến trúc mô hình khác nhau.