Tìm hiểu cách trình tối ưu hóa Adam hỗ trợ đào tạo mạng nơ-ron hiệu quả với tốc độ học thích ứng, động lượng và ứng dụng thực tế trong AI.
Adam (Ước lượng Mô men Thích ứng) là một thuật toán tối ưu hóa phổ biến và mạnh mẽ được sử dụng trong học máy (ML) và học sâu (DL) . Nó được thiết kế để tìm kiếm hiệu quả các giá trị tối ưu cho các tham số của mô hình (trọng số và độ lệch) bằng cách cập nhật chúng theo chu kỳ dựa trên dữ liệu huấn luyện. Adam được đánh giá cao nhờ tốc độ hội tụ nhanh và hiệu quả trên nhiều loại bài toán, khiến nó trở thành lựa chọn mặc định phổ biến cho nhiều chuyên gia khi huấn luyện các mô hình tùy chỉnh . Sự phát triển của Adam là một bước tiến quan trọng trong việc giúp việc huấn luyện các mô hình lớn và phức tạp trở nên thiết thực hơn.
Cải tiến quan trọng của Adam là khả năng điều chỉnh tốc độ học cho từng tham số riêng lẻ. Thay vì sử dụng một tốc độ học cố định duy nhất cho tất cả các trọng số trong mạng, Adam tính toán một tốc độ học riêng lẻ, tốc độ này sẽ điều chỉnh khi quá trình huấn luyện diễn ra. Phương pháp này đạt được điều này bằng cách kết hợp các ưu điểm của hai phương pháp tối ưu hóa khác: RMSProp và Momentum. Adam theo dõi hai thành phần chính: mô men thứ nhất (giá trị trung bình của các gradient, tương tự như momentum) và mô men thứ hai (phương sai không tâm của các gradient). Sự kết hợp này cho phép Adam thực hiện các cập nhật có thông tin đầy đủ hơn, thực hiện các bước lớn hơn cho các tham số có gradient nhất quán và các bước nhỏ hơn cho các tham số có gradient nhiễu hoặc thưa thớt. Phương pháp này được trình bày chi tiết trong bài báo nghiên cứu Adam gốc của Kingma và Ba .
Sẽ rất hữu ích khi so sánh Adam với các trình tối ưu hóa phổ biến khác để hiểu được điểm mạnh của nó.
Hiệu quả và độ bền của Adam khiến nó phù hợp với nhiều ứng dụng khác nhau.
Trong hệ sinh thái Ultralytics, Adam và biến thể AdamW của nó là các trình tối ưu hóa có sẵn để đào tạo các mô hình Ultralytics YOLO . Tận dụng tốc độ học thích ứng của Adam có thể tăng tốc độ hội tụ trong quá trình đào tạo phát hiện đối tượng, phân đoạn thể hiện hoặc các mô hình ước tính tư thế như YOLO11 hoặc YOLOv10 . Trong khi SGD thường là trình tối ưu hóa mặc định và được khuyến nghị cho một số mô hình YOLO do khả năng khái quát hóa cuối cùng tốt hơn, Adam cung cấp một giải pháp thay thế mạnh mẽ, đặc biệt hữu ích trong quá trình thử nghiệm ban đầu. Bạn có thể dễ dàng định cấu hình trình tối ưu hóa và các cài đặt đào tạo khác. Các công cụ như Ultralytics HUB hợp lý hóa quy trình, cho phép người dùng đào tạo các mô hình bằng nhiều trình tối ưu hóa khác nhau, bao gồm Adam, cục bộ hoặc thông qua đào tạo đám mây . Các khuôn khổ như PyTorch và TensorFlow cung cấp các triển khai tiêu chuẩn của Adam, được sử dụng trong khuôn khổ Ultralytics.