Tìm hiểu cách bộ tối ưu hóa Adam cung cấp khả năng huấn luyện mạng nơ-ron hiệu quả với tốc độ học thích ứng, động lượng và các ứng dụng thực tế trong AI.
Adam (Adaptive Moment Estimation) là một thuật toán tối ưu hóa phổ biến và mạnh mẽ được sử dụng trong học máy (ML) và học sâu (DL). Nó được thiết kế để tìm các giá trị tối ưu cho các tham số của mô hình (trọng số và độ lệch) một cách hiệu quả bằng cách lặp đi lặp lại cập nhật chúng dựa trên dữ liệu huấn luyện. Adam được đánh giá cao về tốc độ hội tụ nhanh và hiệu quả trên một loạt các vấn đề, khiến nó trở thành một lựa chọn mặc định phổ biến cho nhiều người thực hành khi huấn luyện các mô hình tùy chỉnh. Sự phát triển của nó là một bước tiến quan trọng trong việc làm cho việc huấn luyện các mô hình lớn, phức tạp trở nên thiết thực hơn.
Đổi mới chính của Adam là khả năng điều chỉnh tốc độ học cho từng tham số riêng lẻ. Thay vì sử dụng một tốc độ học cố định duy nhất cho tất cả các trọng số trong mạng, Adam tính toán một tốc độ học riêng lẻ điều chỉnh khi quá trình huấn luyện tiến triển. Nó đạt được điều này bằng cách kết hợp những ưu điểm của hai phương pháp tối ưu hóa khác: RMSProp và Momentum. Adam theo dõi hai thành phần chính: moment thứ nhất (trung bình của các gradient, tương tự như momentum) và moment thứ hai (phương sai không tâm của các gradient). Sự kết hợp này cho phép nó thực hiện các cập nhật thông tin hơn, thực hiện các bước lớn hơn cho các tham số có gradient nhất quán và các bước nhỏ hơn cho các tham số có gradient nhiễu hoặc thưa thớt. Phương pháp này được trình bày chi tiết trong bài báo nghiên cứu Adam gốc của Kingma và Ba.
Việc so sánh Adam với các trình tối ưu hóa phổ biến khác để hiểu rõ điểm mạnh của nó là rất hữu ích.
Hiệu quả và tính mạnh mẽ của Adam làm cho nó phù hợp với nhiều ứng dụng.
Trong hệ sinh thái Ultralytics, Adam và biến thể AdamW của nó là các trình tối ưu hóa có sẵn để huấn luyện các mô hình Ultralytics YOLO. Tận dụng tốc độ học thích ứng của Adam có thể đẩy nhanh quá trình hội tụ trong quá trình huấn luyện phát hiện đối tượng, phân đoạn thể hiện hoặc các mô hình ước tính tư thế như YOLO11 hoặc YOLOv10. Mặc dù SGD thường là trình tối ưu hóa mặc định và được khuyến nghị cho một số mô hình YOLO vì khả năng tổng quát hóa cuối cùng tốt hơn, Adam cung cấp một giải pháp thay thế mạnh mẽ, đặc biệt hữu ích trong quá trình thử nghiệm ban đầu. Bạn có thể dễ dàng định cấu hình trình tối ưu hóa và các cài đặt huấn luyện khác. Các công cụ như Ultralytics HUB hợp lý hóa quy trình, cho phép người dùng huấn luyện các mô hình bằng nhiều trình tối ưu hóa khác nhau, bao gồm Adam, cục bộ hoặc thông qua huấn luyện trên đám mây. Các framework như PyTorch và TensorFlow cung cấp các triển khai tiêu chuẩn của Adam, được sử dụng trong framework Ultralytics.