Khám phá sức mạnh của kích hoạt Leaky ReLU cho AI và ML. Giải quyết vấn đề ReLU đang chết dần và tăng hiệu suất mô hình trong CV, NLP, GAN, v.v.!
Leaky Rectified Linear Unit, hay Leaky ReLU, là một hàm kích hoạt được sử dụng trong mạng nơ-ron (NN) và là một cải tiến trực tiếp so với hàm Rectified Linear Unit (ReLU) tiêu chuẩn. Nó được thiết kế để giải quyết vấn đề "ReLU chết", khi các nơ-ron có thể trở nên không hoạt động và ngừng học trong quá trình huấn luyện. Bằng cách đưa vào một độ dốc nhỏ, khác không cho các giá trị đầu vào âm, Leaky ReLU đảm bảo rằng các nơ-ron luôn có một gradient, cho phép huấn luyện ổn định và nhất quán hơn trong các mô hình học sâu (DL) . Sửa đổi đơn giản này đã được chứng minh là hiệu quả trong nhiều kiến trúc khác nhau, giúp cải thiện hiệu suất mô hình và động lực huấn luyện.
Động lực chính đằng sau Leaky ReLU là giải quyết vấn đề neuron chết. Trong một hàm ReLU tiêu chuẩn, bất kỳ đầu vào âm nào cho một neuron đều cho kết quả đầu ra bằng 0. Nếu một neuron liên tục nhận đầu vào âm, nó sẽ luôn cho kết quả đầu ra bằng 0. Do đó, gradient chảy qua neuron này trong quá trình lan truyền ngược cũng sẽ bằng 0. Điều này có nghĩa là trọng số của neuron không còn được cập nhật nữa, và về cơ bản nó ngừng tham gia vào quá trình học—nó "chết".
Leaky ReLU giải quyết vấn đề này bằng cách cho phép một gradient dương nhỏ khi đơn vị không hoạt động. Thay vì xuất ra giá trị 0 cho các đầu vào âm, nó xuất ra một giá trị nhân với một hằng số nhỏ ("rò rỉ"). Điều này đảm bảo neuron không bao giờ có gradient bằng 0, cho phép nó phục hồi và tiếp tục học. Phương pháp này lần đầu tiên được trình bày chi tiết trong bài báo " Đánh giá Thực nghiệm về Kích hoạt Chỉnh lưu trong Mạng Tích chập" .
Khả năng thúc đẩy đào tạo ổn định hơn của Leaky ReLU đã khiến nó trở nên có giá trị trong một số lĩnh vực trí tuệ nhân tạo (AI) .
Leaky ReLU là một trong số nhiều hàm kích hoạt được thiết kế để cải thiện ReLU gốc. Việc hiểu mối quan hệ của nó với các hàm khác sẽ giúp lựa chọn hàm phù hợp cho một tác vụ nhất định.
Lựa chọn hàm kích hoạt tối ưu thường phụ thuộc vào kiến trúc cụ thể, tập dữ liệu (chẳng hạn như các tập dữ liệu có sẵn trên Ultralytics Datasets ) và kết quả từ việc điều chỉnh siêu tham số . Leaky ReLU vẫn là một lựa chọn tốt nhờ tính đơn giản, chi phí tính toán thấp và hiệu quả trong việc ngăn ngừa chết tế bào thần kinh.
Các nền tảng học sâu lớn như PyTorch và TensorFlow cung cấp các triển khai đơn giản, như được thấy trong tài liệu chính thức của họ về LeakyReLU của PyTorch và LeakyReLU của TensorFlow . Khả năng truy cập này cho phép các nhà phát triển dễ dàng thử nghiệm và tích hợp nó vào mô hình của họ bằng các nền tảng như Ultralytics HUB .