Khám phá sức mạnh của kích hoạt Leaky ReLU cho AI và ML. Giải quyết vấn đề ReLU bị chết và tăng hiệu suất mô hình trong CV, NLP, GAN và hơn thế nữa!
Leaky Rectified Linear Unit, hay Leaky ReLU, là một hàm kích hoạt được sử dụng trong mạng nơ-ron (NN) và là một cải tiến trực tiếp so với hàm Rectified Linear Unit (ReLU) tiêu chuẩn. Nó được thiết kế để giải quyết vấn đề "ReLU chết", trong đó các nơ-ron có thể trở nên không hoạt động và ngừng học trong quá trình huấn luyện. Bằng cách giới thiệu một độ dốc nhỏ, khác không cho các giá trị đầu vào âm, Leaky ReLU đảm bảo rằng các nơ-ron luôn có gradient, cho phép huấn luyện ổn định và nhất quán hơn trong các mô hình học sâu (DL). Sửa đổi đơn giản này đã được chứng minh là có hiệu quả trong các kiến trúc khác nhau, giúp cải thiện hiệu suất mô hình và động lực huấn luyện.
Động lực chính đằng sau Leaky ReLU là giải quyết vấn đề "neuron chết". Trong một hàm ReLU tiêu chuẩn, bất kỳ đầu vào âm nào đến một neuron sẽ dẫn đến đầu ra bằng không. Nếu một neuron liên tục nhận đầu vào âm, nó sẽ luôn xuất ra giá trị không. Do đó, gradient truyền qua neuron này trong quá trình lan truyền ngược cũng sẽ bằng không. Điều này có nghĩa là trọng số của neuron không còn được cập nhật và nó thực tế ngừng tham gia vào quá trình học—nó "chết".
Leaky ReLU giải quyết vấn đề này bằng cách cho phép một gradient dương nhỏ khi đơn vị không hoạt động. Thay vì xuất ra giá trị không cho các đầu vào âm, nó xuất ra một giá trị nhân với một hằng số nhỏ ("độ rò rỉ"). Điều này đảm bảo nơ-ron không bao giờ có gradient bằng không, cho phép nó phục hồi và tiếp tục học. Cách tiếp cận này được trình bày chi tiết lần đầu tiên trong bài báo về Đánh giá thực nghiệm các kích hoạt được chỉnh sửa trong mạng tích chập.
Khả năng thúc đẩy quá trình huấn luyện ổn định hơn của Leaky ReLU đã khiến nó trở nên có giá trị trong một số lĩnh vực của trí tuệ nhân tạo (AI).
Leaky ReLU là một trong số các hàm kích hoạt được thiết kế để cải thiện ReLU ban đầu. Hiểu mối quan hệ của nó với những hàm khác sẽ giúp bạn chọn đúng hàm cho một tác vụ nhất định.
Lựa chọn tối ưu hàm kích hoạt thường phụ thuộc vào kiến trúc cụ thể, bộ dữ liệu (chẳng hạn như các bộ dữ liệu có sẵn trên Ultralytics Datasets) và kết quả từ việc điều chỉnh siêu tham số. Leaky ReLU vẫn là một lựa chọn mạnh mẽ vì tính đơn giản, chi phí tính toán thấp và hiệu quả trong việc ngăn chặn hiện tượng neuron chết.
Các framework deep learning lớn như PyTorch và TensorFlow cung cấp các triển khai đơn giản, như được thấy trong tài liệu chính thức của chúng cho LeakyReLU của PyTorch và LeakyReLU của TensorFlow. Khả năng truy cập này cho phép các nhà phát triển dễ dàng thử nghiệm và tích hợp nó vào các mô hình của họ bằng cách sử dụng các nền tảng như Ultralytics HUB.