Thuật ngữ

ReLU bị rò rỉ

Khám phá sức mạnh của kích hoạt Leaky ReLU cho AI và ML. Giải quyết vấn đề ReLU đang chết dần và tăng hiệu suất mô hình trong CV, NLP, GAN, v.v.!

Leaky Rectified Linear Unit, hay Leaky ReLU, là một hàm kích hoạt được sử dụng trong mạng nơ-ron (NN) và là một cải tiến trực tiếp so với hàm Rectified Linear Unit (ReLU) tiêu chuẩn. Nó được thiết kế để giải quyết vấn đề "ReLU chết", khi các nơ-ron có thể trở nên không hoạt động và ngừng học trong quá trình huấn luyện. Bằng cách đưa vào một độ dốc nhỏ, khác không cho các giá trị đầu vào âm, Leaky ReLU đảm bảo rằng các nơ-ron luôn có một gradient, cho phép huấn luyện ổn định và nhất quán hơn trong các mô hình học sâu (DL) . Sửa đổi đơn giản này đã được chứng minh là hiệu quả trong nhiều kiến trúc khác nhau, giúp cải thiện hiệu suất mô hình và động lực huấn luyện.

ReLU Rò Rỉ Giải Quyết Vấn Đề Nơ-ron Chết Như Thế Nào

Động lực chính đằng sau Leaky ReLU là giải quyết vấn đề neuron chết. Trong một hàm ReLU tiêu chuẩn, bất kỳ đầu vào âm nào cho một neuron đều cho kết quả đầu ra bằng 0. Nếu một neuron liên tục nhận đầu vào âm, nó sẽ luôn cho kết quả đầu ra bằng 0. Do đó, gradient chảy qua neuron này trong quá trình lan truyền ngược cũng sẽ bằng 0. Điều này có nghĩa là trọng số của neuron không còn được cập nhật nữa, và về cơ bản nó ngừng tham gia vào quá trình học—nó "chết".

Leaky ReLU giải quyết vấn đề này bằng cách cho phép một gradient dương nhỏ khi đơn vị không hoạt động. Thay vì xuất ra giá trị 0 cho các đầu vào âm, nó xuất ra một giá trị nhân với một hằng số nhỏ ("rò rỉ"). Điều này đảm bảo neuron không bao giờ có gradient bằng 0, cho phép nó phục hồi và tiếp tục học. Phương pháp này lần đầu tiên được trình bày chi tiết trong bài báo " Đánh giá Thực nghiệm về Kích hoạt Chỉnh lưu trong Mạng Tích chập" .

Ứng dụng trong thế giới thực

Khả năng thúc đẩy đào tạo ổn định hơn của Leaky ReLU đã khiến nó trở nên có giá trị trong một số lĩnh vực trí tuệ nhân tạo (AI) .

  • Mạng Đối kháng Sinh sinh (GAN): Leaky ReLU thường được sử dụng trong các mạng phân biệt của Mạng Đối kháng Sinh sinh (GAN) . GAN đòi hỏi sự cân bằng tinh tế giữa bộ tạo và bộ phân biệt, và việc mất dần gradient từ ReLU tiêu chuẩn có thể làm mất ổn định quá trình huấn luyện này. Như đã giải thích trong các tài nguyên như blog Nhà phát triển của Google về GAN , các gradient nhất quán, khác không của Leaky ReLU giúp cả hai mạng học hiệu quả hơn, dẫn đến việc tạo ra dữ liệu tổng hợp chất lượng cao hơn.
  • Các mô hình phát hiện đối tượng: Các mô hình phát hiện đối tượng ban đầu nhưng có ảnh hưởng, bao gồm một số phiên bản của YOLO , đã sử dụng Leaky ReLU. Trong các mạng nơ-ron tích chập sâu (CNN) , các nơ-ron chết có thể ngăn mô hình học các đặc điểm quan trọng. Leaky ReLU giúp đảm bảo tất cả các nơ-ron vẫn hoạt động, cải thiện khả năng phát hiện đối tượng của mô hình trên các tập dữ liệu đa dạng như COCO . Mặc dù nhiều kiến trúc hiện đại như Ultralytics YOLO11 hiện sử dụng các hàm nâng cao hơn, Leaky ReLU là một thành phần quan trọng trong việc thiết lập nền tảng của chúng.

ReLU bị rò rỉ so với các hàm kích hoạt khác

Leaky ReLU là một trong số nhiều hàm kích hoạt được thiết kế để cải thiện ReLU gốc. Việc hiểu mối quan hệ của nó với các hàm khác sẽ giúp lựa chọn hàm phù hợp cho một tác vụ nhất định.

  • ReLU: Sự khác biệt chính là ReLU hoàn toàn không hoạt động đối với các đầu vào tiêu cực, trong khi Leaky ReLU duy trì một gradient nhỏ và không đổi.
  • SiLU và GELU: Các hàm kích hoạt mới hơn như SiLU (Đơn vị Tuyến tính Sigmoid)GELU (Đơn vị Tuyến tính Sai số Gauss) cung cấp các đường cong trơn tru, không đơn điệu, đôi khi có thể mang lại độ chính xác cao hơn. Các hàm này thường được tìm thấy trong các mô hình tiên tiến như Transformers . Tuy nhiên, về mặt tính toán, chúng phức tạp hơn so với phép toán tuyến tính đơn giản của Leaky ReLU. Tổng quan chi tiết về các hàm kích hoạt có thể cung cấp thêm các so sánh.
  • ReLU tham số (PReLU): PReLU là biến thể trong đó hệ số rò rỉ được học trong quá trình đào tạo, biến nó thành tham số của mô hình thay vì siêu tham số cố định.

Lựa chọn hàm kích hoạt tối ưu thường phụ thuộc vào kiến trúc cụ thể, tập dữ liệu (chẳng hạn như các tập dữ liệu có sẵn trên Ultralytics Datasets ) và kết quả từ việc điều chỉnh siêu tham số . Leaky ReLU vẫn là một lựa chọn tốt nhờ tính đơn giản, chi phí tính toán thấp và hiệu quả trong việc ngăn ngừa chết tế bào thần kinh.

Các nền tảng học sâu lớn như PyTorchTensorFlow cung cấp các triển khai đơn giản, như được thấy trong tài liệu chính thức của họ về LeakyReLU của PyTorchLeakyReLU của TensorFlow . Khả năng truy cập này cho phép các nhà phát triển dễ dàng thử nghiệm và tích hợp nó vào mô hình của họ bằng các nền tảng như Ultralytics HUB .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard