Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Leaky ReLU

Khám phá sức mạnh của kích hoạt Leaky ReLU cho AI và ML. Giải quyết vấn đề ReLU bị chết và tăng hiệu suất mô hình trong CV, NLP, GAN và hơn thế nữa!

Leaky Rectified Linear Unit, hay Leaky ReLU, là một hàm kích hoạt được sử dụng trong mạng nơ-ron (NN) và là một cải tiến trực tiếp so với hàm Rectified Linear Unit (ReLU) tiêu chuẩn. Nó được thiết kế để giải quyết vấn đề "ReLU chết", trong đó các nơ-ron có thể trở nên không hoạt động và ngừng học trong quá trình huấn luyện. Bằng cách giới thiệu một độ dốc nhỏ, khác không cho các giá trị đầu vào âm, Leaky ReLU đảm bảo rằng các nơ-ron luôn có gradient, cho phép huấn luyện ổn định và nhất quán hơn trong các mô hình học sâu (DL). Sửa đổi đơn giản này đã được chứng minh là có hiệu quả trong các kiến trúc khác nhau, giúp cải thiện hiệu suất mô hình và động lực huấn luyện.

Cách Leaky ReLU giải quyết vấn đề Neuron chết

Động lực chính đằng sau Leaky ReLU là giải quyết vấn đề "neuron chết". Trong một hàm ReLU tiêu chuẩn, bất kỳ đầu vào âm nào đến một neuron sẽ dẫn đến đầu ra bằng không. Nếu một neuron liên tục nhận đầu vào âm, nó sẽ luôn xuất ra giá trị không. Do đó, gradient truyền qua neuron này trong quá trình lan truyền ngược cũng sẽ bằng không. Điều này có nghĩa là trọng số của neuron không còn được cập nhật và nó thực tế ngừng tham gia vào quá trình học—nó "chết".

Leaky ReLU giải quyết vấn đề này bằng cách cho phép một gradient dương nhỏ khi đơn vị không hoạt động. Thay vì xuất ra giá trị không cho các đầu vào âm, nó xuất ra một giá trị nhân với một hằng số nhỏ ("độ rò rỉ"). Điều này đảm bảo nơ-ron không bao giờ có gradient bằng không, cho phép nó phục hồi và tiếp tục học. Cách tiếp cận này được trình bày chi tiết lần đầu tiên trong bài báo về Đánh giá thực nghiệm các kích hoạt được chỉnh sửa trong mạng tích chập.

Các Ứng dụng Thực tế

Khả năng thúc đẩy quá trình huấn luyện ổn định hơn của Leaky ReLU đã khiến nó trở nên có giá trị trong một số lĩnh vực của trí tuệ nhân tạo (AI).

  • Mạng Đối Nghịch Tạo Sinh (GANs): Leaky ReLU thường được sử dụng trong các mạng phân biệt (discriminator networks) của Mạng Đối Nghịch Tạo Sinh (GANs). GANs liên quan đến sự cân bằng tinh tế giữa một bộ tạo và một bộ phân biệt, và các gradient biến mất từ ReLU tiêu chuẩn có thể gây mất ổn định cho quá trình huấn luyện này. Như được giải thích trong các tài nguyên như blog Nhà phát triển của Google về GANs, các gradient nhất quán, khác không của Leaky ReLU giúp cả hai mạng học hiệu quả hơn, dẫn đến việc tạo ra dữ liệu tổng hợp chất lượng cao hơn.
  • Các mô hình phát hiện đối tượng: Các mô hình phát hiện đối tượng ban đầu nhưng có ảnh hưởng, bao gồm một số phiên bản của YOLO, đã sử dụng Leaky ReLU. Trong mạng nơ-ron tích chập sâu (CNNs), các nơ-ron chết có thể ngăn mô hình học các đặc trưng quan trọng. Leaky ReLU giúp đảm bảo rằng tất cả các nơ-ron vẫn hoạt động, cải thiện khả năng của mô hình trong việc phát hiện các đối tượng trên các tập dữ liệu đa dạng như COCO. Mặc dù nhiều kiến trúc hiện đại như Ultralytics YOLO11 hiện sử dụng các hàm nâng cao hơn, nhưng Leaky ReLU là một thành phần quan trọng trong việc thiết lập nền tảng của chúng.

So sánh Leaky ReLU với các Hàm kích hoạt khác

Leaky ReLU là một trong số các hàm kích hoạt được thiết kế để cải thiện ReLU ban đầu. Hiểu mối quan hệ của nó với những hàm khác sẽ giúp bạn chọn đúng hàm cho một tác vụ nhất định.

  • ReLU: Sự khác biệt chính là ReLU hoàn toàn không hoạt động đối với các đầu vào âm, trong khi Leaky ReLU duy trì một gradient nhỏ, không đổi.
  • SiLU và GELU: Các hàm kích hoạt mới hơn như SiLU (Sigmoid Linear Unit)GELU (Gaussian Error Linear Unit) cung cấp các đường cong trơn tru, không đơn điệu đôi khi có thể dẫn đến độ chính xác tốt hơn. Chúng thường được tìm thấy trong các mô hình nâng cao như Transformers. Tuy nhiên, chúng phức tạp về mặt tính toán hơn so với phép toán tuyến tính đơn giản của Leaky ReLU. Một tổng quan chi tiết về các hàm kích hoạt có thể cung cấp thêm các so sánh.
  • Parametric ReLU (PReLU): PReLU là một biến thể trong đó hệ số rò rỉ được học trong quá trình huấn luyện, làm cho nó trở thành một tham số của mô hình thay vì một siêu tham số cố định.

Lựa chọn tối ưu hàm kích hoạt thường phụ thuộc vào kiến trúc cụ thể, bộ dữ liệu (chẳng hạn như các bộ dữ liệu có sẵn trên Ultralytics Datasets) và kết quả từ việc điều chỉnh siêu tham số. Leaky ReLU vẫn là một lựa chọn mạnh mẽ vì tính đơn giản, chi phí tính toán thấp và hiệu quả trong việc ngăn chặn hiện tượng neuron chết.

Các framework deep learning lớn như PyTorchTensorFlow cung cấp các triển khai đơn giản, như được thấy trong tài liệu chính thức của chúng cho LeakyReLU của PyTorchLeakyReLU của TensorFlow. Khả năng truy cập này cho phép các nhà phát triển dễ dàng thử nghiệm và tích hợp nó vào các mô hình của họ bằng cách sử dụng các nền tảng như Ultralytics HUB.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard