Bảng chú giải thuật ngữ

SiLU (Sigmoid Linear Unit)

Khám phá cách hàm kích hoạt SiLU (Swish) tăng cường hiệu suất học sâu trong các tác vụ AI như phát hiện đối tượng và NLP.

Sigmoid Linear Unit, thường được gọi là SiLU, là một hàm kích hoạt được sử dụng trong mạng nơ-ron đã trở nên phổ biến vì hiệu quả và hiệu suất của nó. Nó là một hàm tự điều khiển (self-gated function) kết hợp một cách thanh lịch các thuộc tính của các hàm Sigmoid và Rectified Linear Unit (ReLU). SiLU được giới thiệu trong bài báo "Searching for Activation Functions," nơi nó ban đầu được gọi là Swish. Các thuộc tính độc đáo của nó, chẳng hạn như độ mịn và tính phi đơn điệu, cho phép nó thường vượt trội hơn các hàm kích hoạt truyền thống như ReLU trong các mô hình sâu, dẫn đến độ chính xác tốt hơn và hội tụ nhanh hơn trong quá trình huấn luyện mô hình.

Hàm SiLU Hoạt Động Như Thế Nào

SiLU được định nghĩa bằng cách nhân một giá trị đầu vào với sigmoid của nó. Cơ chế tự điều chỉnh này cho phép hàm chuyển đổi mượt mà từ tuyến tính đối với các đầu vào dương sang gần bằng không đối với các đầu vào âm lớn, điều này giúp điều chỉnh luồng thông tin qua mạng. Một đặc điểm chính của SiLU là tính phi đơn điệu của nó; nó có thể giảm nhẹ xuống dưới 0 đối với các đầu vào âm nhỏ trước khi tăng trở lại về 0. Thuộc tính này được cho là cải thiện khả năng biểu đạt của mạng nơ-ron bằng cách tạo ra một cảnh quan gradient phong phú hơn và ngăn chặn vấn đề vanishing gradient có thể làm chậm hoặc dừng quá trình học trong các kiến trúc sâu. Độ mượt của đường cong SiLU cũng là một lợi thế đáng kể, vì nó đảm bảo một gradient mượt mà cho các thuật toán tối ưu hóa như gradient descent.

So sánh SiLU với các hàm kích hoạt khác

SiLU cung cấp một số lợi thế so với các hàm kích hoạt thường được sử dụng khác, khiến nó trở thành một lựa chọn hấp dẫn cho các kiến trúc deep learning (DL) hiện đại.

ReLU (Rectified Linear Unit): Không giống như ReLU, có sự thay đổi đột ngột ở số không và độ dốc bằng không không đổi cho tất cả các đầu vào âm, SiLU là một hàm liên tục, mượt mà. Sự mượt mà này giúp ích trong quá trình lan truyền ngược. Hơn nữa, SiLU tránh được vấn đề "ReLU chết", trong đó các nơ-ron có thể trở nên không hoạt động vĩnh viễn nếu chúng liên tục nhận được các đầu vào âm.
Leaky ReLU: Mặc dù Leaky ReLU cũng giải quyết vấn đề nơ-ron "chết" bằng cách cho phép một gradient nhỏ, khác không đối với các đầu vào âm, đường cong mượt mà, không đơn điệu của SiLU đôi khi có thể dẫn đến khả năng tổng quát hóa và tối ưu hóa tốt hơn trong các mạng sâu (deep networks).
Sigmoid: Hàm Sigmoid là một thành phần cốt lõi của SiLU, nhưng các ứng dụng của chúng khác nhau đáng kể. Sigmoid thường được sử dụng trong lớp đầu ra cho các tác vụ phân loại nhị phân hoặc như một cơ chế cổng trong RNN. Ngược lại, SiLU được thiết kế cho các lớp ẩn và đã được chứng minh là cải thiện hiệu suất trong mạng nơ-ron tích chập (CNN).
GELU (Gaussian Error Linear Unit): SiLU thường được so sánh với GELU, một hàm kích hoạt trơn tru khác đã cho thấy hiệu suất tuyệt vời, đặc biệt là trong các mô hình Transformer. Cả hai hàm đều có hình dạng và đặc điểm hiệu suất tương tự, với sự lựa chọn giữa chúng thường dựa trên kết quả thực nghiệm từ điều chỉnh siêu tham số (hyperparameter tuning).

Các ứng dụng trong AI và học máy

Sự cân bằng giữa hiệu quả và hiệu suất đã làm cho SiLU trở thành một lựa chọn phổ biến trong nhiều mô hình hiện đại khác nhau.

Phát hiện đối tượng: Các mô hình phát hiện đối tượng nâng cao, bao gồm các phiên bản của Ultralytics YOLO, sử dụng SiLU trong các lớp ẩn của chúng. Ví dụ: trong các ứng dụng như xe tự hành dựa vào phát hiện theo thời gian thực, SiLU giúp mô hình học các đặc trưng phức tạp từ dữ liệu cảm biến hiệu quả hơn, cải thiện độ chính xác phát hiện người đi bộ, biển báo giao thông và các phương tiện khác. Việc học các đặc trưng được cải thiện này rất quan trọng đối với sự an toàn và độ tin cậy, đặc biệt là khi huấn luyện trên các tập dữ liệu quy mô lớn như COCO.
Phân loại ảnh (Image Classification): SiLU là một thành phần quan trọng trong các mô hình phân loại hiệu quả và mạnh mẽ, chẳng hạn như họ mô hình EfficientNet. Trong các lĩnh vực như phân tích hình ảnh y tế, khả năng duy trì dòng gradient của SiLU giúp các mô hình học các kết cấu và mẫu tinh tế. Điều này có lợi cho các tác vụ như phân loại khối u từ ảnh chụp MRI hoặc xác định bệnh từ ảnh chụp X-quang ngực, nơi độ chính xác cao là tối quan trọng.

Triển khai

SiLU có sẵn trong các framework deep learning chính, giúp bạn dễ dàng kết hợp nó vào các mô hình mới hoặc hiện có.

PyTorch: Được triển khai như torch.nn.SiLU, với Tài liệu PyTorch cho SiLU có sẵn.
TensorFlow: Có sẵn dưới dạng tf.keras.activations.swish hoặc tf.keras.activations.silu, được ghi lại trong Tài liệu TensorFlow cho SiLU.

Các nền tảng như Ultralytics HUB hỗ trợ huấn luyện mô hình và khám phá các tùy chọn triển khai khác nhau cho các mô hình sử dụng các thành phần nâng cao như SiLU. Nghiên cứu và tài nguyên liên tục từ các tổ chức như DeepLearning.AI giúp các học viên tận dụng hiệu quả các chức năng như vậy. Việc lựa chọn hàm kích hoạt vẫn là một phần quan trọng trong việc thiết kế kiến trúc mạng nơ-ron hiệu quả và SiLU thể hiện một bước tiến đáng kể trong lĩnh vực này.

SiLU (Sigmoid Linear Unit)

Huấn luyện các mô hình Ultralytics YOLO để hợp lý hóa quy trình làm việc trong các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Huấn luyện các mô hình AI trong vài giây với Ultralytics YOLO

Hàm SiLU Hoạt Động Như Thế Nào

So sánh SiLU với các hàm kích hoạt khác

Các ứng dụng trong AI và học máy

Triển khai

Đọc thêm trong danh mục này

Hướng dẫn nhanh cho người mới bắt đầu về cách đào tạo mô hình AI

Từ Dubai với những hiểu biết sâu sắc: Những điểm chính từ Hội nghị thượng đỉnh GDG MENA-T 2025

Tìm hiểu về học tập ансамбль và vai trò của nó trong AI và ML

Tham gia cộng đồng Ultralytics