Khám phá cách hàm kích hoạt SiLU (Swish) tăng cường hiệu suất học sâu trong các tác vụ AI như phát hiện đối tượng và NLP.
Sigmoid Linear Unit, thường được gọi là SiLU, là một hàm kích hoạt được sử dụng trong mạng nơ-ron đã trở nên phổ biến vì hiệu quả và hiệu suất của nó. Nó là một hàm tự điều khiển (self-gated function) kết hợp một cách thanh lịch các thuộc tính của các hàm Sigmoid và Rectified Linear Unit (ReLU). SiLU được giới thiệu trong bài báo "Searching for Activation Functions," nơi nó ban đầu được gọi là Swish. Các thuộc tính độc đáo của nó, chẳng hạn như độ mịn và tính phi đơn điệu, cho phép nó thường vượt trội hơn các hàm kích hoạt truyền thống như ReLU trong các mô hình sâu, dẫn đến độ chính xác tốt hơn và hội tụ nhanh hơn trong quá trình huấn luyện mô hình.
SiLU được định nghĩa bằng cách nhân một giá trị đầu vào với sigmoid của nó. Cơ chế tự điều chỉnh này cho phép hàm chuyển đổi mượt mà từ tuyến tính đối với các đầu vào dương sang gần bằng không đối với các đầu vào âm lớn, điều này giúp điều chỉnh luồng thông tin qua mạng. Một đặc điểm chính của SiLU là tính phi đơn điệu của nó; nó có thể giảm nhẹ xuống dưới 0 đối với các đầu vào âm nhỏ trước khi tăng trở lại về 0. Thuộc tính này được cho là cải thiện khả năng biểu đạt của mạng nơ-ron bằng cách tạo ra một cảnh quan gradient phong phú hơn và ngăn chặn vấn đề vanishing gradient có thể làm chậm hoặc dừng quá trình học trong các kiến trúc sâu. Độ mượt của đường cong SiLU cũng là một lợi thế đáng kể, vì nó đảm bảo một gradient mượt mà cho các thuật toán tối ưu hóa như gradient descent.
SiLU cung cấp một số lợi thế so với các hàm kích hoạt thường được sử dụng khác, khiến nó trở thành một lựa chọn hấp dẫn cho các kiến trúc deep learning (DL) hiện đại.
Sự cân bằng giữa hiệu quả và hiệu suất đã làm cho SiLU trở thành một lựa chọn phổ biến trong nhiều mô hình hiện đại khác nhau.
SiLU có sẵn trong các framework deep learning chính, giúp bạn dễ dàng kết hợp nó vào các mô hình mới hoặc hiện có.
torch.nn.SiLU
, với Tài liệu PyTorch cho SiLU có sẵn.tf.keras.activations.swish
hoặc tf.keras.activations.silu
, được ghi lại trong Tài liệu TensorFlow cho SiLU.Các nền tảng như Ultralytics HUB hỗ trợ huấn luyện mô hình và khám phá các tùy chọn triển khai khác nhau cho các mô hình sử dụng các thành phần nâng cao như SiLU. Nghiên cứu và tài nguyên liên tục từ các tổ chức như DeepLearning.AI giúp các học viên tận dụng hiệu quả các chức năng như vậy. Việc lựa chọn hàm kích hoạt vẫn là một phần quan trọng trong việc thiết kế kiến trúc mạng nơ-ron hiệu quả và SiLU thể hiện một bước tiến đáng kể trong lĩnh vực này.