Khám phá cách hàm kích hoạt SiLU (Swish) thúc đẩy hiệu suất học sâu trong các tác vụ AI như phát hiện đối tượng và NLP.
Đơn vị Tuyến tính Sigmoid, thường được gọi là SiLU, là một hàm kích hoạt được sử dụng trong mạng nơ-ron nhân tạo , đã trở nên phổ biến nhờ tính hiệu quả và hiệu suất của nó. Đây là một hàm tự đóng, kết hợp nhuần nhuyễn các đặc tính của hàm Sigmoid và hàm Đơn vị Tuyến tính Chỉnh lưu (ReLU) . SiLU được giới thiệu trong bài báo " Tìm kiếm Hàm Kích hoạt ", ban đầu được gọi là Swish. Các đặc tính độc đáo của nó, chẳng hạn như độ mượt và tính phi đơn điệu, cho phép nó thường vượt trội hơn các hàm kích hoạt truyền thống như ReLU trong các mô hình sâu, dẫn đến độ chính xác cao hơn và hội tụ nhanh hơn trong quá trình huấn luyện mô hình .
SiLU được định nghĩa bằng cách nhân một giá trị đầu vào với sigmoid của nó. Cơ chế tự đóng này cho phép hàm chuyển đổi mượt mà từ tuyến tính với các đầu vào dương sang gần bằng không với các đầu vào âm lớn, giúp điều chỉnh luồng thông tin qua mạng. Một đặc điểm chính của SiLU là tính không đơn điệu; nó có thể giảm nhẹ xuống dưới không với các đầu vào âm nhỏ trước khi tăng trở lại về không. Tính chất này được cho là cải thiện khả năng biểu đạt của mạng nơ-ron bằng cách tạo ra một cảnh quan gradient phong phú hơn và ngăn chặn vấn đề gradient biến mất có thể làm chậm hoặc dừng quá trình học trong các kiến trúc sâu. Độ mượt của đường cong SiLU cũng là một lợi thế đáng kể, vì nó đảm bảo gradient mượt mà cho các thuật toán tối ưu hóa như gradient descent .
SiLU có nhiều ưu điểm hơn so với các hàm kích hoạt thường dùng khác, khiến nó trở thành lựa chọn hấp dẫn cho các kiến trúc học sâu (DL) hiện đại.
Sự cân bằng giữa hiệu quả và hiệu suất đã khiến SiLU trở thành lựa chọn phổ biến trong nhiều mô hình hiện đại.
SiLU có sẵn trong các khuôn khổ học sâu chính, giúp dễ dàng kết hợp vào các mô hình mới hoặc hiện có.
torch.nn.SiLU
, với chính thức Tài liệu PyTorch cho SiLU có sẵn.tf.keras.activations.swish
hoặc tf.keras.activations.silu
, được ghi chép trong Tài liệu TensorFlow cho SiLU.Các nền tảng như Ultralytics HUB hỗ trợ các mô hình đào tạo và khám phá các tùy chọn triển khai khác nhau cho các mô hình sử dụng các thành phần tiên tiến như SiLU. Nghiên cứu liên tục và nguồn lực từ các tổ chức như DeepLearning.AI giúp các chuyên gia tận dụng hiệu quả các chức năng này. Việc lựa chọn hàm kích hoạt vẫn là một phần quan trọng trong việc thiết kế kiến trúc mạng nơ-ron hiệu quả, và SiLU là một bước tiến đáng kể trong lĩnh vực này.