Thuật ngữ

SiLU (Đơn vị tuyến tính Sigmoid)

Khám phá cách hàm kích hoạt SiLU (Swish) thúc đẩy hiệu suất học sâu trong các tác vụ AI như phát hiện đối tượng và NLP.

Đơn vị Tuyến tính Sigmoid, thường được gọi là SiLU, là một hàm kích hoạt được sử dụng trong mạng nơ-ron nhân tạo , đã trở nên phổ biến nhờ tính hiệu quả và hiệu suất của nó. Đây là một hàm tự đóng, kết hợp nhuần nhuyễn các đặc tính của hàm Sigmoid và hàm Đơn vị Tuyến tính Chỉnh lưu (ReLU) . SiLU được giới thiệu trong bài báo " Tìm kiếm Hàm Kích hoạt ", ban đầu được gọi là Swish. Các đặc tính độc đáo của nó, chẳng hạn như độ mượt và tính phi đơn điệu, cho phép nó thường vượt trội hơn các hàm kích hoạt truyền thống như ReLU trong các mô hình sâu, dẫn đến độ chính xác cao hơn và hội tụ nhanh hơn trong quá trình huấn luyện mô hình .

SiLU hoạt động như thế nào

SiLU được định nghĩa bằng cách nhân một giá trị đầu vào với sigmoid của nó. Cơ chế tự đóng này cho phép hàm chuyển đổi mượt mà từ tuyến tính với các đầu vào dương sang gần bằng không với các đầu vào âm lớn, giúp điều chỉnh luồng thông tin qua mạng. Một đặc điểm chính của SiLU là tính không đơn điệu; nó có thể giảm nhẹ xuống dưới không với các đầu vào âm nhỏ trước khi tăng trở lại về không. Tính chất này được cho là cải thiện khả năng biểu đạt của mạng nơ-ron bằng cách tạo ra một cảnh quan gradient phong phú hơn và ngăn chặn vấn đề gradient biến mất có thể làm chậm hoặc dừng quá trình học trong các kiến trúc sâu. Độ mượt của đường cong SiLU cũng là một lợi thế đáng kể, vì nó đảm bảo gradient mượt mà cho các thuật toán tối ưu hóa như gradient descent .

So sánh SiLU với các hàm kích hoạt khác

SiLU có nhiều ưu điểm hơn so với các hàm kích hoạt thường dùng khác, khiến nó trở thành lựa chọn hấp dẫn cho các kiến trúc học sâu (DL) hiện đại.

  • ReLU (Đơn vị Tuyến tính Chỉnh lưu) : Không giống như ReLU, vốn có sự thay đổi đột ngột tại điểm 0 và gradient 0 không đổi cho tất cả các đầu vào âm, SiLU là một hàm trơn tru, liên tục. Sự trơn tru này hỗ trợ quá trình lan truyền ngược . Hơn nữa, SiLU tránh được vấn đề "ReLU chết", khi các tế bào thần kinh có thể bị bất hoạt vĩnh viễn nếu chúng liên tục nhận được đầu vào âm.
  • Leaky ReLU : Trong khi Leaky ReLU cũng giải quyết vấn đề tế bào thần kinh chết bằng cách cho phép một gradient nhỏ, khác không đối với các đầu vào âm, đường cong trơn tru, không đơn điệu của SiLU đôi khi có thể dẫn đến khả năng khái quát hóa và tối ưu hóa tốt hơn trong các mạng rất sâu .
  • Sigmoid : Hàm Sigmoid là thành phần cốt lõi của SiLU, nhưng ứng dụng của chúng có sự khác biệt đáng kể. Sigmoid thường được sử dụng ở lớp đầu ra cho các tác vụ phân loại nhị phân hoặc như một cơ chế gating trong RNN . Ngược lại, SiLU được thiết kế cho các lớp ẩn và đã được chứng minh là cải thiện hiệu suất trong mạng nơ-ron tích chập (CNN) .
  • GELU (Đơn vị Tuyến tính Sai số Gauss) : SiLU thường được so sánh với GELU, một hàm kích hoạt trơn tru khác đã cho thấy hiệu suất tuyệt vời, đặc biệt là trong các mô hình Transformer . Cả hai hàm đều có hình dạng và đặc điểm hiệu suất tương tự nhau, việc lựa chọn giữa chúng thường phụ thuộc vào kết quả thực nghiệm từ việc điều chỉnh siêu tham số .

Ứng dụng trong AI và Học máy

Sự cân bằng giữa hiệu quả và hiệu suất đã khiến SiLU trở thành lựa chọn phổ biến trong nhiều mô hình hiện đại.

  • Phát hiện Đối tượng : Các mô hình phát hiện đối tượng tiên tiến, bao gồm các phiên bản Ultralytics YOLO , sử dụng SiLU trong các lớp ẩn của chúng. Ví dụ, trong các ứng dụng như xe tự hành dựa trên phát hiện thời gian thực, SiLU giúp mô hình học các đặc điểm phức tạp từ dữ liệu cảm biến hiệu quả hơn, cải thiện độ chính xác phát hiện người đi bộ, biển báo giao thông và các phương tiện khác. Khả năng học đặc điểm được cải thiện này rất quan trọng đối với sự an toàn và độ tin cậy, đặc biệt là khi đào tạo trên các tập dữ liệu quy mô lớn như COCO .
  • Phân loại hình ảnh : SiLU là một thành phần quan trọng trong các mô hình phân loại hiệu quả và mạnh mẽ, chẳng hạn như dòng mô hình EfficientNet . Trong các lĩnh vực như phân tích hình ảnh y tế , khả năng duy trì dòng chảy gradient của SiLU giúp các mô hình học được các kết cấu và mẫu hình tinh tế. Điều này rất hữu ích cho các tác vụ như phân loại khối u từ ảnh chụp MRI hoặc xác định bệnh từ X-quang ngực, nơi độ chính xác cao là tối quan trọng.

Thực hiện

SiLU có sẵn trong các khuôn khổ học sâu chính, giúp dễ dàng kết hợp vào các mô hình mới hoặc hiện có.

Các nền tảng như Ultralytics HUB hỗ trợ các mô hình đào tạo và khám phá các tùy chọn triển khai khác nhau cho các mô hình sử dụng các thành phần tiên tiến như SiLU. Nghiên cứu liên tục và nguồn lực từ các tổ chức như DeepLearning.AI giúp các chuyên gia tận dụng hiệu quả các chức năng này. Việc lựa chọn hàm kích hoạt vẫn là một phần quan trọng trong việc thiết kế kiến trúc mạng nơ-ron hiệu quả, và SiLU là một bước tiến đáng kể trong lĩnh vực này.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard