Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

GELU (Gaussian Error Linear Unit)

Khám phá cách hàm kích hoạt GELU tăng cường các mô hình transformer như GPT-4, tăng cường luồng gradient, tính ổn định và hiệu quả.

GELU (Gaussian Error Linear Unit) là một hàm kích hoạt hiệu suất cao đã trở thành tiêu chuẩn trong các kiến trúc mạng nơ-ron hiện đại, đặc biệt là các mô hình Transformer. Nó được biết đến với đường cong mượt mà, không đơn điệu, giúp các mô hình học các mẫu phức tạp hiệu quả hơn so với các hàm cũ hơn. Được giới thiệu trong bài báo "Gaussian Error Linear Units (GELUs)," nó kết hợp các thuộc tính từ các hàm khác như dropoutReLU để cải thiện tính ổn định của quá trình huấn luyện và hiệu suất của mô hình.

GELU hoạt động như thế nào

Không giống như ReLU, cắt bỏ hoàn toàn tất cả các giá trị âm, GELU đánh trọng số các đầu vào của nó dựa trên độ lớn của chúng. Nó xác định xác suất có nên kích hoạt một nơ-ron bằng cách nhân đầu vào với hàm phân phối tích lũy (CDF) của phân phối Gaussian chuẩn hay không. Điều này có nghĩa là các đầu vào có nhiều khả năng bị "loại bỏ" (đặt thành không) khi chúng càng âm, nhưng quá trình chuyển đổi diễn ra mượt mà chứ không đột ngột. Thuộc tính điều chuẩn ngẫu nhiên này giúp ngăn ngừa các vấn đề như vanishing gradient problem (vấn đề biến mất gradient) và cho phép biểu diễn dữ liệu phong phú hơn, điều này rất quan trọng đối với các mô hình deep learning (học sâu) hiện đại.

GELU so với các hàm kích hoạt khác

GELU cung cấp một số lợi thế so với các hàm kích hoạt phổ biến khác, dẫn đến việc nó được áp dụng rộng rãi.

  • GELU so với ReLU: Sự khác biệt chính là độ trơn tru của GELU. Mặc dù ReLU đơn giản về mặt tính toán, nhưng góc nhọn của nó tại điểm không đôi khi có thể dẫn đến vấn đề "ReLU chết", trong đó các nơ-ron trở nên bất hoạt vĩnh viễn. Đường cong trơn tru của GELU tránh được vấn đề này, tạo điều kiện cho gradient descent ổn định hơn và thường dẫn đến độ chính xác cuối cùng tốt hơn.
  • GELU so với Leaky ReLU: Leaky ReLU cố gắng khắc phục vấn đề ReLU chết bằng cách cho phép một độ dốc âm nhỏ đối với các đầu vào âm. Tuy nhiên, bản chất cong, phi tuyến tính của GELU cung cấp một phạm vi kích hoạt động hơn, đã được chứng minh là vượt trội hơn Leaky ReLU trong nhiều tác vụ học sâu (deep learning).
  • GELU so với SiLU (Swish): Sigmoid Linear Unit (SiLU), còn được gọi là Swish, rất giống với GELU. Cả hai đều là các hàm trơn tru, không đơn điệu đã cho thấy hiệu suất tuyệt vời. Sự lựa chọn giữa chúng thường dựa trên thử nghiệm thực nghiệm cho một kiến trúc và tập dữ liệu (dataset) cụ thể, mặc dù một số nghiên cứu cho thấy SiLU có thể hiệu quả hơn một chút trong một số mô hình thị giác máy tính. Các mô hình như Ultralytics YOLO thường sử dụng SiLU để cân bằng giữa hiệu suất và hiệu quả.

Các ứng dụng trong AI và Học sâu

GELU là một thành phần quan trọng trong nhiều mô hình AI mạnh mẽ nhất được phát triển cho đến nay.

Triển khai và Sử dụng

GELU có sẵn trong tất cả các khung học sâu chính, giúp bạn dễ dàng tích hợp vào các mô hình tùy chỉnh.

Các nhà phát triển có thể xây dựng, huấn luyện và triển khai các mô hình bằng GELU với các nền tảng như Ultralytics HUB, nền tảng này giúp đơn giản hóa toàn bộ vòng đời MLOps từ tăng cường dữ liệu đến triển khai mô hình cuối cùng.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard