Khám phá cách hàm kích hoạt GELU tăng cường các mô hình transformer như GPT-4, tăng cường luồng gradient, tính ổn định và hiệu quả.
GELU (Gaussian Error Linear Unit) là một hàm kích hoạt hiệu suất cao đã trở thành tiêu chuẩn trong các kiến trúc mạng nơ-ron hiện đại, đặc biệt là các mô hình Transformer. Nó được biết đến với đường cong mượt mà, không đơn điệu, giúp các mô hình học các mẫu phức tạp hiệu quả hơn so với các hàm cũ hơn. Được giới thiệu trong bài báo "Gaussian Error Linear Units (GELUs)," nó kết hợp các thuộc tính từ các hàm khác như dropout và ReLU để cải thiện tính ổn định của quá trình huấn luyện và hiệu suất của mô hình.
Không giống như ReLU, cắt bỏ hoàn toàn tất cả các giá trị âm, GELU đánh trọng số các đầu vào của nó dựa trên độ lớn của chúng. Nó xác định xác suất có nên kích hoạt một nơ-ron bằng cách nhân đầu vào với hàm phân phối tích lũy (CDF) của phân phối Gaussian chuẩn hay không. Điều này có nghĩa là các đầu vào có nhiều khả năng bị "loại bỏ" (đặt thành không) khi chúng càng âm, nhưng quá trình chuyển đổi diễn ra mượt mà chứ không đột ngột. Thuộc tính điều chuẩn ngẫu nhiên này giúp ngăn ngừa các vấn đề như vanishing gradient problem (vấn đề biến mất gradient) và cho phép biểu diễn dữ liệu phong phú hơn, điều này rất quan trọng đối với các mô hình deep learning (học sâu) hiện đại.
GELU cung cấp một số lợi thế so với các hàm kích hoạt phổ biến khác, dẫn đến việc nó được áp dụng rộng rãi.
GELU là một thành phần quan trọng trong nhiều mô hình AI mạnh mẽ nhất được phát triển cho đến nay.
GELU có sẵn trong tất cả các khung học sâu chính, giúp bạn dễ dàng tích hợp vào các mô hình tùy chỉnh.
torch.nn.GELU
, với thông tin chi tiết trong tài liệu chính thức về PyTorch GELU.tf.keras.activations.gelu
, được ghi lại trong Tài liệu API TensorFlow.Các nhà phát triển có thể xây dựng, huấn luyện và triển khai các mô hình bằng GELU với các nền tảng như Ultralytics HUB, nền tảng này giúp đơn giản hóa toàn bộ vòng đời MLOps từ tăng cường dữ liệu đến triển khai mô hình cuối cùng.