Bảng chú giải thuật ngữ

GELU (Gaussian Error Linear Unit)

Khám phá cách hàm kích hoạt GELU tăng cường các mô hình transformer như GPT-4, tăng cường luồng gradient, tính ổn định và hiệu quả.

GELU (Gaussian Error Linear Unit) là một hàm kích hoạt hiệu suất cao đã trở thành tiêu chuẩn trong các kiến trúc mạng nơ-ron hiện đại, đặc biệt là các mô hình Transformer. Nó được biết đến với đường cong mượt mà, không đơn điệu, giúp các mô hình học các mẫu phức tạp hiệu quả hơn so với các hàm cũ hơn. Được giới thiệu trong bài báo "Gaussian Error Linear Units (GELUs)," nó kết hợp các thuộc tính từ các hàm khác như dropout và ReLU để cải thiện tính ổn định của quá trình huấn luyện và hiệu suất của mô hình.

GELU hoạt động như thế nào

Không giống như ReLU, cắt bỏ hoàn toàn tất cả các giá trị âm, GELU đánh trọng số các đầu vào của nó dựa trên độ lớn của chúng. Nó xác định xác suất có nên kích hoạt một nơ-ron bằng cách nhân đầu vào với hàm phân phối tích lũy (CDF) của phân phối Gaussian chuẩn hay không. Điều này có nghĩa là các đầu vào có nhiều khả năng bị "loại bỏ" (đặt thành không) khi chúng càng âm, nhưng quá trình chuyển đổi diễn ra mượt mà chứ không đột ngột. Thuộc tính điều chuẩn ngẫu nhiên này giúp ngăn ngừa các vấn đề như vanishing gradient problem (vấn đề biến mất gradient) và cho phép biểu diễn dữ liệu phong phú hơn, điều này rất quan trọng đối với các mô hình deep learning (học sâu) hiện đại.

GELU so với các hàm kích hoạt khác

GELU cung cấp một số lợi thế so với các hàm kích hoạt phổ biến khác, dẫn đến việc nó được áp dụng rộng rãi.

GELU so với ReLU: Sự khác biệt chính là độ trơn tru của GELU. Mặc dù ReLU đơn giản về mặt tính toán, nhưng góc nhọn của nó tại điểm không đôi khi có thể dẫn đến vấn đề "ReLU chết", trong đó các nơ-ron trở nên bất hoạt vĩnh viễn. Đường cong trơn tru của GELU tránh được vấn đề này, tạo điều kiện cho gradient descent ổn định hơn và thường dẫn đến độ chính xác cuối cùng tốt hơn.
GELU so với Leaky ReLU: Leaky ReLU cố gắng khắc phục vấn đề ReLU chết bằng cách cho phép một độ dốc âm nhỏ đối với các đầu vào âm. Tuy nhiên, bản chất cong, phi tuyến tính của GELU cung cấp một phạm vi kích hoạt động hơn, đã được chứng minh là vượt trội hơn Leaky ReLU trong nhiều tác vụ học sâu (deep learning).
GELU so với SiLU (Swish): Sigmoid Linear Unit (SiLU), còn được gọi là Swish, rất giống với GELU. Cả hai đều là các hàm trơn tru, không đơn điệu đã cho thấy hiệu suất tuyệt vời. Sự lựa chọn giữa chúng thường dựa trên thử nghiệm thực nghiệm cho một kiến trúc và tập dữ liệu (dataset) cụ thể, mặc dù một số nghiên cứu cho thấy SiLU có thể hiệu quả hơn một chút trong một số mô hình thị giác máy tính. Các mô hình như Ultralytics YOLO thường sử dụng SiLU để cân bằng giữa hiệu suất và hiệu quả.

Các ứng dụng trong AI và Học sâu

GELU là một thành phần quan trọng trong nhiều mô hình AI mạnh mẽ nhất được phát triển cho đến nay.

Xử Lý Ngôn Ngữ Tự Nhiên (Natural Language Processing - NLP): GELU là hàm kích hoạt tiêu chuẩn trong các mạng feed-forward của kiến trúc Transformer. Điều này bao gồm các mô hình có ảnh hưởng lớn như BERT và dòng GPT, là nền tảng cho gần như tất cả các Mô Hình Ngôn Ngữ Lớn (Large Language Models - LLMs) hiện đại. Khả năng xử lý các mẫu ngôn ngữ phức tạp của nó làm cho nó trở nên lý tưởng cho các tác vụ như dịch máy và tóm tắt văn bản. Bạn có thể đọc thêm về các mô hình này trong các tài liệu từ các tổ chức như Hugging Face.
Thị giác máy tính (Computer Vision - CV): Sau thành công trong NLP, GELU đã được áp dụng trong các mô hình Vision Transformer (ViT). Các mô hình này áp dụng kiến trúc Transformer cho các vùng ảnh (image patches) cho các tác vụ như phân loại hình ảnh (image classification) và phát hiện đối tượng (object detection). Hiệu suất của ViT đã chứng minh hiệu quả của GELU trong việc xử lý thông tin trực quan, thách thức sự thống trị của Mạng nơ-ron tích chập (Convolutional Neural Networks - CNNs) truyền thống.

Triển khai và Sử dụng

GELU có sẵn trong tất cả các khung học sâu chính, giúp bạn dễ dàng tích hợp vào các mô hình tùy chỉnh.

PyTorch: Được triển khai như torch.nn.GELU, với thông tin chi tiết trong tài liệu chính thức về PyTorch GELU.
TensorFlow: Có sẵn dưới dạng tf.keras.activations.gelu, được ghi lại trong Tài liệu API TensorFlow.

Các nhà phát triển có thể xây dựng, huấn luyện và triển khai các mô hình bằng GELU với các nền tảng như Ultralytics HUB, nền tảng này giúp đơn giản hóa toàn bộ vòng đời MLOps từ tăng cường dữ liệu đến triển khai mô hình cuối cùng.

GELU (Gaussian Error Linear Unit)

Huấn luyện các mô hình Ultralytics YOLO để hợp lý hóa quy trình làm việc trong các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Huấn luyện các mô hình AI trong vài giây với Ultralytics YOLO

GELU hoạt động như thế nào

GELU so với các hàm kích hoạt khác

Các ứng dụng trong AI và Học sâu

Triển khai và Sử dụng

Đọc thêm trong danh mục này

Từ bit đến qubit: Cách tối ưu hóa lượng tử đang định hình lại AI

Hướng dẫn nhanh cho người mới bắt đầu về cách đào tạo mô hình AI

Từ Dubai với những hiểu biết sâu sắc: Những điểm chính từ Hội nghị thượng đỉnh GDG MENA-T 2025

Tham gia cộng đồng Ultralytics