Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Hàm kích hoạt

Khám phá vai trò của hàm kích hoạt trong mạng nơ-ron, các loại của chúng và các ứng dụng thực tế trong AI và học máy.

Hàm kích hoạt là một hàm toán học được áp dụng cho một nơ-ron hoặc một nút trong một mạng nơ-ron (NN). Vai trò chính của nó là xác định đầu ra của nơ-ron đó dựa trên các đầu vào được gán trọng số của nó. Nói một cách đơn giản, nó quyết định xem một nơ-ron có nên được "kích hoạt" hay "phát", và nếu có, cường độ tín hiệu của nó sẽ như thế nào khi nó truyền đến lớp tiếp theo. Cơ chế này rất quan trọng để đưa tính phi tuyến vào mạng, cho phép nó học các mẫu và mối quan hệ phức tạp từ dữ liệu. Nếu không có các hàm kích hoạt, một mạng nơ-ron, bất kể có bao nhiêu lớp, sẽ hoạt động giống như một mô hình hồi quy tuyến tính đơn giản, hạn chế nghiêm trọng khả năng giải quyết các vấn đề phức tạp trong thế giới thực.

Các loại hàm kích hoạt

Có nhiều loại hàm kích hoạt, mỗi loại có các thuộc tính riêng. Việc lựa chọn hàm có thể ảnh hưởng đáng kể đến hiệu suất và hiệu quả huấn luyện của mô hình.

  • Sigmoid: Hàm này ánh xạ bất kỳ giá trị đầu vào nào vào một phạm vi từ 0 đến 1. Nó đã từng phổ biến trong lịch sử nhưng hiện nay ít phổ biến hơn trong các lớp ẩn của các mô hình học sâu do vấn đề gradient biến mất, có thể làm chậm quá trình huấn luyện. Nó vẫn được sử dụng trong lớp đầu ra cho các tác vụ phân loại nhị phân.
  • Tanh (Tang Hyperbolic): Tương tự như Sigmoid, nhưng nó ánh xạ các đầu vào vào một phạm vi từ -1 đến 1. Vì đầu ra của nó được căn giữa tại số không, nên nó thường giúp các mô hình hội tụ nhanh hơn Sigmoid. Nó thường được sử dụng trong Mạng nơ-ron hồi quy (RNN). Bạn có thể tìm thấy cách triển khai của nó trong các framework như PyTorchTensorFlow.
  • ReLU (Rectified Linear Unit): Đây là hàm kích hoạt được sử dụng rộng rãi nhất trong các mạng nơ-ron hiện đại, đặc biệt là trong Mạng nơ-ron tích chập (CNNs). Nó xuất ra trực tiếp đầu vào nếu nó dương và bằng không nếu không. Tính đơn giản và hiệu quả của nó giúp giảm thiểu vấn đề gradient biến mất, dẫn đến quá trình huấn luyện nhanh hơn.
  • Leaky ReLU: Một biến thể của ReLU cho phép một gradient nhỏ, khác không khi đầu vào là số âm. Điều này được thiết kế để giải quyết vấn đề "ReLU chết", trong đó các nơ-ron có thể trở nên không hoạt động và ngừng học.
  • SiLU (Sigmoid Linear Unit): Một hàm trơn tru, không đơn điệu đã trở nên phổ biến trong các mô hình hiện đại như Ultralytics YOLO. Nó thường vượt trội hơn ReLU trên các mô hình sâu bằng cách kết hợp những lợi ích của tính tuyến tính và phi tuyến tính.
  • Softmax: Được sử dụng độc quyền trong lớp đầu ra của mạng nơ-ron cho các tác vụ phân loại ảnh đa lớp. Nó chuyển đổi một vectơ điểm số thô (logits) thành một phân phối xác suất, trong đó mỗi giá trị đại diện cho xác suất đầu vào thuộc về một lớp cụ thể.

Các ứng dụng trong AI và Machine Learning

Các hàm kích hoạt là nền tảng cho gần như mọi ứng dụng AI dựa trên mạng nơ-ron.

  • Computer Vision: Trong các tác vụ như nhận diện đối tượng, CNN sử dụng các hàm như ReLUSiLU trong các lớp ẩn của chúng để xử lý thông tin trực quan. Ví dụ: hệ thống tri giác của một xe tự hành sử dụng các hàm này để xác định người đi bộ, các xe khác và biển báo giao thông từ dữ liệu camera trong thời gian thực.
  • Xử lý ngôn ngữ tự nhiên (NLP) (Natural Language Processing (NLP)): Trong dịch máy (machine translation), LSTM sử dụng các hàm SigmoidTanh trong cơ chế cổng của chúng để kiểm soát luồng thông tin qua mạng, giúp ghi nhớ ngữ cảnh từ các phần trước của câu. Có thể tìm thấy tổng quan toàn diện trong "Understanding LSTMs" của Christopher Olah.

So sánh với các thuật ngữ liên quan

Điều quan trọng là phải phân biệt các hàm kích hoạt với các khái niệm chính khác trong mạng nơ-ron:

  • Hàm Loss (Loss Functions): Hàm loss định lượng sự khác biệt giữa các dự đoán của mô hình và các giá trị mục tiêu thực tế ("sai số"). Mục tiêu của nó là hướng dẫn quá trình huấn luyện bằng cách cung cấp thước đo mức độ hoạt động của mô hình. Trong khi các hàm kích hoạt xác định đầu ra của một neuron trong quá trình forward pass, thì các hàm loss đánh giá đầu ra tổng thể của mô hình ở cuối pass để tính toán sai số được sử dụng để cập nhật trọng số trong quá trình backpropagation (lan truyền ngược).
  • Các Thuật Toán Tối Ưu Hóa (Optimization Algorithms): Các thuật toán này (ví dụ: Adam Optimizer, Stochastic Gradient Descent (SGD)) xác định cách trọng số của mô hình được cập nhật dựa trên tổn thất (loss) đã tính toán. Chúng sử dụng các gradient có nguồn gốc từ hàm mất mát để điều chỉnh các tham số và giảm thiểu sai số. Các hàm kích hoạt (activation functions) ảnh hưởng đến việc tính toán các gradient này nhưng bản thân chúng không phải là phương pháp tối ưu hóa. Xem tổng quan về các thuật toán tối ưu hóa từ Google Developers.
  • Các kỹ thuật chuẩn hóa: Các phương pháp như Chuẩn hóa theo lô (Batch Normalization) nhằm mục đích ổn định và tăng tốc quá trình huấn luyện bằng cách chuẩn hóa các đầu vào cho một lớp. Quá trình chuẩn hóa xảy ra trước khi hàm kích hoạt được áp dụng, giúp duy trì sự phân phối dữ liệu nhất quán trong toàn bộ mạng. Bạn có thể đọc thêm trong bài báo gốc về Chuẩn hóa theo lô.

Hiểu rõ các hàm kích hoạt là điều cần thiết để thiết kế, huấn luyện và tối ưu hóa các mô hình Học Máy (ML) hiệu quả. Lựa chọn đúng có thể tác động đáng kể đến hiệu suất mô hình và động lực huấn luyện. Bạn có thể khám phá các mô hình khác nhau và các thành phần của chúng bằng các công cụ như Ultralytics HUB, công cụ này tạo điều kiện xây dựng và triển khai các mô hình AI.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard