Thuật ngữ

Chức năng kích hoạt

Khám phá vai trò của các hàm kích hoạt trong mạng nơ-ron, các loại hàm này và ứng dụng thực tế trong AI và học máy.

Hàm kích hoạt là một hàm toán học được áp dụng cho một nơ-ron hoặc một nút trong mạng nơ-ron (NN) . Vai trò chính của nó là xác định đầu ra của nơ-ron đó dựa trên các đầu vào có trọng số của nó. Nói một cách đơn giản, nó quyết định liệu một nơ-ron nên được "kích hoạt" hay "kích hoạt", và nếu vậy, cường độ tín hiệu của nó sẽ là bao nhiêu khi nó truyền sang lớp tiếp theo. Cơ chế này rất quan trọng để đưa tính phi tuyến tính vào mạng, cho phép nó học các mẫu và mối quan hệ phức tạp từ dữ liệu. Nếu không có hàm kích hoạt, một mạng nơ-ron, bất kể có bao nhiêu lớp, sẽ hoạt động giống như một mô hình hồi quy tuyến tính đơn giản, hạn chế nghiêm trọng khả năng giải quyết các vấn đề thực tế phức tạp của nó.

Các loại hàm kích hoạt

Có nhiều loại hàm kích hoạt, mỗi loại có những đặc tính riêng. Việc lựa chọn hàm có thể ảnh hưởng đáng kể đến hiệu suất và hiệu quả đào tạo của mô hình.

  • Sigmoid : Hàm này ánh xạ bất kỳ giá trị đầu vào nào vào một phạm vi từ 0 đến 1. Trước đây, hàm này rất phổ biến nhưng hiện nay ít phổ biến hơn trong các lớp ẩn của mô hình học sâu do vấn đề gradient biến mất , có thể làm chậm quá trình huấn luyện. Hàm này vẫn được sử dụng ở lớp đầu ra cho các tác vụ phân loại nhị phân.
  • Tanh (Hyperbolic Tangent) : Tương tự như Sigmoid, nhưng nó ánh xạ các giá trị đầu vào vào một phạm vi từ -1 đến 1. Vì đầu ra của nó có tâm là 0, nên nó thường giúp các mô hình hội tụ nhanh hơn Sigmoid. Nó thường được sử dụng trong Mạng Nơ-ron Hồi quy (RNN) . Bạn có thể tìm thấy cách triển khai nó trong các nền tảng như PyTorchTensorFlow .
  • ReLU (Đơn vị Tuyến tính Chỉnh lưu) : Đây là hàm kích hoạt được sử dụng rộng rãi nhất trong các mạng nơ-ron hiện đại, đặc biệt là trong Mạng Nơ-ron Tích chập (CNN) . Nó xuất trực tiếp đầu vào nếu giá trị dương, và bằng 0 nếu ngược lại. Tính đơn giản và hiệu quả của nó giúp giảm thiểu vấn đề gradient biến mất, dẫn đến quá trình huấn luyện nhanh hơn.
  • ReLU rò rỉ : Một biến thể của ReLU cho phép một gradient nhỏ, khác không khi đầu vào âm. Điều này được thiết kế để giải quyết vấn đề "ReLU chết", khi các tế bào thần kinh có thể trở nên không hoạt động và ngừng học.
  • SiLU (Đơn vị tuyến tính Sigmoid) : Một hàm trơn tru, không đơn điệu, đã trở nên phổ biến trong các mô hình tiên tiến như Ultralytics YOLO . Nó thường vượt trội hơn ReLU trên các mô hình sâu nhờ kết hợp các lợi ích của tính tuyến tính và phi tuyến tính.
  • Softmax : Được sử dụng độc quyền ở lớp đầu ra của mạng nơ-ron cho các tác vụ phân loại ảnh đa lớp. Nó chuyển đổi một vectơ điểm thô (logit) thành một phân phối xác suất, trong đó mỗi giá trị biểu thị xác suất đầu vào thuộc về một lớp cụ thể.

Ứng dụng trong AI và học máy

Các hàm kích hoạt là nền tảng cho hầu hết mọi ứng dụng AI dựa trên mạng nơ-ron.

  • Thị giác Máy tính : Trong các tác vụ như phát hiện vật thể , CNN sử dụng các hàm như ReLUSiLU trong các lớp ẩn của chúng để xử lý thông tin hình ảnh. Ví dụ, hệ thống nhận thức của xe tự hành sử dụng các hàm này để nhận dạng người đi bộ, xe khác và biển báo giao thông từ dữ liệu camera theo thời gian thực.
  • Xử lý Ngôn ngữ Tự nhiên (NLP) : Trong dịch máy , LSTM sử dụng các hàm SigmoidTanh trong cơ chế đóng gói của chúng để kiểm soát luồng thông tin qua mạng, giúp ghi nhớ ngữ cảnh từ các phần trước của câu. Bạn có thể tìm thấy tổng quan toàn diện trong cuốn "Hiểu về LSTM" của Christopher Olah .

So sánh với các thuật ngữ liên quan

Điều quan trọng là phải phân biệt các hàm kích hoạt với các khái niệm chính khác trong mạng nơ-ron:

  • Hàm mất mát : Hàm mất mát định lượng sự khác biệt giữa các dự đoán của mô hình và các giá trị mục tiêu thực tế ("lỗi"). Mục tiêu của nó là hướng dẫn quá trình đào tạo bằng cách cung cấp thước đo về mức độ hiệu quả của mô hình. Trong khi các hàm kích hoạt xác định đầu ra của nơ-ron trong quá trình truyền tiếp, các hàm mất mát đánh giá đầu ra tổng thể của mô hình vào cuối quá trình truyền để tính toán lỗi được sử dụng để cập nhật trọng số trong quá trình truyền ngược .
  • Thuật toán Tối ưu hóa : Các thuật toán này (ví dụ: Adam Optimizer , Stochastic Gradient Descent (SGD) ) xác định cách trọng số của mô hình được cập nhật dựa trên giá trị loss đã tính toán. Chúng sử dụng các gradient được suy ra từ hàm loss để điều chỉnh các tham số và giảm thiểu lỗi. Các hàm kích hoạt ảnh hưởng đến việc tính toán các gradient này nhưng không phải là phương pháp tối ưu hóa. Xem tổng quan về các thuật toán tối ưu hóa từ Google Developers .
  • Kỹ thuật Chuẩn hóa : Các phương pháp như Chuẩn hóa Hàng loạt (Batch Normalization) nhằm mục đích ổn định và tăng tốc quá trình huấn luyện bằng cách chuẩn hóa dữ liệu đầu vào cho một lớp. Chuẩn hóa diễn ra trước khi áp dụng hàm kích hoạt, giúp duy trì sự phân phối dữ liệu nhất quán trên toàn mạng. Bạn có thể tìm hiểu thêm trong bài báo gốc về Chuẩn hóa Hàng loạt .

Hiểu rõ các hàm kích hoạt là điều cần thiết để thiết kế, đào tạo và tối ưu hóa các mô hình Học máy (ML) hiệu quả. Lựa chọn đúng đắn có thể tác động đáng kể đến hiệu suất mô hình và động lực đào tạo. Bạn có thể khám phá các mô hình khác nhau và các thành phần của chúng bằng các công cụ như Ultralytics HUB , giúp việc xây dựng và triển khai các mô hình AI trở nên dễ dàng hơn.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard