Thuật ngữ

Tanh (Hyperbolic Tangent)

Khám phá sức mạnh của hàm kích hoạt Tanh trong mạng nơ-ron. Tìm hiểu cách nó cho phép AI mô hình hóa dữ liệu phức tạp với hiệu quả không tâm!

Tanh (Hyperbolic Tangent) là một hàm kích hoạt được sử dụng rộng rãi trong mạng nơ-ron . Đây là một hàm toán học nén các giá trị đầu vào vào một khoảng từ -1 đến 1. Về mặt trực quan, nó tạo ra một đường cong hình chữ "S", tương tự như hàm Sigmoid . Đặc điểm chính của nó là đầu ra có tâm bằng 0, nghĩa là các đầu vào âm được ánh xạ thành các đầu ra âm và các đầu vào dương được ánh xạ thành các đầu ra dương. Tính chất này có thể giúp tăng tốc độ hội tụ của các thuật toán tối ưu hóa như giảm dần gradient trong quá trình huấn luyện mô hình .

Tanh hoạt động như thế nào

Trong mô hình học sâu , hàm kích hoạt quyết định một nơ-ron có nên được kích hoạt hay không bằng cách tính tổng có trọng số và cộng thêm độ lệch. Hàm Tanh lấy bất kỳ số thực nào và ánh xạ nó vào khoảng [-1, 1]. Các giá trị dương lớn được ánh xạ gần 1, các giá trị âm lớn được ánh xạ gần -1, và các giá trị gần 0 được ánh xạ gần 0. Bản chất lấy 0 làm tâm này là một lợi thế đáng kể, vì nó giúp giữ cho đầu ra của các lớp không bị dịch chuyển quá xa theo một hướng, giúp việc huấn luyện ổn định hơn. Để được giải thích kỹ thuật chuyên sâu, các nguồn tài nguyên từ các tổ chức như Stanford cung cấp các ghi chú khóa học chi tiết về hàm kích hoạt.

So sánh với các hàm kích hoạt khác

Tanh thường được so sánh với các hàm kích hoạt khác, mỗi hàm có điểm mạnh và điểm yếu riêng:

  • Tanh so với Sigmoid : Cả hai hàm đều có hình chữ S tương tự nhau. Tuy nhiên, hàm Sigmoid cho kết quả trong khoảng, trong khi Tanh cho kết quả trong khoảng [-1, 1]. Vì kết quả của Tanh có tâm là 0, nên nó thường được ưa chuộng hơn Sigmoid trong các lớp ẩn của mạng, vì nó có xu hướng dẫn đến sự hội tụ nhanh hơn.
  • Tanh so với ReLU : ReLU và các biến thể của nó, như Leaky ReLUSiLU , đã trở thành lựa chọn mặc định trong nhiều kiến trúc thị giác máy tính hiện đại. Không giống như Tanh, ReLU không tốn kém về mặt tính toán và giúp giảm thiểu vấn đề gradient biến mất , trong đó gradient trở nên cực kỳ nhỏ trong quá trình lan truyền ngược . Tuy nhiên, Tanh vẫn có giá trị trong các bối cảnh cụ thể yêu cầu đầu ra bị chặn. Bạn có thể thấy việc sử dụng các hàm kích hoạt hiện đại trong các mô hình như Ultralytics YOLO11 .

Ứng dụng trong AI và học máy

Tanh từ lâu đã là một lựa chọn phổ biến, đặc biệt là trong:

  • Mạng nơ-ron hồi quy (RNN) : Tanh thường được sử dụng trong các trạng thái ẩn của RNN và các biến thể như mạng Bộ nhớ dài hạn ngắn hạn (LSTM) , đặc biệt là đối với các tác vụ trong Xử lý ngôn ngữ tự nhiên (NLP) . Phạm vi giới hạn của nó giúp điều chỉnh luồng thông tin trong các kết nối hồi quy. Xem Hiểu về LSTM để biết thêm chi tiết.
  • Phân tích cảm xúc : Trong các mô hình NLP cũ, Tanh đã giúp ánh xạ các đặc điểm được trích xuất từ văn bản (ví dụ: nhúng từ được xử lý bởi RNN) thành một phạm vi liên tục, biểu thị mức độ cảm xúc từ tiêu cực (-1) đến tích cực (+1). Bạn có thể tìm thấy các tập dữ liệu liên quan để phân tích cảm xúc trên các nền tảng như Kaggle.
  • Hệ thống Điều khiển và Robot : Trong Học Tăng cường (RL) , Tanh đôi khi được sử dụng làm hàm kích hoạt cuối cùng cho các chính sách tạo ra các hành động liên tục bị giới hạn trong một phạm vi cụ thể (ví dụ: điều khiển mô-men xoắn động cơ trong khoảng từ -1 đến +1). Các khuôn khổ như Gymnasium (trước đây là OpenAI Gym) thường được sử dụng trong nghiên cứu RL.
  • Lớp ẩn: Có thể sử dụng lớp ẩn trong các mạng truyền thẳng, mặc dù các biến thể ReLU hiện nay phổ biến hơn. Lớp ẩn có thể được chọn khi đặc tính tâm không đặc biệt có lợi cho bài toán hoặc kiến trúc cụ thể. Bạn có thể tìm hiểu hiệu suất của các kiến trúc khác nhau trong trang so sánh mô hình của chúng tôi.

Trong khi các kiến trúc hiện đại như Ultralytics YOLO thường sử dụng các hàm như SiLU cho các tác vụ như phát hiện đối tượng , việc hiểu rõ Tanh vẫn rất có giá trị. Nó cung cấp bối cảnh cho sự phát triển của các hàm kích hoạt và vẫn có thể xuất hiện trong các thiết kế mạng cụ thể hoặc các hệ thống cũ. Các nền tảng như PyTorchTensorFlow cung cấp các triển khai Tanh tiêu chuẩn. Bạn có thể đào tạo và thử nghiệm các hàm kích hoạt khác nhau bằng các nền tảng như Ultralytics HUB . Trang web Papers with Code cũng liệt kê các nghiên cứu sử dụng Tanh.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard