Thuật ngữ

Độ dốc biến mất

Khám phá vấn đề biến mất độ dốc trong học sâu, tác động của nó lên mạng nơ-ron và các giải pháp hiệu quả như ReLU, ResNets, v.v.

Vấn đề gradient biến mất là một thách thức thường gặp trong quá trình huấn luyện mạng nơ-ron sâu. Nó xảy ra khi gradient, tức tín hiệu được sử dụng để cập nhật trọng số của mạng thông qua lan truyền ngược , trở nên cực kỳ nhỏ khi được truyền từ lớp đầu ra trở lại các lớp ban đầu. Khi các gradient này tiến gần đến 0, trọng số của các lớp ban đầu không được cập nhật hiệu quả, hoặc thậm chí không được cập nhật. Điều này về cơ bản sẽ dừng quá trình học của các lớp đó, ngăn mô hình học sâu hội tụ đến một giải pháp tối ưu và học từ dữ liệu.

Nguyên nhân nào gây ra hiện tượng gradient biến mất?

Nguyên nhân chính gây ra sự biến mất của gradient nằm ở bản chất của một số hàm kích hoạt và độ sâu của chính mạng lưới.

  • Hàm kích hoạt: Các hàm kích hoạt truyền thống như hàm sigmoid và hàm hyperbolic tangent (tanh) nén dữ liệu đầu vào của chúng vào một phạm vi đầu ra rất nhỏ. Đạo hàm của các hàm này rất nhỏ. Trong quá trình lan truyền ngược, các đạo hàm nhỏ này được nhân với nhau qua nhiều lớp. Mạng càng có nhiều lớp, các số nhỏ này càng được nhân lên, khiến gradient cuối cùng giảm theo cấp số nhân về 0.
  • Kiến trúc sâu: Vấn đề này đặc biệt rõ rệt trong các mạng rất sâu, bao gồm cả Mạng nơ-ron hồi quy (RNN) sơ khai, trong đó gradient được truyền ngược qua nhiều bước thời gian. Mỗi bước bao gồm một phép nhân, có thể làm giảm tín hiệu gradient trên các chuỗi dài.

Gradient biến mất so với Gradient bùng nổ

Gradient biến mất là trường hợp ngược lại của gradient bùng nổ . Cả hai vấn đề đều liên quan đến dòng gradient trong quá trình huấn luyện, nhưng chúng có những hiệu ứng khác nhau:

  • Độ dốc biến mất: Độ dốc co lại theo cấp số nhân cho đến khi chúng trở nên quá nhỏ để có thể hỗ trợ bất kỳ quá trình học tập có ý nghĩa nào ở các lớp đầu của mạng.
  • Độ dốc bùng nổ: Độ dốc tăng lên không kiểm soát được, dẫn đến việc cập nhật trọng số quá mức khiến mô hình trở nên không ổn định và không hội tụ được.

Việc giải quyết cả hai vấn đề đều rất quan trọng để đào tạo thành công các mô hình AI sâu sắc và mạnh mẽ.

Giải pháp và Chiến lược Giảm thiểu

Một số kỹ thuật đã được phát triển để giải quyết vấn đề mất dần độ dốc:

  • Hàm kích hoạt tốt hơn: Thay thế sigmoid và tanh bằng các hàm như Đơn vị tuyến tính chỉnh lưu (ReLU) hoặc các biến thể của nó ( ReLU rò rỉ , GELU ) là một giải pháp phổ biến. Đạo hàm của ReLU là 1 đối với các đầu vào dương, giúp ngăn chặn sự co lại của gradient.
  • Kiến trúc Nâng cao: Các kiến trúc được thiết kế đặc biệt để giảm thiểu vấn đề này. Mạng Dư (ResNet) giới thiệu "kết nối bỏ qua" cho phép gradient bỏ qua các lớp, cung cấp đường dẫn ngắn hơn trong quá trình lan truyền ngược. Đối với dữ liệu tuần tự, mạng Bộ nhớ Dài Ngắn Hạn (LSTM)Mạng Đơn vị Hồi quy Có Cổng (GRU) sử dụng cơ chế cổng để kiểm soát luồng thông tin và gradient, như được trình bày chi tiết trong bài báo LSTMbài báo GRU ban đầu.
  • Khởi tạo trọng số: Việc khởi tạo trọng số mạng đúng cách, sử dụng các phương pháp như khởi tạo He hoặc Xavier, có thể giúp đảm bảo độ dốc bắt đầu trong một phạm vi hợp lý. Bạn có thể tìm hiểu thêm thông tin về điều này trong các cuộc thảo luận về các phương pháp hay nhất về học sâu .
  • Chuẩn hóa theo lô: Áp dụng chuẩn hóa theo lô giúp chuẩn hóa các đầu vào cho từng lớp, giúp ổn định mạng và giảm sự phụ thuộc vào quá trình khởi tạo, do đó giảm thiểu vấn đề biến mất độ dốc.

Tác động thực tế và ví dụ

Việc khắc phục hiện tượng gradient biến mất là một bước đột phá quan trọng đối với AI hiện đại.

  1. Xử lý Ngôn ngữ Tự nhiên (NLP): Các mạng nơ-ron nhân tạo (RNN) ban đầu không thể thực hiện các tác vụ như dịch máyphân tích cảm xúc dạng dài vì chúng không thể nhớ thông tin từ đầu một câu dài. Sự ra đời của LSTM và GRU cho phép các mô hình nắm bắt được những phụ thuộc dài hạn này. Các kiến trúc hiện đại như Transformer sử dụng cơ chế tự chú ý để hoàn toàn bỏ qua vấn đề gradient tuần tự, mang lại hiệu suất tiên tiến.
  2. Thị giác Máy tính: Người ta từng nghĩ rằng việc chỉ đơn giản là đào sâu hơn Mạng Nơ-ron Tích chập (CNN) sẽ không cải thiện hiệu suất do những khó khăn trong huấn luyện như biến mất gradient. Sự ra đời của kiến trúc ResNet đã chứng minh điều này là sai, cho phép các mạng lưới với hàng trăm lớp. Điều này dẫn đến những tiến bộ vượt bậc trong phân loại hình ảnh , phân đoạn hình ảnhphát hiện đối tượng , tạo nền tảng cho các mô hình như Ultralytics YOLO . Việc huấn luyện các mô hình này thường liên quan đến các tập dữ liệu thị giác máy tính lớn và có thể được quản lý trên các nền tảng như Ultralytics HUB .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard