Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Mất mát Gradient

Khám phá vấn đề vanishing gradient trong deep learning, tác động của nó đến neural network, và các giải pháp hiệu quả như ReLU, ResNets, v.v.

Vấn đề gradient biến mất là một thách thức thường gặp trong quá trình huấn luyện các mạng nơ-ron sâu. Nó xảy ra khi các gradient, là các tín hiệu được sử dụng để cập nhật trọng số của mạng thông qua lan truyền ngược, trở nên cực kỳ nhỏ khi chúng được truyền từ lớp đầu ra trở lại các lớp ban đầu. Khi các gradient này tiến gần đến 0, trọng số của các lớp ban đầu không được cập nhật hiệu quả, hoặc hoàn toàn không được cập nhật. Điều này về cơ bản làm dừng quá trình học của các lớp đó, ngăn mô hình học sâu hội tụ về một giải pháp tối ưu và học hỏi từ dữ liệu.

Nguyên nhân gây ra hiện tượng Vanishing Gradients (Gradient biến mất) là gì?

Nguyên nhân chính gây ra hiện tượng vanishing gradient nằm ở bản chất của một số hàm kích hoạt và độ sâu của chính mạng.

  • Hàm kích hoạt: Các hàm kích hoạt truyền thống như hàm sigmoid và hàm tang hyperbolic (tanh) ép đầu vào của chúng vào một phạm vi đầu ra rất nhỏ. Các đạo hàm của các hàm này là nhỏ. Trong quá trình lan truyền ngược, các đạo hàm nhỏ này được nhân với nhau trên nhiều lớp. Mạng càng có nhiều lớp, các số nhỏ này càng được nhân lên nhiều, khiến gradient cuối cùng co lại theo cấp số nhân về 0.
  • Kiến trúc sâu: Vấn đề đặc biệt rõ rệt trong các mạng rất sâu, bao gồm cả Mạng nơ-ron hồi quy (RNN) ban đầu, nơi gradient được truyền ngược qua nhiều bước thời gian. Mỗi bước bao gồm một phép nhân, có thể làm giảm tín hiệu gradient trên các chuỗi dài.

Vanishing Gradient so với Exploding Gradient

Vanishing gradient là khái niệm ngược lại với exploding gradient. Cả hai vấn đề đều liên quan đến dòng chảy của gradient trong quá trình huấn luyện, nhưng chúng có những ảnh hưởng khác nhau:

  • Gradient biến mất: Gradient co lại theo cấp số nhân cho đến khi chúng trở nên quá nhỏ để tạo điều kiện cho bất kỳ quá trình học tập có ý nghĩa nào trong các lớp ban đầu của mạng.
  • Gradient bùng nổ (Exploding Gradients): Gradient tăng lên quá lớn một cách không kiểm soát được, dẫn đến việc cập nhật trọng số lớn gây ra sự mất ổn định cho mô hình và không thể hội tụ.

Giải quyết cả hai vấn đề là rất quan trọng để đào tạo thành công các mô hình AI sâu và mạnh mẽ.

Giải pháp và Chiến lược giảm thiểu

Một số kỹ thuật đã được phát triển để giải quyết vấn đề vanishing gradient:

  • Các hàm kích hoạt tốt hơn: Thay thế sigmoid và tanh bằng các hàm như Rectified Linear Unit (ReLU) hoặc các biến thể của nó (Leaky ReLU, GELU) là một giải pháp phổ biến. Đạo hàm của ReLU là 1 cho các đầu vào dương, điều này ngăn gradient bị co lại.
  • Kiến trúc nâng cao: Các kiến trúc đã được thiết kế đặc biệt để giảm thiểu vấn đề này. Mạng dư (ResNet) giới thiệu "kết nối tắt" cho phép gradient bỏ qua các lớp, cung cấp một đường dẫn ngắn hơn trong quá trình lan truyền ngược. Đối với dữ liệu tuần tự, Bộ nhớ dài hạn (LSTM)Mạng đơn vị hồi quy cổng (GRU) sử dụng cơ chế cổng để kiểm soát luồng thông tin và gradient, như được trình bày chi tiết trong bài báo LSTM gốc và bài báo GRU.
  • Khởi tạo trọng số: Việc khởi tạo đúng các trọng số mạng, sử dụng các phương pháp như khởi tạo He hoặc Xavier, có thể giúp đảm bảo các gradient bắt đầu trong một phạm vi hợp lý. Bạn có thể tìm thêm thông tin về vấn đề này trong các thảo luận về các phương pháp hay nhất về deep learning.
  • Chuẩn hóa theo lô (Batch Normalization): Áp dụng chuẩn hóa theo lô giúp chuẩn hóa các đầu vào cho mỗi lớp, điều này ổn định mạng và giảm sự phụ thuộc vào khởi tạo, do đó giảm thiểu vấn đề gradient biến mất.

Tác động và ví dụ thực tế

Vượt qua hiện tượng biến mất gradient (vanishing gradients) là một đột phá quan trọng cho AI hiện đại.

  1. Xử lý ngôn ngữ tự nhiên (NLP) (Natural Language Processing (NLP)): Các RNN đời đầu thất bại trong các nhiệm vụ như dịch máy (machine translation)phân tích cảm xúc (sentiment analysis) dạng dài vì chúng không thể nhớ thông tin từ đầu một câu dài. Sự ra đời của LSTM và GRU cho phép các mô hình nắm bắt các phụ thuộc tầm xa này. Các kiến trúc hiện đại như Transformer sử dụng self-attention (tự chú ý) để hoàn toàn bỏ qua vấn đề gradient tuần tự, dẫn đến hiệu suất hiện đại.
  2. Computer Vision: Đã từng có quan điểm cho rằng việc chỉ đơn giản làm cho mạng nơ-ron tích chập (CNN) sâu hơn sẽ không cải thiện hiệu suất do các khó khăn trong quá trình huấn luyện như hiện tượng biến mất gradient. Sự ra đời của kiến trúc ResNet đã chứng minh điều này là sai, cho phép xây dựng các mạng với hàng trăm lớp. Điều này dẫn đến những tiến bộ lớn trong phân loại ảnh, phân đoạn ảnhnhận diện đối tượng, tạo nền tảng cho các mô hình như Ultralytics YOLO. Việc huấn luyện các mô hình này thường liên quan đến các bộ dữ liệu computer vision lớn và có thể được quản lý trên các nền tảng như Ultralytics HUB.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard