Khám phá cách ResNet cách mạng hóa deep learning bằng cách giải quyết các vấn đề vanishing gradients, cho phép các mạng ultradeep để phân tích hình ảnh, NLP, v.v.
Mạng Dư (Residual Networks), thường được gọi là ResNet, là một loại kiến trúc mạng nơ-ron (NN) đột phá, có tác động sâu sắc đến lĩnh vực học sâu. Được giới thiệu bởi Kaiming He và cộng sự trong bài báo năm 2015 của họ, "Deep Residual Learning for Image Recognition," ResNet đã giúp có thể huấn luyện hiệu quả các mạng nơ-ron cực sâu, với hàng trăm hoặc thậm chí hàng nghìn lớp. Điều này đạt được bằng cách giới thiệu "các khối dư" (residual blocks) với "các kết nối tắt" (skip connections), một khái niệm đơn giản nhưng mạnh mẽ giúp giảm thiểu vấn đề vanishing gradient, thường gây khó khăn cho các mạng rất sâu.
Đổi mới cốt lõi của ResNet là việc sử dụng các kết nối tắt (skip connections) hoặc đường tắt (shortcuts). Trong một Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) truyền thống, mỗi lớp sẽ đưa đầu ra của nó trực tiếp đến lớp tiếp theo theo trình tự. Khi mạng trở nên sâu hơn, mạng sẽ ngày càng khó học và gradient khó lan truyền ngược lại trong quá trình huấn luyện. Điều này có thể dẫn đến tình huống mà việc thêm nhiều lớp hơn thực sự làm giảm hiệu suất của mô hình.
ResNet giải quyết vấn đề này bằng cách cho phép đầu vào của một lớp (hoặc một khối các lớp) được thêm vào đầu ra của nó. Kết nối tắt này tạo ra một đường dẫn thay thế cho gradient đi qua, đảm bảo rằng ngay cả các mạng rất sâu cũng có thể được huấn luyện hiệu quả. Cấu trúc này cho phép mạng học các hàm dư—về cơ bản, các lớp chỉ cần học các thay đổi hoặc phần dư từ đầu vào, thay vì toàn bộ phép biến đổi. Nếu một lớp không có lợi, mạng có thể dễ dàng học cách bỏ qua nó bằng cách đẩy trọng số của nó về không, cho phép ánh xạ đồng nhất được truyền qua kết nối tắt.
Khả năng trích xuất đặc trưng mạnh mẽ của ResNet khiến nó trở thành một lựa chọn phổ biến làm backbone cho nhiều tác vụ thị giác máy tính phức tạp.
Kiến trúc ResNet được triển khai rộng rãi trong các framework học sâu lớn như PyTorch và TensorFlow. Các mô hình được huấn luyện trước, thường được huấn luyện trên bộ dữ liệu ImageNet quy mô lớn, có sẵn thông qua các thư viện như torchvision, tạo điều kiện thuận lợi cho việc transfer learning hiệu quả cho các ứng dụng tùy chỉnh. Các nền tảng như Ultralytics HUB cho phép người dùng tận dụng các kiến trúc khác nhau, bao gồm các mô hình dựa trên ResNet, để huấn luyện các mô hình tùy chỉnh cho các nhu cầu cụ thể của họ. Mặc dù ResNet đã thiết lập một baseline hiệu suất mạnh mẽ, nhưng các kiến trúc mới hơn như EfficientNet đã được phát triển để mang lại hiệu quả tốt hơn. Bạn có thể tìm thấy nhiều tài nguyên giáo dục hơn về CNN trong khóa học CS231n của Stanford hoặc thông qua các khóa học từ các nhà cung cấp như DeepLearning.AI.