Khám phá cách ResNet cách mạng hóa deep learning bằng cách giải quyết các vấn đề vanishing gradients, cho phép các mạng ultradeep để phân tích hình ảnh, NLP, v.v.
Mạng nơ-ron dư (Residual Networks), thường được gọi là ResNets, đại diện cho một kiến trúc đột phá trong học sâu, giải quyết một vấn đề cơ bản trong việc huấn luyện các mạng nơ-ron rất sâu. Trước khi được các nhà nghiên cứu tại giới thiệu, chúng đã trở thành một phần của kiến trúc này. Microsoft Nghiên cứu năm 2015 cho thấy, việc thêm nhiều lớp vào mạng nơ-ron (NN) thường dẫn đến giảm độ chính xác do vấn đề suy giảm độ dốc, trong đó tín hiệu sẽ yếu dần khi đi qua các lớp phức tạp. ResNet đã giới thiệu một thay đổi cấu trúc thông minh gọi là "kết nối bỏ qua" hoặc "kết nối tắt", cho phép thông tin bỏ qua một số lớp nhất định và truyền trực tiếp đến các lớp tiếp theo. Sự đổi mới này đã cho phép huấn luyện các mạng với hàng trăm lớp, nâng cao đáng kể khả năng của các hệ thống thị giác máy tính (CV) .
Trong các mô hình học sâu (DL) truyền thống, các lớp được xếp chồng lên nhau theo trình tự. Khi mạng trở nên sâu hơn để nắm bắt các đặc điểm phức tạp hơn, chúng trở nên khó huấn luyện hơn. Khó khăn này phát sinh vì độ dốc—các tín hiệu được sử dụng để cập nhật trọng số của mô hình trong quá trình huấn luyện—có thể trở nên vô cùng nhỏ khi chúng lan truyền ngược trở lại qua nhiều lớp, một hiện tượng được gọi là vấn đề độ dốc biến mất .
ResNet giải quyết vấn đề này bằng cách tái cấu trúc mạng thành các khối dư. Thay vì học một ánh xạ trực tiếp từ đầu vào đến đầu ra, mỗi khối học sự khác biệt (hay phần dư) giữa đầu vào và đầu ra mong muốn. Kết nối bỏ qua (skip connection) thêm trực tiếp đầu vào ban đầu vào đầu ra của khối. Phép cộng đơn giản này tạo ra một đường dẫn trực tiếp cho gradient truyền ngược trong quá trình lan truyền ngược (backpropagation) , đảm bảo rằng ngay cả các mạng rất sâu cũng có thể học hiệu quả mà không làm giảm hiệu suất. Để hiểu sâu hơn về mặt lý thuyết, bạn có thể tham khảo bài báo gốc, Deep Residual Learning for Image Recognition .
Sự thành công của ResNet nằm ở thiết kế dạng mô-đun của nó, điều đã ảnh hưởng đến nhiều kiến trúc hiện đại.
Tính ổn định của ResNet đã khiến nó trở thành lựa chọn tiêu chuẩn cho nhiều ứng dụng quan trọng.
Mặc dù các kiến trúc mới hơn như Vision Transformer (ViT) đã trở nên phổ biến, ResNet vẫn là một mô hình cơ bản được ưa chuộng nhờ sự cân bằng giữa tốc độ và độ chính xác. Nó được sử dụng rộng rãi trong học chuyển giao , nơi một mô hình được huấn luyện trước trên một tập dữ liệu khổng lồ như ImageNet được tinh chỉnh cho một nhiệm vụ cụ thể với dữ liệu hạn chế.
Các bộ phát hiện đối tượng hiện đại, bao gồm cả YOLO26 tiên tiến nhất, thường kết hợp các khái niệm được phát triển từ ResNet, chẳng hạn như các kết nối dư trong mạng xương sống của chúng, để tạo điều kiện thuận lợi cho việc trích xuất đặc trưng hiệu quả trên nhiều tỷ lệ khác nhau.
Bạn có thể dễ dàng sử dụng mô hình ResNet cho
phân loại hình ảnh sử dụng
ultralytics Python gói. Ví dụ này minh họa cách tải mô hình ResNet50 đã được huấn luyện trước vào classify một hình ảnh.
from ultralytics import YOLO
# Load a pre-trained ResNet50 model
model = YOLO("resnet50.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
Việc phân biệt ResNet với các kiến trúc khác sẽ giúp hiểu được đóng góp độc đáo của nó.
Để có cái nhìn tổng quan hơn về cách các mô hình này phù hợp với lĩnh vực thị giác máy tính, bạn có thể tham khảo hướng dẫn của chúng tôi về kiến trúc phát hiện đối tượng hoặc tìm hiểu cách huấn luyện mô hình của riêng bạn trên các tập dữ liệu tùy chỉnh .