Khám phá cách ResNet cách mạng hóa deep learning bằng cách giải quyết các vấn đề vanishing gradients, cho phép các mạng ultradeep để phân tích hình ảnh, NLP, v.v.
Mạng dư (Residual Networks), được biết đến rộng rãi với tên gọi ResNet, đại diện cho một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo (AI) và thị giác máy tính (CV) . Được giới thiệu vào năm 2015 bởi các nhà nghiên cứu tại Microsoft Research , kiến trúc này đã giải quyết một thách thức đáng kể trong học sâu (DL) được gọi là bài toán gradient biến mất . Trước khi ResNet ra đời, việc tăng độ sâu của mạng nơ-ron (NN) thường dẫn đến hiệu suất giảm dần, trong khi việc thêm nhiều lớp thực sự làm tăng lỗi huấn luyện. ResNet đã giải quyết vấn đề này bằng cách giới thiệu "kết nối bỏ qua", cho phép huấn luyện thành công các mạng với hàng trăm hoặc thậm chí hàng nghìn lớp mà vẫn duy trì độ chính xác cao.
Đặc điểm xác định của ResNet là khối dư. Trong Mạng Nơ-ron Tích chập (CNN) truyền thống, các lớp được xếp chồng tuần tự, và mỗi lớp cố gắng học ánh xạ trực tiếp từ đầu vào đến đầu ra. Tuy nhiên, khi mạng trở nên sâu hơn, tín hiệu từ dữ liệu đầu vào có thể bị suy giảm trước khi đến được điểm cuối của mạng.
ResNet giới thiệu một "phím tắt" hoặc kết nối bỏ qua cho phép thêm trực tiếp đầu vào của một lớp vào đầu ra của nó. Cơ chế này về cơ bản yêu cầu mạng học "phần dư" (sự khác biệt) giữa đầu vào và đầu ra tối ưu, thay vì học toàn bộ phép biến đổi từ đầu. Kiến trúc này bảo toàn luồng thông tin và tạo điều kiện trích xuất đặc trưng tốt hơn, cho phép mô hình nắm bắt các mẫu phức tạp như kết cấu và hình dạng mà không làm mất dữ liệu đầu vào ban đầu. Bạn có thể đọc bài báo gốc về Học Sâu Dư cho Nhận dạng Hình ảnh để hiểu nền tảng toán học.
ResNet được coi là xương sống nền tảng cho nhiều hệ thống thị giác hiện đại. Khả năng huấn luyện mạng lưới rất sâu của nó cho phép tạo ra các mô hình cực kỳ mạnh mẽ, hoạt động tốt trên các tập dữ liệu quy mô lớn như ImageNet .
Kiến trúc này đặc biệt quan trọng đối với việc học chuyển giao . Vì các mô hình ResNet được đào tạo trước đã học được các bản đồ đặc trưng phong phú từ lượng dữ liệu khổng lồ, chúng có thể được tinh chỉnh cho các tác vụ cụ thể với các tập dữ liệu tương đối nhỏ. Tính linh hoạt này khiến ResNet trở thành lựa chọn tiêu chuẩn cho các tác vụ từ phân loại hình ảnh đến phân tích video phức tạp.
Tính ổn định và độ sâu mà ResNet mang lại cho phép sử dụng trong các môi trường quan trọng, có rủi ro cao.
Sẽ rất hữu ích khi phân biệt ResNet với các kiến trúc phổ biến khác có trong các thư viện học sâu như PyTorch hoặc TensorFlow :
Bạn có thể dễ dàng tận dụng các mô hình ResNet cho các nhiệm vụ phân loại bằng cách sử dụng ultralytics Python gói. Điều này cho phép bạn truy cập các trọng số được đào tạo trước và thực hiện suy luận với mã tối thiểu.
from ultralytics import YOLO
# Load a pre-trained ResNet50 model capable of classifying images
model = YOLO("resnet50.pt") # Downloads the model weights automatically
# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Display the top classification result
print(f"Top class: {results[0].names[results[0].probs.top1]}")
Đối với những ai quan tâm đến việc tìm hiểu lý thuyết sâu hơn, các khóa học như CS231n của Stanford cung cấp nguồn tài nguyên học thuật tuyệt vời về kiến trúc CNN. Cho dù bạn đang xây dựng một bộ phân loại đơn giản hay một hệ thống phức tạp cho sản xuất thông minh , việc hiểu ResNet là điều cần thiết để thành thạo thị giác máy tính hiện đại.