Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mạng остаточный (ResNet)

Khám phá cách ResNet cách mạng hóa deep learning bằng cách giải quyết các vấn đề vanishing gradients, cho phép các mạng ultradeep để phân tích hình ảnh, NLP, v.v.

Mạng nơ-ron dư (Residual Networks), thường được gọi là ResNets, đại diện cho một kiến trúc đột phá trong học sâu, giải quyết một vấn đề cơ bản trong việc huấn luyện các mạng nơ-ron rất sâu. Trước khi được các nhà nghiên cứu tại giới thiệu, chúng đã trở thành một phần của kiến trúc này. Microsoft Nghiên cứu năm 2015 cho thấy, việc thêm nhiều lớp vào mạng nơ-ron (NN) thường dẫn đến giảm độ chính xác do vấn đề suy giảm độ dốc, trong đó tín hiệu sẽ yếu dần khi đi qua các lớp phức tạp. ResNet đã giới thiệu một thay đổi cấu trúc thông minh gọi là "kết nối bỏ qua" hoặc "kết nối tắt", cho phép thông tin bỏ qua một số lớp nhất định và truyền trực tiếp đến các lớp tiếp theo. Sự đổi mới này đã cho phép huấn luyện các mạng với hàng trăm lớp, nâng cao đáng kể khả năng của các hệ thống thị giác máy tính (CV) .

Vấn đề mà ResNet giải quyết

Trong các mô hình học sâu (DL) truyền thống, các lớp được xếp chồng lên nhau theo trình tự. Khi mạng trở nên sâu hơn để nắm bắt các đặc điểm phức tạp hơn, chúng trở nên khó huấn luyện hơn. Khó khăn này phát sinh vì độ dốc—các tín hiệu được sử dụng để cập nhật trọng số của mô hình trong quá trình huấn luyện—có thể trở nên vô cùng nhỏ khi chúng lan truyền ngược trở lại qua nhiều lớp, một hiện tượng được gọi là vấn đề độ dốc biến mất .

ResNet giải quyết vấn đề này bằng cách tái cấu trúc mạng thành các khối dư. Thay vì học một ánh xạ trực tiếp từ đầu vào đến đầu ra, mỗi khối học sự khác biệt (hay phần dư) giữa đầu vào và đầu ra mong muốn. Kết nối bỏ qua (skip connection) thêm trực tiếp đầu vào ban đầu vào đầu ra của khối. Phép cộng đơn giản này tạo ra một đường dẫn trực tiếp cho gradient truyền ngược trong quá trình lan truyền ngược (backpropagation) , đảm bảo rằng ngay cả các mạng rất sâu cũng có thể học hiệu quả mà không làm giảm hiệu suất. Để hiểu sâu hơn về mặt lý thuyết, bạn có thể tham khảo bài báo gốc, Deep Residual Learning for Image Recognition .

Các thành phần chính và kiến trúc

Sự thành công của ResNet nằm ở thiết kế dạng mô-đun của nó, điều đã ảnh hưởng đến nhiều kiến trúc hiện đại.

  • Khối dư (Residual Blocks ): Khối cấu trúc cơ bản chứa kết nối bỏ qua (skip connection). Nó thường bao gồm hai hoặc ba lớp mạng nơ-ron tích chập (CNN) , tiếp theo là chuẩn hóa theo lô (batch normalization) và hàm kích hoạt ReLU .
  • Ánh xạ đồng nhất: Kết nối bỏ qua thực hiện ánh xạ đồng nhất, nghĩa là nó truyền tín hiệu đầu vào mà không thay đổi. Điều này đảm bảo rằng trong trường hợp xấu nhất, một lớp có thể truyền thông tin đi mà không làm biến dạng nó, bảo toàn hiệu suất của mạng.
  • Thiết kế "nút thắt cổ chai": Trong các biến thể sâu hơn như ResNet-50 hoặc ResNet-101, thiết kế "nút thắt cổ chai" được sử dụng để cải thiện hiệu quả. Điều này bao gồm việc sử dụng các phép tích chập 1x1 để giảm chiều trước khi thực hiện các phép tích chập 3x3 tốn kém, giúp giảm chi phí tính toán trong khi vẫn duy trì độ chính xác cao.

Các Ứng dụng Thực tế

Tính ổn định của ResNet đã khiến nó trở thành lựa chọn tiêu chuẩn cho nhiều ứng dụng quan trọng.

  • Phân tích hình ảnh y tế : Trong lĩnh vực chăm sóc sức khỏe, việc phân biệt giữa mô khỏe mạnh và các bất thường như khối u đòi hỏi phải phát hiện các kết cấu tinh tế. Mô hình ResNet thường được sử dụng làm nền tảng cho các hệ thống phân tích ảnh chụp MRI hoặc CT. Ví dụ, chúng giúp phát hiện khối u , trong đó độ sâu của mạng cho phép nó học được các mô hình sinh học phức tạp mà các mạng nông hơn có thể bỏ sót.
  • Xe tự hành : Xe tự lái dựa vào khả năng phát hiện đối tượng theo thời gian thực để nhận diện người đi bộ, đèn giao thông và các phương tiện khác. Mạng ResNet thường đóng vai trò xương sống cho các khung phát hiện, xử lý dữ liệu thô từ camera để trích xuất các bản đồ đặc trưng phong phú mà các lớp tiếp theo sử dụng để định vị đối tượng, đảm bảo an toàn trong ứng dụng trí tuệ nhân tạo trong ngành ô tô .

ResNet trong các quy trình làm việc AI hiện đại

Mặc dù các kiến trúc mới hơn như Vision Transformer (ViT) đã trở nên phổ biến, ResNet vẫn là một mô hình cơ bản được ưa chuộng nhờ sự cân bằng giữa tốc độ và độ chính xác. Nó được sử dụng rộng rãi trong học chuyển giao , nơi một mô hình được huấn luyện trước trên một tập dữ liệu khổng lồ như ImageNet được tinh chỉnh cho một nhiệm vụ cụ thể với dữ liệu hạn chế.

Các bộ phát hiện đối tượng hiện đại, bao gồm cả YOLO26 tiên tiến nhất, thường kết hợp các khái niệm được phát triển từ ResNet, chẳng hạn như các kết nối dư trong mạng xương sống của chúng, để tạo điều kiện thuận lợi cho việc trích xuất đặc trưng hiệu quả trên nhiều tỷ lệ khác nhau.

Ví dụ triển khai

Bạn có thể dễ dàng sử dụng mô hình ResNet cho phân loại hình ảnh sử dụng ultralytics Python gói. Ví dụ này minh họa cách tải mô hình ResNet50 đã được huấn luyện trước vào classify một hình ảnh.

from ultralytics import YOLO

# Load a pre-trained ResNet50 model
model = YOLO("resnet50.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

So sánh ResNet với VGG và các mạng nơ-ron thông thường.

Việc phân biệt ResNet với các kiến trúc khác sẽ giúp hiểu được đóng góp độc đáo của nó.

  • So sánh ResNet và Mạng nơ-ron đơn giản: Một mạng nơ-ron "đơn giản" xếp chồng các lớp trực tiếp mà không sử dụng các kết nối bỏ qua. Khi các mạng này trở nên sâu hơn (ví dụ: vượt quá 20 lớp), lỗi huấn luyện của chúng sẽ tăng lên. ResNet giải quyết vấn đề này; một mạng ResNet 152 lớp có lỗi huấn luyện thấp hơn một mạng nơ-ron đơn giản 20 lớp.
  • So sánh ResNet và VGG: Mạng VGG đã phổ biến việc sử dụng các bộ lọc tích chập 3x3 nhỏ nhưng lại rất tốn kém về mặt tính toán và có nhiều tham số. ResNet đạt được hiệu suất tốt hơn với ít tham số hơn và độ sâu lớn hơn nhiều, giúp nó hiệu quả hơn cho các ứng dụng nhạy cảm với độ trễ suy luận .

Để có cái nhìn tổng quan hơn về cách các mô hình này phù hợp với lĩnh vực thị giác máy tính, bạn có thể tham khảo hướng dẫn của chúng tôi về kiến trúc phát hiện đối tượng hoặc tìm hiểu cách huấn luyện mô hình của riêng bạn trên các tập dữ liệu tùy chỉnh .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay