Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Mạng остаточный (ResNet)

Khám phá cách ResNet cách mạng hóa deep learning bằng cách giải quyết các vấn đề vanishing gradients, cho phép các mạng ultradeep để phân tích hình ảnh, NLP, v.v.

Mạng Dư (Residual Networks), thường được gọi là ResNet, là một loại kiến trúc mạng nơ-ron (NN) đột phá, có tác động sâu sắc đến lĩnh vực học sâu. Được giới thiệu bởi Kaiming He và cộng sự trong bài báo năm 2015 của họ, "Deep Residual Learning for Image Recognition," ResNet đã giúp có thể huấn luyện hiệu quả các mạng nơ-ron cực sâu, với hàng trăm hoặc thậm chí hàng nghìn lớp. Điều này đạt được bằng cách giới thiệu "các khối dư" (residual blocks) với "các kết nối tắt" (skip connections), một khái niệm đơn giản nhưng mạnh mẽ giúp giảm thiểu vấn đề vanishing gradient, thường gây khó khăn cho các mạng rất sâu.

Cách ResNet hoạt động

Đổi mới cốt lõi của ResNet là việc sử dụng các kết nối tắt (skip connections) hoặc đường tắt (shortcuts). Trong một Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) truyền thống, mỗi lớp sẽ đưa đầu ra của nó trực tiếp đến lớp tiếp theo theo trình tự. Khi mạng trở nên sâu hơn, mạng sẽ ngày càng khó học và gradient khó lan truyền ngược lại trong quá trình huấn luyện. Điều này có thể dẫn đến tình huống mà việc thêm nhiều lớp hơn thực sự làm giảm hiệu suất của mô hình.

ResNet giải quyết vấn đề này bằng cách cho phép đầu vào của một lớp (hoặc một khối các lớp) được thêm vào đầu ra của nó. Kết nối tắt này tạo ra một đường dẫn thay thế cho gradient đi qua, đảm bảo rằng ngay cả các mạng rất sâu cũng có thể được huấn luyện hiệu quả. Cấu trúc này cho phép mạng học các hàm dư—về cơ bản, các lớp chỉ cần học các thay đổi hoặc phần dư từ đầu vào, thay vì toàn bộ phép biến đổi. Nếu một lớp không có lợi, mạng có thể dễ dàng học cách bỏ qua nó bằng cách đẩy trọng số của nó về không, cho phép ánh xạ đồng nhất được truyền qua kết nối tắt.

So sánh ResNet với các kiến trúc khác

  • CNN Tiêu chuẩn: Không giống như CNN tuần tự tiêu chuẩn, ResNet có thể phát triển sâu hơn nhiều mà không làm giảm hiệu suất, nhờ vào học tập thặng dư (residual learning). Độ sâu này cho phép chúng học các đặc trưng phức tạp hơn và đạt được độ chính xác cao hơn trên các tác vụ khó.
  • U-Net: Mặc dù U-Net cũng sử dụng các kết nối tắt, nhưng mục đích của nó khác. Trong U-Net, các kết nối tắt liên kết các lớp từ đường dẫn giảm mẫu đến đường dẫn tăng mẫu để khôi phục thông tin không gian cho phân đoạn ảnh chính xác. Trong ResNet, các kết nối thường ngắn hơn và được thiết kế để cải thiện luồng gradient và cho phép các kiến trúc sâu hơn.

Các Ứng dụng Thực tế

Khả năng trích xuất đặc trưng mạnh mẽ của ResNet khiến nó trở thành một lựa chọn phổ biến làm backbone cho nhiều tác vụ thị giác máy tính phức tạp.

  • Phân tích ảnh y tế: Trong ứng dụng AI cho chăm sóc sức khỏe, kiến trúc ResNet được sử dụng để phân tích ảnh chụp y tế như X-quang, CT và MRI. Ví dụ: một mô hình dựa trên ResNet có thể được huấn luyện trên một bộ dữ liệu ảnh chụp não để giúp các bác sĩ радиолог phát hiện khối u sớm, cải thiện độ chính xác và tốc độ chẩn đoán.
  • Lái xe tự động: Các hệ thống trong xe tự lái dựa vào các backbone mạnh mẽ để nhận thức theo thời gian thực. ResNet thường được sử dụng để xử lý đầu vào từ camera cho nhận diện đối tượng, xác định người đi bộ, xe cộ và biển báo giao thông, điều này rất quan trọng đối với các hệ thống điều hướng an toàn được phát triển bởi các công ty như Waymo.

Công cụ và triển khai

Kiến trúc ResNet được triển khai rộng rãi trong các framework học sâu lớn như PyTorchTensorFlow. Các mô hình được huấn luyện trước, thường được huấn luyện trên bộ dữ liệu ImageNet quy mô lớn, có sẵn thông qua các thư viện như torchvision, tạo điều kiện thuận lợi cho việc transfer learning hiệu quả cho các ứng dụng tùy chỉnh. Các nền tảng như Ultralytics HUB cho phép người dùng tận dụng các kiến trúc khác nhau, bao gồm các mô hình dựa trên ResNet, để huấn luyện các mô hình tùy chỉnh cho các nhu cầu cụ thể của họ. Mặc dù ResNet đã thiết lập một baseline hiệu suất mạnh mẽ, nhưng các kiến trúc mới hơn như EfficientNet đã được phát triển để mang lại hiệu quả tốt hơn. Bạn có thể tìm thấy nhiều tài nguyên giáo dục hơn về CNN trong khóa học CS231n của Stanford hoặc thông qua các khóa học từ các nhà cung cấp như DeepLearning.AI.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard