Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mạng остаточный (ResNet)

Khám phá cách ResNet cách mạng hóa deep learning bằng cách giải quyết các vấn đề vanishing gradients, cho phép các mạng ultradeep để phân tích hình ảnh, NLP, v.v.

Mạng dư (Residual Networks), được biết đến rộng rãi với tên gọi ResNet, đại diện cho một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo (AI)thị giác máy tính (CV) . Được giới thiệu vào năm 2015 bởi các nhà nghiên cứu tại Microsoft Research , kiến trúc này đã giải quyết một thách thức đáng kể trong học sâu (DL) được gọi là bài toán gradient biến mất . Trước khi ResNet ra đời, việc tăng độ sâu của mạng nơ-ron (NN) thường dẫn đến hiệu suất giảm dần, trong khi việc thêm nhiều lớp thực sự làm tăng lỗi huấn luyện. ResNet đã giải quyết vấn đề này bằng cách giới thiệu "kết nối bỏ qua", cho phép huấn luyện thành công các mạng với hàng trăm hoặc thậm chí hàng nghìn lớp mà vẫn duy trì độ chính xác cao.

Đổi mới cốt lõi: Khối còn lại

Đặc điểm xác định của ResNet là khối dư. Trong Mạng Nơ-ron Tích chập (CNN) truyền thống, các lớp được xếp chồng tuần tự, và mỗi lớp cố gắng học ánh xạ trực tiếp từ đầu vào đến đầu ra. Tuy nhiên, khi mạng trở nên sâu hơn, tín hiệu từ dữ liệu đầu vào có thể bị suy giảm trước khi đến được điểm cuối của mạng.

ResNet giới thiệu một "phím tắt" hoặc kết nối bỏ qua cho phép thêm trực tiếp đầu vào của một lớp vào đầu ra của nó. Cơ chế này về cơ bản yêu cầu mạng học "phần dư" (sự khác biệt) giữa đầu vào và đầu ra tối ưu, thay vì học toàn bộ phép biến đổi từ đầu. Kiến trúc này bảo toàn luồng thông tin và tạo điều kiện trích xuất đặc trưng tốt hơn, cho phép mô hình nắm bắt các mẫu phức tạp như kết cấu và hình dạng mà không làm mất dữ liệu đầu vào ban đầu. Bạn có thể đọc bài báo gốc về Học Sâu Dư cho Nhận dạng Hình ảnh để hiểu nền tảng toán học.

Tại sao ResNet lại quan trọng trong học máy

ResNet được coi là xương sống nền tảng cho nhiều hệ thống thị giác hiện đại. Khả năng huấn luyện mạng lưới rất sâu của nó cho phép tạo ra các mô hình cực kỳ mạnh mẽ, hoạt động tốt trên các tập dữ liệu quy mô lớn như ImageNet .

Kiến trúc này đặc biệt quan trọng đối với việc học chuyển giao . Vì các mô hình ResNet được đào tạo trước đã học được các bản đồ đặc trưng phong phú từ lượng dữ liệu khổng lồ, chúng có thể được tinh chỉnh cho các tác vụ cụ thể với các tập dữ liệu tương đối nhỏ. Tính linh hoạt này khiến ResNet trở thành lựa chọn tiêu chuẩn cho các tác vụ từ phân loại hình ảnh đến phân tích video phức tạp.

Các Ứng dụng Thực tế

Tính ổn định và độ sâu mà ResNet mang lại cho phép sử dụng trong các môi trường quan trọng, có rủi ro cao.

  • Chẩn đoán Y khoa: Trong lĩnh vực AI chăm sóc sức khỏe , kiến trúc ResNet thường được sử dụng để phân tích hình ảnh y tế . Ví dụ, các nhà nghiên cứu sử dụng mô hình ResNet sâu để phân tích ảnh chụp MRI hoặc X-quang nhằm phát hiện khối u , trong đó mô hình phải xác định các bất thường nhỏ trong cấu trúc mô mà các mạng nông hơn có thể bỏ sót.
  • Lái xe tự động: Xe tự hành dựa vào hệ thống nhận dạng thời gian thực để điều hướng an toàn. Các biến thể ResNet thường đóng vai trò là trình trích xuất đặc điểm cho các hệ thống phát hiện vật thể , giúp nhận dạng người đi bộ, biển báo giao thông và các phương tiện khác. Độ sâu của mạng lưới đảm bảo xe có thể nhận dạng vật thể trong các điều kiện ánh sáng và thời tiết khác nhau, một thành phần quan trọng của AI trong an toàn ô tô .

So sánh ResNet với các kiến trúc khác

Sẽ rất hữu ích khi phân biệt ResNet với các kiến trúc phổ biến khác có trong các thư viện học sâu như PyTorch hoặc TensorFlow :

  • ResNet so với VGG: Mạng VGG (Visual Geometry Group) phổ biến nhờ tính đơn giản, chỉ sử dụng tích chập 3x3. Tuy nhiên, các mô hình VGG đòi hỏi tính toán phức tạp và khó huấn luyện hiệu quả với hơn 19 lớp. ResNet sử dụng kết nối bỏ qua để đi sâu hơn nhiều (ví dụ: 50, 101 hoặc 152 lớp) với độ trễ suy luận thấp hơn so với độ sâu của chúng.
  • ResNet so với YOLO11 : Trong khi ResNet chủ yếu là xương sống của bộ phân loại, YOLO11 là một bộ phát hiện đối tượng tiên tiến. Tuy nhiên, các bộ phát hiện hiện đại như YOLO11 kết hợp các khái niệm kiến trúc phát triển từ ResNet, chẳng hạn như kết nối một phần giữa các giai đoạn, để đảm bảo luồng gradient hiệu quả trong quá trình đào tạo.

Thực hiện với Ultralytics

Bạn có thể dễ dàng tận dụng các mô hình ResNet cho các nhiệm vụ phân loại bằng cách sử dụng ultralytics Python gói. Điều này cho phép bạn truy cập các trọng số được đào tạo trước và thực hiện suy luận với mã tối thiểu.

from ultralytics import YOLO

# Load a pre-trained ResNet50 model capable of classifying images
model = YOLO("resnet50.pt")  # Downloads the model weights automatically

# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")

# Display the top classification result
print(f"Top class: {results[0].names[results[0].probs.top1]}")

Đối với những ai quan tâm đến việc tìm hiểu lý thuyết sâu hơn, các khóa học như CS231n của Stanford cung cấp nguồn tài nguyên học thuật tuyệt vời về kiến trúc CNN. Cho dù bạn đang xây dựng một bộ phân loại đơn giản hay một hệ thống phức tạp cho sản xuất thông minh , việc hiểu ResNet là điều cần thiết để thành thạo thị giác máy tính hiện đại.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay