Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Tích chập (Convolution)

Khám phá những nguyên lý cơ bản của phép tích chập trong thị giác máy tính và học sâu. Tìm hiểu cách các kernel và bản đồ đặc trưng tạo nên sức mạnh của phép toán này. Ultralytics YOLO26 dành cho các tác vụ thời gian thực.

Phép tích chập là một phép toán cơ bản đóng vai trò là khối xây dựng cốt lõi của các hệ thống thị giác máy tính (CV)học sâu (DL) hiện đại. Trong bối cảnh xử lý ảnh, tích chập bao gồm việc trượt một bộ lọc nhỏ—thường được gọi là kernel—trên ảnh đầu vào để tạo ra một bản đồ các đặc điểm quan trọng. Quá trình này cho phép các mô hình trí tuệ nhân tạo (AI) tự động học và nhận dạng các mẫu như cạnh, kết cấu và hình dạng mà không cần sự can thiệp của con người. Không giống như học máy truyền thống (ML) thường yêu cầu trích xuất đặc điểm thủ công, tích chập cho phép các mạng xây dựng sự hiểu biết theo thứ bậc về dữ liệu hình ảnh, bắt đầu từ các đường thẳng đơn giản và tiến đến các đối tượng phức tạp như khuôn mặt hoặc phương tiện giao thông.

Cách Tích Chập Hoạt Động

Quá trình này hoạt động bằng cách áp dụng một bộ lọc lên dữ liệu đầu vào, thực hiện phép nhân từng phần tử và cộng các kết quả lại để tạo ra một giá trị duy nhất cho mỗi vị trí. Kết quả đầu ra này được gọi là bản đồ đặc trưng .

  • Kernel: Đây là một ma trận nhỏ gồm các số (trọng số) dùng để phát hiện các đặc điểm cụ thể. Ví dụ, toán tử Sobel là một loại kernel cụ thể được sử dụng để... detect các cạnh dọc hoặc ngang.
  • Cửa sổ trượt: Bộ lọc di chuyển trên ảnh bằng một bước xác định gọi là "bước nhảy". Quá trình lọc không gian này bảo toàn mối quan hệ giữa các pixel, điều rất quan trọng để hiểu hình ảnh.
  • Cấu trúc phân cấp lớp: Trong các kiến ​​trúc mạng nơron sâu như Mạng nơron tích chập (CNN) , các lớp ban đầu thu thập các chi tiết cấp thấp, trong khi các lớp sâu hơn kết hợp chúng thành các khái niệm cấp cao.

Phép tích chập so với các khái niệm liên quan

Để hiểu đầy đủ về phép tích chập, cần phân biệt nó với các thuật ngữ tương tự thường gặp trong tài liệu về mạng nơ-ron (NN) :

  • So sánh tương quan chéo và phép tích chập: Về mặt toán học, phép tích chập thực sự bao gồm việc đảo ngược kernel trước khi áp dụng nó. Tuy nhiên, hầu hết các framework học sâu, bao gồm cả thư viện PyTorch , đều triển khai tương quan chéo (trượt mà không đảo ngược) nhưng lại gọi nó là "phép tích chập" vì các trọng số được học trong quá trình huấn luyện, khiến sự khác biệt về việc đảo ngược không còn quan trọng đối với hiệu năng.
  • So sánh giữa Convolution và Attention: Trong khi convolution xử lý thông tin cục bộ (các pixel lân cận), cơ chế attention cho phép mô hình liên kết các phần xa nhau của hình ảnh cùng một lúc. Các kiến ​​trúc hiện đại như YOLO26 thường sử dụng các lớp convolution được tối ưu hóa cao để duy trì tốc độ suy luận thời gian thực , vì các lớp attention có thể tốn nhiều tài nguyên tính toán hơn.

Các Ứng dụng Thực tế

Hiệu quả của phép tích chập đã cho phép trí tuệ nhân tạo (AI) cách mạng hóa nhiều ngành công nghiệp bằng cách cung cấp sức mạnh cho các hệ thống nhận thức mạnh mẽ:

  1. Chẩn đoán y tế: Trong lĩnh vực trí tuệ nhân tạo trong chăm sóc sức khỏe , phép tích chập giúp phân tích các ảnh chụp cộng hưởng từ (MRI) độ phân giải cao. Bằng cách sử dụng các nhân cụ thể được thiết kế để làm nổi bật các bất thường, các mô hình có thể... detect Phát hiện sớm các khối u hoặc gãy xương với độ chính xác sánh ngang với các chuyên gia con người.
  2. Điều hướng tự động: Xe tự lái dựa vào phép tích chập để phát hiện vật thể trong thời gian thực. Khi xe di chuyển, các lớp tích chập xử lý nguồn cấp dữ liệu video để ngay lập tức nhận diện người đi bộ, vạch kẻ làn đường và biển báo giao thông, một thành phần quan trọng của trí tuệ nhân tạo trong an toàn ô tô .

Python Ví dụ với Ultralytics

Bạn có thể kiểm tra các lớp tích chập trong các mô hình hiện đại bằng cách sử dụng Python Ví dụ sau đây tải... YOLO26 mô hình và xác minh rằng lớp ban đầu của nó sử dụng phép toán tích chập tiêu chuẩn, được triển khai thông qua torch.nn.

import torch.nn as nn
from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Access the first layer of the model's backbone
first_layer = model.model.model[0]

# Verify it is a Convolutional layer
if isinstance(first_layer.conv, nn.Conv2d):
    print("Success: The first layer is a standard convolution.")
    print(f"Kernel size: {first_layer.conv.kernel_size}")

Tại sao phép tích chập lại quan trọng đối với AI biên

Các phép toán tích chập có khả năng tối ưu hóa cao, khiến chúng trở nên lý tưởng cho việc triển khai AI biên (Edge AI) nơi tài nguyên tính toán bị hạn chế. Vì cùng một nhân (kernel) được chia sẻ trên toàn bộ hình ảnh (chia sẻ tham số), mô hình yêu cầu ít bộ nhớ hơn đáng kể so với các kiến ​​trúc kết nối đầy đủ cũ hơn. Hiệu quả này cho phép các mô hình tiên tiến chạy trên điện thoại thông minh và các thiết bị IoT .

Đối với các nhóm muốn tận dụng các thao tác này cho các tập dữ liệu tùy chỉnh, Nền tảng Ultralytics cung cấp một môi trường liền mạch để chú thích hình ảnh và huấn luyện các mô hình dựa trên phép tích chập mà không cần quản lý cơ sở hạ tầng phức tạp. Bằng cách sử dụng học chuyển giao , bạn có thể tinh chỉnh trọng số tích chập đã được huấn luyện trước để nhận dạng các đối tượng mới với dữ liệu huấn luyện tối thiểu.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay