Khám phá những nguyên lý cơ bản của phép tích chập trong thị giác máy tính và học sâu. Tìm hiểu cách các kernel và bản đồ đặc trưng tạo nên sức mạnh của phép toán này. Ultralytics YOLO26 dành cho các tác vụ thời gian thực.
Phép tích chập là một phép toán cơ bản đóng vai trò là khối xây dựng cốt lõi của các hệ thống thị giác máy tính (CV) và học sâu (DL) hiện đại. Trong bối cảnh xử lý ảnh, tích chập bao gồm việc trượt một bộ lọc nhỏ—thường được gọi là kernel—trên ảnh đầu vào để tạo ra một bản đồ các đặc điểm quan trọng. Quá trình này cho phép các mô hình trí tuệ nhân tạo (AI) tự động học và nhận dạng các mẫu như cạnh, kết cấu và hình dạng mà không cần sự can thiệp của con người. Không giống như học máy truyền thống (ML) thường yêu cầu trích xuất đặc điểm thủ công, tích chập cho phép các mạng xây dựng sự hiểu biết theo thứ bậc về dữ liệu hình ảnh, bắt đầu từ các đường thẳng đơn giản và tiến đến các đối tượng phức tạp như khuôn mặt hoặc phương tiện giao thông.
Quá trình này hoạt động bằng cách áp dụng một bộ lọc lên dữ liệu đầu vào, thực hiện phép nhân từng phần tử và cộng các kết quả lại để tạo ra một giá trị duy nhất cho mỗi vị trí. Kết quả đầu ra này được gọi là bản đồ đặc trưng .
Để hiểu đầy đủ về phép tích chập, cần phân biệt nó với các thuật ngữ tương tự thường gặp trong tài liệu về mạng nơ-ron (NN) :
Hiệu quả của phép tích chập đã cho phép trí tuệ nhân tạo (AI) cách mạng hóa nhiều ngành công nghiệp bằng cách cung cấp sức mạnh cho các hệ thống nhận thức mạnh mẽ:
Bạn có thể kiểm tra các lớp tích chập trong các mô hình hiện đại bằng cách sử dụng Python Ví dụ sau đây tải...
YOLO26 mô hình và xác minh rằng lớp ban đầu của nó sử dụng phép toán tích chập tiêu chuẩn, được triển khai thông qua torch.nn.
import torch.nn as nn
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Access the first layer of the model's backbone
first_layer = model.model.model[0]
# Verify it is a Convolutional layer
if isinstance(first_layer.conv, nn.Conv2d):
print("Success: The first layer is a standard convolution.")
print(f"Kernel size: {first_layer.conv.kernel_size}")
Các phép toán tích chập có khả năng tối ưu hóa cao, khiến chúng trở nên lý tưởng cho việc triển khai AI biên (Edge AI) nơi tài nguyên tính toán bị hạn chế. Vì cùng một nhân (kernel) được chia sẻ trên toàn bộ hình ảnh (chia sẻ tham số), mô hình yêu cầu ít bộ nhớ hơn đáng kể so với các kiến trúc kết nối đầy đủ cũ hơn. Hiệu quả này cho phép các mô hình tiên tiến chạy trên điện thoại thông minh và các thiết bị IoT .
Đối với các nhóm muốn tận dụng các thao tác này cho các tập dữ liệu tùy chỉnh, Nền tảng Ultralytics cung cấp một môi trường liền mạch để chú thích hình ảnh và huấn luyện các mô hình dựa trên phép tích chập mà không cần quản lý cơ sở hạ tầng phức tạp. Bằng cách sử dụng học chuyển giao , bạn có thể tinh chỉnh trọng số tích chập đã được huấn luyện trước để nhận dạng các đối tượng mới với dữ liệu huấn luyện tối thiểu.