Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Tích chập (Convolution)

Tìm hiểu cách tích chập (convolution) cung cấp năng lượng cho AI trong thị giác máy tính, cho phép các tác vụ như nhận diện đối tượng, nhận dạng hình ảnh và chụp ảnh y tế với độ chính xác cao.

Tích chập là một hoạt động cơ bản trong học sâu (DL), đặc biệt là trong lĩnh vực thị giác máy tính (CV). Nó đóng vai trò là khối xây dựng chính cho Mạng nơ-ron tích chập (CNN), cho phép các mô hình tự động và hiệu quả học các đặc trưng phân cấp từ dữ liệu dạng lưới, chẳng hạn như hình ảnh. Quá trình này bao gồm việc trượt một bộ lọc nhỏ, được gọi là kernel, trên một hình ảnh đầu vào để tạo ra bản đồ đặc trưng làm nổi bật các mẫu cụ thể như cạnh, kết cấu hoặc hình dạng. Phương pháp này được lấy cảm hứng từ tổ chức của vỏ não thị giác động vật và rất hiệu quả cho các tác vụ mà mối quan hệ không gian giữa các điểm dữ liệu là quan trọng.

Cách Tích Chập Hoạt Động

Về cốt lõi, tích chập là một phép toán kết hợp hai tập hợp thông tin. Trong bối cảnh của CNN, nó kết hợp dữ liệu đầu vào (giá trị pixel của hình ảnh) với một kernel. Kernel là một ma trận nhỏ các trọng số đóng vai trò như một bộ dò tìm đặc trưng. Kernel này trượt trên chiều cao và chiều rộng của hình ảnh đầu vào, và tại mỗi vị trí, nó thực hiện phép nhân từng phần tử với phần chồng lên nhau của hình ảnh. Các kết quả được cộng lại để tạo ra một pixel duy nhất trong bản đồ đặc trưng đầu ra. Quá trình trượt này được lặp lại trên toàn bộ hình ảnh.

Bằng cách sử dụng các kernel khác nhau, CNN có thể học cách phát hiện một loạt các đặc trưng. Các lớp ban đầu có thể học cách nhận dạng các mẫu đơn giản như cạnh và màu sắc, trong khi các lớp sâu hơn có thể kết hợp các đặc trưng cơ bản này để xác định các cấu trúc phức tạp hơn như mắt, bánh xe hoặc văn bản. Khả năng xây dựng hệ thống phân cấp các đặc trưng trực quan này là điều mang lại sức mạnh cho CNN trong các tác vụ thị giác. Quá trình này được thực hiện hiệu quả về mặt tính toán thông qua hai nguyên tắc chính:

  • Chia sẻ tham số (Parameter Sharing): Cùng một kernel được sử dụng trên toàn bộ hình ảnh, làm giảm đáng kể tổng số tham số có thể học được so với một mạng kết nối đầy đủ. Khái niệm sử dụng tham số hiệu quả này cũng giúp mô hình khái quát hóa tốt hơn.
  • Tính cục bộ không gian: Thao tác này giả định rằng các pixel gần nhau có liên quan chặt chẽ hơn các pixel ở xa, một thiên kiến quy nạp mạnh mẽ, rất hiệu quả đối với hình ảnh tự nhiên.

Tầm quan trọng của học sâu

Tích chập (Convolution) là nền tảng của thị giác máy tính hiện đại. Các mô hình như Ultralytics YOLO sử dụng rộng rãi các lớp tích chập trong kiến trúc backbone của chúng để trích xuất đặc trưng mạnh mẽ. Điều này cho phép một loạt các ứng dụng, từ phát hiện đối tượngphân vùng ảnh đến các tác vụ phức tạp hơn. Tính hiệu quả của tích chập đã biến nó thành phương pháp được ưa chuộng để xử lý hình ảnh và dữ liệu không gian khác, tạo thành cơ sở cho nhiều kiến trúc hiện đại được trình bày chi tiết trong các tài liệu như lịch sử của các mô hình thị giác.

Các Ứng dụng Thực tế

  • Phân tích hình ảnh y tế: Trong AI cho chăm sóc sức khỏe, CNN sử dụng các phép tích chập để phân tích ảnh chụp y tế như MRI hoặc CT. Các kernel có thể được huấn luyện để phát hiện các kết cấu và hình dạng cụ thể đặc trưng của khối u hoặc các bất thường khác, giúp các bác sĩ радиолог đưa ra chẩn đoán nhanh hơn và chính xác hơn. Bạn có thể đọc thêm về những tiến bộ này trên các tạp chí như Radiology: Artificial Intelligence.
  • Xe tự hành: Xe tự lái dựa vào CNN để nhận biết môi trường xung quanh. Các phép tích chập (convolutions) xử lý đầu vào từ camera trong thời gian thực để xác định người đi bộ, các phương tiện khác, làn đường và biển báo đường bộ. Điều này cho phép hệ thống của xe xây dựng sự hiểu biết toàn diện về môi trường của nó và điều hướng an toàn, như được thấy trong công nghệ được phát triển bởi các công ty như Waymo.

Tích chập so với các khái niệm liên quan

Điều quan trọng là phân biệt phép tích chập (convolution) với các hoạt động khác của mạng nơ-ron:

  • Các Lớp Kết Nối Đầy Đủ (Fully Connected Layers): Trong một lớp kết nối đầy đủ, mỗi nơ-ron được kết nối với mọi nơ-ron trong lớp trước đó. Đối với hình ảnh, điều này rất kém hiệu quả vì nó bỏ qua cấu trúc không gian và dẫn đến một số lượng lớn các tham số. Tích chập, với kết nối cục bộ và chia sẻ tham số, có khả năng mở rộng tốt hơn nhiều và phù hợp hơn với dữ liệu hình ảnh.
  • Vision Transformers (ViT): Không giống như việc phát hiện đặc trưng cục bộ của CNN, Vision Transformers sử dụng cơ chế self-attention để mô hình hóa các mối quan hệ toàn cục giữa các vùng hình ảnh khác nhau. Mặc dù mạnh mẽ, ViT thường yêu cầu bộ dữ liệu lớn hơn để học các mối quan hệ này từ đầu, trong khi độ lệch quy nạp của các tích chập làm cho chúng hiệu quả hơn về dữ liệu. Các mô hình lai, như RT-DETR, nhằm mục đích kết hợp các điểm mạnh của cả hai phương pháp.

Công cụ và Đào tạo

Việc triển khai và đào tạo các mô hình sử dụng convolution được hỗ trợ bởi nhiều framework deep learning khác nhau. Các thư viện như PyTorch (trang web chính thức của PyTorch) và TensorFlow (trang web chính thức của TensorFlow) cung cấp các công cụ mạnh mẽ để xây dựng CNN. Các API cấp cao như Keras giúp đơn giản hóa hơn nữa quá trình phát triển.

Để có trải nghiệm hợp lý, các nền tảng như Ultralytics HUB cho phép người dùng quản lý bộ dữ liệu (datasets), thực hiện huấn luyện mô hình (model training) và triển khai các mô hình mạnh mẽ như YOLO11 một cách dễ dàng. Hiểu các khái niệm cốt lõi như tích chập (convolution), kích thước kernel (kernel size), stride (bước nhảy), padding (đệm) và trường đón nhận (receptive field) kết quả là rất quan trọng để huấn luyện mô hình (model training) và thiết kế kiến trúc hiệu quả.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard