Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mạng Nơ-ron Tích chập (CNN)

Khám phá cách Mạng nơ-ron tích chập (CNN) vận hành thị giác máy tính hiện đại. Tìm hiểu về các lớp, ứng dụng và cách chạy chúng. Ultralytics YOLO26 dành cho trí tuệ nhân tạo thời gian thực.

Mạng nơ-ron tích chập (CNN) là một kiến trúc học sâu chuyên biệt được thiết kế để xử lý dữ liệu có cấu trúc dạng lưới, đặc biệt là hình ảnh kỹ thuật số. Lấy cảm hứng từ cấu trúc sinh học của vỏ não thị giác , CNN có khả năng độc đáo trong việc bảo toàn các mối quan hệ không gian trong dữ liệu đầu vào. Không giống như các mạng nơ-ron truyền thống làm phẳng hình ảnh thành một danh sách dài các con số, CNN phân tích các vùng nhỏ, chồng chéo của hình ảnh để tự động học các hệ thống phân cấp đặc trưng—từ các cạnh và kết cấu đơn giản đến các hình dạng và đối tượng phức tạp. Khả năng này khiến chúng trở thành công nghệ nền tảng đằng sau các hệ thống thị giác máy tính (CV) hiện đại.

Mạng nơ-ron tích chập hoạt động như thế nào

Sức mạnh của mạng nơ-ron tích chập (CNN) nằm ở khả năng giảm bớt một hình ảnh phức tạp thành dạng dễ xử lý hơn mà không làm mất đi các đặc điểm quan trọng để đưa ra dự đoán chính xác. Điều này đạt được thông qua một chuỗi các lớp riêng biệt chuyển đổi dữ liệu đầu vào thành một lớp hoặc giá trị đầu ra:

  • Lớp tích chập : Đây là khối cấu trúc cốt lõi. Nó sử dụng một tập hợp các bộ lọc (hoặc kernel) có thể học được, trượt trên ảnh đầu vào giống như đèn pin. Tại mỗi vị trí, bộ lọc thực hiện một phép toán gọi là tích chập, tạo ra một bản đồ đặc trưng làm nổi bật các mẫu cụ thể như đường ngang hoặc độ chuyển màu.
  • Hàm kích hoạt : Sau phép tích chập, một hàm phi tuyến được áp dụng cho đầu ra. Lựa chọn phổ biến nhất là ReLU (Rectified Linear Unit) , hàm này chuyển các giá trị pixel âm thành 0. Điều này tạo ra tính phi tuyến tính, cho phép mạng học được các mẫu phức tạp vượt ra ngoài các mối quan hệ tuyến tính đơn giản.
  • Lớp gộp (Pooling Layer): Còn được gọi là lấy mẫu giảm (downsampling), lớp này làm giảm chiều dữ liệu của các bản đồ đặc trưng. Các kỹ thuật như gộp tối đa ( max pooling ) chỉ giữ lại các đặc trưng quan trọng nhất (các giá trị cao nhất) trong một vùng, giúp giảm tải tính toán và ngăn ngừa hiện tượng quá khớp (overfitting ).
  • Lớp kết nối đầy đủ: Ở giai đoạn cuối cùng, các đặc trưng đã được xử lý sẽ được làm phẳng và đưa vào mạng nơ-ron (NN) tiêu chuẩn. Lớp này sử dụng các đặc trưng cấp cao được xác định bởi các lớp trước đó để đưa ra phân loại hoặc dự đoán cuối cùng, chẳng hạn như "mèo" hoặc "chó".

Các Ứng dụng Thực tế

Mạng nơ-ron tích chập (CNN) đã làm thay đổi nhiều ngành công nghiệp bằng cách tự động hóa các tác vụ xử lý hình ảnh với độ chính xác siêu phàm.

  • Chẩn đoán y khoa: Trong lĩnh vực chăm sóc sức khỏe, mạng nơ-ron tích chập (CNN) hỗ trợ các bác sĩ X-quang bằng cách xác định các bất thường trong hình ảnh y khoa nhanh hơn mắt người. Ví dụ, các mô hình học sâu phân tích hình ảnh MRI và CT để... detect Dấu hiệu sớm của khối u hoặc gãy xương. Nghiên cứu ứng dụng trí tuệ nhân tạo trong chẩn đoán hình ảnh cho thấy các công cụ này cải thiện tính nhất quán và tốc độ chẩn đoán như thế nào.
  • Hệ thống tự hành: Xe tự lái phụ thuộc rất nhiều vào mạng nơ-ron tích chập (CNN) để nhận biết môi trường xung quanh. Các mô hình như YOLO26 sử dụng kiến trúc CNN hiệu quả để thực hiện phát hiện đối tượng theo thời gian thực, nhận diện người đi bộ, biển báo giao thông và các phương tiện khác nhằm đưa ra quyết định lái xe trong tích tắc.

Mạng nơ-ron tích chập (CNN) so với bộ chuyển đổi hình ảnh (Vision Transformers - ViT)

Mặc dù mạng nơ-ron tích chập (CNN) từ lâu đã là tiêu chuẩn cho các tác vụ xử lý hình ảnh, một kiến trúc mới hơn gọi là Vision Transformer (ViT) đã xuất hiện.

  • Mạng nơ-ron tích chập (CNN) xử lý hình ảnh bằng cách sử dụng các đặc trưng cục bộ và rất hiệu quả trên các tập dữ liệu nhỏ nhờ "thiên kiến ​​quy nạp" của chúng (chúng giả định rằng các pixel lân cận có liên quan đến nhau). Chúng hoạt động xuất sắc trong các trường hợp yêu cầu suy luận thời gian thực trên các thiết bị biên.
  • ViTs chia ảnh thành các mảng nhỏ và xử lý chúng bằng cơ chế tự chú ý toàn cục. Điều này cho phép chúng nắm bắt các mối quan hệ phụ thuộc tầm xa trên toàn bộ ảnh nhưng thường yêu cầu tập dữ liệu khổng lồ và nhiều sức mạnh tính toán hơn để huấn luyện hiệu quả.

Ví dụ triển khai

Các thư viện hiện đại giúp việc sử dụng các mô hình dựa trên CNN trở nên dễ dàng hơn. ultralytics Gói phần mềm này cung cấp quyền truy cập vào các mô hình tiên tiến như YOLO26, với kiến trúc mạng CNN được tối ưu hóa cao để suy luận nhanh chóng.

Ví dụ sau đây minh họa cách tải mô hình CNN đã được huấn luyện trước và thực hiện dự đoán:

from ultralytics import YOLO

# Load a YOLO26 model, which uses an advanced CNN architecture
model = YOLO("yolo26n.pt")

# Run inference on an image to identify objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the prediction results
results[0].show()

Công cụ phát triển

Việc phát triển mạng nơ-ron tích chập (CNN) được hỗ trợ bởi một hệ sinh thái mạnh mẽ gồm các công cụ mã nguồn mở. Các kỹ sư thường sử dụng các framework như PyTorch hoặc TensorFlow để xây dựng các kiến ​​trúc tùy chỉnh. Các thư viện này cung cấp các chức năng cấp thấp. tensor các phép toán cần thiết cho phép tích chập và lan truyền ngược .

Đối với các nhóm đang tìm cách tối ưu hóa vòng đời của các dự án thị giác máy tính—từ thu thập dữ liệu đến triển khai— Nền tảng Ultralytics cung cấp một giải pháp toàn diện. Nó đơn giản hóa các quy trình làm việc phức tạp, cho phép các nhà phát triển tập trung vào việc áp dụng mạng nơ-ron tích chập (CNN) để giải quyết các vấn đề kinh doanh thay vì quản lý cơ sở hạ tầng. Ngoài ra, các mô hình có thể được xuất sang các định dạng như ONNX hoặc TensorRT để triển khai hiệu suất cao trên các thiết bị biên.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay