Thuật ngữ

Mạng nơ-ron tích chập (CNN)

Khám phá cách Mạng nơ-ron tích chập (CNN) cách mạng hóa thị giác máy tính, hỗ trợ AI trong chăm sóc sức khỏe, xe tự lái, v.v.

Mạng Nơ-ron Tích chập (CNN) là một loại mạng nơ-ron (NN) chuyên biệt, cực kỳ hiệu quả trong việc xử lý dữ liệu có cấu trúc dạng lưới, chẳng hạn như hình ảnh. Lấy cảm hứng từ vỏ não thị giác của con người, CNN tự động và thích ứng học các hệ thống phân cấp không gian của các đặc trưng từ dữ liệu đầu vào. Điều này khiến chúng trở thành kiến trúc nền tảng cho hầu hết các tác vụ thị giác máy tính (CV) hiện đại, nơi chúng đạt được kết quả tiên tiến trong mọi lĩnh vực, từ phân loại hình ảnh đến phát hiện đối tượng.

Cách thức hoạt động của CNN

Không giống như mạng nơ-ron tiêu chuẩn, nơi mỗi nơ-ron trong một lớp được kết nối với mỗi nơ-ron trong lớp tiếp theo, CNN sử dụng một phép toán đặc biệt gọi là tích chập . Điều này cho phép mạng học các đặc điểm trong một trường tiếp nhận cục bộ, đồng thời duy trì mối quan hệ không gian giữa các điểm ảnh.

Kiến trúc CNN điển hình bao gồm một số lớp chính:

  1. Lớp Tích chập : Đây là khối xây dựng cốt lõi, nơi bộ lọc, hoặc hạt nhân, trượt trên ảnh đầu vào để tạo ra các bản đồ đặc trưng . Các bản đồ này làm nổi bật các mẫu như cạnh, góc và kết cấu. Kích thước của các bộ lọc này và các mẫu mà chúng phát hiện được học trong quá trình huấn luyện mô hình .
  2. Lớp kích hoạt : Sau mỗi phép tích chập, một hàm kích hoạt như ReLU được áp dụng để đưa vào tính phi tuyến tính, cho phép mô hình học các mẫu phức tạp hơn.
  3. Lớp Pooling (Hạ mẫu) : Lớp này làm giảm kích thước không gian (chiều rộng và chiều cao) của bản đồ đặc trưng, giúp giảm tải tính toán và giúp các đặc trưng được phát hiện mạnh mẽ hơn trước những thay đổi về vị trí và hướng. Một bài báo kinh điển về chủ đề này là Phân loại ImageNet với Mạng Nơ-ron Tích chập Sâu .
  4. Lớp kết nối đầy đủ : Sau một số lớp tích chập và lớp gộp, các đặc điểm cấp cao được làm phẳng và chuyển đến lớp kết nối đầy đủ, thực hiện phân loại dựa trên các đặc điểm đã học.

Cnn so với các kiến trúc khác

Mặc dù CNN là một loại mô hình học sâu nhưng chúng khác biệt đáng kể so với các kiến trúc khác.

  • Mạng nơ-ron (NN) : Một mạng nơ-ron chuẩn xử lý dữ liệu đầu vào như một vectơ phẳng, mất hết thông tin không gian. CNN bảo toàn thông tin này, khiến chúng trở nên lý tưởng cho việc phân tích hình ảnh.
  • Vision Transformers (ViTs):Không giống như CNN, có độ lệch cảm ứng mạnh đối với vị trí không gian, ViTs xử lý một hình ảnh như một chuỗi các bản vá và sử dụng một sự chú ý đến bản thân Cơ chế học các mối quan hệ toàn cầu. ViT thường yêu cầu nhiều dữ liệu hơn để đào tạo nhưng có thể vượt trội trong các nhiệm vụ đòi hỏi bối cảnh tầm xa. Nhiều mô hình hiện đại, chẳng hạn như RT-DETR, sử dụng phương pháp kết hợp, kết hợp CNN backbone với một Transformer dựa trên detection head.

Ứng dụng trong thế giới thực

CNN là động lực thúc đẩy vô số ứng dụng trong thế giới thực:

  • Phát hiện Đối tượng : Các mô hình thuộc dòng YOLO của Ultralytics , chẳng hạn như YOLOv8YOLO11 , sử dụng mạng lưới xương sống CNN để nhận dạng và định vị đối tượng trong hình ảnh và video với tốc độ và độ chính xác đáng kinh ngạc. Công nghệ này rất quan trọng cho mọi thứ, từ AI trong hệ thống ô tô đến quản lý kho hàng dựa trên AI .
  • Phân tích hình ảnh y tế : Trong chăm sóc sức khỏe, CNN hỗ trợ các bác sĩ X-quang bằng cách phân tích các hình ảnh chụp X-quang (X-quang, MRI, CT) để phát hiện khối u, gãy xương và các bất thường khác. Ứng dụng này giúp cải thiện tốc độ và tính nhất quán của chẩn đoán, như đã được nêu bật trong nghiên cứu từ các tổ chức như Viện Y tế Quốc gia (NIH) . Bạn có thể tìm hiểu thêm về phân tích hình ảnh y tế với Ultralytics .
  • Phân đoạn hình ảnh : Đối với các nhiệm vụ đòi hỏi hiểu biết ở cấp độ pixel, chẳng hạn như trong xe tự hành cần phân biệt đường với người đi bộ, các kiến trúc dựa trên CNN như U-Net được sử dụng rộng rãi để phân đoạn hình ảnh .

Công cụ và khung

Việc phát triển và triển khai CNN được hỗ trợ bởi các công cụ và khuôn khổ mạnh mẽ:

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard