Mạng Nơ-ron Tích chập (CNN)
Khám phá cách Mạng Nơ-ron Tích chập (CNN) tạo ra cuộc cách mạng trong thị giác máy tính, cung cấp sức mạnh cho AI trong lĩnh vực chăm sóc sức khỏe, xe tự lái và hơn thế nữa.
Mạng nơ-ron tích chập (CNN) là một loại mạng nơ-ron (NN) chuyên dụng, có hiệu quả cao trong việc xử lý dữ liệu có cấu trúc dạng lưới, chẳng hạn như hình ảnh. Lấy cảm hứng từ vỏ não thị giác của con người, CNN tự động và thích ứng học các hệ thống phân cấp không gian của các đặc trưng từ dữ liệu đầu vào. Điều này làm cho chúng trở thành kiến trúc nền tảng cho hầu hết các tác vụ thị giác máy tính (CV) hiện đại, nơi chúng đã đạt được kết quả tiên tiến nhất trong mọi thứ, từ phân loại ảnh đến phát hiện đối tượng.
Cách thức hoạt động của CNN
Không giống như mạng nơ-ron tiêu chuẩn, nơi mọi nơ-ron trong một lớp được kết nối với mọi nơ-ron trong lớp tiếp theo, CNN sử dụng một phép toán đặc biệt gọi là tích chập. Điều này cho phép mạng học các đặc trưng trong một trường tiếp nhận cục bộ, bảo toàn các mối quan hệ không gian giữa các pixel.
Một kiến trúc CNN điển hình bao gồm một số lớp chính:
- Lớp tích chập: Đây là khối xây dựng cốt lõi, nơi một bộ lọc, hoặc kernel, trượt trên hình ảnh đầu vào để tạo ra bản đồ đặc trưng. Các bản đồ này làm nổi bật các mẫu như cạnh, góc và kết cấu. Kích thước của các bộ lọc này và các mẫu mà chúng phát hiện được học trong quá trình huấn luyện mô hình.
- Lớp kích hoạt: Sau mỗi lần tích chập, một hàm kích hoạt như ReLU được áp dụng để đưa vào tính phi tuyến, cho phép mô hình học các mẫu phức tạp hơn.
- Lớp Gộp (Giảm mẫu): Lớp này làm giảm kích thước không gian (chiều rộng và chiều cao) của các bản đồ đặc trưng, giúp giảm tải tính toán và giúp các đặc trưng được phát hiện trở nên mạnh mẽ hơn trước những thay đổi về vị trí và hướng. Một bài báo kinh điển về chủ đề này là Phân loại ImageNet với Mạng nơ-ron tích chập sâu.
- Lớp Kết Nối Đầy Đủ (Fully Connected Layer): Sau một vài lớp tích chập và gộp (pooling), các đặc trưng cấp cao được làm phẳng và chuyển đến một lớp kết nối đầy đủ, lớp này thực hiện phân loại dựa trên các đặc trưng đã học.
So sánh CNN với các kiến trúc khác
Mặc dù CNN là một loại mô hình học sâu (deep learning), chúng khác biệt đáng kể so với các kiến trúc khác.
- Neural Networks (NNs) (Mạng Nơ-ron): Một NN tiêu chuẩn xử lý dữ liệu đầu vào như một vector phẳng, làm mất tất cả thông tin không gian. CNN bảo toàn thông tin này, làm cho chúng trở nên lý tưởng cho việc phân tích hình ảnh.
- Vision Transformers (ViTs): Không giống như CNN, vốn có khuynh hướng quy nạp mạnh mẽ đối với tính cục bộ không gian, ViTs xử lý một hình ảnh như một chuỗi các vùng và sử dụng một tự chú ý cơ chế để học các mối quan hệ toàn cục. ViT thường yêu cầu nhiều dữ liệu hơn để huấn luyện nhưng có thể vượt trội trong các tác vụ mà ngữ cảnh tầm xa là quan trọng. Nhiều mô hình hiện đại, như RT-DETR, hãy sử dụng phương pháp kết hợp, kết hợp CNN
backbone với kiến trúc dựa trên Transformer detection head.
Các Ứng dụng Thực tế
Mạng CNN là động lực thúc đẩy vô số ứng dụng thực tế:
- Phát hiện đối tượng: Các mô hình từ họ Ultralytics YOLO, chẳng hạn như YOLOv8 và YOLO11, sử dụng CNN backbone để xác định và định vị các đối tượng trong hình ảnh và video với tốc độ và độ chính xác đáng kể. Công nghệ này rất quan trọng đối với mọi thứ, từ hệ thống AI trong ô tô đến quản lý hàng tồn kho dựa trên AI.
- Phân tích ảnh y tế: Trong chăm sóc sức khỏe, CNN hỗ trợ các bác sĩ радиолог bằng cách phân tích ảnh chụp y tế (X-quang, MRI, CT) để phát hiện khối u, gãy xương và các dị thường khác. Ứng dụng này giúp cải thiện tốc độ và tính nhất quán của chẩn đoán, như được nêu bật trong nghiên cứu từ các tổ chức như Viện Y tế Quốc gia (NIH). Bạn có thể khám phá phân tích ảnh y tế với Ultralytics để biết thêm thông tin.
- Phân đoạn ảnh (Image Segmentation): Đối với các tác vụ đòi hỏi khả năng hiểu ở cấp độ pixel, chẳng hạn như trong xe tự hành cần phân biệt đường và người đi bộ, các kiến trúc dựa trên CNN như U-Net được sử dụng rộng rãi cho phân đoạn ảnh (image segmentation).
Công Cụ và Framework
Việc phát triển và triển khai CNN được hỗ trợ bởi các công cụ và framework mạnh mẽ: