Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Vision AI

Mask R-CNN là gì và nó hoạt động như thế nào?

Tìm hiểu cách Mask R-CNN có thể được sử dụng để phân đoạn chính xác các đối tượng trong hình ảnh và video cho nhiều ứng dụng khác nhau trong các lĩnh vực khác nhau.

ABAbirami Vina4 min read
Phân đoạn thực thể với Mask R-CNN

Các đổi mới như robot trong nhà kho, xe tự lái di chuyển an toàn trên đường phố đông đúc, máy bay không người lái kiểm tra mùa màng và các hệ thống AI kiểm tra sản phẩm trong nhà máy đang trở nên phổ biến hơn khi việc áp dụng AI ngày càng tăng. Một công nghệ then chốt thúc đẩy các đổi mới này là computer vision, một nhánh của AI cho phép máy móc hiểu và diễn giải dữ liệu hình ảnh.

Ví dụ, phát hiện đối tượng (object detection) là một tác vụ computer vision giúp xác định và định vị các đối tượng trong hình ảnh bằng cách sử dụng bbox. Mặc dù bbox cung cấp thông tin hữu ích, nhưng chúng chỉ đưa ra ước tính sơ bộ về vị trí của đối tượng và không thể nắm bắt được hình dạng hoặc ranh giới chính xác của đối tượng đó. Điều này khiến chúng kém hiệu quả hơn trong các ứng dụng đòi hỏi sự nhận diện chính xác.

Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển các model phân đoạn nắm bắt các đường viền chính xác của đối tượng, cung cấp các chi tiết ở cấp độ pixel để phát hiện và phân tích chính xác hơn.

Mask R-CNN là một trong những model đó. Được giới thiệu vào năm 2017 bởi Facebook AI Research (FAIR), nó được xây dựng dựa trên các model trước đó như R-CNN, Fast R-CNN và Faster R-CNN. Là một cột mốc quan trọng trong lịch sử của computer vision, Mask R-CNN đã mở đường cho các model tiên tiến hơn, chẳng hạn như Ultralytics YOLO11.

Trong bài viết này, chúng ta sẽ khám phá Mask R-CNN là gì, cách nó hoạt động, các ứng dụng của nó và những cải tiến nào đã ra đời sau đó, dẫn đến YOLO11.

Link to this sectionTổng quan về Mask R-CNN#

Mask R-CNN, viết tắt của Mask Region-based Convolutional Neural Network, là một model deep learning được thiết kế cho các computer vision tasks như phát hiện đối tượng và phân đoạn thực thể.

Phân đoạn thực thể vượt xa khả năng phát hiện đối tượng truyền thống bằng cách không chỉ xác định các đối tượng trong hình ảnh mà còn phác thảo chính xác từng đối tượng. Nó gán một nhãn duy nhất cho mỗi đối tượng được phát hiện và nắm bắt hình dạng chính xác của nó ở cấp độ pixel. Phương pháp chi tiết này giúp phân biệt rõ ràng giữa các đối tượng chồng chéo và xử lý chính xác các hình dạng phức tạp.

Mask R-CNN được xây dựng dựa trên Faster R-CNN, model vốn có khả năng phát hiện và dán nhãn các đối tượng nhưng không xác định chính xác hình dạng của chúng. Mask R-CNN cải thiện điều này bằng cách xác định các pixel chính xác tạo nên từng đối tượng, cho phép phân tích hình ảnh chi tiết và chính xác hơn nhiều.

So sánh phát hiện đối tượng và phân đoạn thực thể

Hình 1. So sánh phát hiện đối tượng và phân đoạn thực thể.

Link to this sectionTìm hiểu về kiến trúc của Mask R-CNN và cách thức hoạt động của nó#

Mask R-CNN sử dụng phương pháp từng bước để phát hiện và phân đoạn đối tượng một cách chính xác. Nó bắt đầu bằng việc trích xuất các đặc trưng chính bằng cách sử dụng mạng neural sâu (một model nhiều lớp học từ dữ liệu), sau đó xác định các khu vực đối tượng tiềm năng với mạng đề xuất vùng (một thành phần gợi ý các vùng đối tượng khả thi), và cuối cùng tinh chỉnh các khu vực này bằng cách tạo ra các mask phân đoạn chi tiết (đường viền chính xác của các đối tượng) nắm bắt hình dạng chính xác của từng đối tượng.

Tiếp theo, chúng ta sẽ đi qua từng bước để hiểu rõ hơn về cách Mask R-CNN hoạt động.

Tổng quan về kiến trúc Mask R-CNN

Hình 2. Tổng quan về kiến trúc của Mask R-CNN (Nguồn: researchgate.net).

Link to this sectionBắt đầu với việc trích xuất đặc trưng#

Bước đầu tiên trong kiến trúc của Mask R-CNN là chia nhỏ hình ảnh thành các phần chính để model có thể hiểu nội dung của nó. Hãy nghĩ về nó giống như khi bạn nhìn vào một bức ảnh và tự nhiên nhận thấy các chi tiết như hình dạng, màu sắc và cạnh. Model thực hiện điều tương tự bằng cách sử dụng một mạng neural sâu được gọi là "backbone" (thường là ResNet-50 hoặc ResNet-101), đóng vai trò như đôi mắt để quét hình ảnh và nắm bắt các chi tiết chính.

Vì các đối tượng trong hình ảnh có thể rất nhỏ hoặc rất lớn, Mask R-CNN sử dụng Feature Pyramid Network. Điều này giống như có nhiều kính lúp khác nhau cho phép model nhìn thấy cả chi tiết nhỏ và bức tranh toàn cảnh, đảm bảo rằng các đối tượng ở mọi kích thước đều được chú ý.

Sau khi các features được trích xuất quan trọng này hoàn tất, model sau đó chuyển sang định vị các đối tượng tiềm năng trong hình ảnh, chuẩn bị cơ sở cho các phân tích tiếp theo.

Link to this sectionGợi ý các khu vực tiềm năng trong hình ảnh có đối tượng#

Sau khi hình ảnh đã được xử lý để tìm các đặc trưng chính, Region Proposal Network sẽ đảm nhận nhiệm vụ. Phần này của model xem xét hình ảnh và gợi ý các khu vực có khả năng chứa đối tượng.

Nó thực hiện điều này bằng cách tạo ra nhiều vị trí đối tượng khả thi được gọi là anchors. Sau đó, mạng đánh giá các anchor này và chọn ra những cái hứa hẹn nhất để phân tích sâu hơn. Bằng cách này, model chỉ tập trung vào các khu vực có khả năng thú vị nhất, thay vì kiểm tra từng điểm trong hình ảnh.

Sơ đồ của Region Proposal Network

Hình 3. Một ví dụ về Region Proposal Network.

Link to this sectionNâng cao các đặc trưng đã trích xuất#

Với các khu vực chính đã được xác định, bước tiếp theo là tinh chỉnh các chi tiết trích xuất từ các vùng này. Các model trước đó đã sử dụng phương pháp gọi là ROI Pooling (Region of Interest Pooling) để lấy đặc trưng từ mỗi khu vực, nhưng kỹ thuật này đôi khi dẫn đến sai lệch nhỏ khi thay đổi kích thước vùng, khiến nó kém hiệu quả - đặc biệt là đối với các đối tượng nhỏ hơn hoặc chồng chéo.

Mask R-CNN cải thiện điều này bằng cách sử dụng kỹ thuật được gọi là ROI Align (Region of Interest Align). Thay vì làm tròn tọa độ như ROI Pooling, ROI Align sử dụng nội suy song tuyến (bilinear interpolation) để ước tính giá trị pixel chính xác hơn. Nội suy song tuyến là một phương pháp tính toán giá trị pixel mới bằng cách lấy trung bình các giá trị của bốn hàng xóm gần nhất, tạo ra các chuyển đổi mượt mà hơn. Điều này giữ cho các đặc trưng căn chỉnh đúng với hình ảnh gốc, dẫn đến khả năng phát hiện và phân đoạn đối tượng chính xác hơn.

Ví dụ, trong một trận bóng đá, hai cầu thủ đứng gần nhau có thể bị nhầm lẫn với nhau vì bbox của họ chồng chéo lên nhau. ROI Align giúp tách biệt họ bằng cách giữ cho hình dạng của họ riêng biệt.

Sơ đồ cách Mask R-CNN sử dụng ROI Align

Hình 4. Mask R-CNN sử dụng ROI Align.

Link to this sectionPhân loại đối tượng và dự đoán mask của chúng#

Sau khi ROI Align xử lý hình ảnh, bước tiếp theo là phân loại đối tượng và tinh chỉnh vị trí của chúng. Model xem xét từng vùng được trích xuất và quyết định đối tượng đó là gì. Nó gán một điểm xác suất cho các danh mục khác nhau và chọn kết quả khớp tốt nhất.

Đồng thời, nó điều chỉnh bbox để phù hợp hơn với các đối tượng. Các hộp ban đầu có thể không được đặt lý tưởng, vì vậy bước này giúp cải thiện độ chính xác bằng cách đảm bảo mỗi hộp bao quanh chặt chẽ đối tượng được phát hiện.

Cuối cùng, Mask R-CNN thực hiện một bước bổ sung: nó tạo ra một segmentation mask chi tiết cho từng đối tượng song song.

Link to this sectionMask R-CNN và các ứng dụng thời gian thực#

Khi model này ra đời, nó đã nhận được rất nhiều sự hào hứng từ cộng đồng AI và sớm được sử dụng trong nhiều ứng dụng khác nhau. Khả năng phát hiện và phân đoạn đối tượng trong thời gian thực đã tạo ra bước ngoặt cho các ngành công nghiệp khác nhau.

Ví dụ, tracking endangered animals trong tự nhiên là một nhiệm vụ đầy thử thách. Nhiều loài di chuyển qua các khu rừng rậm rạp, gây khó khăn cho các nhà bảo tồn trong việc theo dõi chúng. Các phương pháp truyền thống sử dụng camera bẫy, máy bay không người lái và hình ảnh vệ tinh, nhưng việc phân loại tất cả dữ liệu này bằng tay rất tốn thời gian. Việc nhận dạng sai và bỏ lỡ các lần xuất hiện có thể làm chậm nỗ lực bảo tồn.

Bằng cách nhận ra các đặc điểm độc đáo như sọc hổ, đốm hươu cao cổ hoặc hình dạng tai voi, Mask R-CNN có thể phát hiện và phân đoạn động vật trong hình ảnh và video với độ chính xác cao hơn. Ngay cả khi động vật bị cây cối che khuất một phần hoặc đứng gần nhau, model vẫn có thể tách biệt và nhận dạng từng cá thể, giúp việc giám sát động vật hoang dã nhanh hơn và đáng tin cậy hơn.

Phát hiện và phân đoạn động vật sử dụng Mask R-CNN

Hình 5. Phát hiện và phân đoạn động vật sử dụng Mask R-CNN.

Link to this sectionHạn chế của Mask R-CNN#

Mặc dù có ý nghĩa lịch sử trong phát hiện và phân đoạn đối tượng, Mask R-CNN cũng đi kèm với một số hạn chế chính. Dưới đây là một số thách thức liên quan đến Mask R-CNN:

  • High computational demand: Nó dựa vào các GPU mạnh mẽ, điều này có thể khiến việc chạy model trở nên đắt đỏ và chậm chạp khi xử lý lượng dữ liệu lớn.
  • Tốc độ xử lý chậm hơn: Quy trình đa giai đoạn của nó khiến nó chậm hơn so với các model thời gian thực nhanh hơn như YOLO, điều này có thể không lý tưởng cho các tác vụ đòi hỏi thời gian thực.
  • Phụ thuộc vào dữ liệu chất lượng cao: Model hoạt động tốt nhất với hình ảnh rõ nét, được dán nhãn tốt. Hình ảnh mờ hoặc thiếu sáng có thể làm giảm đáng kể độ chính xác của nó.
  • Triển khai phức tạp: Kiến trúc đa giai đoạn có thể khó thiết lập và tối ưu hóa, đặc biệt là khi làm việc với các tập dữ liệu lớn hoặc nguồn lực hạn chế.

Link to this sectionTừ Mask R-CNN đến Ultralytics YOLO11#

Mask R-CNN rất tuyệt vời cho các tác vụ phân đoạn, nhưng nhiều ngành công nghiệp đang tìm cách áp dụng computer vision trong khi ưu tiên tốc độ và hiệu suất thời gian thực. Yêu cầu này đã thúc đẩy các nhà nghiên cứu phát triển các model một giai đoạn (one-stage) giúp phát hiện đối tượng trong một lần truyền, cải thiện đáng kể hiệu suất.

Không giống như quy trình đa bước của Mask R-CNN, các computer vision models một giai đoạn như YOLO (You Only Look Once) tập trung vào các tác vụ computer vision thời gian thực. Thay vì xử lý phát hiện và phân đoạn riêng biệt, các model YOLO có thể phân tích hình ảnh trong một lượt. Điều này khiến nó lý tưởng cho các ứng dụng như xe tự lái, chăm sóc sức khỏe, sản xuất và robot, nơi việc ra quyết định nhanh chóng là rất quan trọng.

Đặc biệt, YOLO11 tiến xa hơn bằng cách vừa nhanh vừa chính xác. Nó sử dụng ít hơn 22% tham số so với YOLOv8m nhưng vẫn đạt được mAP cao hơn trên tập dữ liệu COCO, nghĩa là nó phát hiện đối tượng chính xác hơn. Tốc độ xử lý được cải thiện của nó khiến nó trở thành lựa chọn tốt cho các ứng dụng thời gian thực nơi mỗi mili giây đều quan trọng.

Hiệu suất của YOLO11 so với các model khác

Hình 6. Hiệu suất của YOLO11 so với các model khác.

Link to this sectionCác điểm chính cần lưu ý#

Nhìn lại lịch sử của computer vision, Mask R-CNN được công nhận là một bước đột phá lớn trong phát hiện và phân đoạn đối tượng. Nó mang lại kết quả rất chính xác ngay cả trong các thiết lập phức tạp, nhờ vào quy trình đa bước chi tiết của nó.

Tuy nhiên, quy trình tương tự này khiến nó chậm hơn so với các model thời gian thực như YOLO. Khi nhu cầu về tốc độ và hiệu suất tăng lên, nhiều ứng dụng hiện nay sử dụng các model một giai đoạn như Ultralytics YOLO11, cung cấp khả năng phát hiện đối tượng nhanh và chính xác. Mặc dù Mask R-CNN quan trọng trong việc hiểu về sự phát triển của computer vision, nhưng xu hướng hướng tới các giải pháp thời gian thực làm nổi bật nhu cầu ngày càng tăng đối với các giải pháp computer vision nhanh hơn và hiệu quả hơn.

Hãy tham gia community đang phát triển của chúng tôi! Khám phá GitHub repository của chúng tôi để tìm hiểu thêm về AI. Bạn đã sẵn sàng bắt đầu các dự án thị giác máy tính của riêng mình chưa? Hãy kiểm tra các licensing options. Khám phá AI in agriculturevision AI in healthcare bằng cách truy cập các trang giải pháp của chúng tôi!

Explore solutions

Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang thị giác máy tính AI vào nông nghiệp thông minh với các model Ultralytics YOLO. Thúc đẩy giám sát cây trồng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn và thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong ngành ô tô

Ứng dụng thị giác máy tính trong ngành ô tô với các model Ultralytics YOLO. AI thị giác giúp nâng cao an toàn giao thông, hỗ trợ người lái và tự động hóa phương tiện để có những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp chăm sóc sức khỏe với các model Ultralytics YOLO. AI thị giác trong chăm sóc sức khỏe giúp tăng tốc chẩn đoán hình ảnh y tế, chẩn đoán thông minh hơn và theo dõi bệnh nhân tốt hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Bán lẻ

Tái định hình ngành bán lẻ với các model Ultralytics YOLO. Vision AI hỗ trợ theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và cung cấp thông tin chuyên sâu về khách hàng một cách thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Cung cấp sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong ngành robot thúc đẩy điều hướng tự động, nhận diện, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Sản xuất

Tối ưu hóa quy trình sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra kiện hàng, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi theo thời gian thực.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang thị giác máy tính AI vào nông nghiệp thông minh với các model Ultralytics YOLO. Thúc đẩy giám sát cây trồng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn và thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong ngành ô tô

Ứng dụng thị giác máy tính trong ngành ô tô với các model Ultralytics YOLO. AI thị giác giúp nâng cao an toàn giao thông, hỗ trợ người lái và tự động hóa phương tiện để có những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp chăm sóc sức khỏe với các model Ultralytics YOLO. AI thị giác trong chăm sóc sức khỏe giúp tăng tốc chẩn đoán hình ảnh y tế, chẩn đoán thông minh hơn và theo dõi bệnh nhân tốt hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Bán lẻ

Tái định hình ngành bán lẻ với các model Ultralytics YOLO. Vision AI hỗ trợ theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và cung cấp thông tin chuyên sâu về khách hàng một cách thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Cung cấp sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong ngành robot thúc đẩy điều hướng tự động, nhận diện, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Sản xuất

Tối ưu hóa quy trình sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra kiện hàng, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi theo thời gian thực.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang thị giác máy tính AI vào nông nghiệp thông minh với các model Ultralytics YOLO. Thúc đẩy giám sát cây trồng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn và thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong ngành ô tô

Ứng dụng thị giác máy tính trong ngành ô tô với các model Ultralytics YOLO. AI thị giác giúp nâng cao an toàn giao thông, hỗ trợ người lái và tự động hóa phương tiện để có những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp chăm sóc sức khỏe với các model Ultralytics YOLO. AI thị giác trong chăm sóc sức khỏe giúp tăng tốc chẩn đoán hình ảnh y tế, chẩn đoán thông minh hơn và theo dõi bệnh nhân tốt hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Bán lẻ

Tái định hình ngành bán lẻ với các model Ultralytics YOLO. Vision AI hỗ trợ theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và cung cấp thông tin chuyên sâu về khách hàng một cách thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Cung cấp sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong ngành robot thúc đẩy điều hướng tự động, nhận diện, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Sản xuất

Tối ưu hóa quy trình sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra kiện hàng, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi theo thời gian thực.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning