Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Các mô hình phát hiện đối tượng tốt nhất năm 2025

Khám phá những mô hình phát hiện đối tượng tốt nhất năm 2025, cùng với cái nhìn về các kiến trúc phổ biến, sự đánh đổi về hiệu năng và các yếu tố triển khai thực tế.

Đầu năm nay, Andrew Ng, một người tiên phong trong lĩnh vực trí tuệ nhân tạo và máy học, đã giới thiệu khái niệm phát hiện đối tượng bằng tác nhân. Phương pháp này sử dụng một tác nhân suy luận để... detect các đối tượng dựa trên lời nhắc bằng văn bản mà không cần lượng dữ liệu huấn luyện khổng lồ. 

Khả năng nhận diện đối tượng trong hình ảnh và video mà không cần đến các tập dữ liệu được gắn nhãn khổng lồ là một bước tiến hướng tới các hệ thống thị giác máy tính thông minh và linh hoạt hơn. Tuy nhiên, Trí tuệ nhân tạo thị giác dựa trên tác nhân vẫn đang trong giai đoạn sơ khai. 

Mặc dù có thể xử lý các tác vụ tổng quát, chẳng hạn như phát hiện người hoặc biển báo đường phố trong ảnh, nhưng các ứng dụng thị giác máy tính chính xác hơn vẫn dựa vào các mô hình phát hiện đối tượng truyền thống. Các mô hình này được huấn luyện trên các tập dữ liệu lớn, được gắn nhãn cẩn thận để học chính xác những gì cần tìm và vị trí của các đối tượng.

Hình 1. Một ví dụ về phát hiện đối tượng. ( Nguồn )

Nhận diện đối tượng truyền thống rất cần thiết vì nó cung cấp cả khả năng nhận dạng, xác định đối tượng là gì, và khả năng định vị, xác định chính xác vị trí của đối tượng trong hình ảnh. Sự kết hợp này cho phép máy móc thực hiện các nhiệm vụ phức tạp trong thế giới thực một cách đáng tin cậy, từ xe tự hành đến tự động hóa công nghiệp và chẩn đoán y tế.

Nhờ những tiến bộ công nghệ, các mô hình phát hiện đối tượng đang ngày càng được cải thiện, trở nên nhanh hơn, chính xác hơn và phù hợp hơn với môi trường thực tế. Trong bài viết này, chúng ta sẽ cùng tìm hiểu một số mô hình phát hiện đối tượng tốt nhất hiện nay. Bắt đầu nào!

Nhu cầu phát hiện đối tượng

Các tác vụ thị giác máy tính như phân loại hình ảnh có thể được sử dụng để xác định xem một hình ảnh có chứa ô tô, người hay vật thể khác hay không. Tuy nhiên, chúng không thể xác định vị trí của vật thể đó trong hình ảnh.

Đây là lúc việc phát hiện đối tượng có thể mang lại những hiểu biết sâu sắc. Các mô hình phát hiện đối tượng có thể xác định những đối tượng nào đang hiện diện và cũng xác định chính xác vị trí của chúng. Quá trình này, được gọi là định vị, cho phép máy móc hiểu các khung cảnh chính xác hơn và phản hồi phù hợp, cho dù đó là dừng một chiếc xe tự lái, hướng dẫn cánh tay robot hay làm nổi bật một khu vực trong hình ảnh y tế.

Sự trỗi dậy của học sâu đã làm thay đổi hoàn toàn việc phát hiện đối tượng. Thay vì dựa vào các quy tắc được viết thủ công, các mô hình hiện đại học các mẫu trực tiếp từ chú thích và dữ liệu hình ảnh. Các tập dữ liệu này dạy cho các mô hình biết đối tượng trông như thế nào, chúng thường xuất hiện ở đâu và cách xử lý các thách thức như đối tượng nhỏ, cảnh lộn xộn hoặc điều kiện ánh sáng thay đổi.

Trên thực tế, các hệ thống phát hiện vật thể hiện đại có thể chính xác. detect Nhận diện nhiều vật thể cùng một lúc. Điều này khiến nhận diện vật thể trở thành một công nghệ quan trọng trong các ứng dụng như lái xe tự hành, robot, chăm sóc sức khỏe và tự động hóa công nghiệp.

Cách thức hoạt động của các tác vụ phát hiện đối tượng

Đầu vào của mô hình phát hiện đối tượng là một hình ảnh, có thể đến từ máy ảnh, khung hình video hoặc thậm chí là ảnh chụp y tế. Hình ảnh đầu vào được xử lý thông qua mạng nơ-ron, thường là mạng nơ-ron tích chập (CNN), được huấn luyện để nhận dạng các mẫu trong dữ liệu hình ảnh.

Bên trong mạng lưới, hình ảnh được phân tích theo từng giai đoạn. Dựa trên các đặc điểm được phát hiện, mô hình dự đoán những đối tượng nào có mặt và vị trí xuất hiện của chúng. 

Những dự đoán này được biểu diễn bằng các hộp giới hạn, là các hình chữ nhật được vẽ xung quanh mỗi đối tượng được phát hiện. Đối với mỗi hộp giới hạn, mô hình gán một nhãn lớp (ví dụ: ô tô, người hoặc chó) và một điểm tin cậy cho biết mức độ chắc chắn của nó về dự đoán (điều này cũng có thể được coi là xác suất).

Hình 2. Dự đoán phát hiện đối tượng có thể được trực quan hóa bằng cách sử dụng các hộp giới hạn.

Toàn bộ quy trình phụ thuộc rất nhiều vào việc trích xuất đặc trưng. Mô hình học cách xác định các mẫu hình ảnh hữu ích, chẳng hạn như cạnh, hình dạng, kết cấu và các đặc điểm phân biệt khác. Các mẫu này được mã hóa trong bản đồ đặc trưng, giúp mạng hiểu hình ảnh ở nhiều mức độ chi tiết khác nhau.

Phát hiện vật thể: Hai giai đoạn và một giai đoạn

Tùy thuộc vào kiến trúc mô hình, các bộ phát hiện đối tượng sử dụng các chiến lược khác nhau để định vị đối tượng, cân bằng giữa tốc độ, độ chính xác và độ phức tạp.

Nhiều mô hình phát hiện đối tượng, đặc biệt là các bộ phát hiện hai giai đoạn như Faster R-CNN, tập trung vào các phần cụ thể của hình ảnh được gọi là vùng quan tâm (ROI). Bằng cách tập trung vào các khu vực này, mô hình ưu tiên các vùng có nhiều khả năng chứa đối tượng hơn thay vì phân tích mọi pixel như nhau. 

Mặt khác, các mô hình một giai đoạn như giai đoạn đầu YOLO Các mô hình này không chọn các vùng quan tâm (ROI) cụ thể như các mô hình hai giai đoạn. Thay vào đó, chúng chia hình ảnh thành một lưới và sử dụng các hộp được xác định trước, được gọi là hộp neo, cùng với các bản đồ đặc trưng để dự đoán các đối tượng trên toàn bộ hình ảnh chỉ trong một lần xử lý. 

Hiện nay, các mô hình phát hiện đối tượng tiên tiến đang khám phá các phương pháp không cần anchor. Không giống như các mô hình một giai đoạn truyền thống dựa vào các hộp anchor được xác định trước, các mô hình không cần anchor dự đoán vị trí và kích thước của đối tượng trực tiếp từ bản đồ đặc trưng. Điều này có thể đơn giản hóa kiến trúc, giảm chi phí tính toán và cải thiện hiệu suất, đặc biệt là trong việc phát hiện các đối tượng có hình dạng và kích thước khác nhau.

Cùng tìm hiểu về các mô hình phát hiện đối tượng tốt nhất.

Hiện nay, có rất nhiều mô hình phát hiện đối tượng, mỗi mô hình được thiết kế với những mục tiêu cụ thể. Một số được tối ưu hóa cho hiệu suất thời gian thực, trong khi những mô hình khác tập trung vào việc đạt được độ chính xác cao nhất. Việc lựa chọn mô hình phù hợp cho giải pháp thị giác máy tính thường phụ thuộc vào trường hợp sử dụng cụ thể và yêu cầu hiệu suất của bạn.

Tiếp theo, hãy cùng khám phá một số mô hình phát hiện đối tượng tốt nhất năm 2025. 

1. Ultralytics YOLO mô hình

Một trong những nhóm mô hình phát hiện đối tượng được sử dụng rộng rãi nhất hiện nay là... Ultralytics YOLO gia đình kiểu mẫu. YOLO , viết tắt của You Only Look Once (Bạn Chỉ Nhìn Một Lần), rất phổ biến trong nhiều ngành công nghiệp vì nó mang lại hiệu suất phát hiện mạnh mẽ đồng thời nhanh chóng, đáng tin cậy và dễ sử dụng.

Cái Ultralytics YOLO Dòng sản phẩm này bao gồm Ultralytics YOLOv5 , Ultralytics YOLOv8 , Ultralytics YOLO11Ultralytics YOLO26 sắp ra mắt, cung cấp nhiều tùy chọn cho các yêu cầu về hiệu năng và trường hợp sử dụng khác nhau. Nhờ thiết kế gọn nhẹ và tối ưu hóa tốc độ, Ultralytics YOLO Các mô hình này lý tưởng cho việc phát hiện trong thời gian thực và có thể được triển khai trên các thiết bị biên với sức mạnh tính toán và bộ nhớ hạn chế.

Hình 3. Sử dụng Ultralytics YOLO11 để phát hiện đối tượng ( Nguồn )

Ngoài khả năng phát hiện đối tượng cơ bản, các mô hình này còn rất linh hoạt. Chúng cũng hỗ trợ các tác vụ như phân đoạn đối tượng (instance segmentation), giúp xác định đường viền của đối tượng ở cấp độ pixel, và ước lượng tư thế (pose estimation), giúp xác định các điểm chính trên người hoặc vật thể. Tính linh hoạt này giúp... Ultralytics YOLO Mô hình này là lựa chọn tối ưu cho nhiều ứng dụng khác nhau, từ nông nghiệp và hậu cần đến bán lẻ và sản xuất.

Một lý do quan trọng khác giải thích cho sự phổ biến của Ultralytics YOLO `models` là gói Python Ultralytics , cung cấp giao diện đơn giản và thân thiện với người dùng để huấn luyện, tinh chỉnh và triển khai các mô hình. Các nhà phát triển có thể bắt đầu với trọng số được huấn luyện trước, tùy chỉnh các mô hình cho tập dữ liệu của riêng họ và triển khai chúng chỉ với một vài dòng mã.

2. RT-DETR Và RT-DETRv2

RT-DETR (Real-Time Detection Transformer) và RT-DETRv2 mới hơn là các mô hình phát hiện đối tượng được xây dựng để sử dụng trong thời gian thực. Không giống như nhiều mô hình truyền thống, chúng có thể nhận một hình ảnh và đưa ra kết quả phát hiện cuối cùng trực tiếp mà không cần sử dụng phương pháp loại bỏ cực đại cục bộ (non-maximum suppression). NMS ).

NMS Đây là một bước loại bỏ các hộp chồng chéo thừa khi mô hình dự đoán cùng một đối tượng nhiều hơn một lần. Bỏ qua NMS Giúp quá trình phát hiện trở nên đơn giản và nhanh chóng hơn.

Các mô hình này kết hợp mạng nơ-ron tích chập (CNN) với mạng biến đổi (Transformer). CNN tìm kiếm các chi tiết hình ảnh như cạnh và hình dạng, trong khi Transformer là một loại mạng nơ-ron có thể xem toàn bộ hình ảnh cùng một lúc và hiểu được mối quan hệ giữa các phần khác nhau. Sự hiểu biết toàn diện này cho phép mô hình... detect Các vật thể ở gần nhau hoặc chồng lên nhau.

RT-DETRv2 cải tiến mô hình gốc với các tính năng như phát hiện đa tỷ lệ, giúp tìm thấy cả vật thể nhỏ và lớn, và xử lý tốt hơn các cảnh phức tạp. Những thay đổi này giúp mô hình hoạt động nhanh chóng trong khi cải thiện độ chính xác.

3. RF-DETR

RF-DETR là một mô hình dựa trên Transformer hoạt động theo thời gian thực, được thiết kế để kết hợp độ chính xác của kiến trúc Transformer với tốc độ cần thiết cho các ứng dụng thực tế. Giống như RT-DETR và RT-DETRv2, nó sử dụng Transformer để phân tích toàn bộ hình ảnh và mạng CNN để trích xuất các đặc điểm hình ảnh chi tiết như cạnh, hình dạng và kết cấu. 

Mô hình dự đoán các đối tượng trực tiếp từ ảnh đầu vào, bỏ qua các hộp neo và phương pháp loại bỏ cực đại cục bộ, giúp đơn giản hóa quá trình phát hiện và giữ cho quá trình suy luận nhanh chóng. RF-DETR cũng hỗ trợ phân đoạn đối tượng, cho phép nó phác thảo các đối tượng ở cấp độ pixel ngoài việc dự đoán các hộp giới hạn.

4. EfficientDet 

Ra mắt vào cuối năm 2019, EfficientDet là một mô hình phát hiện đối tượng được thiết kế để mở rộng quy mô hiệu quả và đạt hiệu suất cao. Điều làm nên sự khác biệt của EfficientDet là khả năng mở rộng quy mô kết hợp, một phương pháp mở rộng độ phân giải đầu vào, độ sâu mạng và chiều rộng mạng đồng thời thay vì chỉ điều chỉnh một yếu tố. Cách tiếp cận này giúp mô hình duy trì độ chính xác ổn định cho dù được mở rộng quy mô cho các tác vụ hiệu suất cao hay thu nhỏ quy mô cho các triển khai nhẹ.

Một thành phần quan trọng khác của EfficientDet là mạng lưới kim tự tháp đặc trưng hiệu quả (FPN), cho phép mô hình phân tích hình ảnh ở nhiều tỷ lệ khác nhau. Phân tích đa tỷ lệ này rất quan trọng để phát hiện các đối tượng có kích thước khác nhau, giúp EfficientDet có thể nhận diện đáng tin cậy cả các đối tượng nhỏ và lớn trong cùng một hình ảnh.

5. PP-YOLOE+

Được phát hành vào năm 2022, PP-YOLOE+ là một sản phẩm YOLO Mô hình phát hiện đối tượng kiểu này có nghĩa là nó phát hiện và phân loại đối tượng chỉ trong một lần quét ảnh. Cách tiếp cận này giúp nó nhanh chóng và phù hợp với các ứng dụng thời gian thực, đồng thời vẫn duy trì độ chính xác cao.

Một trong những cải tiến quan trọng trong PP-YOLOE+ là khả năng học tập phù hợp với nhiệm vụ, giúp điểm số độ tin cậy của mô hình phản ánh chính xác vị trí của các đối tượng. Điều này đặc biệt hữu ích cho việc phát hiện các đối tượng nhỏ hoặc chồng chéo.

Hình 4. Phát hiện đối tượng bằng PP-YOLOE+ ( Nguồn )

Mô hình này cũng sử dụng kiến trúc đầu tách rời, giúp phân tách nhiệm vụ dự đoán vị trí đối tượng và nhãn lớp. Điều này cho phép nó vẽ các khung bao quanh chính xác hơn trong khi vẫn phân loại đối tượng một cách chính xác. 

6. GroundingDINO

GroundingDINO là một mô hình phát hiện đối tượng dựa trên Transformer, kết hợp giữa thị giác và ngôn ngữ. Thay vì dựa vào một tập hợp các danh mục cố định, nó cho phép người dùng... detect các đối tượng sử dụng lời nhắc văn bản bằng ngôn ngữ tự nhiên. 

Bằng cách kết hợp các đặc điểm hình ảnh với mô tả văn bản, mô hình có thể định vị các đối tượng ngay cả khi các nhãn chính xác đó không có trong dữ liệu huấn luyện của nó. Điều này có nghĩa là bạn có thể cung cấp cho mô hình các mô tả như "một người đội mũ bảo hiểm" hoặc "một chiếc xe màu đỏ gần một tòa nhà", và nó sẽ tạo ra các khung bao chính xác xung quanh các đối tượng phù hợp. 

Hơn nữa, bằng cách hỗ trợ phát hiện không cần huấn luyện lại (zero-shot detection), GroundingDINO giảm thiểu nhu cầu huấn luyện lại hoặc tinh chỉnh mô hình cho mỗi trường hợp sử dụng mới, giúp nó linh hoạt cao trong nhiều ứng dụng khác nhau. Sự kết hợp giữa khả năng hiểu ngôn ngữ và nhận diện hình ảnh này mở ra những khả năng mới cho các hệ thống AI tương tác và thích ứng.

Các chỉ số thường dùng để đánh giá bộ phát hiện đối tượng

Khi so sánh các mô hình phát hiện đối tượng khác nhau, bạn có thể tự hỏi làm thế nào để biết mô hình nào thực sự hoạt động tốt nhất. Đó là một câu hỏi hay, bởi vì ngoài kiến trúc mô hình và chất lượng dữ liệu, nhiều yếu tố khác có thể ảnh hưởng đến hiệu suất. 

Các nhà nghiên cứu thường dựa vào các tiêu chuẩn chung và các chỉ số hiệu suất tiêu chuẩn để đánh giá các mô hình một cách nhất quán, so sánh kết quả và hiểu rõ sự đánh đổi giữa tốc độ và độ chính xác. Các tiêu chuẩn chung đặc biệt quan trọng vì nhiều mô hình phát hiện đối tượng được đánh giá trên cùng một tập dữ liệu, chẳng hạn như... COCO tập dữ liệu. 

Đo độ chính xác và tốc độ phát hiện

Dưới đây là một cái nhìn chi tiết hơn về một số chỉ số phổ biến được sử dụng để đánh giá các mô hình phát hiện đối tượng:

  • Chỉ số giao nhau trên hợp nhất ( IoU ): Chỉ số này đo lường mức độ chồng lấp giữa hộp giới hạn được dự đoán và đối tượng thực tế trong ảnh. Nó so sánh hộp do mô hình vẽ với hộp thực tế, tức là vị trí của đối tượng được ghi nhãn trong tập dữ liệu. IoU được tính bằng diện tích phần chồng chéo chia cho diện tích phần hợp của hai hình hộp. Giá trị càng cao thì càng tốt. IoU Điều này cho thấy mô hình đang đặt hộp chính xác hơn, trong khi mức thấp hơn IoU Điều đó có nghĩa là dự đoán kém chính xác hơn. Nói một cách đơn giản, IoU Điều này cho thấy mức độ phù hợp giữa dự đoán của mô hình và vị trí thực tế của các vật thể.
  • Độ chính xác trung bình ( mAP ) : Đây là chỉ số chính được sử dụng để đánh giá hiệu suất tổng thể của việc phát hiện đối tượng. Nó xem xét cả số lượng đối tượng mà mô hình phát hiện chính xác và độ chính xác của các phát hiện đó trên các mức độ tin cậy và danh mục đối tượng khác nhau.
  • Tốc độ khung hình (FPS) và độ trễ : FPS cho biết số lượng hình ảnh hoặc khung hình video mà mô hình có thể xử lý trong một giây. Ví dụ, một mô hình chạy ở tốc độ 30 FPS có thể xử lý 30 khung hình mỗi giây. FPS càng cao thì hệ thống càng phản hồi nhanh hơn, điều này rất quan trọng đối với các trường hợp sử dụng như video trực tiếp, giám sát giao thông hoặc robot. Mặt khác, độ trễ đo lường thời gian mô hình cần để xử lý một hình ảnh hoặc khung hình duy nhất, từ lúc nhận được đến khi kết quả sẵn sàng.

Ưu điểm và nhược điểm của việc sử dụng thuật toán phát hiện đối tượng

Dưới đây là một số ưu điểm chính của việc sử dụng mô hình phát hiện đối tượng trong các ứng dụng thực tế:

  • Ứng dụng rộng rãi trong nhiều ngành: Phát hiện đối tượng có thể được áp dụng cho nhiều trường hợp sử dụng, từ giám sát giao thông và phân tích bán lẻ đến chăm sóc sức khỏe, nông nghiệp và sản xuất.
  • Giảm thiểu công sức thủ công: Tự động hóa các tác vụ kiểm tra và giám sát trực quan giúp giảm nhu cầu giám sát liên tục của con người và giúp các nhóm tập trung vào những công việc có giá trị cao hơn.
  • Lợi ích từ hệ sinh thái mã nguồn mở: Cộng đồng mã nguồn mở năng động và các nguồn tài nguyên trên GitHub giúp dễ dàng tiếp cận các mô hình đã được huấn luyện sẵn, thử nghiệm và tùy chỉnh các giải pháp.

Mặc dù có những ưu điểm này, vẫn có những hạn chế thực tế có thể ảnh hưởng đến hiệu suất của các mô hình phát hiện đối tượng. Dưới đây là một số yếu tố quan trọng cần xem xét:

  • Yêu cầu về dữ liệu chất lượng cao: Các mô hình phát hiện đối tượng dựa vào các tập dữ liệu lớn, được chú thích đầy đủ để huấn luyện. Việc tạo và duy trì dữ liệu này có thể tốn thời gian, chi phí và khó mở rộng quy mô.
  • Yêu cầu về tính toán: Các mô hình mang lại độ chính xác phát hiện cao hơn thường đòi hỏi sức mạnh xử lý đáng kể, cả trong quá trình huấn luyện và triển khai thời gian thực. Điều này thường có nghĩa là sử dụng GPU hiệu năng cao, có thể làm tăng chi phí cơ sở hạ tầng.
  • Độ nhạy với điều kiện thực tế: Sự thay đổi về ánh sáng, góc máy quay, thời tiết và khung cảnh đông đúc có thể ảnh hưởng đến hiệu suất phát hiện, do đó việc thử nghiệm và tinh chỉnh liên tục là cần thiết.

Những điều cần nhớ 

Mô hình phát hiện đối tượng tốt nhất cho dự án thị giác máy tính của bạn phụ thuộc vào trường hợp sử dụng, thiết lập dữ liệu, yêu cầu hiệu năng và hạn chế phần cứng. Một số mô hình được tối ưu hóa cho tốc độ, trong khi những mô hình khác tập trung vào độ chính xác, và hầu hết các ứng dụng thực tế cần sự cân bằng giữa cả hai. Nhờ các framework mã nguồn mở và cộng đồng năng động trên GitHub, việc đánh giá, điều chỉnh và triển khai các mô hình này để sử dụng thực tế ngày càng trở nên dễ dàng hơn.

Để tìm hiểu thêm, hãy khám phá kho lưu trữ GitHub của chúng tôi. Tham gia cộng đồng của chúng tôi và xem các trang giải pháp để tìm hiểu về các ứng dụng như trí tuệ nhân tạo trong chăm sóc sức khỏethị giác máy tính trong ngành công nghiệp ô tô . Khám phá các tùy chọn cấp phép của chúng tôi để bắt đầu sử dụng Vision AI ngay hôm nay.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí