Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

So sánh Ultralytics YOLO11 với các mô hình YOLO trước đây

Abirami Vina

4 phút đọc

Ngày 2 tháng 4 năm 2025

So sánh Ultralytics YOLOv8, YOLOv9, YOLOv10 và Ultralytics YOLO11 để hiểu cách các mô hình này đã phát triển và cải thiện từ năm 2023 đến năm 2025.

Từ việc tự động hóa các tác vụ hàng ngày đến giúp đưa ra các quyết định sáng suốt trong thời gian thực, trí tuệ nhân tạo (AI) đang định hình lại tương lai của nhiều ngành công nghiệp khác nhau. Một lĩnh vực đặc biệt hấp dẫn của AI là thị giác máy tính, còn được gọi là Vision AI. Nó tập trung vào việc cho phép máy móc phân tích và diễn giải dữ liệu trực quan giống như con người. 

Đặc biệt, các mô hình thị giác máy tính đang thúc đẩy những đổi mới giúp tăng cường cả sự an toàn và hiệu quả. Ví dụ: các mô hình này được sử dụng trong xe tự lái để phát hiện người đi bộ và trong camera an ninh để giám sát cơ sở 24/7. 

Một số mô hình thị giác máy tính nổi tiếng nhất là các mô hình YOLO (You Only Look Once), được biết đến với khả năng phát hiện đối tượng theo thời gian thực. Theo thời gian, các mô hình YOLO đã được cải thiện, với mỗi phiên bản mới mang lại hiệu suất tốt hơn và tính linh hoạt cao hơn.

Các phiên bản mới hơn như Ultralytics YOLO11 có thể xử lý nhiều tác vụ khác nhau, như phân đoạn thể hiện, phân loại hình ảnh, ước tính tư thế và theo dõi đa đối tượng, với độ chính xác, tốc độ và độ tin cậy cao hơn bao giờ hết.

Trong bài viết này, chúng ta sẽ so sánh Ultralytics YOLOv8, YOLOv9, YOLOv10 và Ultralytics YOLO11 để hiểu rõ hơn về cách các mô hình này đã phát triển. Chúng ta sẽ phân tích các tính năng chính, kết quả điểm chuẩn và sự khác biệt về hiệu suất của chúng. Hãy bắt đầu!

Tổng quan về Ultralytics YOLOv8

YOLOv8, được Ultralytics phát hành vào ngày 10 tháng 1 năm 2023, là một bước tiến lớn so với các mô hình YOLO trước đó. Nó được tối ưu hóa để phát hiện chính xác, theo thời gian thực, kết hợp các phương pháp đã được kiểm chứng kỹ lưỡng với các cải tiến mang tính đột phá để có kết quả tốt hơn.

Vượt xa phát hiện đối tượng, nó còn hỗ trợ các tác vụ thị giác máy tính sau: phân vùng thể hiện, ước tính tư thế, phát hiện đối tượng bằng hộp giới hạn có hướng (OBB) và phân loại hình ảnh. Một tính năng quan trọng khác của YOLOv8 là nó có sẵn dưới dạng năm biến thể mô hình khác nhau - Nano, Small, Medium, Large và X - để bạn có thể chọn sự cân bằng phù hợp giữa tốc độ và độ chính xác dựa trên nhu cầu của mình.

Do tính linh hoạt và hiệu suất mạnh mẽ, YOLOv8 có thể được sử dụng trong nhiều ứng dụng thực tế, như hệ thống an ninh, thành phố thông minh, chăm sóc sức khỏe và tự động hóa công nghiệp.

__wf_reserved_inherit
Hình 1. Quản lý bãi đỗ xe trong các thành phố thông minh với YOLOv8.

Các tính năng chính của YOLOv8

Sau đây là cái nhìn cận cảnh hơn về một số tính năng quan trọng khác của YOLOv8:

  • Kiến trúc phát hiện nâng cao: YOLOv8 sử dụng backbone CSPDarknet được cải tiến. Backbone này được tối ưu hóa để trích xuất đặc trưng - quá trình xác định và nắm bắt các mẫu hoặc chi tiết quan trọng từ hình ảnh đầu vào giúp mô hình đưa ra các dự đoán chính xác.

  • Đầu dò tìm: Nó sử dụng thiết kế không neo, tách rời, có nghĩa là nó không dựa vào các hình dạng hộp giới hạn được đặt trước (neo) và thay vào đó học cách dự đoán trực tiếp vị trí đối tượng. Do thiết lập tách rời, các nhiệm vụ phân loại đối tượng là gì và dự đoán vị trí của nó (hồi quy) được xử lý riêng biệt, điều này giúp cải thiện độ chính xác và tăng tốc quá trình huấn luyện.

  • Cân bằng độ chính xác và tốc độ: Mô hình này đạt được độ chính xác ấn tượng đồng thời duy trì thời gian suy luận nhanh, khiến nó phù hợp cho cả môi trường đám mây và edge.

  • Thân thiện với người dùng: YOLOv8 được thiết kế để dễ dàng bắt đầu - bạn có thể bắt đầu dự đoán và xem kết quả chỉ trong vài phút bằng cách sử dụng gói Ultralytics Python.

YOLOv9 tập trung vào hiệu quả tính toán

YOLOv9 được Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin, Academia Sinica, Đài Loan phát hành vào ngày 21 tháng 2 năm 2024. Nó hỗ trợ các tác vụ như nhận diện đối tượng và phân vùng thực thể (instance segmentation)

Mô hình này được xây dựng dựa trên Ultralytics YOLOv5 và giới thiệu hai cải tiến lớn: Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN). 

PGI giúp YOLOv9 giữ lại thông tin quan trọng khi nó xử lý dữ liệu thông qua các lớp của nó, điều này dẫn đến kết quả chính xác hơn. Trong khi đó, GELAN cải thiện cách mô hình sử dụng các lớp của nó, tăng cường hiệu suất và hiệu quả tính toán. Nhờ những nâng cấp này, YOLOv9 có thể xử lý các tác vụ thời gian thực trên các thiết bị biên và ứng dụng di động, nơi tài nguyên tính toán thường bị hạn chế.

__wf_reserved_inherit
Hình 2. Tìm hiểu cách GELAN cải thiện độ chính xác của YOLOv9.

Các tính năng chính của YOLOv9

Sau đây là một cái nhìn thoáng qua về một số tính năng quan trọng khác của YOLOv8:

  • Độ chính xác cao với hiệu quả: YOLOv9 mang lại độ chính xác phát hiện cao mà không tiêu tốn nhiều sức mạnh tính toán, khiến nó trở thành một lựa chọn tuyệt vời khi tài nguyên bị hạn chế.
  • Mô hình nhẹ: Các biến thể mô hình nhẹ của YOLOv9 được tối ưu hóa cho các triển khai edge và di động. 
  • Dễ sử dụng: YOLOv9 được hỗ trợ bởi gói Ultralytics Python, vì vậy rất dễ thiết lập và chạy trong các môi trường khác nhau, cho dù bạn đang sử dụng code hay dòng lệnh.

YOLOv10 cho phép phát hiện đối tượng không cần NMS

YOLOv10 được giới thiệu vào ngày 23 tháng 5 năm 2024 bởi các nhà nghiên cứu từ Đại học Thanh Hoa và tập trung vào phát hiện đối tượng theo thời gian thực. Nó giải quyết những hạn chế trong các phiên bản YOLO trước đó bằng cách loại bỏ sự cần thiết của non-maximum suppression (NMS), một bước xử lý hậu kỳ được sử dụng để loại bỏ các phát hiện trùng lặp và tinh chỉnh thiết kế mô hình tổng thể. Điều này mang lại khả năng phát hiện đối tượng nhanh hơn và hiệu quả hơn, đồng thời vẫn đạt được độ chính xác hiện đại.

Một yếu tố quan trọng làm nên điều này là phương pháp huấn luyện được gọi là gán nhãn kép nhất quán. Nó kết hợp hai chiến lược: một cho phép nhiều dự đoán học hỏi từ cùng một đối tượng (một-đến-nhiều) và một tập trung vào việc chọn dự đoán đơn tốt nhất (một-đến-một). Vì cả hai chiến lược đều tuân theo các quy tắc khớp nối giống nhau, mô hình tự học cách tránh trùng lặp, do đó không cần NMS.

__wf_reserved_inherit
Hình 3. YOLOv10 sử dụng gán nhãn kép nhất quán để huấn luyện không cần NMS.

Kiến trúc của YOLOv10 cũng sử dụng xương sống CSPNet được cải tiến để học các đặc trưng hiệu quả hơn và phần neck PAN (Path Aggregation Network) kết hợp thông tin từ các lớp khác nhau, giúp nó phát hiện các đối tượng nhỏ và lớn tốt hơn. Những cải tiến này giúp có thể sử dụng YOLOv10 cho các ứng dụng thực tế trong sản xuất, bán lẻ và lái xe tự động.

Các tính năng chính của YOLOv10

Dưới đây là một số tính năng nổi bật khác của YOLOv10:

  • Tích chập kernel lớn: Mô hình sử dụng tích chập kernel lớn để nắm bắt nhiều ngữ cảnh hơn từ các khu vực rộng hơn của hình ảnh, giúp nó hiểu rõ hơn về toàn bộ cảnh.
  • Các mô-đun tự chú ý cục bộ: Mô hình kết hợp các mô-đun tự chú ý cục bộ để tập trung vào các phần quan trọng nhất của hình ảnh mà không sử dụng quá nhiều sức mạnh tính toán, giúp tăng hiệu suất một cách hiệu quả.
  • Biến thể mô hình độc đáo: Bên cạnh các kích thước YOLOv10 thông thường - Nano, Small, Medium, Large và X - còn có một phiên bản đặc biệt gọi là YOLOv10b (Cân bằng). Đây là một mô hình rộng hơn, có nghĩa là nó xử lý nhiều đặc trưng hơn ở mỗi lớp, giúp cải thiện độ chính xác đồng thời vẫn cân bằng tốc độ và kích thước.
  • Thân thiện với người dùng: YOLOv10 tương thích với gói Ultralytics Python, giúp dễ sử dụng.

Ultralytics YOLO11: Tăng cường tốc độ và độ chính xác

Vào ngày 30 tháng 9 năm nay, Ultralytics đã chính thức ra mắt YOLO11 - một trong những mô hình mới nhất trong dòng YOLO - tại sự kiện kết hợp thường niên, YOLO Vision 2024 (YV24).

Bản phát hành này giới thiệu những cải tiến đáng kể so với các phiên bản trước. YOLO11 nhanh hơn, chính xác hơn và hiệu quả cao. Nó hỗ trợ đầy đủ các tác vụ thị giác máy tính mà người dùng YOLOv8 đã quen thuộc, bao gồm phát hiện đối tượng, phân đoạn thể hiện và phân loại hình ảnh. Nó cũng duy trì khả năng tương thích với quy trình làm việc của YOLOv8, giúp người dùng dễ dàng chuyển đổi sang phiên bản mới.

Trên hết, YOLO11 được thiết kế để đáp ứng một loạt các nhu cầu tính toán - từ các thiết bị biên nhẹ đến các hệ thống đám mây mạnh mẽ. Mô hình này có sẵn ở cả phiên bản mã nguồn mở và doanh nghiệp, giúp nó có thể thích ứng với các trường hợp sử dụng khác nhau.

Đây là một lựa chọn tuyệt vời cho các tác vụ đòi hỏi độ chính xác cao như chụp ảnh y tế và phát hiện vệ tinh, cũng như các ứng dụng rộng hơn trong xe tự hành, nông nghiệp và chăm sóc sức khỏe.

__wf_reserved_inherit
Hình 4. Sử dụng Ultralytics YOLO11 để phát hiện, đếm và theo dõi giao thông.

Các tính năng chính của YOLO11

Dưới đây là một số tính năng độc đáo khác của YOLO11:

  • Phát hiện nhanh chóng và hiệu quả: YOLO11 có một đầu dò được thiết kế để có độ trễ tối thiểu, tập trung vào tốc độ trong các lớp dự đoán cuối cùng mà không ảnh hưởng đến hiệu suất.
  • Cải thiện trích xuất đặc trưng: Kiến trúc backbone và neck được tối ưu hóa giúp tăng cường trích xuất đặc trưng, dẫn đến các dự đoán chính xác hơn. 
  • Triển khai liền mạch trên các nền tảng: YOLO11 được tối ưu hóa để chạy hiệu quả trên các thiết bị biên, nền tảng đám mây và GPU NVIDIA, đảm bảo khả năng thích ứng trên các môi trường khác nhau.

Đánh giá hiệu năng các mô hình YOLO trên bộ dữ liệu COCO

Khi khám phá các mô hình khác nhau, không phải lúc nào cũng dễ dàng so sánh chúng chỉ bằng cách nhìn vào các tính năng của chúng. Đó là lúc việc đánh giá hiệu năng (benchmarking) phát huy tác dụng. Bằng cách chạy tất cả các mô hình trên cùng một bộ dữ liệu, chúng ta có thể đo lường và so sánh hiệu suất của chúng một cách khách quan. Hãy xem xét cách mỗi mô hình hoạt động trên bộ dữ liệu COCO.

Khi so sánh các mô hình YOLO, mỗi phiên bản mới đều mang lại những cải tiến đáng kể về độ chính xác, tốc độ và tính linh hoạt. Đặc biệt, YOLO11m có một bước nhảy vọt ở đây vì nó sử dụng ít hơn 22% tham số so với YOLOv8m, điều đó có nghĩa là nó nhẹ hơn và chạy nhanh hơn. Ngoài ra, mặc dù kích thước nhỏ hơn, nó đạt được độ chính xác trung bình (mAP) cao hơn trên bộ dữ liệu COCO. Số liệu này đo lường mức độ tốt của mô hình trong việc phát hiện và định vị các đối tượng, vì vậy mAP cao hơn có nghĩa là dự đoán chính xác hơn. 

__wf_reserved_inherit
Hình 5. Đánh giá hiệu năng của YOLO11 và các mô hình YOLO khác trên bộ dữ liệu COCO.

Kiểm tra và so sánh các mô hình YOLO trên video

Hãy khám phá cách các mô hình này hoạt động trong một tình huống thực tế.

Để so sánh YOLOv8, YOLOv9, YOLOv10 và YOLO11, cả bốn đều được chạy trên cùng một video giao thông bằng cách sử dụng điểm tin cậy là 0,3 (mô hình chỉ hiển thị các phát hiện khi nó tin chắc ít nhất 30% rằng nó đã xác định chính xác một đối tượng) và kích thước hình ảnh là 640 để đánh giá công bằng. Kết quả phát hiện và theo dõi đối tượng làm nổi bật những khác biệt chính về độ chính xác, tốc độ và độ chính xác của phát hiện. 

Ngay từ khung hình đầu tiên, YOLO11 đã nhận diện được các phương tiện lớn như xe tải mà YOLOv10 bỏ lỡ. YOLOv8 và YOLOv9 cho thấy hiệu suất khá tốt nhưng khác nhau tùy thuộc vào điều kiện ánh sáng và kích thước đối tượng. Các phương tiện nhỏ hơn, ở xa vẫn là một thách thức đối với tất cả các mô hình, mặc dù YOLO11 cũng cho thấy những cải tiến đáng chú ý trong các lần phát hiện đó.

__wf_reserved_inherit
Hình 6. So sánh YOLOv8, YOLOv9, YOLOv10 và YOLO11.

Về tốc độ, tất cả các mô hình đều hoạt động trong khoảng từ 10 đến 20 mili giây trên mỗi khung hình, đủ nhanh để xử lý các tác vụ theo thời gian thực ở tốc độ trên 50 FPS. Một mặt, YOLOv8 và YOLOv9 cung cấp khả năng phát hiện ổn định và đáng tin cậy trong suốt video. Điều thú vị là YOLOv10, được thiết kế để có độ trễ thấp hơn, nhanh hơn nhưng cho thấy một số điểm không nhất quán trong việc phát hiện một số loại đối tượng nhất định. 

Mặt khác, YOLO11 nổi bật về độ chính xác, mang lại sự cân bằng mạnh mẽ giữa tốc độ và độ chính xác. Mặc dù không có mô hình nào hoạt động hoàn hảo trong mọi khung hình, nhưng so sánh song song cho thấy rõ ràng rằng YOLO11 mang lại hiệu suất tổng thể tốt nhất. 

Mô hình YOLO nào là tốt nhất cho các tác vụ thị giác máy tính?

Việc lựa chọn một mô hình cho một dự án phụ thuộc vào các yêu cầu cụ thể của nó. Ví dụ: một số ứng dụng có thể ưu tiên tốc độ, trong khi những ứng dụng khác có thể yêu cầu độ chính xác cao hơn hoặc phải đối mặt với các hạn chế triển khai ảnh hưởng đến quyết định. 

Một yếu tố quan trọng khác là loại tác vụ thị giác máy tính bạn cần giải quyết. Nếu bạn đang tìm kiếm sự linh hoạt rộng hơn trên các tác vụ khác nhau, thì YOLOv8 và YOLO11 là những lựa chọn tốt.

Việc bạn chọn YOLOv8 hay YOLO11 thực sự phụ thuộc vào nhu cầu của bạn. YOLOv8 là một lựa chọn vững chắc nếu bạn mới làm quen với thị giác máy tính và coi trọng một cộng đồng lớn hơn, nhiều hướng dẫn hơn và tích hợp của bên thứ ba rộng rãi hơn. 

Mặt khác, nếu bạn đang tìm kiếm hiệu suất tiên tiến với độ chính xác và tốc độ tốt hơn, thì YOLO11 là lựa chọn tốt hơn, mặc dù nó đi kèm với một cộng đồng nhỏ hơn và ít tích hợp hơn do là một bản phát hành mới hơn.

Những điều cần nhớ

Từ Ultralytics YOLOv8 đến Ultralytics YOLO11, sự phát triển của dòng mô hình YOLO phản ánh một nỗ lực nhất quán hướng tới các mô hình thị giác máy tính thông minh hơn. Mỗi phiên bản YOLO mang đến những nâng cấp có ý nghĩa về tốc độ, độ chính xác và độ chuẩn xác. 

Khi thị giác máy tính tiếp tục phát triển, những mô hình này cung cấp các giải pháp đáng tin cậy cho những thách thức trong thế giới thực, từ phát hiện vật thể đến các hệ thống tự động. Sự phát triển liên tục của các mô hình YOLO cho thấy lĩnh vực này đã tiến xa như thế nào và chúng ta có thể mong đợi điều gì hơn nữa trong tương lai.

Để tìm hiểu thêm về AI, hãy truy cập kho lưu trữ GitHub của chúng tôi và tương tác với cộng đồng của chúng tôi. Khám phá những tiến bộ trong các ngành công nghiệp, từ Vision AI trong sản xuất đến computer vision trong chăm sóc sức khỏe. Xem các tùy chọn cấp phép của chúng tôi để bắt đầu các dự án Vision AI của bạn ngay hôm nay.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard