YOLO So sánh mô hình: YOLOv11 so với trước đó

Từ việc tự động hóa các tác vụ hàng ngày đến giúp đưa ra các quyết định sáng suốt trong thời gian thực, trí tuệ nhân tạo (AI) đang định hình lại tương lai của nhiều ngành công nghiệp khác nhau. Một lĩnh vực đặc biệt hấp dẫn của AI là thị giác máy tính, còn được gọi là Vision AI. Nó tập trung vào việc cho phép máy móc phân tích và diễn giải dữ liệu trực quan giống như con người.

Cụ thể, các mô hình thị giác máy tính đang thúc đẩy những đổi mới giúp nâng cao cả tính an toàn và hiệu quả. Ví dụ, các mô hình này được sử dụng trong xe tự lái để detect người đi bộ và camera an ninh để giám sát cơ sở 24/24.

Một số mô hình thị giác máy tính nổi tiếng nhất là YOLO (Bạn chỉ nhìn một lần) mô hình, được biết đến với khả năng phát hiện vật thể theo thời gian thực. Theo thời gian, YOLO Các mẫu xe đã được cải tiến, mỗi phiên bản mới đều mang lại hiệu suất tốt hơn và tính linh hoạt hơn.

Các phiên bản mới hơn như Ultralytics YOLO11 có thể xử lý nhiều tác vụ khác nhau, như phân đoạn trường hợp, phân loại hình ảnh, ước tính tư thế và theo dõi nhiều đối tượng, với độ chính xác, tốc độ và độ tin cậy cao hơn bao giờ hết.

Trong bài viết này, chúng tôi sẽ so sánh Ultralytics YOLOv8 , YOLOv9 , YOLOv10 , Và Ultralytics YOLO11 để hiểu rõ hơn về sự phát triển của các mô hình này. Chúng tôi sẽ phân tích các tính năng chính, kết quả chuẩn và sự khác biệt về hiệu suất của chúng. Bắt đầu thôi!

Tổng quan về Ultralytics YOLOv8

YOLOv8 , được phát hành bởi Ultralytics vào ngày 10 tháng 1 năm 2023, là một bước tiến lớn so với trước đó YOLO mô hình. Nó được tối ưu hóa để phát hiện chính xác theo thời gian thực, kết hợp các phương pháp đã được thử nghiệm kỹ lưỡng với các bản cập nhật sáng tạo để có kết quả tốt hơn.

Ngoài việc phát hiện đối tượng , nó còn hỗ trợ các tác vụ thị giác máy tính sau: phân đoạn thực thể, ước tính tư thế, phát hiện đối tượng trong hộp giới hạn định hướng (OBB) và phân loại hình ảnh. Một tính năng quan trọng khác của YOLOv8 là nó có sẵn năm phiên bản mẫu khác nhau - Nano, Nhỏ, Trung bình, Lớn và X - để bạn có thể lựa chọn mức cân bằng phù hợp giữa tốc độ và độ chính xác dựa trên nhu cầu của mình.

Do tính linh hoạt và hiệu suất mạnh mẽ của nó, YOLOv8 có thể được sử dụng trong nhiều ứng dụng thực tế, như hệ thống an ninh, thành phố thông minh, chăm sóc sức khỏe và tự động hóa công nghiệp.

__wf_reserved_inherit — Hình 1. Quản lý bãi đậu xe trong các thành phố thông minh với YOLOv8 .

‍

Các tính năng chính của YOLOv8

Sau đây là cái nhìn sâu hơn về một số tính năng chính khác của YOLOv8 :

Kiến trúc phát hiện nâng cao : YOLOv8 sử dụng xương sống CSPDarknet được cải tiến. Xương sống này được tối ưu hóa cho việc trích xuất đặc điểm - quá trình xác định và nắm bắt các mẫu hoặc chi tiết quan trọng từ hình ảnh đầu vào, giúp mô hình đưa ra dự đoán chính xác.
Đầu dò tìm: Nó sử dụng thiết kế không neo, tách rời, có nghĩa là nó không dựa vào các hình dạng hộp giới hạn được đặt trước (neo) và thay vào đó học cách dự đoán trực tiếp vị trí đối tượng. Do thiết lập tách rời, các nhiệm vụ phân loại đối tượng là gì và dự đoán vị trí của nó (hồi quy) được xử lý riêng biệt, điều này giúp cải thiện độ chính xác và tăng tốc quá trình huấn luyện.
Cân bằng độ chính xác và tốc độ: Mô hình này đạt được độ chính xác ấn tượng đồng thời duy trì thời gian suy luận nhanh, khiến nó phù hợp cho cả môi trường đám mây và edge.
Thân thiện với người dùng : YOLOv8 được thiết kế để dễ dàng bắt đầu - bạn có thể bắt đầu dự đoán và xem kết quả chỉ trong vài phút bằng cách sử dụng gói Ultralytics Python .

YOLOv9 tập trung vào hiệu quả tính toán

YOLOv9 được phát hành vào ngày 21 tháng 2 năm 2024, bởi Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan. Nó hỗ trợ các tác vụ như phát hiện đối tượng và phân đoạn thực thể .

Mô hình này được xây dựng dựa trên Ultralytics YOLOv5 và giới thiệu hai cải tiến chính: Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).

PGI giúp YOLOv9 GELAN lưu giữ thông tin quan trọng khi xử lý dữ liệu qua các lớp, mang lại kết quả chính xác hơn. Đồng thời, GELAN cải thiện cách mô hình sử dụng các lớp, nâng cao hiệu suất và hiệu quả tính toán. Nhờ những nâng cấp này, YOLOv9 có thể xử lý các tác vụ thời gian thực trên các thiết bị biên và ứng dụng di động, nơi tài nguyên điện toán thường bị hạn chế.

‍

Các tính năng chính của YOLOv9

Dưới đây là cái nhìn thoáng qua về một số tính năng chính khác của YOLOv8 :

Độ chính xác cao với hiệu quả : YOLOv9 mang lại độ chính xác phát hiện cao mà không tiêu tốn nhiều năng lượng tính toán, là lựa chọn tuyệt vời khi nguồn lực bị hạn chế.
‍
Các mẫu nhẹ : YOLOv9 Các biến thể mô hình nhẹ của được tối ưu hóa cho việc triển khai ở biên và di động.
‍
Dễ sử dụng: YOLOv9 được hỗ trợ bởi Ultralytics Python gói, do đó, việc thiết lập và chạy trong các môi trường khác nhau rất dễ dàng, cho dù bạn sử dụng mã hay dòng lệnh.

YOLOv10 cho phép NMS -phát hiện vật thể miễn phí

YOLOv10 được giới thiệu vào ngày 23 tháng 5 năm 2024, bởi các nhà nghiên cứu từ Đại học Thanh Hoa và tập trung vào phát hiện đối tượng theo thời gian thực. Nó khắc phục những hạn chế trong các phiên bản trước đó YOLO phiên bản bằng cách loại bỏ nhu cầu triệt tiêu không tối đa ( NMS ), một bước hậu xử lý được sử dụng để loại bỏ các phát hiện trùng lặp và tinh chỉnh thiết kế mô hình tổng thể. Điều này giúp phát hiện đối tượng nhanh hơn và hiệu quả hơn, đồng thời vẫn đạt được độ chính xác tiên tiến.

Một phần quan trọng giúp điều này trở nên khả thi là phương pháp huấn luyện được gọi là gán nhãn kép nhất quán. Phương pháp này kết hợp hai chiến lược: một cho phép nhiều dự đoán học từ cùng một đối tượng (một-nhiều) và một tập trung vào việc chọn dự đoán đơn lẻ tốt nhất (một-một). Vì cả hai chiến lược đều tuân theo cùng một quy tắc ghép cặp, mô hình sẽ tự học cách tránh trùng lặp, do đó NMS không bắt buộc.

‍

YOLOv10 Kiến trúc của nó cũng sử dụng xương sống CSPNet được cải tiến để học các tính năng hiệu quả hơn và một mạng PAN (Mạng tổng hợp đường dẫn) kết hợp thông tin từ các lớp khác nhau, giúp phát hiện tốt hơn cả các vật thể nhỏ và lớn. Những cải tiến này cho phép sử dụng YOLOv10 cho các ứng dụng thực tế trong sản xuất, bán lẻ và lái xe tự động.

Các tính năng chính của YOLOv10

Dưới đây là một số tính năng nổi bật khác của YOLOv10 :

Tích chập kernel lớn: Mô hình sử dụng tích chập kernel lớn để nắm bắt nhiều ngữ cảnh hơn từ các khu vực rộng hơn của hình ảnh, giúp nó hiểu rõ hơn về toàn bộ cảnh.
‍
Các mô-đun tự chú ý cục bộ: Mô hình kết hợp các mô-đun tự chú ý cục bộ để tập trung vào các phần quan trọng nhất của hình ảnh mà không sử dụng quá nhiều sức mạnh tính toán, giúp tăng hiệu suất một cách hiệu quả.

Biến thể mô hình độc đáo: Bên cạnh thông thường YOLOv10 Kích thước - Nano, Nhỏ, Trung bình, Lớn và X - cũng có một phiên bản đặc biệt gọi là YOLOv10b (Cân bằng). Đây là một mô hình rộng hơn, nghĩa là nó xử lý nhiều tính năng hơn ở mỗi lớp, giúp cải thiện độ chính xác trong khi vẫn cân bằng giữa tốc độ và kích thước.
‍
Thân thiện với người dùng: YOLOv10 tương thích với Ultralytics Python đóng gói, giúp dễ sử dụng.

Ultralytics YOLO11 : Tốc độ và độ chính xác được cải thiện

Năm nay, vào ngày 30 tháng 9, Ultralytics chính thức ra mắt YOLO11 - một trong những mô hình mới nhất trong YOLO loạt - tại sự kiện kết hợp thường niên, YOLO Vision 2024 (YV24) .

Phiên bản này mang lại nhiều cải tiến đáng kể so với các phiên bản trước. YOLO11 nhanh hơn, chính xác hơn và hiệu quả cao hơn. Nó hỗ trợ đầy đủ các tác vụ thị giác máy tính YOLOv8 người dùng quen thuộc, bao gồm phát hiện đối tượng, phân đoạn thể hiện và phân loại hình ảnh. Nó cũng duy trì khả năng tương thích với YOLOv8 quy trình làm việc, giúp người dùng dễ dàng chuyển đổi sang phiên bản mới một cách suôn sẻ.

Trên hết, YOLO11 được thiết kế để đáp ứng nhiều nhu cầu điện toán khác nhau - từ các thiết bị biên gọn nhẹ đến các hệ thống đám mây mạnh mẽ. Mô hình này có sẵn ở cả phiên bản mã nguồn mở và phiên bản doanh nghiệp, giúp nó có thể thích ứng với nhiều trường hợp sử dụng khác nhau.

Đây là một lựa chọn tuyệt vời cho các tác vụ đòi hỏi độ chính xác cao như chụp ảnh y tế và phát hiện vệ tinh, cũng như các ứng dụng rộng hơn trong xe tự hành, nông nghiệp và chăm sóc sức khỏe.

‍

Các tính năng chính của YOLO11

Dưới đây là một số tính năng độc đáo khác của YOLO11 :

Phát hiện nhanh chóng và hiệu quả: YOLO11 có đầu phát hiện được thiết kế để giảm thiểu độ trễ, tập trung vào tốc độ ở các lớp dự đoán cuối cùng mà không ảnh hưởng đến hiệu suất.
‍
Cải thiện trích xuất đặc trưng: Kiến trúc backbone và neck được tối ưu hóa giúp tăng cường trích xuất đặc trưng, dẫn đến các dự đoán chính xác hơn.
‍
Triển khai liền mạch trên nhiều nền tảng : YOLO11 được tối ưu hóa để chạy hiệu quả trên các thiết bị biên, nền tảng đám mây và NVIDIA GPU đảm bảo khả năng thích ứng trong nhiều môi trường khác nhau.

Đánh giá chuẩn YOLO các mô hình trên COCO tập dữ liệu

Khi khám phá các mô hình khác nhau, việc so sánh chúng chỉ bằng cách xem xét các tính năng không phải lúc nào cũng dễ dàng. Đó là lúc cần đến phương pháp đánh giá chuẩn. Bằng cách chạy tất cả các mô hình trên cùng một tập dữ liệu, chúng ta có thể đo lường và so sánh hiệu suất của chúng một cách khách quan. Hãy cùng xem xét hiệu suất của từng mô hình trên tập dữ liệu COCO .

Khi so sánh YOLO Mỗi phiên bản mới đều mang đến những cải tiến đáng kể về độ chính xác, tốc độ và tính linh hoạt. Đặc biệt, YOLO11m có bước tiến vượt bậc khi sử dụng ít hơn 22% tham số so với YOLOv8m , nghĩa là nó nhẹ hơn và chạy nhanh hơn. Ngoài ra, mặc dù có kích thước nhỏ hơn, nó đạt được độ chính xác trung bình cao hơn ( mAP ) trên COCO tập dữ liệu. Số liệu này đo lường mức độ mô hình phát hiện và định vị các đối tượng tốt như thế nào, do đó mAP có nghĩa là dự đoán chính xác hơn.

‍

Kiểm tra và so sánh YOLO các mô hình trên video

Hãy khám phá cách các mô hình này hoạt động trong một tình huống thực tế.

Để so sánh YOLOv8 , YOLOv9 , YOLOv10 và YOLO11 , cả bốn mô hình đều được chạy trên cùng một video giao thông với điểm tin cậy là 0,3 (mô hình chỉ hiển thị kết quả phát hiện khi có ít nhất 30% độ tin cậy rằng nó đã nhận dạng chính xác một đối tượng) và kích thước hình ảnh là 640 để đánh giá công bằng. Kết quả phát hiện và theo dõi đối tượng làm nổi bật những khác biệt chính về độ chính xác, tốc độ và độ chính xác của việc phát hiện.

Từ khung hình đầu tiên, YOLO11 đã đón những chiếc xe lớn như xe tải YOLOv10 bỏ lỡ. YOLOv8 Và YOLOv9 cho thấy hiệu suất khá tốt nhưng thay đổi tùy thuộc vào điều kiện ánh sáng và kích thước vật thể. Các phương tiện nhỏ hơn, ở xa vẫn là một thách thức đối với tất cả các mẫu xe, mặc dù YOLO11 cũng cho thấy những cải thiện đáng chú ý trong các phát hiện đó.

‍

Về tốc độ, tất cả các mô hình đều hoạt động trong khoảng 10 đến 20 mili giây mỗi khung hình, đủ nhanh để xử lý các tác vụ thời gian thực ở mức hơn 50 FPS. Một mặt, YOLOv8 Và YOLOv9 cung cấp khả năng phát hiện ổn định và đáng tin cậy trong suốt video. Điều thú vị là, YOLOv10 , được thiết kế để có độ trễ thấp hơn, nhanh hơn nhưng lại cho thấy một số điểm không nhất quán trong việc phát hiện một số loại đối tượng nhất định.

YOLO11 Mặt khác, nó nổi bật nhờ độ chính xác, mang lại sự cân bằng mạnh mẽ giữa tốc độ và độ chính xác . Mặc dù không có mẫu nào hoạt động hoàn hảo trong mọi khung hình, nhưng việc so sánh cạnh nhau đã chứng minh rõ ràng rằng YOLO11 mang lại hiệu suất tổng thể tốt nhất.

Cái mà YOLO Mô hình nào là tốt nhất cho nhiệm vụ thị giác máy tính?

Việc lựa chọn một mô hình cho một dự án phụ thuộc vào các yêu cầu cụ thể của nó. Ví dụ: một số ứng dụng có thể ưu tiên tốc độ, trong khi những ứng dụng khác có thể yêu cầu độ chính xác cao hơn hoặc phải đối mặt với các hạn chế triển khai ảnh hưởng đến quyết định.

Một yếu tố quan trọng khác là loại nhiệm vụ thị giác máy tính bạn cần xử lý. Nếu bạn đang tìm kiếm sự linh hoạt hơn cho các nhiệm vụ khác nhau, YOLOv8 Và YOLO11 là những lựa chọn tốt.

Cho dù bạn chọn YOLOv8 hoặc YOLO11 thực sự phụ thuộc vào nhu cầu của bạn. YOLOv8 là một lựa chọn phù hợp nếu bạn mới làm quen với thị giác máy tính và coi trọng một cộng đồng lớn hơn, nhiều hướng dẫn hơn và tích hợp rộng rãi với bên thứ ba .

Mặt khác, nếu bạn đang tìm kiếm hiệu suất tiên tiến với độ chính xác và tốc độ tốt hơn, YOLO11 là lựa chọn tốt hơn, mặc dù nó có cộng đồng nhỏ hơn và ít tích hợp hơn do là phiên bản mới hơn.

Những điều cần nhớ

Từ Ultralytics YOLOv8 ĐẾN Ultralytics YOLO11 , sự tiến hóa của YOLO loạt mô hình phản ánh sự thúc đẩy nhất quán hướng tới các mô hình thị giác máy tính thông minh hơn. Mỗi phiên bản của YOLO mang lại những nâng cấp có ý nghĩa về tốc độ, độ chính xác và độ tin cậy.

Khi thị giác máy tính tiếp tục phát triển, các mô hình này cung cấp các giải pháp đáng tin cậy cho các thách thức trong thế giới thực, từ phát hiện đối tượng đến các hệ thống tự động. Sự phát triển liên tục của YOLO Các mô hình cho thấy lĩnh vực này đã phát triển đến đâu và chúng ta có thể mong đợi nhiều hơn nữa trong tương lai.

Để tìm hiểu thêm về AI, hãy truy cập kho lưu trữ GitHub của chúng tôi và tương tác với cộng đồng của chúng tôi. Khám phá những tiến bộ trong các ngành công nghiệp, từ Vision AI trong sản xuất đến computer vision trong chăm sóc sức khỏe. Xem các tùy chọn cấp phép của chúng tôi để bắt đầu các dự án Vision AI của bạn ngay hôm nay.

So sánh Ultralytics YOLO11 so với trước đó YOLO các mô hình