Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Ultralytics YOLO

Lợi ích của việc Ultralytics YOLO11 là một trình phát hiện không cần neo

Tìm hiểu cách Ultralytics YOLO11 hỗ trợ phát hiện đối tượng không cần neo (anchor-free) và những lợi ích mà kiến trúc model này mang lại cho nhiều ứng dụng khác nhau.

ABAbirami Vina
5 min read
Phát hiện đối tượng không cần neo với Ultralytics YOLO11

Nếu nhìn lại lịch sử của các mô hình Vision AI, khái niệm phát hiện đối tượng - một tác vụ cốt lõi trong thị giác máy tính bao gồm việc nhận diện và xác định vị trí đối tượng trong hình ảnh hoặc video - đã tồn tại từ những năm 1960. Tuy nhiên, lý do chính khiến nó trở nên quan trọng đối với các đổi mới tiên tiến hiện nay là vì các kỹ thuật và kiến trúc mô hình phát hiện đối tượng đã tiến bộ và cải thiện nhanh chóng kể từ thời điểm đó.

Trong một bài viết trước, chúng ta đã thảo luận về sự tiến hóa của phát hiện đối tượng và lộ trình dẫn đến các mô hình Ultralytics YOLO. Hôm nay, chúng ta sẽ tập trung vào việc khám phá một cột mốc cụ thể trong hành trình này: bước nhảy vọt từ các bộ dò dựa trên anchor sang các bộ dò không sử dụng anchor (anchor-free).

Các bộ dò dựa trên anchor dựa vào các khung được xác định trước, gọi là "anchor", để dự đoán vị trí đối tượng trong hình ảnh. Ngược lại, các bộ dò không sử dụng anchor bỏ qua các khung được xác định trước này và thay vào đó dự đoán trực tiếp vị trí đối tượng.

Mặc dù sự thay đổi này có vẻ là một thay đổi logic đơn giản, nhưng trên thực tế nó đã dẫn đến những cải tiến lớn về độ chính xác và hiệu quả của việc phát hiện đối tượng. Trong bài viết này, chúng ta sẽ tìm hiểu cách các bộ dò không sử dụng anchor đã định hình lại thị giác máy tính thông qua những tiến bộ như Ultralytics YOLO11.

Link to this sectionCác bộ dò dựa trên anchor là gì?#

Các bộ dò dựa trên anchor sử dụng các khung được xác định trước, được gọi là anchor, để giúp xác định vị trí đối tượng trong hình ảnh. Hãy coi các anchor này như một lưới các khung với kích thước và hình dạng khác nhau được đặt lên trên hình ảnh. Sau đó, mô hình điều chỉnh các khung này để khớp với các đối tượng mà nó phát hiện. Ví dụ, nếu mô hình xác định được một chiếc ô tô, nó sẽ sửa đổi khung anchor để khớp với vị trí và kích thước của chiếc xe một cách chính xác hơn.

Mỗi anchor được liên kết với một đối tượng có khả năng xuất hiện trong ảnh, và trong quá trình training, model sẽ học cách điều chỉnh các anchor box để khớp tốt hơn với vị trí, kích thước và tỷ lệ khung hình của đối tượng. Điều này cho phép model detect objects ở các tỷ lệ và hướng khác nhau. Tuy nhiên, việc chọn đúng tập hợp anchor box có thể tốn thời gian, và quá trình tinh chỉnh chúng cũng dễ dẫn đến sai sót.

Sơ đồ giải thích anchor box là gì

Hình 1. Anchor Box là gì?

Trong khi các bộ dò dựa trên anchor, như YOLOv4, đã hoạt động tốt trong nhiều ứng dụng, chúng vẫn có một số nhược điểm. Ví dụ, các anchor box không phải lúc nào cũng khớp tốt với các đối tượng có hình dạng hoặc kích thước khác nhau, khiến mô hình khó phát hiện các đối tượng nhỏ hoặc có hình dạng bất thường. Quá trình chọn và tinh chỉnh kích thước anchor box cũng có thể tốn thời gian và đòi hỏi nhiều nỗ lực thủ công. Ngoài ra, các mô hình dựa trên anchor thường gặp khó khăn khi phát hiện các đối tượng bị che khuất hoặc chồng chéo, vì các khung được xác định trước có thể không thích ứng tốt với những kịch bản phức tạp hơn này.

Link to this sectionSự chuyển dịch sang phát hiện đối tượng không sử dụng anchor#

Các bộ dò không sử dụng anchor bắt đầu thu hút sự chú ý vào năm 2018 với các mô hình như CornerNet và CenterNet, những mô hình đã có cách tiếp cận mới đối với việc phát hiện đối tượng bằng cách loại bỏ nhu cầu về các khung anchor được xác định trước. Không giống như các mô hình truyền thống dựa vào các anchor box với kích thước và hình dạng khác nhau để dự đoán vị trí đối tượng, các mô hình không sử dụng anchor dự đoán trực tiếp vị trí của đối tượng. Chúng tập trung vào các điểm chính hoặc đặc điểm của đối tượng, như tâm điểm, giúp đơn giản hóa quá trình phát hiện và làm cho nó nhanh hơn và chính xác hơn.

Đây là cách các mô hình không sử dụng anchor thường hoạt động:

  • Phát hiện điểm chính: Thay vì sử dụng các khung được xác định trước, một số mô hình xác định các điểm quan trọng trên một đối tượng, như tâm hoặc các góc cụ thể. Những điểm chính này giúp mô hình xác định vị trí của đối tượng và kích thước của nó.
  • Dự đoán tâm điểm: Một số mô hình tập trung vào việc dự đoán tâm của một đối tượng. Sau khi xác định được tâm, mô hình có thể dự đoán kích thước và vị trí của toàn bộ đối tượng từ đó.
  • Hồi quy bản đồ nhiệt (Heatmap regression): Nhiều mô hình không sử dụng anchor sử dụng bản đồ nhiệt, trong đó mỗi pixel đại diện cho một vị trí tiềm năng của đối tượng. Các giá trị bản đồ nhiệt cao hơn cho thấy mức độ tin cậy cao hơn rằng một đối tượng có mặt tại điểm đó.

So sánh phát hiện dựa trên anchor và phát hiện không dùng anchor

Hình 2. So sánh phát hiện dựa trên Anchor và không dựa trên Anchor.

Vì các mô hình không sử dụng anchor không dựa vào các khung anchor, chúng có thiết kế đơn giản hơn. Điều này có nghĩa là chúng hiệu quả hơn về mặt tính toán. Vì không phải xử lý nhiều khung anchor, chúng có thể phát hiện đối tượng nhanh hơn - một lợi thế quan trọng trong các ứng dụng thời gian thực như lái xe tự động và giám sát video.

Các model anchor-free cũng xử lý tốt hơn nhiều đối với các đối tượng nhỏ, bất thường hoặc bị che khuất. Vì chúng tập trung vào việc phát hiện các điểm chính thay vì cố gắng khớp các anchor box, nên chúng linh hoạt hơn nhiều. Điều này cho phép chúng phát hiện đối tượng một cách accurately trong các môi trường phức tạp hoặc lộn xộn nơi các model anchor-based có thể thất bại.

Link to this sectionUltralytics YOLO11: Bộ dò không sử dụng anchor#

Ban đầu được thiết kế vì tốc độ và hiệu quả, các mô hình YOLO đã dần chuyển dịch từ các phương pháp dựa trên anchor sang phát hiện không sử dụng anchor, giúp các mô hình như YOLO11 nhanh hơn, linh hoạt hơn và phù hợp hơn với nhiều ứng dụng thời gian thực.

Dưới đây là cái nhìn nhanh về cách thiết kế không sử dụng anchor đã phát triển qua các phiên bản YOLO khác nhau:

  • Ultralytics YOLOv5u: Giới thiệu Anchor-Free Split Ultralytics Head, loại bỏ nhu cầu về các khung anchor được xác định trước. Thay vào đó, mô hình dự đoán trực tiếp vị trí các đối tượng trong hình ảnh, giúp đơn giản hóa quy trình và cải thiện tính linh hoạt cũng như tốc độ.
  • YOLOv6: Một phương pháp mới có tên là Anchor-Aided Training (AAT) đã được sử dụng, trong đó các anchor chỉ được sử dụng trong quá trình đào tạo. Điều này cho phép mô hình hưởng lợi từ cấu trúc của các phương pháp dựa trên anchor trong quá trình đào tạo, trong khi vẫn sử dụng phát hiện không anchor khi vận hành (runtime) để đạt tốc độ và khả năng thích ứng tốt hơn.
  • Ultralytics YOLOv8: Chuyển hoàn toàn sang phát hiện không sử dụng anchor bằng cách sử dụng Anchor-Free Split Ultralytics Head. Điều này làm cho mô hình nhanh hơn và chính xác hơn, đặc biệt đối với các đối tượng nhỏ hoặc có hình dạng kỳ lạ không khớp tốt với các khung anchor.
  • Ultralytics YOLO11: Xây dựng dựa trên phương pháp không sử dụng anchor của YOLOv8, tối ưu hóa quá trình phát hiện hơn nữa bằng cách loại bỏ hoàn toàn các khung anchor. Điều này mang lại khả năng phát hiện nhanh hơn, chính xác hơn cho các ứng dụng thời gian thực như giám sát hành vi động vật và phân tích bán lẻ.

So sánh Ultralytics YOLOv8 và Ultralytics YOLO11

Hình 3. So sánh Ultralytics YOLOv8 và Ultralytics YOLO11.

Link to this sectionCác ứng dụng thực tế của YOLO11#

Một ví dụ tuyệt vời về lợi ích của phát hiện không sử dụng anchor sử dụng YOLO11 là trong phương tiện tự hành. Trong xe tự lái, việc phát hiện người đi bộ, các phương tiện khác và chướng ngại vật một cách nhanh chóng và chính xác là rất quan trọng để đảm bảo an toàn. Phương pháp không sử dụng anchor của YOLO11 đơn giản hóa quá trình phát hiện bằng cách dự đoán trực tiếp các điểm chính của đối tượng, như tâm của người đi bộ hoặc ranh giới của phương tiện khác, thay vì dựa vào các khung anchor được xác định trước.

Lợi ích của phát hiện không dùng anchor trong YOLO11

Hình 4. Lợi ích của phát hiện không sử dụng anchor trong YOLO11 (Hình ảnh của Tác giả).

YOLO11 không cần điều chỉnh hoặc khớp một lưới các anchor cho từng đối tượng, vốn có thể gây tốn kém về mặt tính toán và chậm chạp. Thay vào đó, nó tập trung vào các đặc điểm chính, giúp nó nhanh hơn và hiệu quả hơn. Ví dụ, khi một người đi bộ bước vào đường đi của xe, YOLO11 có thể nhanh chóng xác định vị trí của họ bằng cách xác định các điểm chính, ngay cả khi người đó bị che khuất một phần hoặc đang di chuyển. Khả năng thích ứng với các hình dạng và kích thước khác nhau mà không cần anchor box cho phép YOLO11 phát hiện đối tượng đáng tin cậy hơn và ở tốc độ cao hơn, điều này rất quan trọng đối với việc ra quyết định thời gian thực trong các hệ thống lái xe tự động.

Các ứng dụng khác mà khả năng không sử dụng anchor của YOLO11 thực sự nổi bật bao gồm:

  • Quản lý bán lẻ và kho bãi: YOLO11 giúp giám sát sản phẩm trên kệ dễ dàng hơn, ngay cả khi chúng được xếp chồng hoặc bị chặn một phần. Điều này hỗ trợ theo dõi hàng tồn kho nhanh hơn, chính xác hơn và giảm thiểu sai sót.
  • Hình ảnh y tế: YOLO11 cũng hiệu quả trong chăm sóc sức khỏe, nơi nó có thể phát hiện khối u hoặc các bất thường khác trong các bản quét y tế. Khả năng hoạt động với các đối tượng có hình dạng bất thường giúp cải thiện độ chính xác trong chẩn đoán các tình trạng phức tạp.
  • Giám sát động vật hoang dã: Trong nghiên cứu động vật hoang dã, YOLO11 có thể theo dõi động vật trong các khu rừng rậm hoặc địa hình khó khăn, giúp các nhà nghiên cứu giám sát hành vi hoặc bảo vệ các loài có nguy cơ tuyệt chủng.
  • Phân tích thể thao: YOLO11 có thể được sử dụng để theo dõi cầu thủ, chuyển động của bóng hoặc các yếu tố khác trong thời gian thực trong các sự kiện thể thao để cung cấp thông tin giá trị cho đội ngũ, huấn luyện viên và các đài truyền hình.

Link to this sectionNhững điều cần cân nhắc khi làm việc với các mô hình không sử dụng anchor#

Mặc dù các mô hình không sử dụng anchor như YOLO11 mang lại nhiều ưu điểm, chúng cũng có những hạn chế nhất định. Một trong những cân nhắc thực tế chính cần lưu ý là ngay cả các mô hình không sử dụng anchor cũng có thể gặp khó khăn với các trường hợp bị che khuất hoặc các đối tượng chồng chéo cao. Lý do đằng sau điều này là thị giác máy tính nhằm mục đích tái tạo thị giác con người, và cũng giống như chúng ta đôi khi gặp khó khăn trong việc nhận diện các đối tượng bị che khuất, các mô hình AI có thể đối mặt với những thách thức tương tự.

Một yếu tố thú vị khác liên quan đến việc xử lý các dự đoán của mô hình. Mặc dù kiến trúc của các mô hình không sử dụng anchor đơn giản hơn so với các mô hình dựa trên anchor, việc tinh chỉnh bổ sung trở nên cần thiết trong một số trường hợp nhất định. Ví dụ, các kỹ thuật hậu xử lý như non-maximum suppression (NMS) có thể được yêu cầu để làm sạch các dự đoán chồng chéo hoặc cải thiện độ chính xác trong các khung cảnh đông đúc.

Link to this sectionKhẳng định tương lai của AI với YOLO11#

Sự chuyển dịch từ phát hiện dựa trên anchor sang không sử dụng anchor là một tiến bộ quan trọng trong việc phát hiện đối tượng. Với các mô hình không sử dụng anchor như YOLO11, quy trình được đơn giản hóa, dẫn đến những cải tiến cả về độ chính xác và tốc độ.

Thông qua YOLO11, chúng ta đã thấy cách phát hiện đối tượng không sử dụng anchor vượt trội trong các ứng dụng thời gian thực như xe tự lái, giám sát video và hình ảnh y tế, nơi việc phát hiện nhanh và chính xác là rất quan trọng. Cách tiếp cận này cho phép YOLO11 thích ứng dễ dàng hơn với các kích thước đối tượng khác nhau và các cảnh phức tạp, mang lại hiệu suất tốt hơn trên nhiều môi trường đa dạng.

Khi thị giác máy tính tiếp tục phát triển, việc phát hiện đối tượng sẽ chỉ trở nên nhanh hơn, linh hoạt hơn và hiệu quả hơn.

Khám phá kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng hấp dẫn của chúng tôi để luôn cập nhật mọi thông tin về AI. Hãy xem cách thị giác AI đang tác động đến các lĩnh vực như sản xuấtnông nghiệp.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning