Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Lợi ích của Ultralytics YOLO11 khi là một detector không neo

Abirami Vina

5 phút đọc

5 tháng 12, 2024

Tìm hiểu cách Ultralytics YOLO11 hỗ trợ phát hiện đối tượng không cần anchor và những lợi ích mà kiến trúc mô hình này mang lại cho các ứng dụng khác nhau.

Nếu chúng ta nhìn lại lịch sử của các mô hình Vision AI, thì khái niệm về object detection (phát hiện đối tượng) - một nhiệm vụ thị giác máy tính cốt lõi liên quan đến việc xác định và định vị các đối tượng trong một hình ảnh hoặc video - đã xuất hiện từ những năm 1960. Tuy nhiên, lý do chính cho tầm quan trọng của nó trong các đổi mới tiên tiến ngày nay là do các kỹ thuật phát hiện đối tượng và kiến trúc mô hình đã tiến bộ và cải thiện nhanh chóng kể từ đó. 

Trong một bài viết trước, chúng ta đã thảo luận về sự phát triển của nhận diện đối tượng và con đường dẫn đến các mô hình Ultralytics YOLO. Hôm nay, chúng ta sẽ tập trung vào việc khám phá một cột mốc cụ thể hơn trong hành trình này: bước nhảy vọt từ các bộ dò tìm dựa trên anchor sang các bộ dò tìm không cần anchor. 

Các detector dựa trên anchor dựa vào các hộp được xác định trước, được gọi là "anchor", để dự đoán vị trí của các đối tượng trong một hình ảnh. Ngược lại, các detector không dựa trên anchor bỏ qua các hộp được xác định trước này và thay vào đó dự đoán trực tiếp vị trí của đối tượng.

Mặc dù sự thay đổi này có vẻ là một thay đổi đơn giản, hợp lý, nhưng nó thực sự đã dẫn đến những cải tiến lớn về độ chính xác và hiệu quả của object detection. Trong bài viết này, chúng ta sẽ tìm hiểu cách các detector không neo (anchor-free detectors) đã định hình lại computer vision thông qua những tiến bộ như Ultralytics YOLOv11.

Các detector dựa trên anchor là gì?

Các detector dựa trên anchor sử dụng các hộp được xác định trước, được gọi là anchor, để giúp định vị các đối tượng trong một hình ảnh. Hãy coi các anchor này như một lưới các hộp có kích thước và hình dạng khác nhau được đặt trên hình ảnh. Sau đó, mô hình sẽ điều chỉnh các hộp này để phù hợp với các đối tượng mà nó phát hiện. Ví dụ: nếu mô hình xác định một chiếc ô tô, nó sẽ sửa đổi hộp anchor để phù hợp với vị trí và kích thước của ô tô một cách chính xác hơn.

Mỗi anchor được liên kết với một đối tượng có thể có trong ảnh và trong quá trình huấn luyện (training), mô hình học cách điều chỉnh các anchor box để phù hợp hơn với vị trí, kích thước và tỷ lệ khung hình của đối tượng. Điều này cho phép mô hình phát hiện các đối tượng (detect objects) ở các tỷ lệ và hướng khác nhau. Tuy nhiên, việc chọn đúng bộ anchor box có thể tốn thời gian và quá trình tinh chỉnh chúng có thể dễ xảy ra lỗi.

__wf_reserved_inherit
Hình 1. Anchor Box là gì?

Mặc dù các detector dựa trên anchor, như YOLOv4, đã hoạt động tốt trong nhiều ứng dụng, nhưng chúng vẫn có một số hạn chế. Ví dụ: các anchor box không phải lúc nào cũng phù hợp với các đối tượng có hình dạng hoặc kích thước khác nhau, gây khó khăn hơn cho mô hình trong việc phát hiện các đối tượng nhỏ hoặc có hình dạng không đều. Quá trình lựa chọn và tinh chỉnh kích thước anchor box cũng có thể tốn thời gian và đòi hỏi nhiều nỗ lực thủ công. Bên cạnh đó, các mô hình dựa trên anchor thường gặp khó khăn trong việc phát hiện các đối tượng bị che khuất hoặc chồng chéo, vì các box được xác định trước có thể không thích ứng tốt với các tình huống phức tạp hơn này.

Sự chuyển đổi sang phát hiện đối tượng không cần anchor

Các detector không dựa trên anchor bắt đầu thu hút sự chú ý vào năm 2018 với các mô hình như CornerNet và CenterNet, vốn có cách tiếp cận mới đối với phát hiện đối tượng bằng cách loại bỏ nhu cầu về các hộp anchor được xác định trước. Không giống như các mô hình truyền thống dựa vào các hộp anchor có kích thước và hình dạng khác nhau để dự đoán vị trí của các đối tượng, các mô hình không dựa trên anchor dự đoán trực tiếp vị trí của các đối tượng. Chúng tập trung vào các điểm hoặc đặc trưng chính của đối tượng, chẳng hạn như tâm, giúp đơn giản hóa quá trình phát hiện và làm cho nó nhanh hơn và chính xác hơn.

Đây là cách các mô hình không neo thường hoạt động:

  • Phát hiện điểm đặc trưng (Keypoint detection): Thay vì sử dụng các hộp được xác định trước, một số mô hình xác định các điểm quan trọng trên một đối tượng, chẳng hạn như tâm hoặc các góc cụ thể. Các điểm chính này giúp các mô hình tìm ra vị trí của đối tượng và kích thước của nó.
  • Dự đoán trung tâm: Một số mô hình tập trung vào việc dự đoán tâm của một đối tượng. Sau khi xác định được tâm, mô hình có thể dự đoán kích thước và vị trí của toàn bộ đối tượng từ đó.
  • Hồi quy bản đồ nhiệt: Nhiều mô hình không neo sử dụng bản đồ nhiệt, trong đó mỗi pixel đại diện cho một vị trí có thể có của một đối tượng. Các giá trị bản đồ nhiệt mạnh hơn cho biết độ tin cậy cao hơn rằng một đối tượng có mặt tại điểm đó.
__wf_reserved_inherit
Hình 2. So sánh giữa phát hiện dựa trên Anchor và phát hiện không Anchor.

Vì các mô hình không neo (anchor-free) không dựa vào các hộp neo (anchor boxes), chúng có thiết kế đơn giản hơn. Điều này có nghĩa là chúng hiệu quả hơn về mặt tính toán. Vì chúng không phải xử lý nhiều hộp neo, chúng có thể phát hiện các đối tượng nhanh hơn - một lợi thế quan trọng trong các ứng dụng thời gian thực như lái xe tự động và giám sát video. 

Các mô hình không dựa trên anchor cũng tốt hơn nhiều trong việc xử lý các đối tượng nhỏ, không đều hoặc bị che khuất. Vì chúng tập trung vào việc phát hiện các điểm chính thay vì cố gắng khớp các hộp anchor, nên chúng linh hoạt hơn nhiều. Điều này cho phép chúng phát hiện các đối tượng chính xác trong môi trường lộn xộn hoặc phức tạp, nơi các mô hình dựa trên anchor có thể không thành công.

Ultralytics YOLO11: Trình phát hiện không neo (anchor-free detector)

Ban đầu được thiết kế để đạt tốc độ và hiệu quả, các mô hình YOLO đã dần chuyển từ phương pháp dựa trên anchor sang phát hiện không cần anchor, giúp các mô hình như YOLO11 nhanh hơn, linh hoạt hơn và phù hợp hơn cho nhiều ứng dụng thời gian thực.

Sau đây là cái nhìn tổng quan về cách thiết kế không neo đã phát triển qua các phiên bản YOLO khác nhau:

  • Ultralytics YOLOv5u: Giới thiệu Anchor-Free Split Ultralytics Head, loại bỏ sự cần thiết của các hộp neo (anchor box) được xác định trước. Thay vào đó, mô hình dự đoán trực tiếp vị trí các đối tượng trong một hình ảnh, đơn giản hóa quy trình và cải thiện tính linh hoạt và tốc độ.
  • YOLOv6: Một phương pháp mới gọi là Huấn luyện có hỗ trợ Anchor (AAT) đã được sử dụng, trong đó các anchor chỉ được sử dụng trong quá trình huấn luyện. Điều này cho phép mô hình hưởng lợi từ cấu trúc của các phương pháp dựa trên anchor trong quá trình huấn luyện, đồng thời vẫn sử dụng tính năng phát hiện không cần anchor khi chạy để có tốc độ và khả năng thích ứng tốt hơn.
  • Ultralytics YOLOv8: Chuyển hoàn toàn sang phát hiện không neo (anchor-free) bằng cách sử dụng Anchor-Free Split Ultralytics Head. Điều này làm cho mô hình nhanh hơn và chính xác hơn, đặc biệt đối với các đối tượng nhỏ hoặc có hình dạng kỳ lạ không phù hợp với các hộp neo (anchor box).
  • Ultralytics YOLO11: Xây dựng dựa trên phương pháp không neo (anchor-free) của YOLOv8, tối ưu hóa khả năng phát hiện hơn nữa bằng cách loại bỏ hoàn toàn các hộp neo (anchor box). Điều này dẫn đến khả năng phát hiện nhanh hơn, chính xác hơn cho các ứng dụng thời gian thực như giám sát hành vi động vật (animal behavior monitoring) và phân tích bán lẻ.
__wf_reserved_inherit
Hình 3. So sánh Ultralytics YOLOv8 và Ultralytics YOLO11.

Các ứng dụng thực tế của YOLO11

Một ví dụ điển hình về lợi ích của việc phát hiện không neo bằng YOLO11 là trong xe tự hành. Trong xe tự lái, việc phát hiện người đi bộ, các phương tiện khác và chướng ngại vật một cách nhanh chóng và chính xác là rất quan trọng để đảm bảo an toàn. Phương pháp không neo của YOLO11 đơn giản hóa quy trình phát hiện bằng cách dự đoán trực tiếp các điểm chính của đối tượng, chẳng hạn như tâm của người đi bộ hoặc ranh giới của một phương tiện khác, thay vì dựa vào các hộp neo được xác định trước. 

__wf_reserved_inherit
Hình 4. Lợi ích của phát hiện không neo trong YOLO11 (Ảnh của tác giả).

YOLO11 không cần điều chỉnh hoặc khớp một lưới neo (anchor) cho từng đối tượng, điều này có thể tốn kém về mặt tính toán và chậm chạp. Thay vào đó, nó tập trung vào các đặc điểm chính, làm cho nó nhanh hơn và hiệu quả hơn. Ví dụ: khi một người đi bộ bước vào đường đi của xe, YOLO11 có thể nhanh chóng xác định vị trí của người đó bằng cách xác định các điểm chính, ngay cả khi người đó bị che khuất một phần hoặc đang di chuyển. Khả năng thích ứng với các hình dạng và kích thước khác nhau mà không cần hộp neo cho phép YOLO11 phát hiện các đối tượng đáng tin cậy hơn và ở tốc độ cao hơn, điều này rất quan trọng để đưa ra quyết định theo thời gian thực trong hệ thống lái xe tự động.

Các ứng dụng khác mà khả năng không cần anchor của YOLO11 thực sự nổi bật bao gồm:

  • Quản lý bán lẻ và hàng tồn kho: YOLO11 giúp bạn dễ dàng theo dõi sản phẩm trên kệ, ngay cả khi chúng được xếp chồng lên nhau hoặc bị chặn một phần. Điều này giúp theo dõi hàng tồn kho nhanh hơn, chính xác hơn và giảm thiểu sai sót.
  • Chẩn đoán hình ảnh y tế: YOLO11 cũng hiệu quả trong lĩnh vực chăm sóc sức khỏe, nơi nó có thể phát hiện khối u hoặc các bất thường khác trong ảnh chụp y tế. Khả năng làm việc với các đối tượng có hình dạng không đều giúp cải thiện độ chính xác trong việc chẩn đoán các tình trạng phức tạp.
  • Giám sát động vật hoang dã: Trong nghiên cứu động vật hoang dã, YOLO11 có thể theo dõi động vật trong rừng rậm hoặc địa hình hiểm trở, giúp các nhà nghiên cứu theo dõi hành vi hoặc bảo vệ các loài có nguy cơ tuyệt chủng.
  • Phân tích thể thao (Sports analytics): YOLO11 có thể được sử dụng để theo dõi người chơi, chuyển động của bóng hoặc các yếu tố khác trong thời gian thực trong các sự kiện thể thao để cung cấp thông tin chi tiết có giá trị cho các đội, huấn luyện viên và đài truyền hình.

Những cân nhắc cần thực hiện khi làm việc với các mô hình không neo

Mặc dù các mô hình không cần anchor như YOLO11 mang lại nhiều ưu điểm, nhưng chúng vẫn có những hạn chế nhất định. Một trong những cân nhắc thực tế chính cần thực hiện là ngay cả các mô hình không cần anchor cũng có thể gặp khó khăn với các vật thể bị che khuất hoặc chồng chéo nhiều. Cơ sở lý luận đằng sau điều này là thị giác máy tính nhằm mục đích sao chép thị giác của con người, và giống như đôi khi chúng ta gặp khó khăn trong việc xác định các vật thể bị che khuất, các mô hình AI có thể phải đối mặt với những thách thức tương tự.

Một yếu tố thú vị khác liên quan đến việc xử lý các dự đoán của mô hình. Mặc dù kiến trúc của các mô hình không neo đơn giản hơn so với dựa trên neo, nhưng việc tinh chỉnh bổ sung trở nên cần thiết trong một số trường hợp nhất định. Ví dụ: các kỹ thuật hậu xử lý như triệt tiêu không tối đa (NMS) có thể được yêu cầu để làm sạch các dự đoán chồng chéo hoặc cải thiện độ chính xác trong các cảnh đông đúc.

Neo đậu vào tương lai của AI với YOLO11

Sự chuyển đổi từ phát hiện dựa trên anchor sang phát hiện không cần anchor là một tiến bộ đáng kể trong phát hiện đối tượng. Với các mô hình không cần anchor như YOLO11, quy trình được đơn giản hóa, dẫn đến những cải tiến về cả độ chính xác và tốc độ.

Thông qua YOLO11, chúng ta đã thấy cách phát hiện đối tượng không cần anchor vượt trội trong các ứng dụng thời gian thực như xe tự lái, giám sát video và hình ảnh y tế, nơi phát hiện nhanh chóng và chính xác là rất quan trọng. Cách tiếp cận này cho phép YOLO11 thích ứng dễ dàng hơn với các kích thước đối tượng khác nhau và các cảnh phức tạp, mang lại hiệu suất tốt hơn trong các môi trường đa dạng.

Khi computer vision tiếp tục phát triển, khả năng phát hiện đối tượng sẽ chỉ trở nên nhanh hơn, linh hoạt hơn và hiệu quả hơn.

Khám phá kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng gắn kết của chúng tôi để luôn cập nhật mọi thứ về AI. Xem cách Vision AI đang tác động đến các lĩnh vực như sản xuấtnông nghiệp.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard