Cách sử dụng Ultralytics YOLO11 để phát hiện đối tượng OBB
Tìm hiểu cách Ultralytics YOLO11 có thể tăng cường khả năng phát hiện đối tượng bằng cách sử dụng hộp bao quanh định hướng (OBB) và các ứng dụng nào phù hợp với tác vụ thị giác máy tính này.

Sự kiện hybrid thường niên của Ultralytics, YOLO Vision 2024 (YV24), tập trung thảo luận về các đột phá mới nhất trong lĩnh vực AI và thị giác máy tính. Đây là dịp hoàn hảo để giới thiệu model mới nhất của chúng tôi, Ultralytics YOLO11. Model này hỗ trợ cùng các tác vụ thị giác máy tính như Ultralytics YOLOv8, giúp người dùng chuyển đổi sang model mới một cách dễ dàng.
Giả sử bạn đang sử dụng YOLOv8 cho phát hiện đối tượng bằng hộp bao định hướng (OBB) để phát hiện các đối tượng từ nhiều góc độ khác nhau. Giờ đây, bạn có thể chuyển sang YOLO11 với một vài thay đổi nhỏ trong code và hưởng lợi từ những cải tiến của YOLO11, từ độ chính xác và hiệu suất tăng cao cho đến tốc độ xử lý. Trong trường hợp bạn chưa từng sử dụng các model như YOLO11, thì phát hiện OBB là một ví dụ tuyệt vời về cách YOLO11 có thể được ứng dụng trong nhiều ngành công nghiệp, mang đến các giải pháp thiết thực tạo ra tác động thực sự.
Trong bài viết này, chúng ta sẽ xem xét phát hiện đối tượng OBB là gì, nơi nó có thể được áp dụng và cách sử dụng YOLO11 để phát hiện OBB. Chúng ta cũng sẽ tìm hiểu cách các tính năng mới của YOLO11 cải thiện các quy trình này, cũng như cách chạy inference và train các model tùy chỉnh để tận dụng tối đa khả năng phát hiện OBB của nó.
Link to this sectionCác tính năng thế hệ tiếp theo của YOLO11 bao gồm các tác vụ như phát hiện đối tượng OBB#
Phát hiện đối tượng OBB đưa phát hiện đối tượng truyền thống tiến thêm một bước bằng cách phát hiện các đối tượng ở các góc độ khác nhau. Không giống như các bounding box thông thường vốn căn chỉnh theo các trục của hình ảnh, OBB xoay để khớp với hướng của đối tượng. Phát hiện đối tượng OBB có thể được sử dụng để phân tích hình ảnh trên không hoặc vệ tinh, nơi các đối tượng không phải lúc nào cũng nằm thẳng. Trong các ngành như quy hoạch đô thị, năng lượng và giao thông vận tải, khả năng phát hiện chính xác các đối tượng bị xoay góc như tòa nhà, phương tiện hoặc cơ sở hạ tầng có thể tạo nền tảng cho các ứng dụng thị giác máy tính với những lợi ích hữu hình.

Hình 1. So sánh bounding box thông thường và bounding box định hướng.
YOLO11 hỗ trợ phát hiện OBB và đã được train trên tập dữ liệu DOTA v1.0 để phát hiện các đối tượng như máy bay, tàu thuyền và bể chứa từ các góc nhìn khác nhau. YOLO11 có nhiều phiên bản model phù hợp với các nhu cầu khác nhau, bao gồm YOLO11n-obb (Nano), YOLO11s-obb (Small), YOLO11m-obb (Medium), YOLO11l-obb (Large) và YOLO11x-obb (Extra Large). Mỗi model cung cấp kích thước khác nhau, với các mức độ tốc độ, độ chính xác và sức mạnh tính toán thay đổi. Người dùng có thể chọn model mang lại sự cân bằng phù hợp về tốc độ và độ chính xác cho ứng dụng của mình.
Link to this sectionCác trường hợp sử dụng YOLO11 mang đến một góc nhìn mới cho việc phát hiện#
Khả năng phát hiện đối tượng của YOLO11, đặc biệt là sự hỗ trợ cho các bounding box định hướng, mang lại độ chính xác cao hơn cho nhiều ngành công nghiệp. Tiếp theo, chúng ta sẽ xem xét một vài ví dụ về cách YOLO11 và phát hiện OBB có thể được sử dụng trong các tình huống thực tế để làm cho quy trình hiệu quả, chính xác và dễ quản lý hơn trong các lĩnh vực khác nhau.
Link to this sectionQuy hoạch đô thị và giám sát cơ sở hạ tầng với YOLO11#
Nếu bạn từng ngưỡng mộ thiết kế và bố cục của một thành phố, thì đó là nhờ vào công việc chi tiết của lĩnh vực quy hoạch đô thị và giám sát cơ sở hạ tầng. Một trong nhiều khía cạnh của giám sát cơ sở hạ tầng là xác định và quản lý các công trình quan trọng như bể chứa, đường ống và các khu công nghiệp. YOLO11 có thể giúp các nhà quy hoạch đô thị phân tích hình ảnh trên không để phát hiện các thành phần quan trọng này một cách nhanh chóng và chính xác.
Phát hiện đối tượng bằng hộp bao định hướng đặc biệt hữu ích ở đây vì nó cho phép phát hiện các đối tượng được quan sát từ nhiều góc độ khác nhau (thường xảy ra với hình ảnh trên không). Độ chính xác là rất quan trọng ở đây để theo dõi các khu công nghiệp, quản lý tác động môi trường và đảm bảo cơ sở hạ tầng được bảo trì đúng cách. OBB làm cho quy trình phát hiện trở nên đáng tin cậy hơn, giúp các nhà quy hoạch đưa ra quyết định sáng suốt về sự phát triển, an toàn và tính bền vững của thành phố. Sử dụng YOLO11 có thể giúp các nhà quy hoạch giám sát và quản lý cơ sở hạ tầng để các thành phố hoạt động trơn tru.

Hình 2. Sử dụng YOLO11 để phát hiện bể chứa trong cảnh quay trên không.
Link to this sectionKiểm tra các tấm pin mặt trời bằng máy bay không người lái, YOLO11 và edge AI#
Khi năng lượng tái tạo và các đổi mới như trang trại năng lượng mặt trời trở nên phổ biến hơn, việc kiểm tra định kỳ ngày càng trở nên quan trọng. Các tấm pin mặt trời cần được kiểm tra để đảm bảo chúng hoạt động hiệu quả. Theo thời gian, các vấn đề như vết nứt, bụi bẩn tích tụ hoặc lệch hướng có thể làm giảm hiệu suất của chúng. Kiểm tra định kỳ giúp phát hiện sớm các vấn đề này để có thể thực hiện bảo trì, giữ cho chúng hoạt động trơn tru.
Ví dụ, các tấm pin mặt trời có thể được kiểm tra hư hỏng bằng máy bay không người lái được tích hợp edge AI và YOLO11. Phân tích hình ảnh trên edge mang lại độ chính xác và hiệu quả cao hơn cho quy trình kiểm tra. Do chuyển động và góc nhìn của máy bay không người lái, hình ảnh giám sát thường có thể ghi lại các tấm pin mặt trời từ nhiều góc độ khác nhau. Trong những trường hợp này, khả năng phát hiện OBB của YOLO11 có thể giúp máy bay không người lái xác định chính xác các tấm pin mặt trời.
Link to this sectionYOLO11 có thể cung cấp thông tin chi tiết cho việc quản lý đội tàu#
Các cảng và bến tàu xử lý hàng trăm con tàu mỗi tuần và việc quản lý một đội tàu lớn như vậy có thể là một thách thức. Một yếu tố khó khăn bổ sung liên quan khi phân tích tàu thuyền trong hình ảnh trên không là các con tàu thường xuất hiện ở những góc độ khác nhau. Đây là lúc sự hỗ trợ của YOLO11 cho phát hiện OBB trở nên hữu ích.
Phát hiện OBB giúp model phát hiện tàu ở nhiều góc độ chính xác hơn so với các hộp hình chữ nhật tiêu chuẩn. Bằng cách sử dụng YOLO11 với OBB, các công ty vận tải biển có thể dễ dàng xác định vị trí và tình trạng của đội tàu, theo dõi các chi tiết quan trọng như sự di chuyển của đội tàu và hậu cần chuỗi cung ứng. Các giải pháp hỗ trợ bằng thị giác như vậy giúp tối ưu hóa tuyến đường, giảm sự chậm trễ và cải thiện việc quản lý đội tàu tổng thể trên các tuyến đường vận tải biển.

Hình 3. Sử dụng YOLO11 để phát hiện tàu thuyền và cảng ở một góc độ.
Link to this sectionYOLO11 dành cho các nhà phát triển AI: Phát hiện các hộp bao định hướng#
Nếu bạn là một nhà phát triển AI đang muốn sử dụng YOLO11 cho việc phát hiện OBB, có hai lựa chọn dễ dàng để bắt đầu. Nếu bạn thoải mái khi làm việc với code, gói Python của Ultralytics là một lựa chọn tuyệt vời. Nếu bạn thích một giải pháp thân thiện với người dùng, không cần code với khả năng train trên đám mây, thì Ultralytics HUB là một nền tảng nội bộ được thiết kế riêng cho việc đó. Để biết thêm chi tiết, bạn có thể xem hướng dẫn của chúng tôi về train và triển khai Ultralytics YOLO11 bằng cách sử dụng Ultralytics HUB.
Giờ đây, khi chúng ta đã thấy các ví dụ về nơi có thể áp dụng hỗ trợ OBB của YOLO11, hãy khám phá gói Python của Ultralytics và xem cách bạn có thể chạy inference và train các model tùy chỉnh bằng cách sử dụng nó.
Link to this sectionChạy suy luận sử dụng YOLO11#
Đầu tiên, để sử dụng YOLO11 với Python, bạn sẽ cần cài đặt gói Ultralytics. Tùy thuộc vào sở thích của bạn, bạn có thể chọn cài đặt nó bằng pip, conda hoặc Docker. Để biết hướng dẫn từng bước, bạn có thể tham khảo Hướng dẫn cài đặt Ultralytics. Nếu bạn gặp bất kỳ khó khăn nào trong quá trình cài đặt, Hướng dẫn các vấn đề thường gặp của chúng tôi cung cấp các mẹo khắc phục sự cố hữu ích.
Sau khi cài đặt gói Ultralytics, việc làm việc với YOLO11 vô cùng đơn giản. Chạy inference đề cập đến quy trình sử dụng một model đã được train để đưa ra các dự đoán trên hình ảnh mới - như phát hiện các đối tượng với OBB trong thời gian thực. Nó khác với train model, là khi bạn dạy model nhận dạng các đối tượng mới hoặc cải thiện hiệu suất của nó trên các tác vụ cụ thể. Inferencing được sử dụng khi bạn muốn áp dụng model vào dữ liệu chưa từng thấy.
Ví dụ bên dưới hướng dẫn bạn cách tải một model và sử dụng nó để dự đoán các hộp bao định hướng trên một hình ảnh. Để có thêm các ví dụ chi tiết và mẹo sử dụng nâng cao, hãy chắc chắn xem qua tài liệu chính thức của Ultralytics để biết các phương pháp hay nhất và các hướng dẫn khác.

Hình 4. Một đoạn mã giới thiệu việc chạy inference bằng YOLO11.
Link to this sectionHuấn luyện một mô hình YOLO11 tùy chỉnh#
Train một model YOLO11 có nghĩa là bạn có thể tinh chỉnh hiệu suất của nó trên các tập dữ liệu và tác vụ cụ thể, chẳng hạn như phát hiện đối tượng bằng hộp bao định hướng. Trong khi các model được train sẵn như YOLO11 có thể được sử dụng cho phát hiện đối tượng chung, thì việc train một model tùy chỉnh là cần thiết khi bạn cần model phát hiện các đối tượng độc đáo hoặc tối ưu hóa hiệu suất trên một tập dữ liệu cụ thể.
Trong đoạn mã bên dưới, chúng tôi đề cập đến các bước để train một model YOLO11 cho việc phát hiện OBB.
Đầu tiên, model được khởi tạo bằng cách sử dụng các trọng số (weights) cụ thể cho YOLO11 OBB đã được train trước (yolo11n-obb.pt). Sau đó, một hàm train được sử dụng để train model trên một tập dữ liệu tùy chỉnh, với các tham số như tệp cấu hình tập dữ liệu, số chu kỳ train, kích thước hình ảnh khi train và phần cứng để chạy quá trình train (ví dụ: CPU hoặc GPU). Sau khi train, hiệu suất của model được kiểm chứng để kiểm tra các chỉ số như độ chính xác và hàm mất mát.
Sử dụng model đã được train, bạn có thể chạy inference trên các hình ảnh mới để phát hiện các đối tượng với OBB và trực quan hóa chúng. Ngoài ra, model đã được train có thể được chuyển đổi sang các định dạng như ONNX để triển khai bằng cách sử dụng tính năng export.

Hình 5. Một ví dụ về việc train YOLO11 cho phát hiện đối tượng OBB.
Link to this sectionCon đường phía trước cho các tiến bộ AI của YOLO11#
Ultralytics YOLO11 nâng việc phát hiện đối tượng lên một tầm cao mới với khả năng hỗ trợ các hộp bao định hướng. Bằng cách có thể phát hiện các đối tượng ở các góc độ khác nhau, YOLO11 có thể được sử dụng cho nhiều ứng dụng khác nhau trong các ngành công nghiệp. Ví dụ, nó hoàn toàn phù hợp với các ngành như quy hoạch đô thị, năng lượng và vận tải biển, nơi độ chính xác là rất quan trọng cho các tác vụ như kiểm tra tấm pin mặt trời hoặc giám sát đội tàu. Với hiệu suất nhanh hơn và độ chính xác được cải thiện, YOLO11 có thể giúp các nhà phát triển AI giải quyết các thách thức thực tế.
Khi AI ngày càng được áp dụng rộng rãi và tích hợp vào cuộc sống hàng ngày của chúng ta, các model như YOLO11 sẽ định hình tương lai của các giải pháp AI.
Để tìm hiểu về tiềm năng của AI thị giác, hãy tham gia cộng đồng đang phát triển của chúng tôi và khám phá kho lưu trữ GitHub của chúng tôi. Chúng tôi đang thúc đẩy sự đổi mới bằng cách tái tạo các lĩnh vực từ chăm sóc sức khỏe đến xe tự lái.






