Khám phá các bộ phát hiện đối tượng một giai đoạn dành cho trí tuệ nhân tạo tốc độ cao theo thời gian thực. Tìm hiểu thêm Ultralytics YOLO26 mang lại độ chính xác và hiệu quả vượt trội cho AI biên và triển khai.
Các bộ phát hiện đối tượng một giai đoạn là một lớp kiến trúc học sâu mạnh mẽ được thiết kế để thực hiện các tác vụ phát hiện đối tượng với tốc độ và hiệu quả vượt trội. Không giống như các bộ phát hiện đối tượng hai giai đoạn truyền thống, chia quá trình phát hiện thành các bước riêng biệt để đề xuất vùng và phân loại tiếp theo, các mô hình một giai đoạn phân tích toàn bộ hình ảnh trong một lần xử lý duy nhất. Bằng cách coi việc phát hiện như một bài toán hồi quy trực tiếp, các mạng này đồng thời dự đoán tọa độ hộp giới hạn và xác suất lớp trực tiếp từ các pixel đầu vào. Cách tiếp cận được tinh giản này giúp giảm đáng kể chi phí tính toán, khiến các bộ phát hiện một giai đoạn trở thành lựa chọn ưu tiên cho các ứng dụng yêu cầu suy luận thời gian thực và triển khai trên các thiết bị AI biên có tài nguyên hạn chế.
Kiến trúc của một bộ dò một giai đoạn thường tập trung vào mạng nơ-ron tích chập (CNN) đóng vai trò là xương sống cho việc trích xuất đặc trưng . Khi hình ảnh đi qua mạng, mô hình sẽ tạo ra một lưới các bản đồ đặc trưng mã hóa thông tin không gian và ngữ nghĩa.
Các thuật toán ban đầu, chẳng hạn như Single Shot MultiBox Detector (SSD) , dựa vào các hộp neo được xác định trước ở nhiều tỷ lệ khác nhau để định vị đối tượng. Tuy nhiên, những tiến bộ hiện đại như Ultralytics YOLO11 và YOLO26 tiên tiến nhất đã chuyển phần lớn sang thiết kế không cần neo . Các kiến trúc mới hơn này dự đoán trực tiếp tâm và kích thước của đối tượng, loại bỏ nhu cầu điều chỉnh siêu tham số phức tạp liên quan đến neo. Kết quả cuối cùng bao gồm các vectơ tọa độ để định vị và điểm tin cậy thể hiện mức độ chắc chắn của mô hình về đối tượng được phát hiện.
Việc phân biệt giữa hai loại chính này giúp lựa chọn công cụ phù hợp cho từng nhiệm vụ cụ thể:
Hiệu quả của các thiết bị dò một giai đoạn đã thúc đẩy việc ứng dụng rộng rãi chúng trong nhiều ngành công nghiệp khác nhau, nơi mà khả năng phản hồi tức thì là vô cùng quan trọng:
Việc triển khai một bộ dò một giai đoạn khá đơn giản bằng cách sử dụng các API cấp cao hiện đại. Để đảm bảo kết quả chính xác, các mô hình thường dự đoán nhiều hộp tiềm năng, sau đó được lọc bằng các kỹ thuật như Loại bỏ cực đại không đồng nhất (Non-Maximum Suppression - NMS ) dựa trên ngưỡng Giao điểm trên Hợp nhất (Intersection over Union - IoU ) , mặc dù các mô hình đầu cuối mới hơn như YOLO26 xử lý việc này một cách tự nhiên.
Sau đây Python Ví dụ này minh họa cách tải mô hình YOLO26 hiện đại và thực hiện suy luận trên một hình ảnh:
from ultralytics import YOLO
# Load the YOLO26 model, the latest natively end-to-end one-stage detector
model = YOLO("yolo26n.pt")
# Run inference on an image URL to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the first result with bounding boxes and labels
results[0].show()
Sự phát triển của các bộ dò một giai đoạn tập trung vào việc khắc phục sự đánh đổi giữa "độ chính xác và tốc độ". Các kỹ thuật như Focal Loss đã được giới thiệu để giải quyết sự mất cân bằng lớp trong quá trình huấn luyện, đảm bảo rằng mô hình tập trung vào các lớp khó nhận dạng. classify các ví dụ thay vì bối cảnh phong phú. Hơn nữa, việc tích hợp Mạng Kim tự tháp Đặc trưng (FPN) cho phép các mô hình này detect các vật thể ở các tỷ lệ khác nhau một cách hiệu quả.
Ngày nay, các nhà nghiên cứu và phát triển có thể dễ dàng huấn luyện các kiến trúc tiên tiến này trên các tập dữ liệu tùy chỉnh bằng các công cụ như Nền tảng Ultralytics , giúp đơn giản hóa quy trình làm việc từ chú thích dữ liệu đến triển khai mô hình. Cho dù là trong nông nghiệp hay chăm sóc sức khỏe , khả năng tiếp cận các bộ phát hiện một giai đoạn đang dân chủ hóa các khả năng thị giác máy tính mạnh mẽ.