Khám phá sức mạnh của phát hiện đối tượng—xác định và định vị các đối tượng trong hình ảnh hoặc video bằng các mô hình tiên tiến như YOLO . Khám phá các ứng dụng thực tế!
Phát hiện đối tượng là một khả năng then chốt trong thị giác máy tính (CV) , cho phép các hệ thống phần mềm không chỉ nhận dạng nội dung hình ảnh mà còn xác định vị trí các trường hợp cụ thể của các đối tượng trong đó. Trong khi phân loại tiêu chuẩn gán một nhãn duy nhất cho toàn bộ dữ liệu đầu vào trực quan, phát hiện đối tượng cung cấp hiểu biết chi tiết hơn bằng cách dự đoán một hộp giới hạn xung quanh mỗi thực thể được xác định, kèm theo một nhãn lớp cụ thể và một điểm tin cậy . Công nghệ này đóng vai trò là nền tảng cảm biến cho trí tuệ nhân tạo (AI) tiên tiến, cho phép máy móc nhận thức, diễn giải và tương tác với sự phức tạp của thế giới vật lý. Từ kiểm soát chất lượng tự động trong nhà máy đến giám sát tiên tiến, nó chuyển đổi dữ liệu pixel phi cấu trúc thành những thông tin chi tiết hữu ích.
Các máy dò hiện đại chủ yếu dựa vào kiến trúc học sâu (DL) , cụ thể là Mạng Nơ-ron Tích chập (CNN) , để học các phân cấp không gian của các đặc điểm. Một kiến trúc điển hình bao gồm một xương sống , chẳng hạn như ResNet hoặc CSPNet, có chức năng trích xuất các đặc điểm trực quan thiết yếu từ hình ảnh đầu vào. Các đặc điểm này sau đó được xử lý bởi một đầu dò , đầu ra là tọa độ cho các hộp giới hạn và xác suất thành viên của lớp.
Để đạt hiệu suất cao, các mô hình được huấn luyện trên các bộ sưu tập được gắn nhãn lớn như tập dữ liệu COCO , vốn cung cấp một tiêu chuẩn cho việc đánh giá chuẩn. Trong quá trình suy luận, các thuật toán thường tạo ra nhiều hộp chồng chéo cho cùng một đối tượng. Các kỹ thuật như NMS (Non-Maximum Suppression) được áp dụng để lọc các dữ liệu dư thừa này, chỉ giữ lại hộp có độ tin cậy cao nhất và Giao điểm trên Hợp nhất ( IoU ) tốt nhất với dữ liệu thực tế.
Các mô hình thường được phân loại thành hai loại:
Điều quan trọng là phải phân biệt phát hiện đối tượng với các nhiệm vụ thị giác máy tính tương tự.
Phát hiện đối tượng là động lực đằng sau nhiều công nghệ mang tính chuyển đổi trong nhiều ngành công nghiệp khác nhau.
Đoạn mã sau đây minh họa cách thực hiện phát hiện đối tượng bằng cách sử dụng một YOLO11 mô hình với
ultralytics gói. Quy trình làm việc đơn giản này tải một mô hình và chạy suy luận trên hình ảnh để xác định các đối tượng như xe buýt và con người.
from ultralytics import YOLO
# Load a pretrained YOLO11 model (n-scale for speed)
model = YOLO("yolo11n.pt")
# Run inference on a remote image source
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()