Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phát Hiện Đối Tượng

Khám phá sức mạnh của phát hiện đối tượng—xác định và định vị các đối tượng trong hình ảnh hoặc video bằng các mô hình tiên tiến như YOLO . Khám phá các ứng dụng thực tế!

Phát hiện đối tượng là một khả năng then chốt trong thị giác máy tính (CV) , cho phép các hệ thống phần mềm không chỉ nhận dạng nội dung hình ảnh mà còn xác định vị trí các trường hợp cụ thể của các đối tượng trong đó. Trong khi phân loại tiêu chuẩn gán một nhãn duy nhất cho toàn bộ dữ liệu đầu vào trực quan, phát hiện đối tượng cung cấp hiểu biết chi tiết hơn bằng cách dự đoán một hộp giới hạn xung quanh mỗi thực thể được xác định, kèm theo một nhãn lớp cụ thể và một điểm tin cậy . Công nghệ này đóng vai trò là nền tảng cảm biến cho trí tuệ nhân tạo (AI) tiên tiến, cho phép máy móc nhận thức, diễn giải và tương tác với sự phức tạp của thế giới vật lý. Từ kiểm soát chất lượng tự động trong nhà máy đến giám sát tiên tiến, nó chuyển đổi dữ liệu pixel phi cấu trúc thành những thông tin chi tiết hữu ích.

Cơ chế phát hiện đối tượng

Các máy dò hiện đại chủ yếu dựa vào kiến trúc học sâu (DL) , cụ thể là Mạng Nơ-ron Tích chập (CNN) , để học các phân cấp không gian của các đặc điểm. Một kiến trúc điển hình bao gồm một xương sống , chẳng hạn như ResNet hoặc CSPNet, có chức năng trích xuất các đặc điểm trực quan thiết yếu từ hình ảnh đầu vào. Các đặc điểm này sau đó được xử lý bởi một đầu dò , đầu ra là tọa độ cho các hộp giới hạn và xác suất thành viên của lớp.

Để đạt hiệu suất cao, các mô hình được huấn luyện trên các bộ sưu tập được gắn nhãn lớn như tập dữ liệu COCO , vốn cung cấp một tiêu chuẩn cho việc đánh giá chuẩn. Trong quá trình suy luận, các thuật toán thường tạo ra nhiều hộp chồng chéo cho cùng một đối tượng. Các kỹ thuật như NMS (Non-Maximum Suppression) được áp dụng để lọc các dữ liệu dư thừa này, chỉ giữ lại hộp có độ tin cậy cao nhất và Giao điểm trên Hợp nhất ( IoU ) tốt nhất với dữ liệu thực tế.

Các mô hình thường được phân loại thành hai loại:

  • Máy dò đối tượng hai giai đoạn : Các hệ thống như Faster R-CNN trước tiên đề xuất các khu vực quan tâm và sau đó classify chúng. Mặc dù chính xác về mặt lịch sử, nhưng chúng có thể tốn kém về mặt tính toán.
  • Bộ phát hiện đối tượng một giai đoạn : Các kiến trúc hiện đại, bao gồm Ultralytics YOLO11 , dự đoán các hộp giới hạn và xác suất phân lớp chỉ trong một lần chạy. Phương pháp này được tối ưu hóa cho suy luận thời gian thực , mang lại sự cân bằng lý tưởng giữa tốc độ và độ chính xác. Nhìn về tương lai, Ultralytics hiện đang phát triển YOLO26 , nhằm mục đích cải thiện hơn nữa hiệu quả phát hiện đầu cuối.

Phân biệt với các nhiệm vụ CV liên quan

Điều quan trọng là phải phân biệt phát hiện đối tượng với các nhiệm vụ thị giác máy tính tương tự.

  • Phân loại hình ảnh : Xác định những gì có trong hình ảnh (ví dụ: "chó") nhưng không xác định vị trí hoặc số lượng.
  • Phân đoạn trường hợp : Giống như phát hiện, nó định vị các đối tượng, nhưng thay vì một hộp, nó tạo ra một mặt nạ hoàn hảo đến từng pixel phác thảo hình dạng chính xác của đối tượng.
  • Theo dõi đối tượng : Tính năng này mở rộng khả năng phát hiện vào miền thời gian, gán một ID duy nhất cho các đối tượng được phát hiện và theo dõi quỹ đạo của chúng trên các khung hình video.

Các Ứng dụng Thực tế

Phát hiện đối tượng là động lực đằng sau nhiều công nghệ mang tính chuyển đổi trong nhiều ngành công nghiệp khác nhau.

  • Hệ thống tự hành: Trong ngành công nghiệp ô tô, xe tự hành sử dụng các mô hình phát hiện để nhận dạng người đi bộ, biển báo giao thông và các phương tiện khác chỉ trong vài mili giây. Những công ty hàng đầu trong lĩnh vực này như WaymoTesla Autopilot dựa vào các khả năng này để điều hướng an toàn trong các môi trường phức tạp.
  • Chẩn đoán Y khoa: Trong AI chăm sóc sức khỏe , các mô hình phát hiện hỗ trợ bác sĩ X-quang bằng cách làm nổi bật các vùng quan tâm trên phim chụp X-quang hoặc CT, chẳng hạn như khối u hoặc gãy xương. Các tổ chức như Viện Y tế Quốc gia (NIH) đang tích cực nghiên cứu cách phân tích hình ảnh y khoa có thể giảm thiểu lỗi chẩn đoán.
  • Phân tích bán lẻ: Các cửa hàng tận dụng AI trong bán lẻ để tự động hóa quy trình thanh toán và theo dõi hàng tồn kho. Các hệ thống tương tự như Amazon Go sử dụng tính năng phát hiện để track những mặt hàng mà khách hàng lấy từ kệ hàng.

Ví dụ triển khai

Đoạn mã sau đây minh họa cách thực hiện phát hiện đối tượng bằng cách sử dụng một YOLO11 mô hình với ultralytics gói. Quy trình làm việc đơn giản này tải một mô hình và chạy suy luận trên hình ảnh để xác định các đối tượng như xe buýt và con người.

from ultralytics import YOLO

# Load a pretrained YOLO11 model (n-scale for speed)
model = YOLO("yolo11n.pt")

# Run inference on a remote image source
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes and labels
results[0].show()

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay