Khám phá những điểm chính trong tầm nhìn máy tính: ước tính tư thế với Ultralytics YOLO11 để theo dõi sức khỏe, nhận dạng cử chỉ và theo dõi nhanh chóng, chính xác.
Điểm chính là các vị trí không gian chính xác, giàu thông tin trong một hình ảnh, xác định các đặc điểm riêng biệt của một vật thể hoặc cảnh. Trong lĩnh vực thị giác máy tính , các tọa độ này—thường được biểu diễn bằng giá trị X và Y—đánh dấu các điểm quan trọng, chẳng hạn như góc của một tòa nhà, tâm mắt hoặc các khớp trên cơ thể người. Không giống như việc xử lý từng pixel trong ảnh, việc tập trung vào các điểm thưa thớt nhưng giàu ngữ nghĩa này cho phép các mô hình trí tuệ nhân tạo (AI) hiểu hình học, phân tích hình dạng và... track chuyển động với độ chính xác cao. Khái niệm này là nền tảng cho các nhiệm vụ nâng cao đòi hỏi sự hiểu biết về cấu trúc của đối tượng, chứ không chỉ là sự hiện diện hoặc vị trí của nó.
Điểm chính đóng vai trò là nền tảng cơ bản để lập bản đồ cấu trúc của các vật thể động. Khi nhiều điểm chính được phát hiện và kết nối, chúng sẽ tạo thành một đồ thị xương hoặc khung dây biểu diễn tư thế của vật thể. Điều này thường được áp dụng trong ước lượng tư thế , trong đó các thuật toán dự đoán vị trí của các khớp giải phẫu—vai, khuỷu tay, hông và đầu gối—để tái tạo tư thế con người.
Bằng cách tận dụng các kiến trúc học sâu như YOLO11 , hệ thống có thể hồi quy các tọa độ này trực tiếp từ hình ảnh đầu vào. Quá trình này bao gồm việc trích xuất các đặc điểm phức tạp, trong đó mạng học cách xác định các mẫu cục bộ bất biến với ánh sáng, góc quay và tỷ lệ. Dữ liệu thu được có trọng lượng nhẹ và hiệu quả tính toán cao, lý tưởng cho việc suy luận thời gian thực trên các thiết bị biên.
Để hiểu được tiện ích cụ thể của các điểm chính, sẽ hữu ích khi so sánh chúng với các tác vụ thị giác máy tính chính khác:
Khả năng để track những điểm cụ thể về một chủ đề mở ra cánh cửa cho nhiều ứng dụng đa dạng trong nhiều ngành công nghiệp khác nhau:
Các thư viện hiện đại giúp việc triển khai phát hiện điểm chính trở nên dễ dàng bằng cách sử dụng các mô hình được đào tạo trước.
ultralytics gói cung cấp quyền truy cập tức thì vào
YOLO11 các mô hình được đào tạo trên các tập dữ liệu lớn như
COCO để xác định khớp của con người.
Ví dụ sau đây minh họa cách tải mô hình ước tính tư thế và trực quan hóa các điểm chính đã phát hiện:
from ultralytics import YOLO
# Load a pretrained YOLO11n-pose model
model = YOLO("yolo11n-pose.pt")
# Run inference on a local image or URL
results = model("https://docs.ultralytics.com/tasks/detect/")
# Visualize the results, showing the skeletal keypoints
results[0].show()
Trong quy trình làm việc này, mô hình đưa ra một Keypoints đối tượng chứa tọa độ và một
điểm tự tin cho mỗi điểm được phát hiện. Các nhà phát triển có thể trích xuất các dữ liệu thô này x, y các giá trị để xây dựng logic tùy chỉnh, chẳng hạn như đếm số lần lặp lại trong ứng dụng phòng tập thể dục hoặc điều khiển nhân vật trò chơi thông qua
tương tác giữa người và máy tính.