Pose Estimation
Tìm hiểu cách ước tính tư thế (pose estimation) sử dụng các điểm khóa (keypoints) để theo dõi chuyển động. Khám phá các ứng dụng thực tế và bắt đầu với Ultralytics YOLO26 để có kết quả nhanh, chính xác.
Ước tính tư thế là một kỹ thuật thị giác máy tính chuyên biệt, vượt xa việc chỉ phát hiện sự hiện diện của đối tượng để hiểu cấu trúc hình học và định hướng vật lý của chúng. Trong khi phát hiện đối tượng tiêu chuẩn vẽ một khung chữ nhật đơn giản xung quanh chủ thể, thì ước tính tư thế xác định các điểm ngữ nghĩa cụ thể, được gọi là keypoints, chẳng hạn như các khớp trên cơ thể người (khuỷu tay, đầu gối, vai) hoặc các góc cấu trúc trên xe cộ. Bằng cách ánh xạ các điểm mốc này, các mô hình machine learning có thể tái tạo biểu diễn khung xương của chủ thể, cho phép các hệ thống diễn giải ngôn ngữ cơ thể, động lực học chuyển động và định vị chính xác trong không gian 2D hoặc 3D.
Link to this sectionCác cơ chế cốt lõi: Top-Down so với Bottom-Up#
Ước tính tư thế hiện đại phụ thuộc nhiều vào các kiến trúc deep learning phức tạp, thường sử dụng Convolutional Neural Networks (CNNs) để xử lý dữ liệu hình ảnh. Các thuật toán thường tuân theo một trong hai chiến lược chính để xác định keypoints:
- Phương pháp Top-Down (Từ trên xuống): Phương pháp này trước tiên sử dụng mô hình phát hiện đối tượng để định vị từng cá thể trong bounding boxes. Sau khi một người hoặc đối tượng được cắt ra từ hình ảnh lớn hơn, bộ ước tính tư thế sẽ dự đoán các keypoints trong vùng cụ thể đó. Phương pháp này thường có độ chính xác cao nhưng có thể gặp phải inference latency cao hơn khi số lượng chủ thể trong khung hình tăng lên.
- Phương pháp Bottom-Up (Từ dưới lên): Ngược lại, chiến lược này phát hiện đồng thời tất cả các keypoints tiềm năng trong toàn bộ hình ảnh (ví dụ: tìm mọi "đầu gối trái" trong đám đông) và sau đó sử dụng các thuật toán liên kết để nhóm chúng thành các bộ khung xương riêng lẻ. Phương pháp này thường được ưu tiên cho real-time inference trong các cảnh đông người vì chi phí tính toán vẫn tương đối ổn định bất kể có bao nhiêu người hiện diện.
Các mô hình tiên tiến như YOLO26 sử dụng các kiến trúc end-to-end tiên tiến giúp cân bằng các nhu cầu này, cung cấp khả năng ước tính tư thế tốc độ cao phù hợp để triển khai trên các thiết bị edge AI và nền tảng di động.
Link to this sectionPhân biệt các thuật ngữ thị giác máy tính liên quan#
Việc phân biệt ước tính tư thế với các tác vụ nhận dạng hình ảnh khác là rất hữu ích để hiểu giá trị độc đáo của nó trong các quy trình computer vision:
- Object Detection: Tập trung vào việc xác định đối tượng là gì và ở đâu, xuất ra một khung chữ nhật. Nó coi chủ thể là một vật thể cứng mà không hiểu cấu trúc khớp nối bên trong.
- Instance Segmentation: Tạo ra một mặt nạ (mask) pixel-perfect phác thảo hình dạng chính xác của đối tượng. Trong khi phân đoạn cung cấp các ranh giới, nó không xác định rõ ràng các khớp hoặc liên kết xương cần thiết cho kinematic analysis.
- Pose Estimation: Nhắm mục tiêu cụ thể vào cấu trúc bên trong, ánh xạ các kết nối giữa các điểm mốc được xác định trước (ví dụ: từ hông đến đầu gối) để phân tích tư thế và hành động.
Link to this sectionCác ứng dụng trong thực tế#
Khả năng số hóa chuyển động của con người và đối tượng đã dẫn đến những ứng dụng mang tính chuyển đổi trong nhiều ngành công nghiệp, thường được huấn luyện bằng các công cụ như Ultralytics Platform để quản lý các tập dữ liệu lớn gồm các keypoints đã được chú thích.
Link to this sectionChăm sóc sức khỏe và Phục hồi chức năng#
Trong lĩnh vực y tế, AI in healthcare sử dụng ước tính tư thế để theo dõi quá trình phục hồi chức năng của bệnh nhân từ xa. Bằng cách theo dõi các góc khớp và phạm vi chuyển động, các hệ thống tự động có thể đảm bảo bệnh nhân thực hiện các physical therapy exercises đúng cách tại nhà. Điều này làm giảm nguy cơ tái chấn thương và cho phép các bác sĩ lâm sàng định lượng tiến trình phục hồi mà không cần thiết bị phòng thí nghiệm đắt tiền.
Link to this sectionPhân tích thể thao#
Các huấn luyện viên và vận động viên tận dụng sports analytics để tối ưu hóa hiệu suất. Các mô hình ước tính tư thế có thể phân tích mặt phẳng vung gậy của một người chơi gôn, độ dài sải chân của một vận động viên chạy bộ hoặc cơ sinh học của một người ném bóng mà không cần các bộ đồ gắn điểm đánh dấu xâm lấn được sử dụng trong motion capture truyền thống. Điều này cung cấp phản hồi tức thì, dựa trên dữ liệu để cải thiện kỹ thuật và ngăn ngừa chấn thương do quá tải.
Link to this sectionBán lẻ và Phân tích hành vi#
Trong môi trường thương mại, các hệ thống AI in retail sử dụng phát hiện tư thế để hiểu hành vi của khách hàng, chẳng hạn như với tay lấy sản phẩm trên kệ cao hoặc dừng chân ở các lối đi cụ thể. Dữ liệu này giúp tối ưu hóa cách bố trí cửa hàng và cải thiện inventory management bằng cách liên hệ các hành động vật lý với các quyết định mua hàng.
Link to this sectionVí dụ về mã: Ước tính tư thế với YOLO26#
Việc triển khai ước tính tư thế trở nên đơn giản với các khung làm việc Python hiện đại. Ví dụ sau đây minh họa cách sử dụng gói ultralytics để tải mô hình YOLO26 đã được huấn luyện sẵn (phiên bản kế nhiệm của YOLO11) và phát hiện các keypoints của người trong hình ảnh.
from ultralytics import YOLO
# Load the YOLO26 pose model (nano version for speed)
model = YOLO("yolo26n-pose.pt")
# Perform inference on an image source
# The model identifies bounding boxes and specific keypoints (joints)
results = model("https://ultralytics.com/images/bus.jpg")
# Print the xy coordinates of detected keypoints
print(results[0].keypoints.xy)
# Visualize the skeletal results directly
results[0].show()





