Khám phá cách ước tính tư thế: cách thức hoạt động của các mô hình điểm chính (từ trên xuống so với từ dưới lên), ứng dụng thực tế từ chăm sóc sức khỏe đến thể thao, cùng những lợi ích và thách thức chính.
Ước lượng tư thế là một nhiệm vụ thị giác máy tính (CV) chuyên biệt, không chỉ dừng lại ở việc phát hiện vật thể mà còn xác định hình dạng và hướng cụ thể của chúng. Bằng cách xác định tọa độ của các điểm mốc cấu trúc - được gọi là điểm chính - công nghệ này tạo ra biểu diễn xương của một đối tượng. Ở người, các điểm chính này thường được ánh xạ đến các khớp chính như vai, khuỷu tay, hông và đầu gối. Khả năng này cho phép các mô hình học máy (ML) diễn giải ngôn ngữ cơ thể, hoạt động và tư thế, thu hẹp khoảng cách giữa việc phát hiện điểm ảnh đơn giản và việc hiểu các hành vi vật lý phức tạp.
Việc ước lượng tư thế hiện đại phụ thuộc rất nhiều vào kiến trúc học sâu (DL) , cụ thể là Mạng nơ-ron tích chập (CNN) và ngày càng phổ biến là Transformer. Quá trình này thường bao gồm hai phương pháp chính:
Đối với các ứng dụng hiệu suất cao, các mô hình như Ultralytics YOLO11 tích hợp các khái niệm này để cung cấp khả năng ước tính tư thế nhanh chóng phù hợp với các thiết bị biên.
Điều quan trọng là phải phân biệt ước lượng tư thế với các nhiệm vụ thị giác tương tự:
Tính hữu ích của việc ước tính tư thế mở rộng sang nhiều ngành công nghiệp khác nhau, nơi mà việc phân tích chuyển động là rất quan trọng.
Trong lĩnh vực AI chăm sóc sức khỏe , ước tính tư thế hỗ trợ vật lý trị liệu bằng cách tự động theo dõi chuyển động của bệnh nhân. Hệ thống có thể đo góc khớp trong các bài tập phục hồi chức năng để đảm bảo bệnh nhân duy trì tư thế đúng, giảm nguy cơ tái chấn thương. Điều này cho phép theo dõi từ xa và cải tiến y tế từ xa , giúp việc chăm sóc chất lượng dễ tiếp cận hơn.
Các huấn luyện viên và vận động viên sử dụng phân tích thể thao để phân tích hiệu suất. Bằng cách trích xuất dữ liệu cơ sinh học từ cảnh quay video, AI có thể phân tích mặt vung gậy của người chơi golf hoặc hiệu suất dáng đi của người chạy bộ mà không cần đến các bộ đồ đánh dấu xâm lấn như trong công nghệ ghi hình chuyển động truyền thống.
Sau đây là Python đoạn trích minh họa cách tải một chương trình được đào tạo trước YOLO11 mô hình hóa và thực hiện ước tính tư thế trên một hình ảnh. Điều này đòi hỏi ultralytics đóng gói và trực quan hóa đầu ra của bộ xương.
from ultralytics import YOLO
# Load the official YOLO11 nano pose model
model = YOLO("yolo11n-pose.pt")
# Run inference on an image source
results = model("https://docs.ultralytics.com/usage/python/")
# Visualize the detected keypoints and skeleton
results[0].show()
Việc đào tạo các mô hình tư thế mạnh mẽ đòi hỏi khối lượng lớn dữ liệu được chú thích . Các chuẩn mực như bộ dữ liệu COCO Pose cung cấp hàng ngàn hình người được gắn nhãn. Tuy nhiên, vẫn còn nhiều thách thức, chẳng hạn như che khuất (khi các bộ phận cơ thể bị che khuất) và tự che khuất (khi một người tự che chân tay của mình). Việc giải quyết những vấn đề này đòi hỏi các kỹ thuật tăng cường dữ liệu tiên tiến và dữ liệu đào tạo đa dạng bao gồm nhiều góc độ và điều kiện ánh sáng khác nhau.
Hơn nữa, việc triển khai các mô hình này trên các thiết bị AI biên đòi hỏi phải tối ưu hóa cẩn thận, chẳng hạn như lượng tử hóa mô hình , để duy trì độ chính xác cao mà không ảnh hưởng đến tốc độ.