Khám phá cách ước tính tư thế: cách thức hoạt động của các mô hình điểm chính (từ trên xuống so với từ dưới lên), ứng dụng thực tế từ chăm sóc sức khỏe đến thể thao, cùng những lợi ích và thách thức chính.
Ước lượng tư thế là một nhiệm vụ chuyên biệt trong thị giác máy tính, không chỉ đơn thuần là phát hiện đối tượng mà còn xác định hình dạng và hướng cụ thể của chúng. Bằng cách xác định tọa độ của các điểm mốc cấu trúc—được gọi là điểm mấu chốt —công nghệ này tạo ra một mô hình xương của đối tượng. Ở người, các điểm mấu chốt này thường tương ứng với các khớp chính như vai, khuỷu tay, hông và đầu gối. Khả năng này cho phép các mô hình học máy diễn giải ngôn ngữ cơ thể, hoạt động và tư thế, thu hẹp khoảng cách giữa việc phát hiện pixel đơn giản và hiểu các hành vi thể chất phức tạp.
Ước lượng tư thế hiện đại dựa rất nhiều vào các kiến trúc học sâu , đặc biệt là Mạng nơ-ron tích chập (CNN) và ngày càng phổ biến hơn là Transformer. Quá trình này thường được chia thành hai phương pháp chính:
Đối với các ứng dụng hiệu năng cao, các mẫu YOLO26 mới nhất tích hợp những khái niệm này để cung cấp khả năng ước tính tư thế nhanh chóng, phù hợp với các thiết bị biên.
Điều quan trọng là phải phân biệt ước lượng tư thế với các nhiệm vụ thị giác tương tự:
Tính hữu ích của việc ước tính tư thế mở rộng sang nhiều ngành công nghiệp khác nhau, nơi mà việc phân tích chuyển động là rất quan trọng.
Trong lĩnh vực AI chăm sóc sức khỏe , ước tính tư thế hỗ trợ vật lý trị liệu bằng cách tự động theo dõi chuyển động của bệnh nhân. Hệ thống có thể đo góc khớp trong các bài tập phục hồi chức năng để đảm bảo bệnh nhân duy trì tư thế đúng, giảm nguy cơ tái chấn thương. Điều này cho phép theo dõi từ xa và cải tiến y tế từ xa , giúp việc chăm sóc chất lượng dễ tiếp cận hơn.
Các huấn luyện viên và vận động viên sử dụng phân tích thể thao để phân tích hiệu suất. Bằng cách trích xuất dữ liệu cơ sinh học từ cảnh quay video, AI có thể phân tích mặt vung gậy của người chơi golf hoặc hiệu suất dáng đi của người chạy bộ mà không cần đến các bộ đồ đánh dấu xâm lấn như trong công nghệ ghi hình chuyển động truyền thống.
Sau đây là Python Đoạn mã này minh họa cách tải mô hình YOLO26 đã được huấn luyện trước và thực hiện ước tính tư thế trên ảnh. Điều này yêu cầu... ultralytics đóng gói và trực quan hóa đầu ra của bộ xương.
from ultralytics import YOLO
# Load the official YOLO26 nano pose model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image source to detect keypoints
results = model("path/to/image.jpg")
# Visualize the detected keypoints and skeleton
results[0].show()
Việc đào tạo các mô hình tư thế mạnh mẽ đòi hỏi khối lượng lớn dữ liệu được chú thích . Các chuẩn mực như bộ dữ liệu COCO Pose cung cấp hàng ngàn hình người được gắn nhãn. Tuy nhiên, vẫn còn nhiều thách thức, chẳng hạn như che khuất (khi các bộ phận cơ thể bị che khuất) và tự che khuất (khi một người tự che chân tay của mình). Việc giải quyết những vấn đề này đòi hỏi các kỹ thuật tăng cường dữ liệu tiên tiến và dữ liệu đào tạo đa dạng bao gồm nhiều góc độ và điều kiện ánh sáng khác nhau.
Hơn nữa, việc triển khai các mô hình này trên các thiết bị AI biên đòi hỏi sự tối ưu hóa cẩn thận, chẳng hạn như lượng tử hóa mô hình , để duy trì độ chính xác cao mà không làm giảm tốc độ. Người dùng có thể đơn giản hóa quy trình này bằng cách sử dụng Nền tảng Ultralytics , giúp đơn giản hóa việc huấn luyện và triển khai.