Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Ước tính tư thế

Khám phá cách ước tính tư thế: cách thức hoạt động của các mô hình điểm chính (từ trên xuống so với từ dưới lên), ứng dụng thực tế từ chăm sóc sức khỏe đến thể thao, cùng những lợi ích và thách thức chính.

Ước lượng tư thế là một nhiệm vụ chuyên biệt trong thị giác máy tính, không chỉ đơn thuần là phát hiện đối tượng mà còn xác định hình dạng và hướng cụ thể của chúng. Bằng cách xác định tọa độ của các điểm mốc cấu trúc—được gọi là điểm mấu chốt —công nghệ này tạo ra một mô hình xương của đối tượng. Ở người, các điểm mấu chốt này thường tương ứng với các khớp chính như vai, khuỷu tay, hông và đầu gối. Khả năng này cho phép các mô hình học máy diễn giải ngôn ngữ cơ thể, hoạt động và tư thế, thu hẹp khoảng cách giữa việc phát hiện pixel đơn giản và hiểu các hành vi thể chất phức tạp.

Cơ chế và phương pháp cốt lõi

Ước lượng tư thế hiện đại dựa rất nhiều vào các kiến trúc học sâu , đặc biệt là Mạng nơ-ron tích chập (CNN) và ngày càng phổ biến hơn là Transformer. Quá trình này thường được chia thành hai phương pháp chính:

  • Phương pháp từ trên xuống: Phương pháp này trước tiên sử dụng mô hình phát hiện đối tượng để xác định vị trí các cá thể riêng lẻ (ví dụ: con người) trong một khung giới hạn . Sau khi cắt, hệ thống sẽ ước tính các điểm chính cho từng cá thể. Phương pháp này thường chính xác hơn nhưng tốn kém về mặt tính toán khi số lượng người tăng lên.
  • Phương pháp từ dưới lên: Một phương pháp khác là mô hình sẽ phát hiện tất cả các điểm chính tiềm năng trong toàn bộ hình ảnh trước (ví dụ: mỗi khuỷu tay trái) và sau đó liên kết chúng để tạo thành các bộ xương riêng biệt. Phương pháp này thường được ưu tiên cho suy luận thời gian thực trong các cảnh đông đúc, vì thời gian xử lý ít phụ thuộc vào số lượng chủ thể.

Đối với các ứng dụng hiệu năng cao, các mẫu YOLO26 mới nhất tích hợp những khái niệm này để cung cấp khả năng ước tính tư thế nhanh chóng, phù hợp với các thiết bị biên.

Phân biệt các khái niệm liên quan

Điều quan trọng là phải phân biệt ước lượng tư thế với các nhiệm vụ thị giác tương tự:

  • So với Phát hiện Đối tượng: Trong khi phát hiện đối tượng xác định vị tríbản chất của đối tượng (nhãn lớp), nó lại coi đối tượng như một hộp cứng. Ước lượng tư thế cho thấy cấu trúc bên trong và sự khớp nối bên trong hộp đó.
  • So với Phân đoạn Thể hiện: Phân đoạn thể hiện cung cấp mặt nạ hình dạng vật thể hoàn hảo đến từng pixel. Mặc dù điều này phác thảo ranh giới, nhưng nó không xác định rõ ràng các khớp hoặc liên kết xương, vốn cần thiết để phân tích động lực học hoặc chuyển động học của chuyển động.

Các Ứng dụng Thực tế

Tính hữu ích của việc ước tính tư thế mở rộng sang nhiều ngành công nghiệp khác nhau, nơi mà việc phân tích chuyển động là rất quan trọng.

Chăm sóc sức khỏe và phục hồi chức năng

Trong lĩnh vực AI chăm sóc sức khỏe , ước tính tư thế hỗ trợ vật lý trị liệu bằng cách tự động theo dõi chuyển động của bệnh nhân. Hệ thống có thể đo góc khớp trong các bài tập phục hồi chức năng để đảm bảo bệnh nhân duy trì tư thế đúng, giảm nguy cơ tái chấn thương. Điều này cho phép theo dõi từ xa và cải tiến y tế từ xa , giúp việc chăm sóc chất lượng dễ tiếp cận hơn.

Phân tích thể thao và cơ sinh học

Các huấn luyện viên và vận động viên sử dụng phân tích thể thao để phân tích hiệu suất. Bằng cách trích xuất dữ liệu cơ sinh học từ cảnh quay video, AI có thể phân tích mặt vung gậy của người chơi golf hoặc hiệu suất dáng đi của người chạy bộ mà không cần đến các bộ đồ đánh dấu xâm lấn như trong công nghệ ghi hình chuyển động truyền thống.

Ví dụ mã: Ước lượng tư thế với YOLO26

Sau đây là Python Đoạn mã này minh họa cách tải mô hình YOLO26 đã được huấn luyện trước và thực hiện ước tính tư thế trên ảnh. Điều này yêu cầu... ultralytics đóng gói và trực quan hóa đầu ra của bộ xương.

from ultralytics import YOLO

# Load the official YOLO26 nano pose model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image source to detect keypoints
results = model("path/to/image.jpg")

# Visualize the detected keypoints and skeleton
results[0].show()

Thách thức và Dữ liệu

Việc đào tạo các mô hình tư thế mạnh mẽ đòi hỏi khối lượng lớn dữ liệu được chú thích . Các chuẩn mực như bộ dữ liệu COCO Pose cung cấp hàng ngàn hình người được gắn nhãn. Tuy nhiên, vẫn còn nhiều thách thức, chẳng hạn như che khuất (khi các bộ phận cơ thể bị che khuất) và tự che khuất (khi một người tự che chân tay của mình). Việc giải quyết những vấn đề này đòi hỏi các kỹ thuật tăng cường dữ liệu tiên tiến và dữ liệu đào tạo đa dạng bao gồm nhiều góc độ và điều kiện ánh sáng khác nhau.

Hơn nữa, việc triển khai các mô hình này trên các thiết bị AI biên đòi hỏi sự tối ưu hóa cẩn thận, chẳng hạn như lượng tử hóa mô hình , để duy trì độ chính xác cao mà không làm giảm tốc độ. Người dùng có thể đơn giản hóa quy trình này bằng cách sử dụng Nền tảng Ultralytics , giúp đơn giản hóa việc huấn luyện và triển khai.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay