Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Ước tính tư thế

Khám phá cách ước tính tư thế: cách thức hoạt động của các mô hình điểm chính (từ trên xuống so với từ dưới lên), ứng dụng thực tế từ chăm sóc sức khỏe đến thể thao, cùng những lợi ích và thách thức chính.

Ước lượng tư thế là một nhiệm vụ thị giác máy tính xác định vị trí và hướng của một người hoặc vật thể bằng cách định vị các điểm chính—chẳng hạn như khớp, mốc hoặc các đặc điểm riêng biệt khác. Đầu ra là một tập hợp các tọa độ có thể được kết nối để tạo thành cấu trúc xương, cung cấp hiểu biết chi tiết về tư thế và chuyển động của vật thể trong hình ảnh hoặc video. Công nghệ này là nền tảng cho các ứng dụng đòi hỏi nhận thức về chuyển động, cử chỉ hoặc cấu hình cơ thể cụ thể, từ theo dõi thể lực đến robot .

Cách ước tính tư thế hoạt động

Các mô hình ước lượng tư thế phân tích dữ liệu hình ảnh để dự đoán vị trí của các điểm chính được xác định trước. Đối với ước lượng tư thế của con người, đây thường là các khớp chính như vai, khuỷu tay, hông và đầu gối. Các điểm này sau đó được liên kết để tạo thành bộ xương, đại diện cho cấu trúc cơ thể và tư thế hiện tại. Có hai phương pháp chính cho quá trình này:

  • Phương pháp Top-Down: Phương pháp này trước tiên sử dụng bộ phát hiện đối tượng để xác định và cô lập từng người hoặc vật thể trong ảnh bằng một khung giới hạn. Sau đó, nó phân tích nội dung của từng khung riêng lẻ để xác định các điểm chính cho trường hợp cụ thể đó. Mặc dù trực quan, hiệu suất của phương pháp này phụ thuộc rất nhiều vào việc phát hiện đối tượng ban đầu.
  • Phương pháp từ dưới lên: Phương pháp này bắt đầu bằng cách phát hiện tất cả các điểm chính trên toàn bộ ảnh—ví dụ, tất cả khuỷu tay và đầu gối—và sau đó nhóm các điểm này thành các bộ xương riêng biệt. Phương pháp này có thể hiệu quả hơn trong các cảnh đông đúc, vì thời gian xử lý không phụ thuộc vào số lượng người có mặt.

Các kiến trúc hiện đại, chẳng hạn như kiến trúc được sử dụng trong Ultralytics YOLO11 , thường kết hợp sức mạnh của cả hai phương pháp để đạt được sự cân bằng giữa tốc độ và độ chính xác trong các ứng dụng thời gian thực .

Ước tính tư thế so với các nhiệm vụ thị giác máy tính khác

Ước tính tư thế cung cấp mức độ phân tích chi tiết hơn so với các tác vụ thị giác máy tính phổ biến khác. Mặc dù có liên quan, các tác vụ này phục vụ các mục đích khác nhau:

  • Phát hiện Đối tượng tập trung vào việc xác định và định vị đối tượng bằng cách vẽ một khung bao quanh hình chữ nhật. Nó trả lời câu hỏi "Đối tượng là gì?" và "Nó ở đâu?" nhưng không cung cấp thông tin về tư thế hoặc cách phát âm của đối tượng.
  • Phân đoạn thể hiện đưa việc phát hiện lên một tầm cao mới bằng cách phác thảo hình dạng chính xác của từng đối tượng ở cấp độ pixel. Tuy nhiên, giống như phát hiện đối tượng, nó không mô tả cấu hình bên trong của đối tượng.

Ước tính tư thế là duy nhất ở khả năng diễn giải cách một vật thể hoặc người được định vị và di chuyển, điều này rất quan trọng để hiểu sâu hơn về các hành động và hành vi.

Các Ứng dụng Thực tế

Khả năng phân tích chuyển động mở ra nhiều ứng dụng trong nhiều ngành công nghiệp.

  • Trí tuệ nhân tạo (AI) trong Chăm sóc Sức khỏe và Vật lý trị liệu: Hệ thống ước tính tư thế giúp theo dõi bệnh nhân thực hiện các bài tập phục hồi chức năng, đảm bảo tư thế đúng và theo dõi tiến trình theo thời gian. Bằng cách phân tích chuyển động của bệnh nhân thông qua một camera đơn giản, các hệ thống này có thể cung cấp phản hồi theo thời gian thực, giúp ngăn ngừa chấn thương và cải thiện kết quả phục hồi mà không cần đánh giá thủ công.
  • Phân tích Thể thao và Thể lực : Huấn luyện viên và vận động viên sử dụng tính năng ước lượng tư thế để thực hiện phân tích cơ sinh học chi tiết về các chuyển động. Ví dụ, nó có thể theo dõi cú đánh của một người chơi golf, tư thế ném bóng của một cầu thủ bóng rổ, hoặc dáng đi của một người chạy bộ để xác định những điểm cần cải thiện và giảm nguy cơ chấn thương. Công nghệ này cũng được tích hợp vào các ứng dụng theo dõi tập luyện để hướng dẫn người dùng thực hiện các bài tập với kỹ thuật phù hợp.
  • Ghi hình chuyển động và hoạt hình: Trong ngành công nghiệp giải trí, ước tính tư thế là một giải pháp thay thế không cần điểm đánh dấu cho các kỹ thuật ghi hình chuyển động truyền thống, thường yêu cầu diễn viên phải mặc bộ đồ đặc biệt có gắn cảm biến. Điều này giúp đơn giản hóa quy trình hoạt hình hóa các nhân vật kỹ thuật số, giúp việc này dễ tiếp cận và hiệu quả hơn.
  • Giám sát Hành vi Động vật : Các nhà nghiên cứu áp dụng phương pháp ước lượng tư thế để nghiên cứu động vật trong môi trường sống tự nhiên của chúng mà không cần gắn thẻ. Bằng cách theo dõi tư thế và chuyển động của các loài khác nhau, các nhà khoa học có thể hiểu rõ hơn về tương tác xã hội và các hành vi khác quan trọng cho nỗ lực bảo tồn động vật hoang dã .

Lợi ích và thách thức chính

Việc ước tính tư thế mang lại nhiều lợi thế đáng kể, nhưng cũng đi kèm với một số hạn chế nhất định.

Lợi ích

  • Tiết kiệm chi phí: Dựa vào camera tiêu chuẩn, loại bỏ nhu cầu về phần cứng hoặc cảm biến chuyên dụng đắt tiền.
  • Không xâm lấn: Cho phép theo dõi chuyển động của con người và động vật mà không cần dấu hiệu hoặc thẻ vật lý.
  • Dữ liệu phong phú: Cung cấp thông tin chi tiết về tư thế và chuyển động mà các tác vụ thị giác máy tính khác không có.

Những thách thức

  • Che khuất: Độ chính xác có thể giảm đáng kể khi các bộ phận cơ thể bị che khuất khỏi tầm nhìn hoặc chồng lên các vật thể hoặc người khác.
  • Yếu tố môi trường: Điều kiện ánh sáng kém, chuyển động mờ và nền lộn xộn có thể ảnh hưởng tiêu cực đến hiệu suất của mô hình.
  • Yêu cầu về dữ liệu: Việc đào tạo các mô hình chính xác đòi hỏi các tập dữ liệu lớn và đa dạng, chẳng hạn như tập dữ liệu COCO-Pose và các mô hình có thể không khái quát hóa tốt đối với các tư thế hoặc chủ thể không được thể hiện tốt trong dữ liệu đào tạo .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard