Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Ước tính tư thế

Tìm hiểu cách ước lượng tư thế sử dụng các điểm mấu chốt để track chuyển động. Khám phá các ứng dụng thực tế và bắt đầu ngay với Ultralytics Sử dụng YOLO26 để có kết quả nhanh chóng và chính xác.

Ước lượng tư thế là một kỹ thuật thị giác máy tính chuyên biệt, không chỉ đơn thuần phát hiện sự hiện diện của đối tượng mà còn hiểu được cấu trúc hình học và định hướng vật lý của chúng. Trong khi phát hiện đối tượng tiêu chuẩn chỉ vẽ một hình chữ nhật đơn giản xung quanh đối tượng, ước lượng tư thế xác định các điểm ngữ nghĩa cụ thể, được gọi là điểm mấu chốt , chẳng hạn như các khớp trên cơ thể người (khuỷu tay, đầu gối, vai) hoặc các góc cấu trúc trên một chiếc xe. Bằng cách lập bản đồ các điểm mốc này, các mô hình học máy có thể tái tạo lại hình dạng khung xương của đối tượng, cho phép hệ thống diễn giải ngôn ngữ cơ thể, động lực chuyển động và định vị chính xác trong không gian 2D hoặc 3D.

Các cơ chế cốt lõi: Từ trên xuống dưới so với từ dưới lên trên

Ước lượng tư thế hiện đại dựa rất nhiều vào các kiến ​​trúc học sâu phức tạp, thường sử dụng Mạng nơ-ron tích chập (CNN) để xử lý dữ liệu hình ảnh. Các thuật toán thường tuân theo một trong hai chiến lược chính để xác định các điểm mấu chốt:

  • Phương pháp tiếp cận từ trên xuống : Phương pháp này trước tiên sử dụng mô hình phát hiện đối tượng để định vị các đối tượng riêng lẻ trong các khung giới hạn . Sau khi một người hoặc vật thể được cắt ra từ hình ảnh lớn hơn, bộ ước lượng tư thế sẽ dự đoán các điểm mấu chốt trong vùng cụ thể đó. Phương pháp này thường có độ chính xác cao nhưng có thể gặp phải độ trễ suy luận cao hơn khi số lượng đối tượng trong khung hình tăng lên.
  • Phương pháp tiếp cận từ dưới lên : Ngược lại, chiến lược này phát hiện tất cả các điểm mấu chốt tiềm năng trong toàn bộ hình ảnh cùng một lúc (ví dụ: tìm mọi "đầu gối trái" trong đám đông) và sau đó sử dụng các thuật toán liên kết để nhóm chúng thành các bộ xương riêng lẻ. Phương pháp này thường được ưu tiên cho suy luận thời gian thực trong các cảnh đông người vì chi phí tính toán vẫn tương đối ổn định bất kể có bao nhiêu người hiện diện.

Các mô hình tiên tiến như YOLO26 sử dụng kiến ​​trúc đầu cuối hiện đại để cân bằng các nhu cầu này, cung cấp khả năng ước tính tư thế tốc độ cao, phù hợp để triển khai trên các thiết bị AI biên và nền tảng di động.

Phân biệt các thuật ngữ liên quan đến thị giác máy tính

Việc phân biệt ước lượng tư thế với các nhiệm vụ nhận dạng hình ảnh khác sẽ giúp hiểu được giá trị độc đáo của nó trong quy trình làm việc thị giác máy tính :

  • Phát hiện đối tượng : Tập trung vào việc xác định đối tượng là ở đâu , xuất ra một khung hình chữ nhật. Nó coi đối tượng như một vật thể cứng nhắc mà không hiểu được cấu trúc bên trong của nó.
  • Phân đoạn đối tượng : Tạo ra một mặt nạ hoàn hảo đến từng pixel, phác thảo chính xác hình dạng của đối tượng. Mặc dù phân đoạn cung cấp các ranh giới, nhưng nó không xác định rõ ràng các khớp hoặc liên kết xương cần thiết cho phân tích động học .
  • Ước lượng tư thế : Tập trung cụ thể vào cấu trúc bên trong, lập bản đồ các kết nối giữa các điểm mốc được xác định trước (ví dụ: hông đến đầu gối) để phân tích tư thế và hành động.

Các Ứng dụng Thực tế

Khả năng số hóa chuyển động của con người và vật thể đã dẫn đến những ứng dụng mang tính đột phá trong nhiều ngành công nghiệp khác nhau, thường được đào tạo bằng các công cụ như Nền tảng Ultralytics để quản lý các tập dữ liệu lớn về các điểm mấu chốt được chú thích.

Chăm sóc sức khỏe và phục hồi chức năng

Trong lĩnh vực y tế, trí tuệ nhân tạo (AI) trong chăm sóc sức khỏe sử dụng phương pháp ước lượng tư thế để theo dõi quá trình phục hồi chức năng của bệnh nhân từ xa. Bằng cách theo dõi góc khớp và phạm vi chuyển động, các hệ thống tự động có thể đảm bảo bệnh nhân thực hiện đúng các bài tập vật lý trị liệu tại nhà. Điều này giúp giảm nguy cơ tái chấn thương và cho phép các bác sĩ lâm sàng định lượng tiến trình phục hồi mà không cần đến các thiết bị phòng thí nghiệm đắt tiền.

Phân tích thể thao

Các huấn luyện viên và vận động viên tận dụng phân tích thể thao để tối ưu hóa hiệu suất. Mô hình ước tính tư thế có thể phân tích mặt phẳng vung gậy của người chơi golf, chiều dài bước chạy của người chạy bộ hoặc cơ sinh học của người ném bóng chày mà không cần đến những bộ đồ đánh dấu gây khó chịu như trong công nghệ ghi hình chuyển động truyền thống. Điều này cung cấp phản hồi tức thì, dựa trên dữ liệu để cải thiện kỹ thuật và ngăn ngừa chấn thương do lạm dụng quá mức.

Phân tích bán lẻ và hành vi

Trong môi trường thương mại, trí tuệ nhân tạo (AI) trong các hệ thống bán lẻ sử dụng tính năng nhận diện tư thế để hiểu hành vi của khách hàng, chẳng hạn như việc với tay lấy sản phẩm trên kệ cao hoặc nán lại ở những lối đi cụ thể. Dữ liệu này giúp tối ưu hóa bố cục cửa hàng và cải thiện quản lý hàng tồn kho bằng cách liên kết các hành động vật lý với quyết định mua hàng.

Ví dụ mã: Ước lượng tư thế với YOLO26

Việc triển khai ước lượng tư thế rất đơn giản với các công nghệ hiện đại. Python các khuôn khổ. Ví dụ sau đây minh họa cách sử dụng ultralytics gói để tải một mô hình đã được huấn luyện trước đó YOLO26 mô hình (người kế nhiệm của YOLO11) Và detect Các điểm nhấn quan trọng của con người trong một bức ảnh.

from ultralytics import YOLO

# Load the YOLO26 pose model (nano version for speed)
model = YOLO("yolo26n-pose.pt")

# Perform inference on an image source
# The model identifies bounding boxes and specific keypoints (joints)
results = model("https://ultralytics.com/images/bus.jpg")

# Print the xy coordinates of detected keypoints
print(results[0].keypoints.xy)

# Visualize the skeletal results directly
results[0].show()

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay