Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Hướng dẫn toàn diện về các công cụ ước lượng tư thế

Tìm hiểu cách các công cụ ước lượng tư thế có thể được sử dụng để detect Nhận diện các điểm mấu chốt trên cơ thể trong hình ảnh và video, ước tính tư thế 2D và 3D, và cung cấp sức mạnh cho nhiều ứng dụng Trí tuệ Nhân tạo Thị giác (Vision AI).

Là con người, chúng ta đọc chuyển động một cách bản năng. Khi ai đó nghiêng người về phía trước, quay đầu hoặc giơ tay lên, bạn có thể ngay lập tức suy ra họ đang làm gì. Đó là một kỹ năng thầm lặng, gần như vô thức, định hình cách chúng ta tương tác với mọi người và khám phá thế giới.

Khi công nghệ ngày càng trở thành một phần quan trọng trong cuộc sống hàng ngày, việc chúng ta mong muốn các thiết bị của mình hiểu được chuyển động một cách mượt mà như con người là điều tất yếu. Những tiến bộ gần đây trong trí tuệ nhân tạo, đặc biệt là những tiến bộ dựa trên học sâu, đang giúp điều đó trở thành hiện thực. Cụ thể, thị giác máy tính giúp máy móc trích xuất ý nghĩa từ hình ảnh và video, và đang thúc đẩy sự tiến bộ này.

Ví dụ, ước lượng tư thế là một nhiệm vụ phổ biến trong thị giác máy tính, dự đoán vị trí của các điểm mấu chốt trên cơ thể (như vai, khuỷu tay, hông và đầu gối) trong một khung hình ảnh hoặc video. Các điểm mấu chốt này có thể được kết nối bằng cách sử dụng định nghĩa khung xương cố định để tạo thành một biểu diễn tư thế đơn giản. 

Các mô hình thị giác máy tính như Ultralytics YOLO11Ultralytics YOLO26 sắp ra mắt hỗ trợ các tác vụ như ước lượng tư thế và có thể được sử dụng để cung cấp năng lượng cho các ứng dụng thời gian thực, bao gồm phản hồi về tư thế trong thể dục và thể thao, giám sát an toàn và trải nghiệm thực tế tăng cường tương tác.

Hình 1. Một cái nhìn về việc sử dụng Ultralytics YOLO11 để ước tính tư thế ( Nguồn )

Trong bài viết này, chúng ta sẽ đi sâu vào tìm hiểu các công cụ ước lượng tư thế, xem cách thức hoạt động của ước lượng tư thế, các lĩnh vực ứng dụng và một số mô hình cũng như thư viện hàng đầu hiện nay. Bắt đầu nào!

Ước tính tư thế là gì?

Ước lượng tư thế là một kỹ thuật thị giác máy tính giúp hệ thống hiểu được vị trí của một người hoặc vật thể trong hình ảnh hoặc video. Thay vì phân tích từng pixel một cách đồng đều, nó dự đoán một tập hợp các điểm mốc nhất quán, chẳng hạn như đầu, vai, khuỷu tay, hông, đầu gối và mắt cá chân. 

Hầu hết các mô hình đều xuất ra tọa độ của các điểm mấu chốt này và một điểm số phản ánh mức độ chính xác của mỗi dự đoán. Sau đó, các điểm mấu chốt này có thể được kết nối bằng cách sử dụng bố cục khung xương được xác định trước để tạo thành một biểu diễn tư thế đơn giản. 

Khi được áp dụng từng khung hình một trong video, các điểm mấu chốt thu được có thể được liên kết theo thời gian để ước tính chuyển động. Điều này cho phép các ứng dụng như kiểm tra tư thế, phân tích chuyển động và tương tác dựa trên cử chỉ.

Hình 2. Một ví dụ về ước lượng tư thế ( Nguồn )

Nhu cầu về các công cụ ước lượng tư thế

Chuyển động của con người mang rất nhiều thông tin. Cách một người cúi xuống, vươn tới hoặc chuyển trọng lượng cơ thể có thể tiết lộ ý định, nỗ lực, sự mệt mỏi, hoặc thậm chí là nguy cơ chấn thương. Cho đến gần đây, việc thu thập mức độ chi tiết đó thường đòi hỏi các cảm biến chuyên dụng, bộ đồ ghi hình chuyển động hoặc môi trường phòng thí nghiệm được kiểm soát.

Ước lượng tư thế đã thay đổi điều đó. Việc trích xuất các điểm mốc quan trọng trên cơ thể từ hình ảnh và video thông thường cho phép máy tính phân tích chuyển động bằng cách sử dụng các camera tiêu chuẩn. Điều này làm cho việc phân tích chuyển động trở nên dễ tiếp cận hơn, có khả năng mở rộng và thiết thực hơn khi sử dụng trong các tình huống thực tế.

Dưới đây là một vài cách mà việc ước lượng tư thế có thể tạo ra tác động:

  • Môi trường làm việc an toàn hơn : Hệ thống dựa trên thị giác có thể được sử dụng để detect Các tư thế nguy hiểm, căng thẳng lặp đi lặp lại hoặc kỹ thuật nâng vật không an toàn trước khi xảy ra chấn thương.
  • Huấn luyện thể dục và thể thao hiệu quả hơn : Các giải pháp Trí tuệ nhân tạo thị giác có thể đánh giá tư thế, sự cân bằng và kỹ thuật trong thời gian thực, cung cấp phản hồi tức thì cho người dùng mà không cần thiết bị đeo.
  • Chăm sóc sức khỏe và phục hồi chức năng : Các bác sĩ lâm sàng có thể track Theo dõi tiến trình phục hồi, tư thế và phạm vi chuyển động từ xa bằng các bản ghi video đơn giản.
  • Trải nghiệm tương tác : Ước tính tư thế giúp cho hình đại diện kỹ thuật số và môi trường nhập vai dễ dàng theo dõi và phản ánh chuyển động của con người một cách chính xác.

Sự phát triển của các thuật toán ước lượng tư thế

Ý tưởng ước lượng tư thế đã tồn tại từ nhiều năm nay. Các phương pháp ban đầu sử dụng các mô hình hình học đơn giản và các quy tắc được xây dựng thủ công, và chúng thường chỉ hoạt động trong điều kiện được kiểm soát.

Ví dụ, một hệ thống có thể hoạt động tốt khi một người đứng yên tại một vị trí cố định, nhưng lại gặp trục trặc khi họ bắt đầu đi bộ, xoay người hoặc tương tác với các vật thể trong các cảnh thực tế. Những phương pháp này thường gặp khó khăn với chuyển động tự nhiên, góc máy quay thay đổi, phông nền lộn xộn và che khuất một phần.

Ước lượng tư thế hiện đại dựa vào học sâu để giải quyết những thách thức này. Bằng cách huấn luyện mạng nơ-ron tích chập trên các tập dữ liệu được gắn nhãn lớn, các mô hình học được các mẫu hình ảnh giúp chúng... detect Xác định các điểm mấu chốt một cách đáng tin cậy hơn ở các tư thế, đối tượng và môi trường khác nhau. 

Với nhiều ví dụ hơn, mô hình cải thiện khả năng dự đoán và trở nên tốt hơn trong việc khái quát hóa cho các tình huống mới. Nhờ sự tiến bộ này, ước tính tư thế hiện hỗ trợ nhiều trường hợp sử dụng thực tiễn, bao gồm giám sát nơi làm việc và công thái học, cũng như phân tích thể thao, nơi các huấn luyện viên và nhà phân tích nghiên cứu cách các vận động viên di chuyển.

Các loại kỹ thuật ước lượng tư thế

Ước lượng tư thế có một vài hình thức khác nhau, tùy thuộc vào bối cảnh và những gì bạn cần đo. Dưới đây là các loại chính mà bạn sẽ gặp:

  • Ước lượng tư thế 2D: Phương pháp này phát hiện các điểm mấu chốt trên cơ thể trong hình ảnh hoặc khung hình video hai chiều. Nó hoạt động tốt với các máy ảnh tiêu chuẩn và có hiệu quả về mặt tính toán, do đó phù hợp với các tác vụ như theo dõi chuyển động cơ bản, phân tích tư thế và phản hồi hình dạng theo thời gian thực.
  • Ước lượng tư thế 3D: Bằng cách ước lượng độ sâu ngoài tọa độ hình ảnh, ước lượng tư thế 3D cung cấp sự hiểu biết về không gian của chuyển động cơ thể. Điều này đặc biệt hữu ích khi chuyển động tiến và lùi là vấn đề quan trọng, chẳng hạn như trong phân tích thể thao, phục hồi chức năng, cơ sinh học và hoạt hình. Cụ thể, ước lượng tư thế người 3D nắm bắt vị trí khớp và chuyển động trong không gian 3D, giảm sự mơ hồ có thể xảy ra với phép chiếu 2D.
  • Ước lượng tư thế của một người: Các hệ thống này được thiết kế để track Mỗi lần chỉ một cá nhân. Họ thường thể hiện tốt nhất trong môi trường được kiểm soát hoặc bán kiểm soát, nơi đối tượng được nhìn thấy rõ ràng, chẳng hạn như các ứng dụng hướng dẫn tập luyện, cuộc gọi video hoặc thiết lập phân tích chuyển động.
  • Ước lượng tư thế nhiều người: Được xây dựng cho các cảnh có nhiều người, phương pháp này phát hiện và theo dõi tư thế của nhiều cá nhân cùng một lúc. Nó đặc biệt hữu ích trong các môi trường đông đúc như nơi làm việc, phòng tập thể dục, không gian công cộng và các hoạt động nhóm, nơi các đối tượng có thể chồng chéo hoặc che khuất lẫn nhau.

Hình 3. Hiểu chuyển động của con người trong không gian 3D so với không gian hình ảnh 2D ( Nguồn )

Hiểu cách thức hoạt động của các mô hình ước tính tư thế người

Ước lượng tư thế có thể được áp dụng cho nhiều loại đối tượng, nhưng để đơn giản, chúng ta hãy tập trung vào ước lượng tư thế của con người.

Hầu hết các hệ thống ước lượng tư thế người đều được huấn luyện trên các tập dữ liệu được chú thích, trong đó các bộ phận cơ thể chính được dán nhãn trên các bộ sưu tập lớn hình ảnh và khung hình video. Sử dụng các ví dụ này, mô hình học các mẫu hình ảnh liên kết với các điểm mốc trên cơ thể người như vai, khuỷu tay, hông, đầu gối và mắt cá chân, để có thể dự đoán chính xác các điểm mấu chốt trong các cảnh mới.

Một khía cạnh quan trọng khác là kiến trúc suy luận của mô hình, quyết định cách nó phát hiện các điểm mấu chốt và ghép chúng lại thành các tư thế hoàn chỉnh. Một số hệ thống detect Trước tiên, mỗi người được xác định và sau đó ước tính các điểm quan trọng trong khu vực của mỗi người, trong khi những người khác được xác định. detect Nó xác định các điểm mấu chốt trên toàn bộ hình ảnh và sau đó nhóm chúng lại thành các cá thể riêng lẻ. Các thiết kế một giai đoạn mới hơn có thể dự đoán tư thế chỉ trong một lần xử lý, cân bằng giữa tốc độ và độ chính xác để sử dụng trong thời gian thực.

Tiếp theo, chúng ta hãy cùng tìm hiểu chi tiết các phương pháp ước lượng tư thế khác nhau. 

Ước tính tư thế từ dưới lên

Theo phương pháp từ dưới lên, mô hình xem xét toàn bộ hình ảnh và tìm các điểm mấu chốt của cơ thể trước tiên, chẳng hạn như đầu, vai, khuỷu tay, hông, đầu gối và mắt cá chân. Ở giai đoạn này, nó không cố gắng tách rời từng người. Nó chỉ đơn giản là phát hiện tất cả các điểm mấu chốt hoặc khớp cơ thể được xác định bởi khung xương tư thế trên toàn cảnh.

Sau đó, hệ thống thực hiện bước thứ hai để kết nối các điểm. Nó liên kết các điểm chính thuộc về nhau và nhóm chúng lại thành các bộ xương hoàn chỉnh, mỗi bộ xương tương ứng với một người. Vì nó không cần phải... detect Phương pháp tiếp cận từng người một, từ dưới lên thường hiệu quả trong những cảnh đông người, nơi mọi người chồng chéo lên nhau, có kích thước khác nhau hoặc bị che khuất một phần.

Phát hiện tư thế từ trên xuống

Ngược lại, các hệ thống từ trên xuống bắt đầu bằng việc phát hiện từng người trong ảnh trước. Chúng đặt một khung bao quanh mỗi cá nhân và coi mỗi khung đó như một vùng riêng biệt để phân tích.

Khi một người được tách riêng, mô hình sẽ dự đoán các điểm mấu chốt trên cơ thể trong khu vực đó. Quá trình thiết lập từng bước này thường cho kết quả rất chính xác, đặc biệt khi chỉ có một vài người trong cảnh và mỗi người đều được nhìn thấy rõ ràng.

Ước lượng tư thế một giai đoạn hoặc kết hợp

Các mô hình một giai đoạn, đôi khi được gọi là mô hình lai, dự đoán tư thế trong một lần xử lý. Thay vì thực hiện phát hiện người trước rồi mới ước tính điểm mấu chốt sau, chúng xuất ra vị trí của người và các điểm mấu chốt trên cơ thể cùng một lúc.

Vì mọi thao tác đều diễn ra trong một mô-đun duy nhất, các mô hình này thường nhanh hơn và hiệu quả hơn, điều này khiến chúng rất phù hợp cho các ứng dụng thời gian thực như theo dõi chuyển động trực tiếp và ghi lại chuyển động. Các mô hình như... Ultralytics YOLO11 Chúng được xây dựng dựa trên ý tưởng này, nhằm mục đích cân bằng giữa tốc độ và độ tin cậy của các dự đoán điểm mấu chốt.

Huấn luyện và đánh giá các mô hình ước lượng tư thế

Bất kể phương pháp nào được sử dụng, mô hình ước lượng tư thế vẫn cần được huấn luyện và kiểm tra cẩn thận trước khi có thể hoạt động đáng tin cậy trong thực tế. Nó thường học từ các tập dữ liệu lớn gồm hình ảnh (và đôi khi cả video) trong đó các điểm mấu chốt trên cơ thể được đánh dấu, giúp nó xử lý các tư thế, góc máy quay và môi trường khác nhau.

Một số bộ dữ liệu ước lượng tư thế nổi tiếng bao gồm: COCO Các bộ dữ liệu Keypoints, MPII Human Pose, CrowdPose và OCHuman. Khi các bộ dữ liệu này không phản ánh điều kiện mà mô hình sẽ gặp phải trong quá trình triển khai, các kỹ sư thường thu thập và gắn nhãn thêm hình ảnh từ môi trường mục tiêu, chẳng hạn như nhà máy, phòng tập thể dục hoặc phòng khám.

Hình 4. Các tư thế khác nhau được ước tính bằng thị giác máy tính ( Nguồn )

Sau quá trình huấn luyện, hiệu năng của mô hình được đánh giá trên các bộ dữ liệu chuẩn để đo lường độ chính xác và độ ổn định, đồng thời hướng dẫn việc tinh chỉnh thêm cho việc sử dụng thực tế. Kết quả thường được báo cáo bằng độ chính xác trung bình , thường được gọi là . mAP , tóm tắt hiệu suất trên các ngưỡng độ tin cậy khác nhau bằng cách so sánh các tư thế dự đoán với dữ liệu thực tế đã được gắn nhãn.

Trong nhiều bộ dữ liệu đánh giá tư thế, tư thế dự đoán được so khớp với tư thế thực tế bằng cách sử dụng Độ tương đồng điểm mấu chốt đối tượng (Object Keypoint Similarity - OKS). OKS đo lường mức độ gần gũi giữa các điểm mấu chốt được dự đoán và các điểm mấu chốt đã được chú thích, đồng thời tính đến các yếu tố như tỷ lệ kích thước của người và độ khó định vị điển hình của mỗi điểm mấu chốt. 

Các mô hình tư thế cũng đưa ra điểm số độ tin cậy cho những người được phát hiện và cho từng điểm mấu chốt riêng lẻ. Những điểm số này phản ánh độ tin cậy của mô hình và được sử dụng để xếp hạng và lọc các dự đoán, điều này đặc biệt quan trọng trong các điều kiện khó khăn như che khuất, mờ do chuyển động hoặc góc máy quay bất thường.

Các công cụ và thư viện ước tính tư thế phổ biến

Hiện nay có rất nhiều công cụ ước tính tư thế, mỗi công cụ đều cân bằng giữa tốc độ, độ chính xác và tính dễ sử dụng. Dưới đây là một số công cụ và thư viện được sử dụng rộng rãi nhất:

  • Ultralytics YOLO11 : Được phát triển như một mô hình Trí tuệ nhân tạo thị giác mã nguồn mở tiên tiến, YOLO11 Được xây dựng dựa trên các mô hình trước đó như Ultralytics YOLOv8 . Nó cải thiện tốc độ, độ chính xác và hiệu quả tổng thể đồng thời hỗ trợ nhiều tác vụ thị giác máy tính khác nhau, bao gồm cả ước lượng tư thế. Với hiệu năng mạnh mẽ trên nhiều nền tảng, từ máy tính xách tay đến thiết bị biên, YOLO11 Đây là một lựa chọn tuyệt vời cho nhiều ứng dụng thực tế.
  • Ultralytics YOLO26: Mẫu cảm biến thế hệ tiếp theo sắp ra mắt này được thiết kế để nhẹ hơn, nhỏ hơn và nhanh hơn, trong khi vẫn duy trì độ chính xác cao. Nó được xây dựng để sử dụng trong thời gian thực và triển khai dễ dàng hơn, hỗ trợ các tác vụ như phát hiện đối tượng, phân đoạn đối tượng và ước tính tư thế trên nhiều kích thước mô hình phù hợp với mọi thứ từ thiết bị biên đến các hệ thống lớn hơn.
  • MediaPipe: Đây là một framework đa nền tảng để xây dựng các pipeline xử lý hình ảnh và máy học. Nó có dung lượng nhỏ và hoạt động hiệu quả trên thiết bị di động, máy tính bảng và ứng dụng web, đồng thời bao gồm các giải pháp và mô hình sẵn sàng sử dụng cho việc nhận diện tư thế toàn thân, điểm mốc khuôn mặt và theo dõi bàn tay.
  • OpenPose : Hệ thống ước lượng tư thế mã nguồn mở đầu cuối này được biết đến rộng rãi nhờ khả năng phát hiện điểm mấu chốt của nhiều người. Nó có thể ước lượng đồng thời các điểm mấu chốt của cơ thể, bàn tay và khuôn mặt, và thường được sử dụng trong nghiên cứu, hoạt hình và phân tích chuyển động.
  • MMPose: MMPose là một PyTorch Bộ công cụ ước lượng tư thế dựa trên thư viện từ hệ sinh thái OpenMMLab. Nó cung cấp nhiều triển khai mô hình, tiện ích huấn luyện và tùy chọn cấu hình, giúp ích cho việc thử nghiệm và tùy chỉnh chuyên sâu.
  • HRNet và AlphaPose: Đây là những mô hình ước lượng tư thế cũ hơn nhưng vẫn được sử dụng trong nghiên cứu hiện nay. HRNet là một kiến trúc mô hình tư thế giữ lại các đặc điểm hình ảnh độ phân giải cao trong toàn bộ mạng, giúp nó định vị các điểm mấu chốt một cách chính xác. AlphaPose là một hệ thống ước lượng tư thế đa người được sử dụng rộng rãi, thường được dùng khi cần độ chính xác cao trong các cảnh đông người hoặc phức tạp.

Ứng dụng thực tiễn của phân tích và ước lượng tư thế

Công nghệ ước lượng tư thế ngày càng được sử dụng rộng rãi để biến các video thông thường thành những thông tin hữu ích về chuyển động. Bằng cách theo dõi các điểm mấu chốt trên cơ thể từng khung hình một, các hệ thống này có thể suy ra tư thế, chuyển động và hành vi thể chất từ nguồn cấp dữ liệu camera, giúp công nghệ này trở nên thiết thực trong nhiều tình huống thực tế.

Ví dụ, trong lĩnh vực chăm sóc sức khỏe và phục hồi chức năng, theo dõi tư thế có thể giúp các bác sĩ lâm sàng quan sát và đo lường cách bệnh nhân di chuyển trong quá trình trị liệu và phục hồi. Bằng cách trích xuất các điểm mốc cơ thể từ các bản ghi video thông thường, nó có thể được sử dụng để đánh giá tư thế, phạm vi chuyển động và các kiểu chuyển động tổng thể theo thời gian. Những phép đo này có thể hỗ trợ và tối ưu hóa các đánh giá lâm sàng truyền thống và, trong một số trường hợp, giúp dễ dàng hơn trong việc... track tiến bộ mà không cần đến cảm biến đeo trên người hoặc thiết bị chuyên dụng.

Tương tự, trong thể thao và truyền hình, ước tính tư thế có thể phân tích chuyển động của vận động viên trực tiếp từ nguồn cấp dữ liệu video. Một ví dụ thú vị là Hawk-Eye, một hệ thống theo dõi dựa trên camera được sử dụng trong thể thao chuyên nghiệp để trọng tài và đồ họa truyền hình. Nó cũng cung cấp khả năng theo dõi khung xương bằng cách ước tính các điểm mấu chốt trên cơ thể vận động viên từ các góc nhìn camera.

Lựa chọn công cụ ước tính tư thế phù hợp

Việc lựa chọn công cụ ước tính tư thế phù hợp bắt đầu bằng việc hiểu rõ nhu cầu của dự án thị giác máy tính của bạn. Một số ứng dụng ưu tiên tốc độ thời gian thực, trong khi những ứng dụng khác yêu cầu độ chính xác và chi tiết cao hơn. 

Thiết bị triển khai mục tiêu cũng tạo nên sự khác biệt. Các ứng dụng di động và thiết bị biên thường yêu cầu các mô hình nhỏ gọn, hiệu quả, trong khi các mô hình lớn hơn thường phù hợp hơn với máy chủ hoặc môi trường đám mây.

Ngoài ra, tính dễ sử dụng cũng đóng vai trò quan trọng. Tài liệu hướng dẫn tốt, triển khai suôn sẻ và hỗ trợ đào tạo tùy chỉnh có thể giúp dự án của bạn được tối ưu hóa. 

Nói một cách đơn giản, mỗi công cụ lại có ưu điểm riêng ở những lĩnh vực khác nhau. Ví dụ, mô hình YOLO Ultralytics cung cấp sự cân bằng hợp lý giữa tốc độ, độ chính xác và tính dễ triển khai cho nhiều ứng dụng ước tính tư thế thực tế.

Hình 5. Ước tính tư thế động vật bằng cách sử dụng Ultralytics YOLO11 ( Nguồn )

Những điều cần nhớ

Ước lượng tư thế giúp máy tính hiểu chuyển động của con người bằng cách phát hiện các điểm mấu chốt trên cơ thể trong hình ảnh và video. Các mô hình như YOLO11 YOLO26 giúp việc xây dựng các ứng dụng thời gian thực trở nên dễ dàng hơn cho các lĩnh vực như thể thao, chăm sóc sức khỏe, an toàn lao động và trải nghiệm tương tác. Khi các mô hình ngày càng nhanh hơn và chính xác hơn, ước tính tư thế có khả năng trở thành một tính năng phổ biến trong nhiều hệ thống Trí tuệ Nhân tạo Thị giác.

Bạn muốn tìm hiểu thêm về AI? Hãy tham gia cộng đồng và xem kho lưu trữ GitHub của chúng tôi. Khám phá các trang giải pháp của chúng tôi để tìm hiểu về AI trong robotthị giác máy tính trong sản xuất . Khám phá các tùy chọn cấp phép của chúng tôi và bắt đầu xây dựng ứng dụng thị giác máy tính ngay hôm nay!

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí