Tìm hiểu cách các công cụ ước lượng tư thế có thể được sử dụng để detect Nhận diện các điểm mấu chốt trên cơ thể trong hình ảnh và video, ước tính tư thế 2D và 3D, và cung cấp sức mạnh cho nhiều ứng dụng Trí tuệ Nhân tạo Thị giác (Vision AI).

Tìm hiểu cách các công cụ ước lượng tư thế có thể được sử dụng để detect Nhận diện các điểm mấu chốt trên cơ thể trong hình ảnh và video, ước tính tư thế 2D và 3D, và cung cấp sức mạnh cho nhiều ứng dụng Trí tuệ Nhân tạo Thị giác (Vision AI).

Là con người, chúng ta đọc chuyển động một cách bản năng. Khi ai đó nghiêng người về phía trước, quay đầu hoặc giơ tay lên, bạn có thể ngay lập tức suy ra họ đang làm gì. Đó là một kỹ năng thầm lặng, gần như vô thức, định hình cách chúng ta tương tác với mọi người và khám phá thế giới.
Khi công nghệ ngày càng trở thành một phần quan trọng trong cuộc sống hàng ngày, việc chúng ta mong muốn các thiết bị của mình hiểu được chuyển động một cách mượt mà như con người là điều tất yếu. Những tiến bộ gần đây trong trí tuệ nhân tạo, đặc biệt là những tiến bộ dựa trên học sâu, đang giúp điều đó trở thành hiện thực. Cụ thể, thị giác máy tính giúp máy móc trích xuất ý nghĩa từ hình ảnh và video, và đang thúc đẩy sự tiến bộ này.
Ví dụ, ước lượng tư thế là một nhiệm vụ phổ biến trong thị giác máy tính, dự đoán vị trí của các điểm mấu chốt trên cơ thể (như vai, khuỷu tay, hông và đầu gối) trong một khung hình ảnh hoặc video. Các điểm mấu chốt này có thể được kết nối bằng cách sử dụng định nghĩa khung xương cố định để tạo thành một biểu diễn tư thế đơn giản.
Các mô hình thị giác máy tính như Ultralytics YOLO11 và Ultralytics YOLO26 sắp ra mắt hỗ trợ các tác vụ như ước lượng tư thế và có thể được sử dụng để cung cấp năng lượng cho các ứng dụng thời gian thực, bao gồm phản hồi về tư thế trong thể dục và thể thao, giám sát an toàn và trải nghiệm thực tế tăng cường tương tác.
.webp)
Trong bài viết này, chúng ta sẽ đi sâu vào tìm hiểu các công cụ ước lượng tư thế, xem cách thức hoạt động của ước lượng tư thế, các lĩnh vực ứng dụng và một số mô hình cũng như thư viện hàng đầu hiện nay. Bắt đầu nào!
Ước lượng tư thế là một kỹ thuật thị giác máy tính giúp hệ thống hiểu được vị trí của một người hoặc vật thể trong hình ảnh hoặc video. Thay vì phân tích từng pixel một cách đồng đều, nó dự đoán một tập hợp các điểm mốc nhất quán, chẳng hạn như đầu, vai, khuỷu tay, hông, đầu gối và mắt cá chân.
Hầu hết các mô hình đều xuất ra tọa độ của các điểm mấu chốt này và một điểm số phản ánh mức độ chính xác của mỗi dự đoán. Sau đó, các điểm mấu chốt này có thể được kết nối bằng cách sử dụng bố cục khung xương được xác định trước để tạo thành một biểu diễn tư thế đơn giản.
Khi được áp dụng từng khung hình một trong video, các điểm mấu chốt thu được có thể được liên kết theo thời gian để ước tính chuyển động. Điều này cho phép các ứng dụng như kiểm tra tư thế, phân tích chuyển động và tương tác dựa trên cử chỉ.
.webp)
Chuyển động của con người mang rất nhiều thông tin. Cách một người cúi xuống, vươn tới hoặc chuyển trọng lượng cơ thể có thể tiết lộ ý định, nỗ lực, sự mệt mỏi, hoặc thậm chí là nguy cơ chấn thương. Cho đến gần đây, việc thu thập mức độ chi tiết đó thường đòi hỏi các cảm biến chuyên dụng, bộ đồ ghi hình chuyển động hoặc môi trường phòng thí nghiệm được kiểm soát.
Ước lượng tư thế đã thay đổi điều đó. Việc trích xuất các điểm mốc quan trọng trên cơ thể từ hình ảnh và video thông thường cho phép máy tính phân tích chuyển động bằng cách sử dụng các camera tiêu chuẩn. Điều này làm cho việc phân tích chuyển động trở nên dễ tiếp cận hơn, có khả năng mở rộng và thiết thực hơn khi sử dụng trong các tình huống thực tế.
Dưới đây là một vài cách mà việc ước lượng tư thế có thể tạo ra tác động:
Ý tưởng ước lượng tư thế đã tồn tại từ nhiều năm nay. Các phương pháp ban đầu sử dụng các mô hình hình học đơn giản và các quy tắc được xây dựng thủ công, và chúng thường chỉ hoạt động trong điều kiện được kiểm soát.
Ví dụ, một hệ thống có thể hoạt động tốt khi một người đứng yên tại một vị trí cố định, nhưng lại gặp trục trặc khi họ bắt đầu đi bộ, xoay người hoặc tương tác với các vật thể trong các cảnh thực tế. Những phương pháp này thường gặp khó khăn với chuyển động tự nhiên, góc máy quay thay đổi, phông nền lộn xộn và che khuất một phần.
Ước lượng tư thế hiện đại dựa vào học sâu để giải quyết những thách thức này. Bằng cách huấn luyện mạng nơ-ron tích chập trên các tập dữ liệu được gắn nhãn lớn, các mô hình học được các mẫu hình ảnh giúp chúng... detect Xác định các điểm mấu chốt một cách đáng tin cậy hơn ở các tư thế, đối tượng và môi trường khác nhau.
Với nhiều ví dụ hơn, mô hình cải thiện khả năng dự đoán và trở nên tốt hơn trong việc khái quát hóa cho các tình huống mới. Nhờ sự tiến bộ này, ước tính tư thế hiện hỗ trợ nhiều trường hợp sử dụng thực tiễn, bao gồm giám sát nơi làm việc và công thái học, cũng như phân tích thể thao, nơi các huấn luyện viên và nhà phân tích nghiên cứu cách các vận động viên di chuyển.
Ước lượng tư thế có một vài hình thức khác nhau, tùy thuộc vào bối cảnh và những gì bạn cần đo. Dưới đây là các loại chính mà bạn sẽ gặp:
.webp)
Ước lượng tư thế có thể được áp dụng cho nhiều loại đối tượng, nhưng để đơn giản, chúng ta hãy tập trung vào ước lượng tư thế của con người.
Hầu hết các hệ thống ước lượng tư thế người đều được huấn luyện trên các tập dữ liệu được chú thích, trong đó các bộ phận cơ thể chính được dán nhãn trên các bộ sưu tập lớn hình ảnh và khung hình video. Sử dụng các ví dụ này, mô hình học các mẫu hình ảnh liên kết với các điểm mốc trên cơ thể người như vai, khuỷu tay, hông, đầu gối và mắt cá chân, để có thể dự đoán chính xác các điểm mấu chốt trong các cảnh mới.
Một khía cạnh quan trọng khác là kiến trúc suy luận của mô hình, quyết định cách nó phát hiện các điểm mấu chốt và ghép chúng lại thành các tư thế hoàn chỉnh. Một số hệ thống detect Trước tiên, mỗi người được xác định và sau đó ước tính các điểm quan trọng trong khu vực của mỗi người, trong khi những người khác được xác định. detect Nó xác định các điểm mấu chốt trên toàn bộ hình ảnh và sau đó nhóm chúng lại thành các cá thể riêng lẻ. Các thiết kế một giai đoạn mới hơn có thể dự đoán tư thế chỉ trong một lần xử lý, cân bằng giữa tốc độ và độ chính xác để sử dụng trong thời gian thực.
Tiếp theo, chúng ta hãy cùng tìm hiểu chi tiết các phương pháp ước lượng tư thế khác nhau.
Theo phương pháp từ dưới lên, mô hình xem xét toàn bộ hình ảnh và tìm các điểm mấu chốt của cơ thể trước tiên, chẳng hạn như đầu, vai, khuỷu tay, hông, đầu gối và mắt cá chân. Ở giai đoạn này, nó không cố gắng tách rời từng người. Nó chỉ đơn giản là phát hiện tất cả các điểm mấu chốt hoặc khớp cơ thể được xác định bởi khung xương tư thế trên toàn cảnh.
Sau đó, hệ thống thực hiện bước thứ hai để kết nối các điểm. Nó liên kết các điểm chính thuộc về nhau và nhóm chúng lại thành các bộ xương hoàn chỉnh, mỗi bộ xương tương ứng với một người. Vì nó không cần phải... detect Phương pháp tiếp cận từng người một, từ dưới lên thường hiệu quả trong những cảnh đông người, nơi mọi người chồng chéo lên nhau, có kích thước khác nhau hoặc bị che khuất một phần.
Ngược lại, các hệ thống từ trên xuống bắt đầu bằng việc phát hiện từng người trong ảnh trước. Chúng đặt một khung bao quanh mỗi cá nhân và coi mỗi khung đó như một vùng riêng biệt để phân tích.
Khi một người được tách riêng, mô hình sẽ dự đoán các điểm mấu chốt trên cơ thể trong khu vực đó. Quá trình thiết lập từng bước này thường cho kết quả rất chính xác, đặc biệt khi chỉ có một vài người trong cảnh và mỗi người đều được nhìn thấy rõ ràng.
Các mô hình một giai đoạn, đôi khi được gọi là mô hình lai, dự đoán tư thế trong một lần xử lý. Thay vì thực hiện phát hiện người trước rồi mới ước tính điểm mấu chốt sau, chúng xuất ra vị trí của người và các điểm mấu chốt trên cơ thể cùng một lúc.
Vì mọi thao tác đều diễn ra trong một mô-đun duy nhất, các mô hình này thường nhanh hơn và hiệu quả hơn, điều này khiến chúng rất phù hợp cho các ứng dụng thời gian thực như theo dõi chuyển động trực tiếp và ghi lại chuyển động. Các mô hình như... Ultralytics YOLO11 Chúng được xây dựng dựa trên ý tưởng này, nhằm mục đích cân bằng giữa tốc độ và độ tin cậy của các dự đoán điểm mấu chốt.
Bất kể phương pháp nào được sử dụng, mô hình ước lượng tư thế vẫn cần được huấn luyện và kiểm tra cẩn thận trước khi có thể hoạt động đáng tin cậy trong thực tế. Nó thường học từ các tập dữ liệu lớn gồm hình ảnh (và đôi khi cả video) trong đó các điểm mấu chốt trên cơ thể được đánh dấu, giúp nó xử lý các tư thế, góc máy quay và môi trường khác nhau.
Một số bộ dữ liệu ước lượng tư thế nổi tiếng bao gồm: COCO Các bộ dữ liệu Keypoints, MPII Human Pose, CrowdPose và OCHuman. Khi các bộ dữ liệu này không phản ánh điều kiện mà mô hình sẽ gặp phải trong quá trình triển khai, các kỹ sư thường thu thập và gắn nhãn thêm hình ảnh từ môi trường mục tiêu, chẳng hạn như nhà máy, phòng tập thể dục hoặc phòng khám.
.webp)
Sau quá trình huấn luyện, hiệu năng của mô hình được đánh giá trên các bộ dữ liệu chuẩn để đo lường độ chính xác và độ ổn định, đồng thời hướng dẫn việc tinh chỉnh thêm cho việc sử dụng thực tế. Kết quả thường được báo cáo bằng độ chính xác trung bình , thường được gọi là . mAP , tóm tắt hiệu suất trên các ngưỡng độ tin cậy khác nhau bằng cách so sánh các tư thế dự đoán với dữ liệu thực tế đã được gắn nhãn.
Trong nhiều bộ dữ liệu đánh giá tư thế, tư thế dự đoán được so khớp với tư thế thực tế bằng cách sử dụng Độ tương đồng điểm mấu chốt đối tượng (Object Keypoint Similarity - OKS). OKS đo lường mức độ gần gũi giữa các điểm mấu chốt được dự đoán và các điểm mấu chốt đã được chú thích, đồng thời tính đến các yếu tố như tỷ lệ kích thước của người và độ khó định vị điển hình của mỗi điểm mấu chốt.
Các mô hình tư thế cũng đưa ra điểm số độ tin cậy cho những người được phát hiện và cho từng điểm mấu chốt riêng lẻ. Những điểm số này phản ánh độ tin cậy của mô hình và được sử dụng để xếp hạng và lọc các dự đoán, điều này đặc biệt quan trọng trong các điều kiện khó khăn như che khuất, mờ do chuyển động hoặc góc máy quay bất thường.
Hiện nay có rất nhiều công cụ ước tính tư thế, mỗi công cụ đều cân bằng giữa tốc độ, độ chính xác và tính dễ sử dụng. Dưới đây là một số công cụ và thư viện được sử dụng rộng rãi nhất:
Công nghệ ước lượng tư thế ngày càng được sử dụng rộng rãi để biến các video thông thường thành những thông tin hữu ích về chuyển động. Bằng cách theo dõi các điểm mấu chốt trên cơ thể từng khung hình một, các hệ thống này có thể suy ra tư thế, chuyển động và hành vi thể chất từ nguồn cấp dữ liệu camera, giúp công nghệ này trở nên thiết thực trong nhiều tình huống thực tế.
Ví dụ, trong lĩnh vực chăm sóc sức khỏe và phục hồi chức năng, theo dõi tư thế có thể giúp các bác sĩ lâm sàng quan sát và đo lường cách bệnh nhân di chuyển trong quá trình trị liệu và phục hồi. Bằng cách trích xuất các điểm mốc cơ thể từ các bản ghi video thông thường, nó có thể được sử dụng để đánh giá tư thế, phạm vi chuyển động và các kiểu chuyển động tổng thể theo thời gian. Những phép đo này có thể hỗ trợ và tối ưu hóa các đánh giá lâm sàng truyền thống và, trong một số trường hợp, giúp dễ dàng hơn trong việc... track tiến bộ mà không cần đến cảm biến đeo trên người hoặc thiết bị chuyên dụng.
Tương tự, trong thể thao và truyền hình, ước tính tư thế có thể phân tích chuyển động của vận động viên trực tiếp từ nguồn cấp dữ liệu video. Một ví dụ thú vị là Hawk-Eye, một hệ thống theo dõi dựa trên camera được sử dụng trong thể thao chuyên nghiệp để trọng tài và đồ họa truyền hình. Nó cũng cung cấp khả năng theo dõi khung xương bằng cách ước tính các điểm mấu chốt trên cơ thể vận động viên từ các góc nhìn camera.
Việc lựa chọn công cụ ước tính tư thế phù hợp bắt đầu bằng việc hiểu rõ nhu cầu của dự án thị giác máy tính của bạn. Một số ứng dụng ưu tiên tốc độ thời gian thực, trong khi những ứng dụng khác yêu cầu độ chính xác và chi tiết cao hơn.
Thiết bị triển khai mục tiêu cũng tạo nên sự khác biệt. Các ứng dụng di động và thiết bị biên thường yêu cầu các mô hình nhỏ gọn, hiệu quả, trong khi các mô hình lớn hơn thường phù hợp hơn với máy chủ hoặc môi trường đám mây.
Ngoài ra, tính dễ sử dụng cũng đóng vai trò quan trọng. Tài liệu hướng dẫn tốt, triển khai suôn sẻ và hỗ trợ đào tạo tùy chỉnh có thể giúp dự án của bạn được tối ưu hóa.
Nói một cách đơn giản, mỗi công cụ lại có ưu điểm riêng ở những lĩnh vực khác nhau. Ví dụ, mô hình YOLO Ultralytics cung cấp sự cân bằng hợp lý giữa tốc độ, độ chính xác và tính dễ triển khai cho nhiều ứng dụng ước tính tư thế thực tế.

Ước lượng tư thế giúp máy tính hiểu chuyển động của con người bằng cách phát hiện các điểm mấu chốt trên cơ thể trong hình ảnh và video. Các mô hình như YOLO11 YOLO26 giúp việc xây dựng các ứng dụng thời gian thực trở nên dễ dàng hơn cho các lĩnh vực như thể thao, chăm sóc sức khỏe, an toàn lao động và trải nghiệm tương tác. Khi các mô hình ngày càng nhanh hơn và chính xác hơn, ước tính tư thế có khả năng trở thành một tính năng phổ biến trong nhiều hệ thống Trí tuệ Nhân tạo Thị giác.
Bạn muốn tìm hiểu thêm về AI? Hãy tham gia cộng đồng và xem kho lưu trữ GitHub của chúng tôi. Khám phá các trang giải pháp của chúng tôi để tìm hiểu về AI trong robot và thị giác máy tính trong sản xuất . Khám phá các tùy chọn cấp phép của chúng tôi và bắt đầu xây dựng ứng dụng thị giác máy tính ngay hôm nay!