Hướng dẫn toàn diện về các công cụ ước tính tư thế
Tìm hiểu cách các công cụ ước tính tư thế có thể được sử dụng để phát hiện các điểm chính trên cơ thể trong hình ảnh và video, ước tính tư thế 2D và 3D, và hỗ trợ nhiều ứng dụng Vision AI khác nhau.

Là con người, chúng ta đọc hiểu chuyển động một cách bản năng. Khi ai đó nghiêng người về phía trước, quay đầu hoặc giơ tay, bạn có thể ngay lập tức suy ra họ đang làm gì. Đó là một kỹ năng thầm lặng, gần như tiềm thức giúp định hình cách chúng ta tương tác với mọi người và khám phá thế giới.
Khi công nghệ trở thành một phần lớn hơn trong cuộc sống hàng ngày, việc mong muốn các thiết bị của mình hiểu được chuyển động một cách mượt mà như chúng ta là điều tự nhiên. Những tiến bộ gần đây trong trí tuệ nhân tạo, đặc biệt là các tiến bộ dựa trên học sâu (deep learning), đang biến điều đó thành hiện thực. Cụ thể, computer vision giúp máy móc trích xuất ý nghĩa từ hình ảnh và video, đồng thời đang thúc đẩy sự tiến bộ này.
Ví dụ, ước tính tư thế là một tác vụ computer vision phổ biến giúp dự đoán vị trí của các điểm khóa (keypoints) cơ thể được xác định trước (như vai, khuỷu tay, hông và đầu gối) trong hình ảnh hoặc khung hình video. Các điểm khóa này có thể được kết nối bằng cách sử dụng cấu trúc khung xương cố định để tạo thành biểu diễn tư thế đơn giản hóa.
Các mô hình computer vision như Ultralytics YOLO11 và Ultralytics YOLO26 sắp ra mắt hỗ trợ các tác vụ như ước tính tư thế và có thể được sử dụng để cung cấp năng lượng cho các ứng dụng thời gian thực, bao gồm phản hồi về kỹ thuật trong thể dục và thể thao, giám sát an toàn và các trải nghiệm thực tế tăng cường tương tác.

Hình 1. Một cái nhìn về việc sử dụng Ultralytics YOLO11 cho ước tính tư thế (Nguồn)
Trong bài viết này, chúng ta sẽ tìm hiểu sâu về các công cụ ước tính tư thế và xem cách ước tính tư thế hoạt động, nơi nó được sử dụng, cũng như một số mô hình và thư viện hàng đầu hiện nay. Hãy bắt đầu ngay thôi!
Link to this sectionPose estimation là gì?#
Ước tính tư thế là một kỹ thuật computer vision giúp hệ thống hiểu cách một người hoặc vật thể được định vị trong hình ảnh hoặc video. Thay vì phân tích từng pixel như nhau, nó dự đoán một tập hợp các cột mốc nhất quán, chẳng hạn như đầu, vai, khuỷu tay, hông, đầu gối và mắt cá chân.
Hầu hết các mô hình xuất ra tọa độ của các điểm khóa này cùng với một điểm số phản ánh khả năng mỗi dự đoán là chính xác. Các điểm khóa này sau đó có thể được kết nối bằng cách sử dụng bố cục khung xương được xác định trước để tạo thành biểu diễn tư thế đơn giản.
Khi được áp dụng theo từng khung hình trong video, các điểm khóa thu được có thể được liên kết theo thời gian để ước tính chuyển động. Điều này cho phép thực hiện các ứng dụng như kiểm tra kỹ thuật, phân tích chuyển động và tương tác dựa trên cử chỉ.

Hình 2. Một ví dụ về ước tính tư thế (Nguồn)
Link to this sectionNhu cầu về các công cụ ước tính tư thế#
Chuyển động của con người chứa đựng rất nhiều thông tin. Cách một người cúi người, với tay hoặc dịch chuyển trọng tâm có thể tiết lộ ý định, nỗ lực, sự mệt mỏi hoặc thậm chí là nguy cơ chấn thương. Cho đến gần đây, việc ghi lại mức độ chi tiết đó thường yêu cầu các cảm biến chuyên dụng, bộ đồ bắt chuyển động (motion-capture) hoặc môi trường phòng thí nghiệm được kiểm soát.
Ước tính tư thế thay đổi điều đó. Việc trích xuất các cột mốc cơ thể chính từ hình ảnh và video thông thường cho phép máy tính phân tích chuyển động bằng cách sử dụng camera tiêu chuẩn. Điều này làm cho việc phân tích chuyển động trở nên dễ tiếp cận, có khả năng mở rộng và thiết thực hơn để sử dụng trong các bối cảnh thực tế.
Dưới đây là một vài cách mà ước tính tư thế có thể tạo ra tác động:
- Nơi làm việc an toàn hơn: các hệ thống dựa trên vision có thể được sử dụng để phát hiện các tư thế rủi ro, căng thẳng lặp đi lặp lại hoặc các kỹ thuật nâng vật nặng không an toàn trước khi chấn thương xảy ra.
- Đào tạo thể dục và thể thao tốt hơn: các giải pháp vision AI có thể đánh giá kỹ thuật, sự cân bằng và tư thế trong thời gian thực, cung cấp cho người dùng phản hồi ngay lập tức mà không cần thiết bị đeo.
- Chăm sóc sức khỏe và phục hồi chức năng: Các bác sĩ lâm sàng có thể theo dõi tiến trình phục hồi, tư thế và phạm vi chuyển động từ xa bằng cách sử dụng các bản ghi video đơn giản.
- Trải nghiệm tương tác: Ước tính tư thế giúp các avatar kỹ thuật số và môi trường nhập vai theo dõi và phản ánh chuyển động của con người một cách chính xác dễ dàng hơn.
Link to this sectionSự phát triển của các thuật toán ước tính tư thế#
Ý tưởng ước tính tư thế đã tồn tại trong nhiều năm. Các phương pháp tiếp cận ban đầu sử dụng các mô hình hình học đơn giản và các quy tắc thủ công, và chúng thường chỉ hoạt động trong các điều kiện được kiểm soát.
Ví dụ, một hệ thống có thể hoạt động tốt khi một người đứng yên ở một vị trí cố định, nhưng lại thất bại khi họ bắt đầu đi bộ, quay người hoặc tương tác với các đồ vật trong các cảnh thực tế. Các phương pháp này thường gặp khó khăn với chuyển động tự nhiên, góc camera thay đổi, nền phức tạp và bị che khuất một phần.
Ước tính tư thế hiện đại dựa vào học sâu để xử lý những thách thức này. Bằng cách huấn luyện các mạng thần kinh tích chập trên các tập dữ liệu được gán nhãn lớn, các mô hình học được các mô hình thị giác giúp chúng phát hiện các điểm khóa một cách đáng tin cậy hơn trên các tư thế, con người và môi trường khác nhau.
Với nhiều ví dụ hơn, mô hình cải thiện các dự đoán của nó và trở nên tốt hơn trong việc khái quát hóa sang các cảnh mới. Nhờ sự tiến bộ này, ước tính tư thế hiện hỗ trợ nhiều trường hợp sử dụng thực tế, bao gồm giám sát nơi làm việc và công thái học, cũng như phân tích thể thao, nơi các huấn luyện viên và nhà phân tích nghiên cứu cách các vận động viên di chuyển.
Link to this sectionCác loại kỹ thuật ước tính tư thế#
Ước tính tư thế có một vài dạng khác nhau, tùy thuộc vào cài đặt và những gì bạn cần đo lường. Dưới đây là các loại chính mà bạn sẽ gặp:
- Ước tính tư thế 2D: Phương pháp này phát hiện các điểm khóa cơ thể trong hình ảnh hai chiều hoặc khung hình video. Nó hoạt động tốt với các camera tiêu chuẩn và có hiệu quả tính toán, làm cho nó phù hợp cho các tác vụ như theo dõi chuyển động cơ bản, phân tích tư thế và phản hồi kỹ thuật thời gian thực.
- Ước tính tư thế 3D: Bằng cách ước tính độ sâu ngoài tọa độ hình ảnh, ước tính tư thế 3D cung cấp sự hiểu biết về không gian về chuyển động cơ thể. Điều này đặc biệt hữu ích khi chuyển động tiến và lùi quan trọng, chẳng hạn như trong phân tích thể thao, phục hồi chức năng, cơ sinh học và hoạt hình. Cụ thể, ước tính tư thế người 3D nắm bắt các vị trí khớp và chuyển động trong không gian 3D, làm giảm sự mơ hồ có thể xảy ra với các phép chiếu 2D.
- Ước tính tư thế đơn người: Các hệ thống này được thiết kế để theo dõi một cá nhân tại một thời điểm. Chúng có xu hướng hoạt động tốt nhất trong các cài đặt được kiểm soát hoặc bán kiểm soát nơi đối tượng hiển thị rõ ràng, chẳng hạn như các ứng dụng tập thể dục có hướng dẫn, cuộc gọi video hoặc thiết lập phân tích chuyển động.
- Ước tính tư thế đa người: Được xây dựng cho các cảnh có nhiều người, phương pháp này phát hiện và theo dõi tư thế cho nhiều cá nhân cùng một lúc. Nó đặc biệt hữu ích trong các môi trường bận rộn như nơi làm việc, phòng tập thể dục, không gian công cộng và các hoạt động nhóm, nơi các đối tượng có thể chồng chéo hoặc che khuất lẫn nhau.

Hình 3. Hiểu chuyển động của con người trong không gian 3D so với không gian hình ảnh 2D (Nguồn)
Link to this sectionHiểu cách các mô hình ước tính tư thế con người hoạt động#
Ước tính tư thế có thể được áp dụng cho nhiều loại đối tượng, nhưng để mọi thứ đơn giản, hãy tập trung vào ước tính tư thế con người.
Hầu hết các hệ thống ước tính tư thế con người được huấn luyện trên các tập dữ liệu được chú thích, nơi các bộ phận cơ thể chính được dán nhãn trên các bộ sưu tập lớn các hình ảnh và khung hình video. Sử dụng các ví dụ này, mô hình học các mô hình thị giác liên quan đến các cột mốc cơ thể con người như vai, khuỷu tay, hông, đầu gối và mắt cá chân, để nó có thể dự đoán các điểm khóa một cách chính xác trong các cảnh mới.
Một khía cạnh quan trọng khác là kiến trúc suy luận của mô hình, xác định cách nó phát hiện các điểm khóa và lắp ráp chúng thành các tư thế hoàn chỉnh. Một số hệ thống phát hiện từng người trước rồi ước tính các điểm khóa trong vùng của mỗi người, trong khi những hệ thống khác phát hiện các điểm khóa trên toàn bộ hình ảnh rồi nhóm chúng thành từng cá nhân. Các thiết kế đơn giai đoạn mới hơn có thể dự đoán các tư thế trong một lần chuyển, cân bằng giữa tốc độ và độ chính xác cho việc sử dụng thời gian thực.
Tiếp theo, hãy cùng tìm hiểu chi tiết về các phương pháp tiếp cận ước tính tư thế khác nhau.
Link to this sectionƯớc tính tư thế theo hướng từ dưới lên (Bottom-up)#
Trong phương pháp tiếp cận từ dưới lên, mô hình nhìn vào toàn bộ hình ảnh và tìm các điểm khóa cơ thể trước, như đầu, vai, khuỷu tay, hông, đầu gối và mắt cá chân. Ở giai đoạn này, nó không cố gắng tách biệt mọi người. Nó chỉ đơn giản là phát hiện tất cả các điểm khóa hoặc khớp cơ thể được xác định bởi khung xương tư thế trên toàn cảnh.
Sau đó, hệ thống thực hiện bước thứ hai để kết nối các dấu chấm. Nó liên kết các điểm khóa thuộc về nhau và nhóm chúng thành các bộ khung xương hoàn chỉnh, mỗi người một bộ. Vì không cần phát hiện từng người trước, các phương pháp từ dưới lên thường hoạt động tốt trong các cảnh đông đúc nơi mọi người chồng chéo, xuất hiện ở các kích thước khác nhau hoặc bị ẩn một phần.
Link to this sectionPhát hiện tư thế theo hướng từ trên xuống (Top-down)#
Ngược lại, các hệ thống từ trên xuống bắt đầu bằng việc phát hiện từng người trong hình ảnh trước. Chúng đặt một hộp giới hạn (bounding box) xung quanh mỗi cá nhân và coi mỗi hộp là vùng riêng của nó để phân tích.
Khi một người được cô lập, mô hình dự đoán các điểm khóa cơ thể trong vùng đó. Thiết lập từng bước này thường tạo ra kết quả rất chính xác, đặc biệt là khi chỉ có một vài người trong cảnh, và mỗi người đều hiển thị rõ ràng.
Link to this sectionƯớc tính tư thế đơn giai đoạn hoặc lai (hybrid)#
Các mô hình đơn giai đoạn, đôi khi được gọi là lai, dự đoán tư thế trong một lần chuyển. Thay vì chạy phát hiện người trước rồi mới ước tính điểm khóa sau, chúng xuất ra vị trí người và các điểm khóa cơ thể cùng một lúc.
Vì mọi thứ xảy ra trong một mô-đun duy nhất, các mô hình này thường nhanh hơn và hiệu quả hơn, điều này làm cho chúng trở nên phù hợp cho các mục đích sử dụng thời gian thực như theo dõi chuyển động trực tiếp và bắt chuyển động. Các mô hình như Ultralytics YOLO11 được xây dựng dựa trên ý tưởng này, nhằm mục đích cân bằng tốc độ với các dự đoán điểm khóa đáng tin cậy.
Link to this sectionHuấn luyện và đánh giá các mô hình ước tính tư thế#
Bất kể phương pháp tiếp cận nào được sử dụng, một mô hình ước tính tư thế vẫn cần được huấn luyện và kiểm tra cẩn thận trước khi nó đáng tin cậy trong thế giới thực. Nó thường học từ các bộ dữ liệu lớn gồm hình ảnh (và đôi khi là video) nơi các điểm khóa cơ thể được dán nhãn, giúp nó xử lý các tư thế, góc camera và môi trường khác nhau.
Một số tập dữ liệu ước tính tư thế nổi tiếng bao gồm COCO Keypoints, MPII Human Pose, CrowdPose và OCHuman. Khi các tập dữ liệu này không phản ánh các điều kiện mà mô hình sẽ gặp phải khi triển khai, các kỹ sư thường thu thập và dán nhãn thêm hình ảnh từ môi trường mục tiêu, chẳng hạn như sàn nhà máy, phòng tập thể dục hoặc phòng khám.

Hình 4. Các tư thế khác nhau đang được ước tính bằng computer vision (Nguồn)
Sau khi huấn luyện, hiệu suất của mô hình được đánh giá trên các tiêu chuẩn để đo lường độ chính xác và độ bền, đồng thời hướng dẫn việc điều chỉnh thêm cho việc sử dụng trong thế giới thực. Kết quả thường được báo cáo bằng cách sử dụng mean average precision, thường được gọi là mAP, tổng hợp hiệu suất trên các ngưỡng tin cậy khác nhau bằng cách so sánh các tư thế dự đoán với ground truth đã được dán nhãn.
Trong nhiều tiêu chuẩn tư thế, một tư thế dự đoán được khớp với một tư thế ground truth bằng cách sử dụng Object Keypoint Similarity (OKS). OKS đo lường mức độ gần nhau của các điểm khóa dự đoán so với các điểm khóa được chú thích, đồng thời tính đến các yếu tố như quy mô của người và khó khăn định vị thông thường của mỗi điểm khóa.
Các mô hình tư thế cũng xuất ra các điểm số tin cậy cho những người được phát hiện và cho từng điểm khóa riêng lẻ. Các điểm số này phản ánh sự tự tin của mô hình và được sử dụng để xếp hạng và lọc các dự đoán, điều này đặc biệt quan trọng trong các điều kiện thách thức như bị che khuất, nhòe do chuyển động hoặc góc camera bất thường.
Link to this sectionCác công cụ và thư viện ước tính tư thế phổ biến#
Nhiều công cụ ước tính tư thế có sẵn ngày nay, mỗi công cụ cân bằng giữa tốc độ, độ chính xác và tính dễ sử dụng. Dưới đây là một số công cụ và thư viện được sử dụng rộng rãi nhất:
- Ultralytics YOLO11: Được phát triển như một mô hình vision AI nguồn mở hiện đại, YOLO11 xây dựng dựa trên các mô hình trước đó như Ultralytics YOLOv8. Nó cải thiện tốc độ, độ chính xác và hiệu quả tổng thể trong khi hỗ trợ các tác vụ computer vision khác nhau, bao gồm ước tính tư thế. Với hiệu suất mạnh mẽ trên nhiều nền tảng, từ máy tính xách tay đến các thiết bị cạnh (edge), YOLO11 là một lựa chọn tuyệt vời cho nhiều triển khai trong thế giới thực.
- Ultralytics YOLO26: Mô hình thế hệ tiếp theo sắp ra mắt này được thiết kế để nhẹ hơn, nhỏ hơn và nhanh hơn, trong khi vẫn duy trì độ chính xác cao. Nó được xây dựng cho việc sử dụng thời gian thực và triển khai dễ dàng hơn, đồng thời hỗ trợ các tác vụ như phát hiện đối tượng, phân đoạn thực thể (instance segmentation) và ước tính tư thế trên nhiều kích thước mô hình phù hợp cho mọi thứ từ thiết bị cạnh đến các hệ thống lớn hơn.
- MediaPipe: Đây là một framework đa nền tảng để xây dựng các đường ống (pipelines) thị giác và máy học. Nó nhẹ và chạy hiệu quả trên các thiết bị di động, máy tính bảng và trong các ứng dụng web, đồng thời bao gồm các giải pháp và mô hình sẵn sàng sử dụng cho toàn thân, các cột mốc khuôn mặt và theo dõi bàn tay.
- OpenPose: Hệ thống ước tính tư thế nguồn mở từ đầu đến cuối này được biết đến rộng rãi với khả năng phát hiện điểm khóa đa người. Nó có thể ước tính các điểm khóa cơ thể, bàn tay và khuôn mặt cùng nhau, và nó thường được sử dụng trong nghiên cứu, hoạt hình và phân tích chuyển động.
- MMPose: MMPose là một bộ công cụ ước tính tư thế dựa trên PyTorch từ hệ sinh thái OpenMMLab. Nó cung cấp nhiều triển khai mô hình, tiện ích huấn luyện và các tùy chọn cấu hình, giúp nó hữu ích cho việc thử nghiệm và tùy chỉnh sâu.
- HRNet và AlphaPose: Đây là những mô hình ước tính tư thế cũ hơn vẫn được sử dụng trong nghiên cứu ngày nay. HRNet là một kiến trúc mô hình tư thế giữ các đặc trưng hình ảnh độ phân giải cao trong suốt mạng lưới, giúp nó định vị các điểm khóa một cách chính xác. AlphaPose là một hệ thống ước tính tư thế đa người được sử dụng rộng rãi, thường được dùng khi cần độ chính xác cao trong các cảnh đông đúc hoặc phức tạp.
Link to this sectionCác ứng dụng thực tế của phân tích và ước tính tư thế#
Ước tính tư thế ngày càng được sử dụng để chuyển đổi các video thông thường thành các hiểu biết về chuyển động hữu ích. Bằng cách theo dõi các điểm khóa cơ thể theo từng khung hình, các hệ thống này có thể suy ra tư thế, chuyển động và hành vi vật lý từ các nguồn cấp dữ liệu camera, làm cho công nghệ như vậy trở nên thực tế trong nhiều môi trường thực tế.
Ví dụ, trong chăm sóc sức khỏe và phục hồi chức năng, theo dõi tư thế có thể giúp các bác sĩ lâm sàng quan sát và đo lường cách bệnh nhân di chuyển trong quá trình trị liệu và phục hồi. Bằng cách trích xuất các cột mốc cơ thể từ các bản ghi video thông thường, nó có thể được sử dụng để đánh giá tư thế, phạm vi chuyển động và các kiểu chuyển động tổng thể theo thời gian. Các phép đo này có thể hỗ trợ và tối ưu hóa các đánh giá lâm sàng truyền thống và, trong một số trường hợp, giúp việc theo dõi tiến trình trở nên dễ dàng hơn mà không cần các cảm biến đeo trên người hoặc thiết bị chuyên dụng.
Tương tự, trong thể thao và phát sóng, ước tính tư thế có thể phân tích cách các vận động viên di chuyển trực tiếp từ các nguồn cấp dữ liệu video. Một ví dụ thú vị là Hawk-Eye, một hệ thống theo dõi dựa trên camera được sử dụng trong các môn thể thao chuyên nghiệp cho công tác trọng tài và đồ họa phát sóng. Nó cũng cung cấp khả năng theo dõi khung xương bằng cách ước tính các điểm khóa cơ thể của vận động viên từ các góc nhìn camera.
Link to this sectionChọn công cụ ước tính tư thế phù hợp#
Việc chọn công cụ ước tính tư thế phù hợp bắt đầu bằng việc hiểu các nhu cầu của dự án computer vision của bạn. Một số ứng dụng ưu tiên tốc độ thời gian thực, trong khi những ứng dụng khác yêu cầu độ chính xác và chi tiết cao hơn.
Thiết bị triển khai mục tiêu cũng tạo ra sự khác biệt. Các ứng dụng di động và thiết bị cạnh thường yêu cầu các mô hình nhẹ, hiệu quả, trong khi các mô hình lớn hơn thường phù hợp hơn cho máy chủ hoặc môi trường đám mây.
Ngoài điều này, tính dễ sử dụng cũng có thể đóng một vai trò. Tài liệu tốt, triển khai mượt mà và hỗ trợ huấn luyện tùy chỉnh có thể hợp lý hóa dự án của bạn.
Nói một cách đơn giản, các công cụ khác nhau vượt trội ở các lĩnh vực khác nhau. Ví dụ, các mô hình Ultralytics YOLO cung cấp sự cân bằng thực tế giữa tốc độ, độ chính xác và tính dễ triển khai cho nhiều ứng dụng ước tính tư thế trong thế giới thực.

Hình 5. Ước tính tư thế động vật sử dụng Ultralytics YOLO11 (Nguồn)
Link to this sectionCác điểm chính cần lưu ý#
Ước tính tư thế giúp máy tính hiểu chuyển động của con người bằng cách phát hiện các điểm khóa cơ thể trong hình ảnh và video. Các mô hình như YOLO11 và YOLO26 giúp việc xây dựng các ứng dụng thời gian thực cho các lĩnh vực như thể thao, chăm sóc sức khỏe, an toàn tại nơi làm việc và các trải nghiệm tương tác trở nên dễ dàng hơn. Khi các mô hình ngày càng nhanh hơn và chính xác hơn, ước tính tư thế có khả năng trở thành một tính năng phổ biến trong nhiều hệ thống vision AI.
Bạn muốn biết thêm về AI? Hãy xem cộng đồng và kho lưu trữ GitHub của chúng tôi. Khám phá các trang giải pháp của chúng tôi để tìm hiểu về AI trong robotics và computer vision trong sản xuất. Khám phá các tùy chọn cấp phép của chúng tôi và bắt đầu xây dựng với computer vision ngay hôm nay!






