OpenPose là gì? Khám phá một cột mốc trong ước tính tư thế

Abirami Vina

5 phút đọc

Ngày 17 tháng 6 năm 2025

Khám phá cách OpenPose có thể được sử dụng để ước tính tư thế trong các ứng dụng thị giác máy tính. Tìm hiểu về các tính năng và ý nghĩa của nó trong Vision AI.

Ngày nay, hình ảnh và máy ảnh có ở khắp mọi nơi - được tích hợp trong điện thoại, nhà cửa và thậm chí là không gian công cộng. Chúng ta dựa vào chúng không chỉ để ghi lại khoảnh khắc mà còn giúp chúng ta hiểu và tương tác với thế giới xung quanh. 

Đằng sau hậu trường, thị giác máy tính , một lĩnh vực con của trí tuệ nhân tạo (AI), giúp điều này trở nên khả thi bằng cách cho phép máy móc diễn giải dữ liệu trực quan. Nó cho phép các hệ thống phát hiện vật thể, nhận dạng khuôn mặt và theo dõi chuyển động, đóng vai trò quan trọng trong nhiều công nghệ mà chúng ta sử dụng hàng ngày. 

Nhờ những tiến bộ gần đây trong AI, các mô hình thị giác máy tính hiện có thể phân tích và trích xuất dữ liệu và thông tin chi tiết phức tạp hơn. Một ví dụ về điều này là ước tính tư thế , một nhiệm vụ thị giác máy tính tập trung vào việc hiểu chuyển động của con người. 

Nó hoạt động bằng cách xác định các điểm chính trên cơ thể, chẳng hạn như vai, khuỷu tay và đầu gối, trong hình ảnh hoặc video. Điều này giúp phân tích cách mọi người di chuyển, cho phép ứng dụng theo dõi thể dục, hoạt hình, chăm sóc sức khỏe, v.v.

Trong số nhiều công cụ được phát triển để ước tính tư thế, OpenPose nổi bật như một bước đột phá lớn. Được tạo ra bởi các nhà nghiên cứu tại Phòng thí nghiệm máy tính nhận thức tại Đại học Carnegie Mellon, đây là một trong những hệ thống nguồn mở đầu tiên có khả năng phát hiện tư thế toàn thân, bao gồm bàn tay, bàn chân và các điểm chính trên khuôn mặt, cho nhiều người trong thời gian thực chỉ bằng một camera (với tối đa 135 điểm chính cho mỗi người).

Trong bài viết này, chúng ta sẽ tìm hiểu OpenPose, cách thức hoạt động và ý nghĩa của nó như một cột mốc quan trọng trong lĩnh vực thị giác máy tính.

Hình 1. Ước tính tư thế của nhiều người bằng OpenPose.

Một cái nhìn về lịch sử ước tính tư thế

Trước khi AI được áp dụng rộng rãi, việc theo dõi chuyển động của con người trong video liên quan đến việc sử dụng thiết bị chuyên dụng. Trong các ngành công nghiệp như phim ảnh và hoạt hình , diễn viên thường mặc bộ đồ có đánh dấu phản quang để máy ảnh có thể ghi lại chuyển động của họ trong môi trường studio được kiểm soát. 

Mặc dù các kỹ thuật chụp chuyển động dựa trên điểm đánh dấu này chính xác, nhưng chúng cũng tốn kém và bị giới hạn trong các thiết lập cụ thể. Khi thị giác máy tính phát triển, các nhà nghiên cứu đã tìm cách theo dõi chuyển động cơ thể mà không cần sử dụng điểm đánh dấu. Họ sử dụng các cạnh, đường viền và mẫu để tìm hình dạng con người trong hình ảnh.

Những hệ thống ban đầu này hoạt động trong những trường hợp đơn giản và dễ hiểu nhưng lại gặp khó khăn với các tình huống thực tế. Chúng thường cho kết quả kém khi mọi người di chuyển theo cách không mong muốn hoặc khi có nhiều hơn một người xuất hiện trong một khung hình.

Vào cuối những năm 2010, học sâu đã mang đến một sự thay đổi lớn trong việc ước tính tư thế. Các mô hình AI thị giác có thể được đào tạo trên các tập dữ liệu lớn về tư thế của con người. Thay vì dựa vào các cạnh và mẫu, các mô hình đã học cách nhận dạng các khớp và cấu trúc cơ thể bằng cách nghiên cứu hàng nghìn hình ảnh được gắn nhãn. Điều này làm cho việc ước tính tư thế chính xác hơn, linh hoạt hơn và có tác động hơn trong nhiều bối cảnh hơn.

Hình 2. Sự phát triển của các mô hình ước tính tư thế con người từ năm 2017 đến năm 2023.

OpenPose: Nơi ước tính tư thế hiện đại cất cánh

OpenPose được phát hành lần đầu tiên vào năm 2017 và có khả năng ước tính tư thế của nhiều người cùng lúc trong một hình ảnh duy nhất. Không giống như các hệ thống cũ, OpenPose không yêu cầu bộ đồ hoặc điểm đánh dấu đặc biệt. Nó hoạt động với máy ảnh tiêu chuẩn và có thể xử lý hình ảnh và video theo thời gian thực. Các tính năng này giúp ước tính tư thế dễ tiếp cận hơn với các nhà phát triển và nhà nghiên cứu

Nền tảng mà OpenPose đặt ra cho thị giác máy tính đã giúp những người khác xây dựng các kiến trúc mới hơn cho nhiều ứng dụng khác. Ngày nay, các mô hình AI thị giác như Ultralytics YOLO8Ultralytics YOLO11 hỗ trợ các tác vụ ước tính tư thế cung cấp kết quả nhanh hơn và độ trễ thấp hơn. 

Hình 3. Sử dụng YOLO11 để ước tính tư thế.

Tuy nhiên, OpenPose là nơi tuyệt vời để bắt đầu nếu bạn tò mò về cách ước tính tư thế đã phát triển như thế nào. Nó giới thiệu những ý tưởng chính mà nhiều hệ thống mới hơn vẫn dựa vào ngày nay. 

Các khả năng chính của OpenPose

Bây giờ chúng ta đã hiểu rõ hơn về tầm quan trọng của OpenPose, hãy cùng xem xét kỹ hơn những gì nó thực sự có thể làm.

Điểm cốt lõi trong khả năng của OpenPose là thứ gọi là phát hiện điểm chính . Điểm chính là các điểm mốc cụ thể trên cơ thể con người, như chóp mũi, giữa vai, khuỷu tay, cổ tay, hông, đầu gối và mắt cá chân. OpenPose có thể phát hiện tới 135 điểm này trên mỗi người, bao gồm các khu vực chi tiết như ngón tay và các đặc điểm trên khuôn mặt.

Khi những điểm này được kết nối, chúng tạo thành một hình ảnh đơn giản hóa của cơ thể con người - bạn có thể nghĩ về nó như một bộ xương kỹ thuật số. Phác thảo bộ xương này không chỉ cho thấy một người đang ở đâu, mà còn cho thấy họ đang tạo dáng như thế nào: họ đang ngồi, đứng, vẫy tay, mỉm cười hay đi bộ. Máy tính có thể diễn giải chuyển động của con người một cách trực quan bằng cách sử dụng những bộ xương này, giống như chúng ta hiểu ngôn ngữ cơ thể của một người theo bản năng.

Theo dõi bộ xương đặc biệt hữu ích vì nó loại bỏ tiếng ồn và sự mất tập trung, cho phép hệ thống tập trung hoàn toàn vào tư thế và chuyển động của con người. Thay vì phân tích từng pixel, OpenPose tập trung vào các điểm có ý nghĩa kể câu chuyện về cách một người di chuyển hoặc tương tác.

Bằng cách trích xuất thông tin có cấu trúc này từ hình ảnh hoặc video hàng ngày, OpenPose giúp xây dựng các ứng dụng phản hồi cử chỉ, theo dõi hoạt động thể chất, đánh giá tín hiệu cảm xúc hoặc thậm chí là tạo hoạt ảnh cho các nhân vật kỹ thuật số.

OpenPose hoạt động như thế nào? 

Sau đây là tổng quan về cách OpenPose phát hiện và kết nối các điểm chính trên cơ thể con người từ dữ liệu hình ảnh đầu vào:

  • Bắt đầu bằng một hình ảnh: OpenPose chụp một hình ảnh duy nhất từ ảnh, video hoặc nguồn cấp dữ liệu camera trực tiếp.
  • Xác định các bộ phận quan trọng của cơ thể: Hệ thống tìm kiếm các điểm chính trên cơ thể, như mũi, khuỷu tay, cổ tay, đầu gối và mắt cá chân. Chúng được đánh dấu bất cứ nơi nào hệ thống tin chắc rằng có một bộ phận cơ thể.
  • Xác định các bộ phận nào đi cùng nhau: Tiếp theo, OpenPose kiểm tra cách các điểm chính được kết nối. Nó sử dụng các phép tính toán học để quyết định khớp nào thuộc về cùng một người - ví dụ, khớp cổ tay với khuỷu tay và vai phải.
  • Vẽ bộ xương cho mỗi người: Sau khi nhóm các điểm chính, OpenPose kết nối chúng thành một "hình que" cho thấy tư thế của mỗi người. Điều này hoạt động ngay cả khi nhiều người xuất hiện trong cùng một khung hình.
  • Trả về dữ liệu tư thế: Cuối cùng, nó cung cấp vị trí chính xác của tất cả các điểm chính được phát hiện. Chúng có thể được sử dụng để theo dõi chuyển động, nhận dạng cử chỉ hoặc xây dựng các công cụ tương tác - tất cả đều theo thời gian thực.
Hình 4. Phát hiện và theo dõi điểm chính của con người bằng OpenPose.

Ứng dụng ước tính tư thế trong nhiều ngành công nghiệp sử dụng OpenPose 

OpenPose là một trong những công cụ tiên tiến đầu tiên giúp ước tính tư thế trở nên thiết thực cho nhiều trường hợp sử dụng trong thế giới thực. Mặc dù hiện nay nó không được sử dụng phổ biến trong các giải pháp thị giác máy tính thời gian thực, nhưng nó đóng vai trò quan trọng trong việc định hình công việc ban đầu trong các lĩnh vực như thể thao, giải trí, giáo dục và an toàn. 

Chúng ta hãy cùng xem xét kỹ hơn xem nó đã giúp mở đường như thế nào trong những lĩnh vực này.

Ước tính tư thế với OpenPose cho thể dục và thể thao

Khi bạn xem bóng chày, bạn có thể dễ dàng hiểu được những gì đang diễn ra - bạn có thể nhận ra ngay một cú ném, một cú đánh hoặc một cú đánh cắp gôn. Là con người, chúng ta trực giác đọc được các chuyển động của cơ thể và hiểu được chúng mà không cần nhiều nỗ lực. Nhưng đối với máy móc, việc nhận ra những hành động này phức tạp hơn nhiều. Chúng cần thông tin chính xác về cách từng bộ phận của cơ thể di chuyển trong không gian.

OpenPose là một bước tiến đáng kể trong lĩnh vực thị giác máy tính này. Đây là một công cụ thực tế để phân tích hình thể vận động viên trong nhiều bối cảnh khác nhau.

Nhiều dự án nghiên cứu đã sử dụng OpenPose để phân tích các chuyển động như vung và nhảy, thậm chí phân loại các hành động bóng chày cụ thể dựa trên cách người chơi di chuyển. Vì nó hoạt động trong môi trường mở với video chuẩn, nên nó cho phép các nhà nghiên cứu kiểm tra cách các hệ thống như vậy có thể hoạt động trong các tình huống đào tạo hoặc huấn luyện thực tế.

Những nghiên cứu ban đầu này đã giúp đặt nền tảng cho các công cụ theo dõi hiệu suất hiện đang được sử dụng trong công nghệ thể thao tiên tiến.

Hình 5. Một góc nhìn về quy trình phân loại hành động bóng chày bằng OpenPose.

Sử dụng OpenPose trong hệ thống an ninh và an toàn

Tương tự như vậy, các nhà nghiên cứu cũng sử dụng OpenPose để khám phá cách theo dõi tư thế dựa trên video có thể hỗ trợ giám sát an toàn. Nó đã được thử nghiệm trong việc phát hiện các hành vi như ngã, cử chỉ bất ngờ hoặc các kiểu chuyển động ở nơi công cộng.

Vì nó hoạt động với các camera tiêu chuẩn, OpenPose đã giúp thử nghiệm ban đầu dễ tiếp cận hơn trong các môi trường như bệnh viện và trung tâm giao thông. Các nghiên cứu này đã giúp thúc đẩy sự phát triển của các mô hình mới hơn hiện đang được sử dụng trong các hệ thống giám sát, phát hiện té ngã và ứng phó khẩn cấp.

Hình 6. Phát hiện té ngã được kích hoạt bởi OpenPose.

Ưu và nhược điểm của OpenPose

Sau đây là cái nhìn tổng quan về một số lợi thế mà OpenPose mang lại:

  • Hữu ích cho nghiên cứu và tạo mẫu: Nó đã được sử dụng rộng rãi trong nghiên cứu học thuật, đặc biệt là trong các lĩnh vực như tương tác giữa con người và máy tính, cơ sinh học và phân tích hành vi.
  • Hỗ trợ đa nền tảng: Có thể chạy trên Windows, Linux và macOS, hỗ trợ cả bộ xử lý trung tâm (CPU) và bộ xử lý đồ họa (GPU) .
  • Khả năng xử lý ngoại tuyến : Có thể chạy trong môi trường không có kết nối internet, lý tưởng cho các lĩnh vực nhạy cảm về quyền riêng tư như chăm sóc sức khỏe hoặc giáo dục.

Mặc dù OpenPose là một bước tiến lớn, nhưng nó cũng có những hạn chế về mặt kỹ thuật mà chúng ta cần lưu ý. Sau đây là một số thách thức chính liên quan đến OpenPose: 

  • Yêu cầu xử lý cao: Chạy OpenPose theo thời gian thực đòi hỏi GPU mạnh và tài nguyên tính toán đáng kể.
  • Nhạy cảm với môi trường: Hiệu suất có thể giảm trong điều kiện ánh sáng yếu, không gian đông đúc hoặc khi góc máy ảnh không lý tưởng.
  • Nặng hơn so với các mô hình mới hơn: So với các mô hình ước tính tư thế mới hơn, OpenPose tương đối lớn và chậm hơn. Nó không phù hợp để triển khai trên các thiết bị có tài nguyên hạn chế như điện thoại thông minh, máy tính bảng hoặc hệ thống nhúng.

Những điểm chính

OpenPose đóng vai trò quan trọng trong việc giúp ước tính tư thế dễ tiếp cận hơn. Nó cho thấy việc theo dõi chuyển động cơ thể có thể được thực hiện bằng một camera đơn giản, mà không cần dựa vào bộ đồ hoặc thiết bị chuyên dụng.

Nó đặt nền tảng cho nhiều ứng dụng thực tế trong lĩnh vực chăm sóc sức khỏe, giáo dục, giải trí và nghiên cứu. Trong khi các mô hình mới hơn hiện cung cấp tốc độ nhanh hơn và hiệu suất nhẹ hơn, OpenPose vẫn là điểm tham chiếu chính để hiểu cách ước tính tư thế đã phát triển như thế nào. 

Tham gia cộng đồng của chúng tôi và truy cập kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Nếu bạn đang muốn xây dựng các giải pháp thị giác máy tính của riêng mình, hãy khám phá các tùy chọn cấp phép của chúng tôi. Ngoài ra, hãy xem thị giác máy tính trong chăm sóc sức khỏeAI trong hậu cần đang tạo ra tác động như thế nào!

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard