OpenPose là gì? Khám phá một cột mốc trong ước tính tư thế

Ngày 17 tháng 6 năm 2025
Khám phá cách OpenPose có thể được sử dụng để ước tính tư thế trong các ứng dụng thị giác máy tính. Tìm hiểu về các tính năng và ý nghĩa của nó trong Vision AI.

Ngày 17 tháng 6 năm 2025
Khám phá cách OpenPose có thể được sử dụng để ước tính tư thế trong các ứng dụng thị giác máy tính. Tìm hiểu về các tính năng và ý nghĩa của nó trong Vision AI.
Ngày nay, hình ảnh và máy ảnh có ở khắp mọi nơi - được tích hợp trong điện thoại, nhà cửa và thậm chí là không gian công cộng. Chúng ta dựa vào chúng không chỉ để ghi lại khoảnh khắc mà còn giúp chúng ta hiểu và tương tác với thế giới xung quanh.
Đằng sau hậu trường, thị giác máy tính , một lĩnh vực con của trí tuệ nhân tạo (AI), giúp điều này trở nên khả thi bằng cách cho phép máy móc diễn giải dữ liệu trực quan. Nó cho phép các hệ thống phát hiện vật thể, nhận dạng khuôn mặt và theo dõi chuyển động, đóng vai trò quan trọng trong nhiều công nghệ mà chúng ta sử dụng hàng ngày.
Nhờ những tiến bộ gần đây trong AI, các mô hình thị giác máy tính hiện có thể phân tích và trích xuất dữ liệu và thông tin chi tiết phức tạp hơn. Một ví dụ về điều này là ước tính tư thế , một nhiệm vụ thị giác máy tính tập trung vào việc hiểu chuyển động của con người.
Nó hoạt động bằng cách xác định các điểm chính trên cơ thể, chẳng hạn như vai, khuỷu tay và đầu gối, trong hình ảnh hoặc video. Điều này giúp phân tích cách mọi người di chuyển, cho phép ứng dụng theo dõi thể dục, hoạt hình, chăm sóc sức khỏe, v.v.
Trong số nhiều công cụ được phát triển để ước tính tư thế, OpenPose nổi bật như một bước đột phá lớn. Được tạo ra bởi các nhà nghiên cứu tại Phòng thí nghiệm máy tính nhận thức tại Đại học Carnegie Mellon, đây là một trong những hệ thống nguồn mở đầu tiên có khả năng phát hiện tư thế toàn thân, bao gồm bàn tay, bàn chân và các điểm chính trên khuôn mặt, cho nhiều người trong thời gian thực chỉ bằng một camera (với tối đa 135 điểm chính cho mỗi người).
Trong bài viết này, chúng ta sẽ tìm hiểu OpenPose, cách thức hoạt động và ý nghĩa của nó như một cột mốc quan trọng trong lĩnh vực thị giác máy tính.
Trước khi AI được áp dụng rộng rãi, việc theo dõi chuyển động của con người trong video liên quan đến việc sử dụng thiết bị chuyên dụng. Trong các ngành công nghiệp như phim ảnh và hoạt hình , diễn viên thường mặc bộ đồ có đánh dấu phản quang để máy ảnh có thể ghi lại chuyển động của họ trong môi trường studio được kiểm soát.
Mặc dù các kỹ thuật chụp chuyển động dựa trên điểm đánh dấu này chính xác, nhưng chúng cũng tốn kém và bị giới hạn trong các thiết lập cụ thể. Khi thị giác máy tính phát triển, các nhà nghiên cứu đã tìm cách theo dõi chuyển động cơ thể mà không cần sử dụng điểm đánh dấu. Họ sử dụng các cạnh, đường viền và mẫu để tìm hình dạng con người trong hình ảnh.
Những hệ thống ban đầu này hoạt động trong những trường hợp đơn giản và dễ hiểu nhưng lại gặp khó khăn với các tình huống thực tế. Chúng thường cho kết quả kém khi mọi người di chuyển theo cách không mong muốn hoặc khi có nhiều hơn một người xuất hiện trong một khung hình.
Vào cuối những năm 2010, học sâu đã mang đến một sự thay đổi lớn trong việc ước tính tư thế. Các mô hình AI thị giác có thể được đào tạo trên các tập dữ liệu lớn về tư thế của con người. Thay vì dựa vào các cạnh và mẫu, các mô hình đã học cách nhận dạng các khớp và cấu trúc cơ thể bằng cách nghiên cứu hàng nghìn hình ảnh được gắn nhãn. Điều này làm cho việc ước tính tư thế chính xác hơn, linh hoạt hơn và có tác động hơn trong nhiều bối cảnh hơn.
OpenPose được phát hành lần đầu tiên vào năm 2017 và có khả năng ước tính tư thế của nhiều người cùng lúc trong một hình ảnh duy nhất. Không giống như các hệ thống cũ, OpenPose không yêu cầu bộ đồ hoặc điểm đánh dấu đặc biệt. Nó hoạt động với máy ảnh tiêu chuẩn và có thể xử lý hình ảnh và video theo thời gian thực. Các tính năng này giúp ước tính tư thế dễ tiếp cận hơn với các nhà phát triển và nhà nghiên cứu
Nền tảng mà OpenPose đặt ra cho thị giác máy tính đã giúp những người khác xây dựng các kiến trúc mới hơn cho nhiều ứng dụng khác. Ngày nay, các mô hình AI thị giác như Ultralytics YOLO8 và Ultralytics YOLO11 hỗ trợ các tác vụ ước tính tư thế cung cấp kết quả nhanh hơn và độ trễ thấp hơn.
Tuy nhiên, OpenPose là nơi tuyệt vời để bắt đầu nếu bạn tò mò về cách ước tính tư thế đã phát triển như thế nào. Nó giới thiệu những ý tưởng chính mà nhiều hệ thống mới hơn vẫn dựa vào ngày nay.
Bây giờ chúng ta đã hiểu rõ hơn về tầm quan trọng của OpenPose, hãy cùng xem xét kỹ hơn những gì nó thực sự có thể làm.
Điểm cốt lõi trong khả năng của OpenPose là thứ gọi là phát hiện điểm chính . Điểm chính là các điểm mốc cụ thể trên cơ thể con người, như chóp mũi, giữa vai, khuỷu tay, cổ tay, hông, đầu gối và mắt cá chân. OpenPose có thể phát hiện tới 135 điểm này trên mỗi người, bao gồm các khu vực chi tiết như ngón tay và các đặc điểm trên khuôn mặt.
Khi những điểm này được kết nối, chúng tạo thành một hình ảnh đơn giản hóa của cơ thể con người - bạn có thể nghĩ về nó như một bộ xương kỹ thuật số. Phác thảo bộ xương này không chỉ cho thấy một người đang ở đâu, mà còn cho thấy họ đang tạo dáng như thế nào: họ đang ngồi, đứng, vẫy tay, mỉm cười hay đi bộ. Máy tính có thể diễn giải chuyển động của con người một cách trực quan bằng cách sử dụng những bộ xương này, giống như chúng ta hiểu ngôn ngữ cơ thể của một người theo bản năng.
Theo dõi bộ xương đặc biệt hữu ích vì nó loại bỏ tiếng ồn và sự mất tập trung, cho phép hệ thống tập trung hoàn toàn vào tư thế và chuyển động của con người. Thay vì phân tích từng pixel, OpenPose tập trung vào các điểm có ý nghĩa kể câu chuyện về cách một người di chuyển hoặc tương tác.
Bằng cách trích xuất thông tin có cấu trúc này từ hình ảnh hoặc video hàng ngày, OpenPose giúp xây dựng các ứng dụng phản hồi cử chỉ, theo dõi hoạt động thể chất, đánh giá tín hiệu cảm xúc hoặc thậm chí là tạo hoạt ảnh cho các nhân vật kỹ thuật số.
Sau đây là tổng quan về cách OpenPose phát hiện và kết nối các điểm chính trên cơ thể con người từ dữ liệu hình ảnh đầu vào:
OpenPose là một trong những công cụ tiên tiến đầu tiên giúp ước tính tư thế trở nên thiết thực cho nhiều trường hợp sử dụng trong thế giới thực. Mặc dù hiện nay nó không được sử dụng phổ biến trong các giải pháp thị giác máy tính thời gian thực, nhưng nó đóng vai trò quan trọng trong việc định hình công việc ban đầu trong các lĩnh vực như thể thao, giải trí, giáo dục và an toàn.
Chúng ta hãy cùng xem xét kỹ hơn xem nó đã giúp mở đường như thế nào trong những lĩnh vực này.
Khi bạn xem bóng chày, bạn có thể dễ dàng hiểu được những gì đang diễn ra - bạn có thể nhận ra ngay một cú ném, một cú đánh hoặc một cú đánh cắp gôn. Là con người, chúng ta trực giác đọc được các chuyển động của cơ thể và hiểu được chúng mà không cần nhiều nỗ lực. Nhưng đối với máy móc, việc nhận ra những hành động này phức tạp hơn nhiều. Chúng cần thông tin chính xác về cách từng bộ phận của cơ thể di chuyển trong không gian.
OpenPose là một bước tiến đáng kể trong lĩnh vực thị giác máy tính này. Đây là một công cụ thực tế để phân tích hình thể vận động viên trong nhiều bối cảnh khác nhau.
Nhiều dự án nghiên cứu đã sử dụng OpenPose để phân tích các chuyển động như vung và nhảy, thậm chí phân loại các hành động bóng chày cụ thể dựa trên cách người chơi di chuyển. Vì nó hoạt động trong môi trường mở với video chuẩn, nên nó cho phép các nhà nghiên cứu kiểm tra cách các hệ thống như vậy có thể hoạt động trong các tình huống đào tạo hoặc huấn luyện thực tế.
Những nghiên cứu ban đầu này đã giúp đặt nền tảng cho các công cụ theo dõi hiệu suất hiện đang được sử dụng trong công nghệ thể thao tiên tiến.
Tương tự như vậy, các nhà nghiên cứu cũng sử dụng OpenPose để khám phá cách theo dõi tư thế dựa trên video có thể hỗ trợ giám sát an toàn. Nó đã được thử nghiệm trong việc phát hiện các hành vi như ngã, cử chỉ bất ngờ hoặc các kiểu chuyển động ở nơi công cộng.
Vì nó hoạt động với các camera tiêu chuẩn, OpenPose đã giúp thử nghiệm ban đầu dễ tiếp cận hơn trong các môi trường như bệnh viện và trung tâm giao thông. Các nghiên cứu này đã giúp thúc đẩy sự phát triển của các mô hình mới hơn hiện đang được sử dụng trong các hệ thống giám sát, phát hiện té ngã và ứng phó khẩn cấp.
Sau đây là cái nhìn tổng quan về một số lợi thế mà OpenPose mang lại:
Mặc dù OpenPose là một bước tiến lớn, nhưng nó cũng có những hạn chế về mặt kỹ thuật mà chúng ta cần lưu ý. Sau đây là một số thách thức chính liên quan đến OpenPose:
OpenPose đóng vai trò quan trọng trong việc giúp ước tính tư thế dễ tiếp cận hơn. Nó cho thấy việc theo dõi chuyển động cơ thể có thể được thực hiện bằng một camera đơn giản, mà không cần dựa vào bộ đồ hoặc thiết bị chuyên dụng.
Nó đặt nền tảng cho nhiều ứng dụng thực tế trong lĩnh vực chăm sóc sức khỏe, giáo dục, giải trí và nghiên cứu. Trong khi các mô hình mới hơn hiện cung cấp tốc độ nhanh hơn và hiệu suất nhẹ hơn, OpenPose vẫn là điểm tham chiếu chính để hiểu cách ước tính tư thế đã phát triển như thế nào.
Tham gia cộng đồng của chúng tôi và truy cập kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Nếu bạn đang muốn xây dựng các giải pháp thị giác máy tính của riêng mình, hãy khám phá các tùy chọn cấp phép của chúng tôi. Ngoài ra, hãy xem thị giác máy tính trong chăm sóc sức khỏe và AI trong hậu cần đang tạo ra tác động như thế nào!