OpenPose là gì? Nền tảng của việc ước lượng tư thế

Ngày nay, hình ảnh và máy ảnh có ở khắp mọi nơi - được tích hợp vào điện thoại, nhà cửa và thậm chí cả không gian công cộng của chúng ta. Chúng ta dựa vào chúng không chỉ để ghi lại những khoảnh khắc mà còn để giúp chúng ta hiểu và tương tác với thế giới xung quanh.

Đằng sau hậu trường, thị giác máy tính , một lĩnh vực con của trí tuệ nhân tạo (AI), giúp điều này trở nên khả thi bằng cách cho phép máy móc diễn giải dữ liệu hình ảnh. Nó cho phép các hệ thống detect các đối tượng, nhận dạng khuôn mặt và track chuyển động, đóng vai trò quan trọng trong nhiều công nghệ mà chúng ta sử dụng hàng ngày.

Nhờ những tiến bộ gần đây trong lĩnh vực AI, các mô hình thị giác máy tính hiện có thể phân tích và trích xuất dữ liệu và thông tin chi tiết phức tạp hơn. Một ví dụ về điều này là ước tính tư thế, một nhiệm vụ thị giác máy tính tập trung vào việc hiểu chuyển động của con người.

Nó hoạt động bằng cách xác định các điểm chính trên cơ thể, chẳng hạn như vai, khuỷu tay và đầu gối, trong hình ảnh hoặc video. Điều này giúp phân tích cách mọi người di chuyển, cho phép các ứng dụng theo dõi thể lực, hoạt hình, chăm sóc sức khỏe, v.v.

Trong số nhiều công cụ được phát triển để ước tính tư thế, OpenPose nổi bật như một bước đột phá lớn. Được tạo ra bởi các nhà nghiên cứu tại Phòng thí nghiệm Điện toán Tri giác tại Đại học Carnegie Mellon, đây là một trong những hệ thống mã nguồn mở đầu tiên có khả năng phát hiện tư thế toàn thân, bao gồm bàn tay, bàn chân và các điểm chính trên khuôn mặt, cho nhiều người trong thời gian thực chỉ bằng một máy ảnh (với tối đa 135 điểm chính trên mỗi người).

Trong bài viết này, chúng ta sẽ khám phá OpenPose, cách nó hoạt động và tầm quan trọng của nó như một cột mốc quan trọng trong lĩnh vực thị giác máy tính.

Hình 1. Ước tính tư thế đa người bằng OpenPose.

‍

Một cái nhìn về lịch sử của pose estimation

Trước khi AI được áp dụng rộng rãi, việc theo dõi chuyển động của con người trong video liên quan đến việc sử dụng các thiết bị chuyên dụng. Trong các ngành như điện ảnh và hoạt hình, các diễn viên thường mặc những bộ đồ có gắn các điểm đánh dấu phản chiếu để máy ảnh có thể ghi lại chuyển động của họ trong một môi trường studio được kiểm soát.

Mặc dù các kỹ thuật ghi lại chuyển động dựa trên điểm đánh dấu này rất chính xác, nhưng chúng cũng tốn kém và bị giới hạn trong các thiết lập cụ thể. Khi thị giác máy tính phát triển, các nhà nghiên cứu đã tìm cách track chuyển động cơ thể mà không cần sử dụng dấu hiệu. Họ sử dụng các cạnh, đường viền và khuôn mẫu để tìm hình dạng con người trong hình ảnh.

Các hệ thống ban đầu này hoạt động trong các trường hợp đơn giản và dễ hiểu nhưng lại gặp khó khăn với các tình huống thực tế. Chúng thường cho kết quả kém khi mọi người di chuyển theo những cách không ngờ hoặc khi có nhiều hơn một người xuất hiện trong một khung hình.

Vào cuối những năm 2010, học sâu đã mang lại một sự thay đổi lớn cho việc ước tính tư thế. Các mô hình Vision AI có thể được huấn luyện trên các tập dữ liệu lớn về tư thế người. Thay vì dựa vào các cạnh và mẫu, các mô hình đã học cách nhận dạng các khớp và cấu trúc cơ thể bằng cách nghiên cứu hàng nghìn hình ảnh được gắn nhãn. Điều này làm cho việc ước tính tư thế chính xác hơn, linh hoạt hơn và có tác động lớn hơn trong một loạt các cài đặt.

Hình 2. Sự phát triển của các mô hình ước tính tư thế người từ năm 2017 đến năm 2023.

‍

OpenPose: Nơi ước tính tư thế hiện đại bắt đầu

OpenPose được phát hành lần đầu vào năm 2017 và có khả năng ước tính tư thế của nhiều người đồng thời trong một hình ảnh duy nhất. Không giống như các hệ thống cũ hơn, OpenPose không yêu cầu bộ đồ hoặc điểm đánh dấu đặc biệt. Nó hoạt động với các camera tiêu chuẩn và có thể xử lý hình ảnh và video trong thời gian thực. Các tính năng này giúp các nhà phát triển và nhà nghiên cứu dễ dàng tiếp cận hơn với việc ước tính tư thế.

Nền tảng mà OpenPose đặt ra cho thị giác máy tính đã giúp nhiều người khác xây dựng các kiến trúc mới hơn cho nhiều ứng dụng khác. Ngày nay, các mô hình AI thị giác như Ultralytics YOLO8 và Ultralytics YOLO11 hỗ trợ các tác vụ ước tính tư thế mang lại kết quả nhanh hơn và độ trễ thấp hơn.

Hình 3. Sử dụng YOLO11 để ước tính tư thế.

‍

Tuy nhiên, OpenPose là một nơi tuyệt vời để bắt đầu nếu bạn tò mò về cách ước tính tư thế đã phát triển. Nó giới thiệu những ý tưởng chính mà nhiều hệ thống mới hơn vẫn dựa vào cho đến ngày nay.

Các khả năng chính của OpenPose

Bây giờ chúng ta đã hiểu rõ hơn về tầm quan trọng của OpenPose, hãy xem xét kỹ hơn những gì nó thực sự có thể làm.

Cốt lõi trong khả năng của OpenPose là phát hiện điểm chính . Điểm chính là các điểm mốc cụ thể trên cơ thể con người, chẳng hạn như chóp mũi, giữa vai, khuỷu tay, cổ tay, hông, đầu gối và mắt cá chân. OpenPose có thể detect lên đến 135 điểm cho mỗi người, bao gồm các khu vực chi tiết như ngón tay và đặc điểm khuôn mặt.

Khi các điểm này được kết nối, chúng tạo thành một biểu diễn đơn giản của cơ thể người - bạn có thể coi nó như một bộ xương kỹ thuật số. Đường viền bộ xương này không chỉ cho biết vị trí của một người mà còn cho biết tư thế của họ: cho dù họ đang ngồi, đứng, vẫy tay, mỉm cười hay đi bộ. Máy tính có thể giải thích chuyển động của con người một cách trực quan bằng cách sử dụng các bộ xương này, giống như chúng ta theo bản năng hiểu ngôn ngữ cơ thể của ai đó.

Theo dõi xương đặc biệt hữu ích vì nó loại bỏ tiếng ồn và sự xao nhãng từ nền, cho phép hệ thống tập trung hoàn toàn vào tư thế và chuyển động của con người. Thay vì phân tích mọi pixel, OpenPose tập trung vào các điểm có ý nghĩa kể câu chuyện về cách một người đang di chuyển hoặc tương tác.

Bằng cách trích xuất thông tin có cấu trúc này từ hình ảnh hoặc video hàng ngày, OpenPose giúp bạn có thể xây dựng các ứng dụng phản hồi cử chỉ, theo dõi hoạt động thể chất, đánh giá tín hiệu cảm xúc hoặc thậm chí tạo hoạt ảnh cho các nhân vật kỹ thuật số.

OpenPose hoạt động như thế nào?

Đây là tổng quan về cách OpenPose phát hiện và kết nối các điểm chính trên cơ thể người từ đầu vào hình ảnh:

Bắt đầu với một hình ảnh: OpenPose lấy một hình ảnh duy nhất từ ảnh, video hoặc nguồn cấp camera trực tiếp.
‍
Xác định các bộ phận quan trọng của cơ thể: Hệ thống tìm kiếm các điểm chính trên cơ thể, như mũi, khuỷu tay, cổ tay, đầu gối và mắt cá chân. Chúng được đánh dấu ở bất kỳ vị trí nào hệ thống tin rằng có bộ phận cơ thể.
‍
Tìm ra những phần nào đi với nhau: Tiếp theo, OpenPose kiểm tra cách các điểm chính được kết nối. Nó sử dụng các phép tính toán học để quyết định khớp nào thuộc về cùng một người - ví dụ: khớp cổ tay với khuỷu tay và vai phải.
‍
Draws a skeleton for each person (Vẽ khung xương cho mỗi người): Sau khi nhóm các điểm chính, OpenPose kết nối chúng thành một "hình người que" hiển thị tư thế của mỗi người. Điều này hoạt động ngay cả khi nhiều người xuất hiện trong cùng một khung hình.
‍
Trả về dữ liệu tư thế: Cuối cùng, nó cung cấp vị trí chính xác của tất cả các điểm chính được phát hiện. Chúng có thể được sử dụng để theo dõi chuyển động, nhận dạng cử chỉ hoặc xây dựng các công cụ tương tác - tất cả đều trong thời gian thực.

Hình 4. Phát hiện và theo dõi các điểm chính của người bằng OpenPose.

‍

Các ứng dụng ước tính dáng điệu (Pose estimation) trong các ngành công nghiệp sử dụng OpenPose

OpenPose là một trong những công cụ tiên tiến đầu tiên giúp việc ước tính tư thế trở nên thiết thực cho nhiều trường hợp sử dụng thực tế. Mặc dù nó không được sử dụng phổ biến trong các giải pháp thị giác máy tính thời gian thực ngày nay, nhưng nó đóng một vai trò quan trọng trong việc định hình các công trình ban đầu trong các lĩnh vực như thể thao, giải trí, giáo dục và an toàn.

Hãy cùng xem xét kỹ hơn cách nó giúp mở đường trong các lĩnh vực này.

Ước tính dáng điệu (Pose estimation) với OpenPose cho thể dục và thể thao

Khi bạn xem bóng chày, thật dễ dàng để hiểu những gì đang xảy ra - bạn có thể nhận ra ngay lập tức một cú ném, một cú đánh hoặc một pha trộm bóng. Là con người, chúng ta trực giác đọc được các chuyển động của cơ thể và hiểu chúng mà không cần nhiều nỗ lực. Nhưng đối với máy móc, việc nhận ra những hành động này phức tạp hơn nhiều. Chúng cần thông tin chính xác về cách mỗi bộ phận của cơ thể di chuyển trong không gian.

OpenPose là một bước tiến đáng kể trong lĩnh vực thị giác máy tính này. Nó là một công cụ thiết thực để phân tích hình thức thể thao trong nhiều bối cảnh khác nhau.

Nhiều dự án nghiên cứu đã sử dụng OpenPose để phân tích các chuyển động như vung và nhảy, thậm chí phân loại các hành động bóng chày cụ thể dựa trên cách người chơi di chuyển. Vì nó hoạt động trong môi trường mở với video tiêu chuẩn, nên nó cho phép các nhà nghiên cứu kiểm tra cách các hệ thống như vậy có thể hoạt động trong các tình huống huấn luyện hoặc huấn luyện thực tế.

Những nghiên cứu ban đầu này đã giúp đặt nền móng cho các công cụ theo dõi hiệu suất hiện đang được sử dụng trong công nghệ thể thao tiên tiến.

Hình 5. Cái nhìn về quy trình phân loại hành động bóng chày bằng OpenPose.

‍

Sử dụng OpenPose trong các hệ thống an ninh và an toàn

Tương tự, các nhà nghiên cứu cũng đã sử dụng OpenPose để khám phá cách theo dõi dáng điệu dựa trên video có thể hỗ trợ giám sát an toàn. Nó đã được thử nghiệm trong việc phát hiện các hành vi như ngã, cử chỉ bất ngờ hoặc kiểu di chuyển ở những khu vực công cộng.

Vì nó hoạt động với các máy ảnh tiêu chuẩn, OpenPose giúp việc thử nghiệm ban đầu trở nên dễ dàng hơn trong các môi trường như bệnh viện và trung tâm giao thông. Các nghiên cứu này đã giúp thúc đẩy sự phát triển của các mô hình mới hơn hiện đang được sử dụng trong hệ thống giám sát, phát hiện ngã và ứng phó khẩn cấp.

‍

Ưu và nhược điểm của OpenPose

Dưới đây là một số ưu điểm mà OpenPose mang lại:

Hữu ích cho nghiên cứu và tạo mẫu: Nó đã được sử dụng rộng rãi trong nghiên cứu học thuật, đặc biệt là trong các lĩnh vực như tương tác giữa người và máy tính, cơ sinh học và phân tích hành vi.
‍
Hỗ trợ đa nền tảng: Nó có thể chạy trên Windows, Linux và macOS, với hỗ trợ cho cả bộ xử lý trung tâm (CPU) và bộ xử lý đồ họa (GPU).
‍
Khả năng xử lý ngoại tuyến: Nó có thể chạy trong môi trường không có truy cập internet, làm cho nó lý tưởng cho các cài đặt nhạy cảm về quyền riêng tư như chăm sóc sức khỏe hoặc giáo dục.

Mặc dù OpenPose là một bước tiến lớn, nhưng nó cũng có những hạn chế kỹ thuật quan trọng cần lưu ý. Dưới đây là một số thách thức chính liên quan đến OpenPose:

Yêu cầu xử lý cao: Chạy OpenPose theo thời gian thực đòi hỏi một GPU và các nguồn tài nguyên tính toán đáng kể.
‍
Dễ bị ảnh hưởng bởi môi trường: Hiệu suất có thể giảm trong điều kiện ánh sáng yếu, không gian đông đúc hoặc khi góc camera không lý tưởng.
‍
Nặng hơn so với các mô hình mới hơn: So với các mô hình ước tính tư thế mới hơn, OpenPose tương đối lớn và chậm hơn. Nó không phù hợp để triển khai trên các thiết bị hạn chế về tài nguyên như điện thoại thông minh, máy tính bảng hoặc hệ thống nhúng.

Những điều cần nhớ

OpenPose đóng một vai trò quan trọng trong việc giúp việc ước tính tư thế dễ tiếp cận hơn. Nó cho thấy rằng việc theo dõi chuyển động cơ thể có thể được thực hiện bằng một camera đơn giản, mà không cần dựa vào bộ đồ hoặc thiết bị chuyên dụng.

Nó đặt nền móng cho nhiều ứng dụng thực tế trong lĩnh vực chăm sóc sức khỏe, giáo dục, giải trí và nghiên cứu. Mặc dù các mô hình mới hơn hiện nay cung cấp tốc độ nhanh hơn và hiệu suất nhẹ hơn, OpenPose vẫn là một điểm tham chiếu quan trọng để hiểu cách ước tính tư thế đã phát triển.

Tham gia cộng đồng của chúng tôi và truy cập kho lưu trữ GitHub để tìm hiểu thêm về AI. Nếu bạn đang muốn xây dựng các giải pháp thị giác máy tính của riêng mình, hãy khám phá các tùy chọn cấp phép của chúng tôi. Ngoài ra, hãy xem thị giác máy tính trong lĩnh vực chăm sóc sức khỏe và AI trong lĩnh vực logistics đang tạo ra tác động như thế nào!

OpenPose là gì? Khám phá một cột mốc quan trọng trong ước tính tư thế

Một cái nhìn về lịch sử của pose estimation

OpenPose: Nơi ước tính tư thế hiện đại bắt đầu

Các khả năng chính của OpenPose

OpenPose hoạt động như thế nào?

Các ứng dụng ước tính dáng điệu (Pose estimation) trong các ngành công nghiệp sử dụng OpenPose

Ước tính dáng điệu (Pose estimation) với OpenPose cho thể dục và thể thao

Sử dụng OpenPose trong các hệ thống an ninh và an toàn

Ưu và nhược điểm của OpenPose

Những điều cần nhớ

Đọc thêm trong danh mục này

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Xử lý ảnh là gì? Giới thiệu ngắn gọn

Đối sánh mẫu là gì? Hướng dẫn nhanh

Hãy cùng nhau xây dựng tương lai
của AI!

OpenPose là gì? Khám phá một cột mốc quan trọng trong ước tính tư thế

Một cái nhìn về lịch sử của pose estimation

OpenPose: Nơi ước tính tư thế hiện đại bắt đầu

Các khả năng chính của OpenPose

OpenPose hoạt động như thế nào?

Các ứng dụng ước tính dáng điệu (Pose estimation) trong các ngành công nghiệp sử dụng OpenPose

Ước tính dáng điệu (Pose estimation) với OpenPose cho thể dục và thể thao

Sử dụng OpenPose trong các hệ thống an ninh và an toàn

Ưu và nhược điểm của OpenPose

Những điều cần nhớ

Đọc thêm trong danh mục này

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Xử lý ảnh là gì? Giới thiệu ngắn gọn

Đối sánh mẫu là gì? Hướng dẫn nhanh

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!