Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Hướng dẫn

OpenPose là gì? Khám phá một cột mốc trong ước tính tư thế

Khám phá cách OpenPose có thể được sử dụng để ước tính tư thế trong các ứng dụng thị giác máy tính. Tìm hiểu về các tính năng của nó và ý nghĩa của nó trong AI thị giác.

ABAbirami Vina
5 min read
Ước tính tư thế đa người dùng OpenPose

Ngày nay, hình ảnh và camera có ở khắp mọi nơi - được tích hợp vào điện thoại, ngôi nhà và ngay cả những không gian công cộng của chúng ta. Chúng ta không chỉ dựa vào chúng để ghi lại những khoảnh khắc mà còn để hiểu và tương tác với thế giới xung quanh.

Đằng sau hậu trường, computer vision, một lĩnh vực con của trí tuệ nhân tạo (AI), giúp điều này trở nên khả thi bằng cách cho phép máy móc diễn giải dữ liệu thị giác. Nó cho phép các hệ thống phát hiện vật thể, nhận diện khuôn mặt và theo dõi chuyển động, đóng vai trò then chốt trong nhiều công nghệ mà chúng ta sử dụng hàng ngày.

Nhờ những tiến bộ gần đây trong AI, các model computer vision hiện có thể phân tích và trích xuất nhiều dữ liệu và thông tin chuyên sâu phức tạp hơn. Một ví dụ về điều này là pose estimation, một tác vụ computer vision tập trung vào việc thấu hiểu chuyển động của con người.

Nó hoạt động bằng cách xác định các điểm quan trọng trên cơ thể, chẳng hạn như vai, khuỷu tay và đầu gối, trong hình ảnh hoặc video. Điều này giúp cho việc phân tích cách con người di chuyển trở nên khả thi, hỗ trợ các ứng dụng trong theo dõi thể dục, hoạt họa, chăm sóc sức khỏe và nhiều lĩnh vực khác.

Trong số rất nhiều công cụ được phát triển cho pose estimation, OpenPose nổi bật như một bước đột phá lớn. Được tạo ra bởi các nhà nghiên cứu tại Perceptual Computing Lab thuộc Đại học Carnegie Mellon, đây là một trong những hệ thống mã nguồn mở đầu tiên có khả năng phát hiện tư thế toàn thân, bao gồm tay, chân và các điểm quan trọng trên khuôn mặt, cho nhiều người trong thời gian thực chỉ bằng một camera (với tối đa 135 điểm quan trọng mỗi người).

Trong bài viết này, chúng ta sẽ khám phá OpenPose, cách nó hoạt động và ý nghĩa của nó như một cột mốc trong computer vision.

Ước tính tư thế nhiều người bằng OpenPose

Fig 1. Ước tính tư thế đa người dùng sử dụng OpenPose.

Link to this sectionNhìn lại lịch sử của pose estimation#

Trước khi AI được áp dụng rộng rãi, việc theo dõi chuyển động của con người trong video đòi hỏi các thiết bị chuyên dụng. Trong các ngành công nghiệp như film and animation, các diễn viên thường mặc những bộ đồ có gắn các điểm đánh dấu phản quang để camera có thể ghi lại chuyển động của họ trong một môi trường studio được kiểm soát.

Mặc dù các kỹ thuật motion capture dựa trên điểm đánh dấu này rất chính xác, nhưng chúng cũng tốn kém và bị giới hạn trong các thiết lập cụ thể. Khi computer vision phát triển, các nhà nghiên cứu đã tìm cách theo dõi chuyển động cơ thể mà không cần dùng đến các điểm đánh dấu. Họ sử dụng các cạnh, đường viền và mẫu để tìm hình dạng con người trong hình ảnh.

Những hệ thống sơ khai này hoạt động tốt trong các trường hợp đơn giản và trực diện nhưng gặp khó khăn với các tình huống thực tế. Chúng thường cho kết quả kém khi mọi người di chuyển theo những cách không ngờ tới hoặc khi có nhiều hơn một người xuất hiện trong khung hình.

Vào cuối những năm 2010, deep learning đã mang lại một bước chuyển mình lớn cho pose estimation. Các model Vision AI có thể được huấn luyện trên các tập dữ liệu lớn về tư thế con người. Thay vì dựa vào các cạnh và mẫu, các model học cách nhận diện các khớp và cấu trúc cơ thể bằng cách nghiên cứu hàng ngàn hình ảnh đã được dán nhãn. Điều này làm cho pose estimation trở nên chính xác, linh hoạt và có tác động mạnh mẽ hơn trong nhiều bối cảnh hơn.

Dòng thời gian của các model ước tính tư thế người từ 2017 đến 2023

Fig 2. Sự tiến hóa của các model ước tính tư thế con người từ năm 2017 đến 2023.

Link to this sectionOpenPose: Nơi pose estimation hiện đại bắt đầu#

OpenPose được phát hành lần đầu vào năm 2017 và có khả năng ước tính tư thế của nhiều người đồng thời trong một hình ảnh duy nhất. Không giống như các hệ thống cũ, OpenPose không yêu cầu bộ đồ hoặc điểm đánh dấu đặc biệt. Nó hoạt động với các camera tiêu chuẩn và có thể xử lý hình ảnh và video trong thời gian thực. Những tính năng này giúp cho pose estimation trở nên dễ tiếp cận hơn đối với các nhà phát triển và nhà nghiên cứu.

Nền tảng mà OpenPose tạo ra cho computer vision đã giúp những người khác xây dựng các kiến trúc mới hơn cho nhiều ứng dụng khác. Ngày nay, các model Vision AI như Ultralytics YOLOv8Ultralytics YOLO11 hỗ trợ các tác vụ pose estimation mang lại kết quả nhanh hơn và độ trễ thấp hơn.

Sử dụng Ultralytics YOLO11 để ước tính tư thế

Fig 3. Sử dụng YOLO11 để ước tính tư thế.

Tuy nhiên, OpenPose là một khởi đầu tuyệt vời nếu bạn tò mò về cách pose estimation đã phát triển. Nó đã giới thiệu các ý tưởng cốt lõi mà nhiều hệ thống mới hơn vẫn dựa vào ngày nay.

Link to this sectionCác khả năng chính của OpenPose#

Bây giờ khi chúng ta đã hiểu rõ hơn về lý do tại sao OpenPose quan trọng, hãy cùng xem xét kỹ hơn những gì nó thực sự có thể làm.

Trọng tâm các khả năng của OpenPose là thứ được gọi là keypoint detection. Các keypoint là những cột mốc cụ thể trên cơ thể con người, như đầu mũi, tâm vai, khuỷu tay, cổ tay, hông, đầu gối và mắt cá chân. OpenPose có thể phát hiện lên đến 135 điểm này trên mỗi người, bao gồm cả các vùng chi tiết như ngón tay và đặc điểm khuôn mặt.

Khi các điểm này được kết nối, chúng tạo thành một biểu diễn đơn giản hóa của cơ thể con người - bạn có thể coi đó như một bộ khung kỹ thuật số. Phác thảo bộ xương này không chỉ cho thấy một người đang ở đâu mà còn cho thấy tư thế của họ: liệu họ đang ngồi, đứng, vẫy tay, mỉm cười hay đang đi bộ. Máy tính có thể diễn giải chuyển động của con người một cách trực quan bằng cách sử dụng các bộ khung này, giống như cách chúng ta hiểu ngôn ngữ cơ thể của ai đó một cách bản năng.

Theo dõi bộ khung đặc biệt hữu ích vì nó loại bỏ nhiễu nền và những thứ gây xao nhãng, cho phép hệ thống tập trung hoàn toàn vào tư thế và chuyển động của con người. Thay vì phân tích từng pixel, OpenPose tập trung vào các điểm có ý nghĩa kể lại câu chuyện về cách một người đang di chuyển hoặc tương tác.

Bằng cách trích xuất thông tin có cấu trúc này từ hình ảnh hoặc video hàng ngày, OpenPose giúp việc xây dựng các ứng dụng phản hồi theo cử chỉ, theo dõi hoạt động thể chất, đánh giá các dấu hiệu cảm xúc hoặc thậm chí làm hoạt họa các nhân vật kỹ thuật số trở nên khả thi.

Link to this sectionOpenPose hoạt động như thế nào?#

Dưới đây là tổng quan về cách OpenPose phát hiện và kết nối các keypoint trên cơ thể con người từ đầu vào thị giác:

  • Bắt đầu với một hình ảnh: OpenPose lấy một hình ảnh duy nhất từ ảnh, video hoặc luồng camera trực tiếp.
  • Xác định các bộ phận cơ thể quan trọng: Hệ thống tìm kiếm các điểm chính trên cơ thể, như mũi, khuỷu tay, cổ tay, đầu gối và mắt cá chân. Chúng được đánh dấu bất cứ nơi nào hệ thống tự tin rằng một bộ phận cơ thể được đặt tại đó.
  • Tính toán các bộ phận nào đi cùng nhau: Tiếp theo, OpenPose kiểm tra cách các keypoint được kết nối. Nó sử dụng các phép tính toán học để quyết định các khớp nào thuộc về cùng một người - ví dụ, khớp cổ tay với khuỷu tay và vai phải.
  • Vẽ một bộ khung cho từng người: Sau khi nhóm các keypoint, OpenPose kết nối chúng thành một "hình người que" hiển thị tư thế của mỗi người. Điều này hoạt động ngay cả khi nhiều người xuất hiện trong cùng một khung hình.
  • Trả về dữ liệu tư thế: Cuối cùng, nó cung cấp các vị trí chính xác của tất cả các keypoint được phát hiện. Chúng có thể được sử dụng để theo dõi chuyển động, nhận diện cử chỉ hoặc xây dựng các công cụ tương tác - tất cả đều trong thời gian thực.

Phát hiện và theo dõi điểm khóa con người bằng OpenPose

Fig 4. Phát hiện và theo dõi keypoint con người bằng OpenPose.

Link to this sectionCác ứng dụng pose estimation trên các ngành công nghiệp sử dụng OpenPose#

OpenPose là một trong những công cụ tiên tiến đầu tiên làm cho pose estimation trở nên thực tế cho nhiều trường hợp sử dụng trong thế giới thực. Mặc dù ngày nay nó không thường được sử dụng trong các computer vision solutions thời gian thực, nó đã đóng một vai trò quan trọng trong việc định hình công việc ban đầu trên các lĩnh vực như thể thao, giải trí, giáo dục và an toàn.

Hãy cùng xem xét kỹ hơn cách nó đã giúp mở đường trong các lĩnh vực này.

Link to this sectionPose estimation với OpenPose cho thể dục và thể thao#

Khi bạn xem bóng chày, thật dễ dàng để hiểu chuyện gì đang xảy ra - bạn có thể nhận ra ngay lập tức một cú ném, một cú vung gậy hoặc một pha đánh cắp căn cứ. Là con người, chúng ta trực giác đọc được các chuyển động cơ thể và hiểu chúng mà không cần tốn nhiều công sức. Nhưng đối với máy móc, việc nhận diện các hành động này phức tạp hơn nhiều. Chúng cần thông tin chính xác về cách mỗi bộ phận của cơ thể di chuyển trong không gian.

OpenPose là một bước tiến đáng kể trong lĩnh vực computer vision này. Nó là một công cụ thực tế để phân tích phong độ thể thao trong nhiều bối cảnh khác nhau.

Nhiều dự án nghiên cứu đã sử dụng OpenPose để phân tích các chuyển động như vung gậy và nhảy, thậm chí phân loại các baseball actions cụ thể dựa trên cách các cầu thủ di chuyển. Vì nó hoạt động trong môi trường mở với video tiêu chuẩn, nó cho phép các nhà nghiên cứu thử nghiệm cách các hệ thống như vậy có thể hoạt động trong các kịch bản đào tạo hoặc huấn luyện thực tế.

Những nghiên cứu ban đầu này đã giúp đặt nền móng cho các công cụ theo dõi hiệu suất hiện đang được sử dụng trong sports technology tiên tiến.

Pipeline phân loại hành động bóng chày sử dụng OpenPose

Fig 5. Một cái nhìn vào quy trình phân loại hành động bóng chày sử dụng OpenPose.

Link to this sectionSử dụng OpenPose trong các hệ thống an ninh và an toàn#

Tương tự, các nhà nghiên cứu cũng đã sử dụng OpenPose để khám phá cách theo dõi tư thế dựa trên video có thể hỗ trợ giám sát an toàn. Nó đã được thử nghiệm trong việc detecting behaviors như té ngã, cử chỉ bất ngờ hoặc các kiểu chuyển động trong không gian công cộng.

Vì nó hoạt động với các camera tiêu chuẩn, OpenPose đã giúp các thử nghiệm ban đầu trở nên dễ tiếp cận hơn trong các môi trường như bệnh viện và các trung tâm giao thông. Những nghiên cứu này đã giúp thúc đẩy sự phát triển của các newer models hiện đang được sử dụng trong hệ thống giám sát, phát hiện té ngã và phản ứng khẩn cấp.

Phát hiện té ngã được hỗ trợ bởi OpenPose

Fig 6. Phát hiện té ngã được hỗ trợ bởi OpenPose.

Link to this sectionƯu điểm và nhược điểm của OpenPose#

Dưới đây là cái nhìn thoáng qua về một số ưu điểm mà OpenPose mang lại:

  • Hữu ích cho nghiên cứu và tạo nguyên mẫu: Nó đã được sử dụng rộng rãi trong nghiên cứu học thuật, đặc biệt là trong các lĩnh vực như tương tác người-máy, cơ sinh học và phân tích hành vi.
  • Hỗ trợ đa nền tảng: Nó có thể chạy trên Windows, Linux và macOS, với sự hỗ trợ cho cả đơn vị xử lý trung tâm (CPUs) và graphics processing units (GPUs).
  • Khả năng xử lý ngoại tuyến: Nó có thể chạy trong các môi trường không có kết nối internet, làm cho nó trở nên lý tưởng cho các cài đặt nhạy cảm về quyền riêng tư như chăm sóc sức khỏe hoặc giáo dục.

Mặc dù OpenPose là một bước tiến lớn, nó cũng có những hạn chế kỹ thuật cần lưu ý. Dưới đây là một số thách thức chính liên quan đến OpenPose:

  • Yêu cầu xử lý cao: Chạy OpenPose trong thời gian thực đòi hỏi một GPU mạnh và tài nguyên tính toán đáng kể.
  • Nhạy cảm với môi trường: Hiệu suất có thể giảm trong điều kiện ánh sáng yếu, không gian đông đúc hoặc khi góc quay camera không lý tưởng.
  • Nặng so với các model mới hơn: So với các model pose estimation mới hơn, OpenPose tương đối lớn và chậm hơn. Nó không phù hợp để triển khai trên các thiết bị giới hạn tài nguyên như điện thoại thông minh, máy tính bảng hoặc hệ thống nhúng.

Link to this sectionCác điểm chính cần lưu ý#

OpenPose đã đóng một vai trò quan trọng trong việc làm cho pose estimation trở nên dễ tiếp cận hơn. Nó cho thấy rằng việc theo dõi các chuyển động cơ thể có thể được thực hiện bằng một camera đơn giản mà không cần dựa vào những bộ đồ hoặc thiết bị chuyên dụng.

Nó đã đặt nền móng cho nhiều ứng dụng thực tế trong lĩnh vực chăm sóc sức khỏe, giáo dục, giải trí và nghiên cứu. Trong khi các model mới hơn hiện cung cấp tốc độ nhanh hơn và hiệu suất nhẹ hơn, OpenPose vẫn là một điểm tham chiếu quan trọng để hiểu cách pose estimation đã phát triển.

Hãy tham gia community của chúng tôi và truy cập GitHub repository để tìm hiểu thêm về AI. Nếu bạn đang tìm cách xây dựng các computer vision solutions của riêng mình, hãy khám phá các licensing options của chúng tôi. Ngoài ra, hãy kiểm tra cách computer vision in healthcareAI in logistics đang tạo ra tác động!

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning