Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Hướng dẫn

Pose estimation là gì và nó có thể được sử dụng ở đâu?

Tìm hiểu cách thức hoạt động của pose estimation, các ứng dụng thực tế của nó và cách các mô hình như Ultralytics YOLO11 giúp máy móc hiểu được chuyển động và tư thế cơ thể.

ABAbirami Vina
5 min read
Pose estimation là gì và có thể được sử dụng ở đâu

Khi bạn nhìn thấy ai đó đang khom lưng hoặc đứng thẳng với vai mở rộng, bạn sẽ nhận ra ngay lập tức liệu họ có tư thế xấu hay tự tin. Không ai cần phải giải thích điều đó với bạn. Đó là vì theo thời gian, chúng ta đã học cách giải mã ngôn ngữ cơ thể một cách tự nhiên.

Thông qua kinh nghiệm và quan sát, bộ não của chúng ta đã trở nên rất giỏi trong việc nhận diện tư thế của nhiều đối tượng khác nhau, bao gồm cả con người. Nhờ những tiến bộ gần đây trong trí tuệ nhân tạo (AI) và thị giác máy tính, một lĩnh vực cho phép máy móc diễn giải thông tin hình ảnh từ thế giới thực, giờ đây máy móc cũng đang bắt đầu học hỏi và tái tạo khả năng này.

Ước lượng tư thế là một tác vụ thị giác máy tính giúp máy móc xác định vị trí và hướng của một người hoặc vật thể bằng cách quan sát hình ảnh hoặc video. Nó thực hiện điều này bằng cách xác định các điểm then chốt trên cơ thể, chẳng hạn như khớp và chi, để hiểu cách một người, hoặc thậm chí một vật gì đó, đang chuyển động.

Công nghệ này đang được sử dụng rộng rãi trong các lĩnh vực như thể hình, chăm sóc sức khỏe và hoạt họa. Ví dụ, trong môi trường làm việc, nó có thể được dùng để giám sát tư thế nhân viên và hỗ trợ các sáng kiến về an toàn và sức khỏe. Các mô hình thị giác máy tính như Ultralytics YOLO11 giúp hiện thực hóa điều này bằng cách ước lượng tư thế người trong thời gian thực.

Sử dụng YOLO11 để theo dõi tư thế của người lao động

Hình 1. Một ví dụ về việc sử dụng YOLO11 để giám sát tư thế của công nhân.

Trong bài viết này, chúng ta sẽ tìm hiểu kỹ hơn về ước lượng tư thế và cách thức hoạt động của nó, cùng với các trường hợp sử dụng thực tế mà nó đang tạo ra sự khác biệt. Hãy cùng bắt đầu nhé!

Link to this sectionSự phát triển của ước lượng tư thế#

Nghiên cứu về ước lượng tư thế bắt đầu từ cuối những năm 1960 và 70. Qua nhiều năm, các phương pháp tiếp cận tác vụ thị giác máy tính này đã chuyển dịch từ toán học và hình học cơ bản sang các phương pháp tiên tiến hơn dựa trên trí tuệ nhân tạo.

Ban đầu, các kỹ thuật phụ thuộc vào góc máy quay cố định và các điểm tham chiếu đã biết. Sau đó, chúng phát triển để bao gồm cả mô hình 3D và đối sánh đặc trưng. Ngày nay, các mô hình deep learning như YOLO11 có thể phát hiện vị trí cơ thể trong thời gian thực từ hình ảnh hoặc video, giúp việc ước lượng tư thế nhanh chóng và chính xác hơn bao giờ hết.

Khi công nghệ cải thiện, các nhà nghiên cứu đã nhận thấy tiềm năng ứng dụng của việc có thể giám sát và theo dõi tư thế của nhiều đối tượng, đặc biệt là con người và động vật. Ước lượng tư thế đặc biệt quan trọng vì nó cho phép các công cụ AI hiểu và đo lường tư thế cũng như chuyển động theo những cách chưa từng có trước đây.

Ví dụ, nó cho phép máy tính nhận diện cử chỉ để tương tác không chạm, phân tích chuyển động của vận động viên để cải thiện hiệu suất, cung cấp sức mạnh cho các hoạt họa thực tế trong trò chơi điện tử, và thậm chí hỗ trợ chăm sóc sức khỏe bằng cách theo dõi quá trình phục hồi của bệnh nhân.

Link to this sectionNó khác biệt như thế nào so với các tác vụ thị giác máy tính khác?#

Ước lượng tư thế khác với các tác vụ thị giác máy tính khác như phát hiện đối tượng và phân đoạn cá thể (instance segmentation). Các tác vụ này tập trung chủ yếu vào việc nhận diện và định vị đối tượng trong một hình ảnh.

Chẳng hạn, phát hiện đối tượng vẽ các bounding box xung quanh các mục như con người, xe cộ hoặc động vật để chỉ ra sự hiện diện và vị trí của chúng. Phân đoạn cá thể tiến thêm một bước bằng cách vạch ra hình dạng chính xác của từng đối tượng ở cấp độ pixel.

Tuy nhiên, cả hai phương pháp này chủ yếu quan tâm đến việc đối tượng đó là gì và nó ở đâu - chúng không cung cấp bất kỳ thông tin nào về cách đối tượng được định vị hoặc những gì nó có thể đang làm. Đó là lúc ước lượng tư thế trở nên quan trọng.

Bằng cách xác định các điểm then chốt trên cơ thể, như khuỷu tay, đầu gối hoặc thậm chí là cái đuôi, ước lượng tư thế có thể diễn giải tư thế và chuyển động. Điều này cho phép hiểu sâu hơn về các hành động, cử chỉ và động lực học cơ thể, bao gồm cả chuyển động trong không gian 3D.

Link to this sectionTìm hiểu cách thức hoạt động của ước lượng tư thế#

Các mô hình ước lượng tư thế thường tuân theo hai phương pháp tiếp cận chính: bottom-up (từ dưới lên) và top-down (từ trên xuống). Trong phương pháp bottom-up, mô hình đầu tiên phát hiện các điểm then chốt riêng lẻ, như khuỷu tay, đầu gối hoặc vai, sau đó nhóm chúng lại để tìm ra người hoặc vật thể nào mà chúng thuộc về. Ngược lại, phương pháp top-down bắt đầu bằng việc phát hiện từng đối tượng trước (ví dụ như một người trong hình ảnh) và sau đó mới xác định vị trí các điểm then chốt cho đối tượng cụ thể đó.

Các phương pháp ước tính tư thế bottom-up so với top-down

Hình 2. Các phương pháp ước lượng tư thế bottom-up so với top-down.

Một số mô hình mới hơn, như YOLO11, kết hợp lợi ích của cả hai phương pháp. Nó giữ được hiệu suất của phương pháp bottom-up bằng cách bỏ qua bước nhóm thủ công, đồng thời tận dụng độ chính xác của các hệ thống top-down bằng cách phát hiện người và ước lượng tư thế của họ cùng một lúc - trong một quy trình hợp nhất và tinh gọn.

Link to this sectionHuấn luyện tùy chỉnh YOLO11 cho ước lượng tư thế#

Khi chúng ta tìm hiểu cách các mô hình ước lượng tư thế hoạt động, bạn có thể tự hỏi: làm thế nào các mô hình này thực sự học được cách ước lượng tư thế của các đối tượng khác nhau? Đó là nơi khái niệm huấn luyện tùy chỉnh xuất hiện.

Huấn luyện tùy chỉnh nghĩa là dạy cho mô hình nhận diện các điểm then chốt cụ thể bằng cách sử dụng dữ liệu của chính bạn. Vì việc xây dựng một mô hình từ đầu đòi hỏi một lượng lớn hình ảnh được gán nhãn và thời gian đáng kể, nhiều người chọn cách transfer learning. Điều này bao gồm việc bắt đầu với một mô hình đã được huấn luyện trên một bộ dữ liệu lớn, chẳng hạn như mô hình ước lượng tư thế YOLO11, vốn được tiền huấn luyện trên bộ dữ liệu COCO-Pose, và sau đó fine-tune nó với dữ liệu của riêng bạn cho một tác vụ hoặc trường hợp sử dụng cụ thể.

Giả sử bạn đang làm việc với các tư thế yoga - bạn có thể fine-tune YOLO11 bằng cách sử dụng các hình ảnh mà ở đó mỗi tư thế được gán nhãn với các điểm then chốt đặc trưng cho hoạt động đó. Để thực hiện điều này, bạn sẽ cần một bộ dữ liệu tùy chỉnh gồm các hình ảnh đã được chú giải để mô hình có thể học hỏi từ đó.

Trong quá trình huấn luyện, bạn có thể điều chỉnh các thiết lập như batch size (số lượng hình ảnh được xử lý cùng một lúc), learning rate (tốc độ mô hình cập nhật việc học), và epochs (số lần mô hình chạy qua bộ dữ liệu) để cải thiện độ chính xác. Điều này giúp việc xây dựng các mô hình ước lượng tư thế phù hợp với nhu cầu cụ thể của bạn trở nên dễ dàng hơn nhiều.

Link to this sectionCác ứng dụng thực tế của ước lượng tư thế#

Giờ đây khi chúng ta đã thảo luận về ước lượng tư thế là gì và cách thức hoạt động của nó, hãy cùng nhìn kỹ hơn vào một số trường hợp sử dụng thực tế của nó.

Link to this sectionSử dụng ước lượng tư thế cho vật lý trị liệu#

Ước lượng tư thế đang dần trở thành một công cụ đáng tin cậy trong ngành chăm sóc sức khỏe, đặc biệt là trong vật lý trị liệu. Sử dụng AI và thị giác máy tính, các hệ thống này có thể theo dõi tư thế và chuyển động trong thời gian thực và đưa ra phản hồi, tương tự như những gì một chuyên gia vật lý trị liệu cung cấp.

Ví dụ, một bệnh nhân đang phục hồi sau phẫu thuật đầu gối có thể sử dụng hệ thống ước lượng tư thế để đảm bảo họ đang thực hiện các bài tập phục hồi chức năng một cách chính xác. Hệ thống có thể phát hiện bất kỳ chuyển động không chính xác nào và đưa ra gợi ý để cải thiện, giúp bệnh nhân đi đúng hướng và tránh chấn thương.

Sử dụng YOLO11 cho vật lý trị liệu

Hình 3. Một ví dụ về việc sử dụng YOLO11 cho vật lý trị liệu.

Ngoài phục hồi chức năng, ước lượng tư thế cũng đang thâm nhập vào các ứng dụng thể hình. Ví dụ, một người tập luyện tại nhà có thể sử dụng ứng dụng để kiểm tra tư thế của mình trong các bài tập. Ứng dụng có thể đưa ra phản hồi theo thời gian thực, như điều chỉnh góc squat hoặc đảm bảo lưng bạn thẳng trong khi tập deadlift. Điều này giúp người dùng cải thiện tư thế và ngăn ngừa chấn thương mà không cần huấn luyện viên.

Link to this sectionChụp chuyển động (motion capture) cho giải trí được hỗ trợ bởi ước lượng tư thế#

Ước lượng tư thế đã thay đổi cách thức hoạt động của chụp chuyển động trong giải trí, làm cho nó đơn giản và dễ tiếp cận hơn. Trong quá khứ, chụp chuyển động yêu cầu gắn các điểm đánh dấu (marker) trên cơ thể người và theo dõi chúng bằng các máy quay đặc biệt, điều này có thể khá rắc rối và đắt đỏ.

Giờ đây, với những tiến bộ trong AI và thị giác máy tính, chúng ta có thể sử dụng các máy quay thông thường và các thuật toán để theo dõi chuyển động cơ thể mà không cần điểm đánh dấu, giúp quá trình này hiệu quả và chính xác hơn, ngay cả trong thời gian thực.

Một ví dụ tuyệt vời về điều này là AR (Thực tế tăng cường) Poser của Disney. Công cụ thú vị này cho phép bạn chụp ảnh bằng điện thoại và có một nhân vật kỹ thuật số bắt chước tư thế của bạn trong thực tế tăng cường. Nó hoạt động bằng cách phân tích tư thế của bạn trong bức ảnh và đối sánh nó với một nhân vật 3D, tạo ra một bức ảnh selfie AR thú vị và cá nhân hóa.

Một nhân vật AR mô phỏng tư thế của một người sử dụng ước tính tư thế

Hình 4. Một nhân vật AR bắt chước tư thế của một người sử dụng ước lượng tư thế.

Link to this sectionNghiên cứu hành vi xã hội dựa trên ước lượng tư thế động vật#

Nghiên cứu hành vi động vật giúp các nhà khoa học hiểu cách động vật giao tiếp, tìm bạn đời, chăm sóc con non và sống theo nhóm. Kiến thức này rất quan trọng để bảo vệ động vật hoang dã và đạt được sự hiểu biết sâu sắc hơn về thế giới tự nhiên.

Ước lượng tư thế đơn giản hóa quá trình này bằng cách theo dõi chuyển động của động vật thông qua tư thế bằng hình ảnh và video, mà không cần gắn cảm biến hay thẻ lên chúng. Các hệ thống này có thể tự động giám sát tư thế của chúng, cung cấp thông tin chi tiết về các hành vi như chải chuốt, chơi đùa hoặc chiến đấu.

Một ví dụ thú vị về điều này là các nhà khoa học sử dụng ước lượng tư thế để nghiên cứu hành vi của loài vượn. Trên thực tế, các nhà nghiên cứu đã biên soạn các bộ dữ liệu như OpenApePose, chứa hơn 71.000 hình ảnh đã được gán nhãn từ sáu loài vượn.

Ước tính tư thế loài vượn

Hình 5. Ước lượng tư thế vượn.

Link to this sectionƯu và nhược điểm của ước lượng tư thế#

Dưới đây là một số lợi ích chính mà ước lượng tư thế có thể mang lại cho các ngành công nghiệp khác nhau:

  • Khả năng mở rộng: Các hệ thống ước lượng tư thế có thể được triển khai trên nhiều loại thiết bị, từ điện thoại thông minh đến các hệ thống máy quay tiên tiến, giúp chúng có khả năng mở rộng cao và dễ tiếp cận cho các trường hợp sử dụng và môi trường khác nhau.
  • Hiệu quả về chi phí: Vì ước lượng tư thế dựa trên các máy quay thông thường và không yêu cầu các cảm biến hoặc thẻ đắt tiền, nó có thể là một giải pháp hiệu quả về chi phí để theo dõi chuyển động trong cả nghiên cứu và các ứng dụng thương mại.
  • Giám sát liên tục: Các hệ thống ước lượng tư thế có thể cung cấp khả năng theo dõi liên tục, theo thời gian thực, cho phép giám sát các thay đổi theo thời gian, cho dù đó là sự tiến bộ của bệnh nhân trong quá trình phục hồi hay theo dõi hành vi động vật trong tự nhiên.

Trong khi những ưu điểm của ước lượng tư thế rất rõ ràng trong nhiều lĩnh vực, cũng có một số thách thức cần xem xét. Dưới đây là một vài hạn chế chính cần lưu ý:

  • Khả năng tổng quát hóa hạn chế: Nhiều mô hình được huấn luyện trên các bộ dữ liệu người không tổng quát hóa tốt cho động vật hoặc các cấu trúc cơ thể không phổ biến nếu không được huấn luyện lại trên các bộ dữ liệu cụ thể.

  • Hạn chế về môi trường: Hiệu suất có thể suy giảm dưới ánh sáng kém, nhòe do chuyển động nhanh hoặc phông nền quá phức tạp.

  • Độ nhạy cao đối với hiện tượng che khuất: Độ chính xác có thể giảm khi các bộ phận cơ thể bị chặn hoặc nằm ngoài khung hình, đặc biệt là trong các cảnh đông người hoặc theo dõi nhiều người.

Link to this sectionCác điểm chính cần lưu ý#

Ước lượng tư thế đã đi một chặng đường dài kể từ những ngày đầu, phát triển từ các hệ thống sử dụng điểm đánh dấu thành các công cụ có tác động lớn nhờ các mô hình deep learning như YOLO11. Cho dù là cải thiện vật lý trị liệu, cung cấp năng lượng cho các trải nghiệm AR tương tác, hay hỗ trợ nghiên cứu động vật hoang dã, ước lượng tư thế đang thay đổi cách máy móc hiểu về chuyển động và tư thế. Khi công nghệ tiếp tục tiến bộ, việc giải quyết các hạn chế của nó sẽ là chìa khóa để mở ra nhiều ứng dụng thực tế hơn và làm cho máy móc hiểu rõ hơn về cách chúng ta và các sinh vật khác di chuyển.

Bạn tò mò về AI? Hãy khám phá kho lưu trữ GitHub của chúng tôi, kết nối với cộng đồng của chúng tôi, và xem qua các tùy chọn cấp phép của chúng tôi để khởi động dự án thị giác máy tính của bạn. Tìm hiểu thêm về các đổi mới như AI trong bán lẻthị giác máy tính trong ngành logistics trên các trang giải pháp của chúng tôi.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning