Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Ước tính tư thế là gì và nó có thể được sử dụng ở đâu?

Tìm hiểu cách ước tính tư thế hoạt động, các ứng dụng thực tế của nó và cách các mô hình như Ultralytics YOLO11 cho phép máy móc diễn giải chuyển động và tư thế của cơ thể.

Khi bạn thấy ai đó gục xuống hoặc đứng thẳng với hai vai ưỡn ra sau, bạn sẽ nhận ra ngay liệu họ có tư thế xấu hay tự tin. Không ai cần phải giải thích điều đó cho bạn. Đó là bởi vì, theo thời gian, chúng ta đã tự nhiên học cách giải thích ngôn ngữ cơ thể. 

Thông qua kinh nghiệm và quan sát, bộ não của chúng ta đã trở nên rất giỏi trong việc nhận biết tư thế của các đối tượng khác nhau, bao gồm cả con người. Nhờ những tiến bộ gần đây trong trí tuệ nhân tạo (AI) và thị giác máy tính, một lĩnh vực cho phép máy móc diễn giải thông tin trực quan từ thế giới, máy móc hiện đang bắt đầu học hỏi và sao chép khả năng này.

Ước tính tư thế là một tác vụ thị giác máy tính giúp máy móc tìm ra vị trí và hướng của một người hoặc đối tượng bằng cách nhìn vào hình ảnh hoặc video. Nó thực hiện điều này bằng cách xác định các điểm chính trên cơ thể, như khớp và chi, để hiểu cách ai đó, hoặc thậm chí một cái gì đó, đang di chuyển. 

Công nghệ này đang được sử dụng rộng rãi trong các lĩnh vực như thể dục, chăm sóc sức khỏe và hoạt hình. Ví dụ, trong môi trường làm việc, nó có thể được sử dụng để theo dõi tư thế của nhân viên và hỗ trợ các sáng kiến về an toàn và sức khỏe. Các mô hình thị giác máy tính như Ultralytics YOLO11 giúp thực hiện điều này bằng cách ước tính tư thế của con người theo thời gian thực.

Hình 1. Một ví dụ về việc sử dụng YOLO11 để theo dõi tư thế của người lao động.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn về ước tính tư thế và cách nó hoạt động, cùng với các trường hợp sử dụng thực tế, nơi nó đang tạo ra sự khác biệt. Hãy bắt đầu!

Sự phát triển của ước tính tư thế

Nghiên cứu về ước tính tư thế bắt đầu từ cuối những năm 1960 và 70. Trong những năm qua, các phương pháp tiếp cận tác vụ thị giác máy tính này đã chuyển từ toán học và hình học cơ bản sang các phương pháp tiên tiến hơn được thúc đẩy bởi trí tuệ nhân tạo.

Ban đầu, các kỹ thuật này phụ thuộc vào góc máy ảnh cố định và các điểm tham chiếu đã biết. Sau đó, chúng phát triển để bao gồm mô hình 3D và khớp đặc điểm. Ngày nay, các mô hình học sâu như YOLO11 Có thể detect vị trí cơ thể theo thời gian thực từ hình ảnh hoặc video, giúp ước tính tư thế nhanh hơn và chính xác hơn bao giờ hết.

Khi công nghệ được cải thiện, các nhà nghiên cứu đã thấy được những ứng dụng tiềm năng của khả năng giám sát và track Tư thế của nhiều vật thể khác nhau, đặc biệt là con người và động vật. Việc ước lượng tư thế đặc biệt quan trọng vì nó cho phép các công cụ AI hiểu và đo lường tư thế và chuyển động theo những cách mà trước đây không thể thực hiện được. 

Ví dụ: nó cho phép máy tính nhận dạng cử chỉ để tương tác rảnh tay, phân tích chuyển động của vận động viên để cải thiện hiệu suất, cung cấp năng lượng cho hoạt ảnh chân thực trong trò chơi điện tử và thậm chí hỗ trợ chăm sóc sức khỏe bằng cách theo dõi tiến trình phục hồi của bệnh nhân.

Nó khác với các tác vụ thị giác máy tính khác như thế nào?

Ước tính tư thế khác với các tác vụ thị giác máy tính khác như phát hiện đối tượng và phân vùng thể hiện (instance segmentation). Các tác vụ này chủ yếu tập trung vào việc xác định và định vị các đối tượng trong một hình ảnh. 

Ví dụ: phát hiện đối tượng vẽ các hộp giới hạn xung quanh các mục như người, xe cộ hoặc động vật để cho biết sự hiện diện và vị trí của chúng. Phân vùng thể hiện tiến thêm một bước bằng cách phác thảo hình dạng chính xác của từng đối tượng ở cấp độ pixel.

Tuy nhiên, cả hai phương pháp này chủ yếu quan tâm đến đối tượng là gì và nó ở đâu - chúng không cung cấp bất kỳ thông tin nào về cách đối tượng được định vị hoặc nó có thể đang làm gì. Đó là nơi ước tính tư thế trở nên quan trọng. 

Bằng cách xác định các điểm chính trên cơ thể, chẳng hạn như khuỷu tay, đầu gối hoặc thậm chí là đuôi, ước tính tư thế có thể diễn giải tư thế và chuyển động. Điều này cho phép hiểu sâu hơn về các hành động, cử chỉ và động lực cơ thể, bao gồm cả chuyển động trong không gian 3D.

Tìm hiểu cách thức hoạt động của ước tính tư thế

Các mô hình ước tính tư thế thường tuân theo hai phương pháp chính: từ dưới lên và từ trên xuống. Trong phương pháp từ dưới lên, mô hình trước tiên phát hiện các điểm chính riêng lẻ, như khuỷu tay, đầu gối hoặc vai, và sau đó nhóm chúng lại để tìm ra chúng thuộc về người hoặc đối tượng nào. Ngược lại, phương pháp từ trên xuống bắt đầu bằng cách phát hiện từng đối tượng trước (chẳng hạn như một người trong hình ảnh) và sau đó xác định vị trí các điểm chính cho đối tượng cụ thể đó.

Hình 2. Các phương pháp ước tính tư thế từ dưới lên so với từ trên xuống.

Một số mô hình mới hơn, chẳng hạn như YOLO11 , kết hợp những lợi ích của cả hai phương pháp. Nó duy trì hiệu quả của phương pháp từ dưới lên bằng cách bỏ qua bước nhóm thủ công, đồng thời tận dụng độ chính xác của các hệ thống từ trên xuống bằng cách phát hiện người và ước tính tư thế của họ cùng một lúc - trong một quy trình đơn giản, hợp lý.

Đào tạo tùy chỉnh YOLO11 để ước tính tư thế

Khi chúng ta xem xét cách các mô hình ước tính tư thế hoạt động, bạn có thể tự hỏi: làm thế nào các mô hình này thực sự học cách ước tính tư thế của các đối tượng khác nhau? Đó là nơi ý tưởng về huấn luyện tùy chỉnh xuất hiện.

Đào tạo tùy chỉnh nghĩa là dạy một mô hình nhận dạng các điểm chính cụ thể bằng dữ liệu của riêng bạn. Vì việc xây dựng mô hình từ đầu đòi hỏi một lượng lớn hình ảnh được gắn nhãn và thời gian đáng kể, nhiều người lựa chọn học chuyển giao. Phương pháp này bao gồm việc bắt đầu với một mô hình đã được đào tạo trên một tập dữ liệu lớn, chẳng hạn như YOLO11 mô hình ước tính tư thế, được đào tạo trước trên tập dữ liệu COCO -Pose , sau đó tinh chỉnh nó bằng dữ liệu của riêng bạn cho một nhiệm vụ hoặc trường hợp sử dụng cụ thể.

Giả sử bạn đang tập các tư thế yoga - bạn có thể tinh chỉnh YOLO11 sử dụng hình ảnh, trong đó mỗi tư thế được gắn nhãn với các điểm chính cụ thể cho hoạt động đó. Để làm được điều này, bạn sẽ cần một tập dữ liệu hình ảnh được chú thích tùy chỉnh mà mô hình có thể học hỏi. 

Trong quá trình huấn luyện, bạn có thể điều chỉnh các cài đặt như kích thước lô (số lượng hình ảnh được xử lý cùng một lúc), tốc độ học (mô hình cập nhật việc học của nó nhanh như thế nào) và số lượng epochs (số lần mô hình duyệt qua tập dữ liệu) để cải thiện độ chính xác. Điều này giúp bạn dễ dàng xây dựng các mô hình ước tính tư thế phù hợp với nhu cầu cụ thể của mình.

Các ứng dụng thực tế của ước tính tư thế

Bây giờ chúng ta đã thảo luận về ước tính tư thế là gì và nó hoạt động như thế nào, hãy xem xét kỹ hơn một số trường hợp sử dụng thực tế của nó.

Sử dụng ước tính tư thế cho vật lý trị liệu 

Việc ước tính tư thế đang dần trở thành một công cụ đáng tin cậy trong ngành chăm sóc sức khỏe, đặc biệt là trong vật lý trị liệu. Sử dụng AI và thị giác máy tính, các hệ thống này có thể track tư thế và chuyển động theo thời gian thực và cung cấp phản hồi, tương tự như những gì một nhà vật lý trị liệu sẽ cung cấp. 

Ví dụ, một bệnh nhân đang hồi phục sau phẫu thuật đầu gối có thể sử dụng hệ thống ước tính tư thế để đảm bảo họ đang thực hiện các bài tập phục hồi chức năng đúng cách. Hệ thống có thể phát hiện bất kỳ chuyển động nào không chính xác và đưa ra các gợi ý cải thiện, giúp bệnh nhân duy trì. track và tránh bị thương.

Hình 3. Một ví dụ về việc sử dụng YOLO11 để vật lý trị liệu.

Ngoài phục hồi chức năng, ước tính tư thế cũng đang được ứng dụng vào các ứng dụng thể dục. Ví dụ, một người tập thể dục tại nhà có thể sử dụng ứng dụng để kiểm tra tư thế của họ trong khi tập luyện. Ứng dụng có thể đưa ra phản hồi theo thời gian thực, chẳng hạn như điều chỉnh góc độ của động tác squat hoặc đảm bảo lưng thẳng khi thực hiện deadlift. Điều này giúp người dùng cải thiện tư thế và ngăn ngừa chấn thương mà không cần huấn luyện viên.

Công nghệ ghi hình chuyển động cho ngành giải trí được hỗ trợ bởi ước tính tư thế

Ước tính tư thế đã thay đổi cách thức hoạt động của công nghệ ghi hình chuyển động trong ngành giải trí, giúp nó trở nên đơn giản và dễ tiếp cận hơn. Trước đây, công nghệ ghi hình chuyển động đòi hỏi phải đặt các điểm đánh dấu trên cơ thể người và theo dõi chúng bằng các camera chuyên dụng, điều này có thể phức tạp và tốn kém. 

Bây giờ, với những tiến bộ trong AI và thị giác máy tính, chúng ta có thể sử dụng máy ảnh và thuật toán thông thường để track chuyển động cơ thể mà không cần điểm đánh dấu, giúp quá trình hiệu quả và chính xác hơn, ngay cả theo thời gian thực.

Một ví dụ tuyệt vời về điều này là AR (Thực tế tăng cường) Poser của Disney. Công cụ thú vị này cho phép bạn chụp ảnh bằng điện thoại và có một nhân vật kỹ thuật số sao chép tư thế của bạn trong thực tế tăng cường. Nó hoạt động bằng cách phân tích tư thế của bạn trong ảnh và khớp nó với một nhân vật 3D, tạo ra một bức ảnh selfie AR thú vị, được cá nhân hóa. 

Hình 4. Một nhân vật AR bắt chước tư thế của một người bằng cách sử dụng ước tính tư thế.

Nghiên cứu hành vi xã hội được thúc đẩy bởi ước tính tư thế động vật

Nghiên cứu hành vi của động vật giúp các nhà khoa học hiểu cách động vật giao tiếp, tìm bạn tình, chăm sóc con cái và sống theo nhóm. Kiến thức này rất quan trọng để bảo vệ động vật hoang dã và hiểu sâu hơn về thế giới tự nhiên.

Ước tính tư thế đơn giản hóa quá trình này bằng cách theo dõi chuyển động và tư thế của động vật bằng cách sử dụng hình ảnh và video, mà không cần gắn cảm biến hoặc thẻ vào động vật. Các hệ thống này có thể tự động theo dõi tư thế của chúng, cung cấp thông tin chi tiết về các hành vi như chải chuốt, vui chơi hoặc đánh nhau. 

Một ví dụ thú vị về điều này là các nhà khoa học sử dụng ước lượng tư thế để nghiên cứu hành vi của loài vượn. Trên thực tế, các nhà nghiên cứu đã biên soạn các bộ dữ liệu như OpenApePose, chứa hơn 71.000 hình ảnh được gắn nhãn từ sáu loài vượn. 

Hình 5. Ước tính tư thế của vượn.

Ưu và nhược điểm của ước tính tư thế

Dưới đây là một số lợi ích chính mà ước tính tư thế (pose estimation) có thể mang lại cho các ngành công nghiệp khác nhau:

  • Khả năng mở rộng: Các hệ thống ước tính tư thế có thể được triển khai trên nhiều loại thiết bị, từ điện thoại thông minh đến các thiết lập camera tiên tiến, làm cho chúng có khả năng mở rộng cao và dễ tiếp cận cho các trường hợp sử dụng và môi trường khác nhau.

  • Tiết kiệm chi phí: Vì ước tính tư thế dựa vào camera thông thường và không yêu cầu các cảm biến hoặc thẻ đắt tiền, nên nó có thể là một giải pháp tiết kiệm chi phí hơn để theo dõi chuyển động trong cả nghiên cứu và các ứng dụng thương mại.

  • Giám sát liên tục: Các hệ thống ước tính tư thế có thể cung cấp khả năng theo dõi liên tục, theo thời gian thực, cho phép theo dõi các thay đổi theo thời gian, cho dù đó là tiến trình của bệnh nhân trong quá trình phục hồi chức năng hay theo dõi hành vi của động vật trong tự nhiên.

Mặc dù những lợi thế của ước tính tư thế là rõ ràng trong nhiều lĩnh vực khác nhau, nhưng cũng có một số thách thức cần xem xét. Dưới đây là một vài hạn chế chính cần lưu ý:

  • Khả năng khái quát hóa hạn chế: Nhiều mô hình được huấn luyện trên bộ dữ liệu về con người không khái quát hóa tốt cho động vật hoặc cấu trúc cơ thể không phổ biến nếu không được huấn luyện lại trên các bộ dữ liệu cụ thể.

  • Hạn chế về môi trường: Hiệu suất có thể giảm khi ánh sáng yếu, bị mờ do chuyển động nhanh hoặc có quá nhiều vật thể gây rối ở hậu cảnh.
  • Độ nhạy cao với sự che khuất: Độ chính xác có thể giảm khi các bộ phận cơ thể bị chặn hoặc nằm ngoài khung hình, đặc biệt là trong các cảnh đông đúc hoặc theo dõi nhiều người.

Những điều cần nhớ

Việc ước tính tư thế đã có một chặng đường dài kể từ những ngày đầu, phát triển từ các hệ thống sử dụng các điểm đánh dấu thành các công cụ có tác động được thúc đẩy bởi các mô hình học sâu như YOLO11 Cho dù đó là cải thiện vật lý trị liệu, hỗ trợ trải nghiệm AR tương tác hay hỗ trợ nghiên cứu động vật hoang dã, ước tính tư thế đang thay đổi cách máy móc hiểu chuyển động và tư thế. Khi công nghệ tiếp tục phát triển, việc giải quyết những hạn chế của nó sẽ là chìa khóa để mở ra nhiều ứng dụng thực tế hơn và giúp máy móc hiểu rõ hơn về cách chúng ta và các sinh vật sống khác di chuyển.

Bạn tò mò về AI? Khám phá kho lưu trữ GitHub của chúng tôi, kết nối với cộng đồng của chúng tôi và xem các tùy chọn cấp phép của chúng tôi để khởi động dự án thị giác máy tính của bạn. Tìm hiểu thêm về những đổi mới như AI trong bán lẻthị giác máy tính trong ngành logistics trên các trang giải pháp của chúng tôi.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí