Tìm hiểu cách ước tính tư thế hoạt động, các ứng dụng thực tế của nó và cách các mô hình như Ultralytics YOLO11 cho phép máy móc diễn giải chuyển động và tư thế của cơ thể.
Tìm hiểu cách ước tính tư thế hoạt động, các ứng dụng thực tế của nó và cách các mô hình như Ultralytics YOLO11 cho phép máy móc diễn giải chuyển động và tư thế của cơ thể.
Khi bạn thấy ai đó gục xuống hoặc đứng thẳng với hai vai ưỡn ra sau, bạn sẽ nhận ra ngay liệu họ có tư thế xấu hay tự tin. Không ai cần phải giải thích điều đó cho bạn. Đó là bởi vì, theo thời gian, chúng ta đã tự nhiên học cách giải thích ngôn ngữ cơ thể.
Thông qua kinh nghiệm và quan sát, bộ não của chúng ta đã trở nên rất giỏi trong việc nhận biết tư thế của các đối tượng khác nhau, bao gồm cả con người. Nhờ những tiến bộ gần đây trong trí tuệ nhân tạo (AI) và thị giác máy tính, một lĩnh vực cho phép máy móc diễn giải thông tin trực quan từ thế giới, máy móc hiện đang bắt đầu học hỏi và sao chép khả năng này.
Ước tính tư thế là một tác vụ thị giác máy tính giúp máy móc tìm ra vị trí và hướng của một người hoặc đối tượng bằng cách nhìn vào hình ảnh hoặc video. Nó thực hiện điều này bằng cách xác định các điểm chính trên cơ thể, như khớp và chi, để hiểu cách ai đó, hoặc thậm chí một cái gì đó, đang di chuyển.
Công nghệ này đang được sử dụng rộng rãi trong các lĩnh vực như thể dục, chăm sóc sức khỏe và hoạt hình. Ví dụ, trong môi trường làm việc, nó có thể được sử dụng để theo dõi tư thế của nhân viên và hỗ trợ các sáng kiến về an toàn và sức khỏe. Các mô hình thị giác máy tính như Ultralytics YOLO11 giúp thực hiện điều này bằng cách ước tính tư thế của con người theo thời gian thực.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn về ước tính tư thế và cách nó hoạt động, cùng với các trường hợp sử dụng thực tế, nơi nó đang tạo ra sự khác biệt. Hãy bắt đầu!
Nghiên cứu về ước tính tư thế bắt đầu từ cuối những năm 1960 và 70. Trong những năm qua, các phương pháp tiếp cận tác vụ thị giác máy tính này đã chuyển từ toán học và hình học cơ bản sang các phương pháp tiên tiến hơn được thúc đẩy bởi trí tuệ nhân tạo.
Ban đầu, các kỹ thuật này phụ thuộc vào góc máy ảnh cố định và các điểm tham chiếu đã biết. Sau đó, chúng phát triển để bao gồm mô hình 3D và khớp đặc điểm. Ngày nay, các mô hình học sâu như YOLO11 Có thể detect vị trí cơ thể theo thời gian thực từ hình ảnh hoặc video, giúp ước tính tư thế nhanh hơn và chính xác hơn bao giờ hết.
Khi công nghệ được cải thiện, các nhà nghiên cứu đã thấy được những ứng dụng tiềm năng của khả năng giám sát và track Tư thế của nhiều vật thể khác nhau, đặc biệt là con người và động vật. Việc ước lượng tư thế đặc biệt quan trọng vì nó cho phép các công cụ AI hiểu và đo lường tư thế và chuyển động theo những cách mà trước đây không thể thực hiện được.
Ví dụ: nó cho phép máy tính nhận dạng cử chỉ để tương tác rảnh tay, phân tích chuyển động của vận động viên để cải thiện hiệu suất, cung cấp năng lượng cho hoạt ảnh chân thực trong trò chơi điện tử và thậm chí hỗ trợ chăm sóc sức khỏe bằng cách theo dõi tiến trình phục hồi của bệnh nhân.
Ước tính tư thế khác với các tác vụ thị giác máy tính khác như phát hiện đối tượng và phân vùng thể hiện (instance segmentation). Các tác vụ này chủ yếu tập trung vào việc xác định và định vị các đối tượng trong một hình ảnh.
Ví dụ: phát hiện đối tượng vẽ các hộp giới hạn xung quanh các mục như người, xe cộ hoặc động vật để cho biết sự hiện diện và vị trí của chúng. Phân vùng thể hiện tiến thêm một bước bằng cách phác thảo hình dạng chính xác của từng đối tượng ở cấp độ pixel.
Tuy nhiên, cả hai phương pháp này chủ yếu quan tâm đến đối tượng là gì và nó ở đâu - chúng không cung cấp bất kỳ thông tin nào về cách đối tượng được định vị hoặc nó có thể đang làm gì. Đó là nơi ước tính tư thế trở nên quan trọng.
Bằng cách xác định các điểm chính trên cơ thể, chẳng hạn như khuỷu tay, đầu gối hoặc thậm chí là đuôi, ước tính tư thế có thể diễn giải tư thế và chuyển động. Điều này cho phép hiểu sâu hơn về các hành động, cử chỉ và động lực cơ thể, bao gồm cả chuyển động trong không gian 3D.
Các mô hình ước tính tư thế thường tuân theo hai phương pháp chính: từ dưới lên và từ trên xuống. Trong phương pháp từ dưới lên, mô hình trước tiên phát hiện các điểm chính riêng lẻ, như khuỷu tay, đầu gối hoặc vai, và sau đó nhóm chúng lại để tìm ra chúng thuộc về người hoặc đối tượng nào. Ngược lại, phương pháp từ trên xuống bắt đầu bằng cách phát hiện từng đối tượng trước (chẳng hạn như một người trong hình ảnh) và sau đó xác định vị trí các điểm chính cho đối tượng cụ thể đó.

Một số mô hình mới hơn, chẳng hạn như YOLO11 , kết hợp những lợi ích của cả hai phương pháp. Nó duy trì hiệu quả của phương pháp từ dưới lên bằng cách bỏ qua bước nhóm thủ công, đồng thời tận dụng độ chính xác của các hệ thống từ trên xuống bằng cách phát hiện người và ước tính tư thế của họ cùng một lúc - trong một quy trình đơn giản, hợp lý.
Khi chúng ta xem xét cách các mô hình ước tính tư thế hoạt động, bạn có thể tự hỏi: làm thế nào các mô hình này thực sự học cách ước tính tư thế của các đối tượng khác nhau? Đó là nơi ý tưởng về huấn luyện tùy chỉnh xuất hiện.
Đào tạo tùy chỉnh nghĩa là dạy một mô hình nhận dạng các điểm chính cụ thể bằng dữ liệu của riêng bạn. Vì việc xây dựng mô hình từ đầu đòi hỏi một lượng lớn hình ảnh được gắn nhãn và thời gian đáng kể, nhiều người lựa chọn học chuyển giao. Phương pháp này bao gồm việc bắt đầu với một mô hình đã được đào tạo trên một tập dữ liệu lớn, chẳng hạn như YOLO11 mô hình ước tính tư thế, được đào tạo trước trên tập dữ liệu COCO -Pose , sau đó tinh chỉnh nó bằng dữ liệu của riêng bạn cho một nhiệm vụ hoặc trường hợp sử dụng cụ thể.
Giả sử bạn đang tập các tư thế yoga - bạn có thể tinh chỉnh YOLO11 sử dụng hình ảnh, trong đó mỗi tư thế được gắn nhãn với các điểm chính cụ thể cho hoạt động đó. Để làm được điều này, bạn sẽ cần một tập dữ liệu hình ảnh được chú thích tùy chỉnh mà mô hình có thể học hỏi.
Trong quá trình huấn luyện, bạn có thể điều chỉnh các cài đặt như kích thước lô (số lượng hình ảnh được xử lý cùng một lúc), tốc độ học (mô hình cập nhật việc học của nó nhanh như thế nào) và số lượng epochs (số lần mô hình duyệt qua tập dữ liệu) để cải thiện độ chính xác. Điều này giúp bạn dễ dàng xây dựng các mô hình ước tính tư thế phù hợp với nhu cầu cụ thể của mình.
Bây giờ chúng ta đã thảo luận về ước tính tư thế là gì và nó hoạt động như thế nào, hãy xem xét kỹ hơn một số trường hợp sử dụng thực tế của nó.
Việc ước tính tư thế đang dần trở thành một công cụ đáng tin cậy trong ngành chăm sóc sức khỏe, đặc biệt là trong vật lý trị liệu. Sử dụng AI và thị giác máy tính, các hệ thống này có thể track tư thế và chuyển động theo thời gian thực và cung cấp phản hồi, tương tự như những gì một nhà vật lý trị liệu sẽ cung cấp.
Ví dụ, một bệnh nhân đang hồi phục sau phẫu thuật đầu gối có thể sử dụng hệ thống ước tính tư thế để đảm bảo họ đang thực hiện các bài tập phục hồi chức năng đúng cách. Hệ thống có thể phát hiện bất kỳ chuyển động nào không chính xác và đưa ra các gợi ý cải thiện, giúp bệnh nhân duy trì. track và tránh bị thương.

Ngoài phục hồi chức năng, ước tính tư thế cũng đang được ứng dụng vào các ứng dụng thể dục. Ví dụ, một người tập thể dục tại nhà có thể sử dụng ứng dụng để kiểm tra tư thế của họ trong khi tập luyện. Ứng dụng có thể đưa ra phản hồi theo thời gian thực, chẳng hạn như điều chỉnh góc độ của động tác squat hoặc đảm bảo lưng thẳng khi thực hiện deadlift. Điều này giúp người dùng cải thiện tư thế và ngăn ngừa chấn thương mà không cần huấn luyện viên.
Ước tính tư thế đã thay đổi cách thức hoạt động của công nghệ ghi hình chuyển động trong ngành giải trí, giúp nó trở nên đơn giản và dễ tiếp cận hơn. Trước đây, công nghệ ghi hình chuyển động đòi hỏi phải đặt các điểm đánh dấu trên cơ thể người và theo dõi chúng bằng các camera chuyên dụng, điều này có thể phức tạp và tốn kém.
Bây giờ, với những tiến bộ trong AI và thị giác máy tính, chúng ta có thể sử dụng máy ảnh và thuật toán thông thường để track chuyển động cơ thể mà không cần điểm đánh dấu, giúp quá trình hiệu quả và chính xác hơn, ngay cả theo thời gian thực.
Một ví dụ tuyệt vời về điều này là AR (Thực tế tăng cường) Poser của Disney. Công cụ thú vị này cho phép bạn chụp ảnh bằng điện thoại và có một nhân vật kỹ thuật số sao chép tư thế của bạn trong thực tế tăng cường. Nó hoạt động bằng cách phân tích tư thế của bạn trong ảnh và khớp nó với một nhân vật 3D, tạo ra một bức ảnh selfie AR thú vị, được cá nhân hóa.

Nghiên cứu hành vi của động vật giúp các nhà khoa học hiểu cách động vật giao tiếp, tìm bạn tình, chăm sóc con cái và sống theo nhóm. Kiến thức này rất quan trọng để bảo vệ động vật hoang dã và hiểu sâu hơn về thế giới tự nhiên.
Ước tính tư thế đơn giản hóa quá trình này bằng cách theo dõi chuyển động và tư thế của động vật bằng cách sử dụng hình ảnh và video, mà không cần gắn cảm biến hoặc thẻ vào động vật. Các hệ thống này có thể tự động theo dõi tư thế của chúng, cung cấp thông tin chi tiết về các hành vi như chải chuốt, vui chơi hoặc đánh nhau.
Một ví dụ thú vị về điều này là các nhà khoa học sử dụng ước lượng tư thế để nghiên cứu hành vi của loài vượn. Trên thực tế, các nhà nghiên cứu đã biên soạn các bộ dữ liệu như OpenApePose, chứa hơn 71.000 hình ảnh được gắn nhãn từ sáu loài vượn.

Dưới đây là một số lợi ích chính mà ước tính tư thế (pose estimation) có thể mang lại cho các ngành công nghiệp khác nhau:
Mặc dù những lợi thế của ước tính tư thế là rõ ràng trong nhiều lĩnh vực khác nhau, nhưng cũng có một số thách thức cần xem xét. Dưới đây là một vài hạn chế chính cần lưu ý:
Việc ước tính tư thế đã có một chặng đường dài kể từ những ngày đầu, phát triển từ các hệ thống sử dụng các điểm đánh dấu thành các công cụ có tác động được thúc đẩy bởi các mô hình học sâu như YOLO11 Cho dù đó là cải thiện vật lý trị liệu, hỗ trợ trải nghiệm AR tương tác hay hỗ trợ nghiên cứu động vật hoang dã, ước tính tư thế đang thay đổi cách máy móc hiểu chuyển động và tư thế. Khi công nghệ tiếp tục phát triển, việc giải quyết những hạn chế của nó sẽ là chìa khóa để mở ra nhiều ứng dụng thực tế hơn và giúp máy móc hiểu rõ hơn về cách chúng ta và các sinh vật sống khác di chuyển.
Bạn tò mò về AI? Khám phá kho lưu trữ GitHub của chúng tôi, kết nối với cộng đồng của chúng tôi và xem các tùy chọn cấp phép của chúng tôi để khởi động dự án thị giác máy tính của bạn. Tìm hiểu thêm về những đổi mới như AI trong bán lẻ và thị giác máy tính trong ngành logistics trên các trang giải pháp của chúng tôi.