Nâng cao hiệu quả ước tính điểm mấu chốt bàn tay với Ultralytics YOLO11
Khám phá kỹ thuật ước tính điểm mấu chốt bàn tay dựa trên AI với sự hỗ trợ của Ultralytics YOLO11 cho bài toán pose estimation trong các ứng dụng như nhận diện cử chỉ thời gian thực.

Gần đây, các phiên dịch viên ngôn ngữ ký hiệu tại Super Bowl đã thu hút rất nhiều sự chú ý. Khi xem họ diễn giải bài hát của nghệ sĩ yêu thích trên TV, bạn có thể hiểu được nếu biết ngôn ngữ ký hiệu vì não bộ của bạn xử lý các chuyển động tay đó. Nhưng sẽ thế nào nếu máy tính có thể làm điều tương tự? Nhờ các giải pháp theo dõi bàn tay dựa trên AI, máy móc hoàn toàn có thể theo dõi và phiên dịch các chuyển động tay với độ chính xác ấn tượng.
Cốt lõi của các giải pháp này là computer vision, một phân ngành của AI cho phép máy móc xử lý và hiểu thông tin hình ảnh. Bằng cách phân tích hình ảnh và video, vision AI giúp máy tính phát hiện vật thể, theo dõi chuyển động và nhận diện các cử chỉ phức tạp với độ chính xác vượt trội.
Ví dụ, các model computer vision như Ultralytics YOLO11 có thể được huấn luyện để phát hiện và phân tích các điểm mấu chốt trên bàn tay theo thời gian thực thông qua pose estimation. Nhờ đó, các model này có thể được ứng dụng trong nhận diện cử chỉ, dịch ngôn ngữ ký hiệu và tương tác AR/VR.
Trong bài viết này, chúng ta sẽ tìm hiểu cách YOLO11 hỗ trợ theo dõi bàn tay dựa trên AI, các bộ dữ liệu được sử dụng để huấn luyện và cách custom-train một model cho tác vụ pose estimation bàn tay. Chúng ta cũng sẽ xem xét các ứng dụng thực tế. Hãy bắt đầu thôi!
Link to this sectionTìm hiểu về phát hiện điểm mấu chốt bàn tay dựa trên AI#
AI có thể được sử dụng để nhận diện và theo dõi các chuyển động tay trong dữ liệu hình ảnh bằng cách xác định các điểm mấu chốt như cổ tay, đầu ngón tay và các khớp ngón tay. Một phương pháp, được gọi là pose estimation, giúp máy tính hiểu chuyển động của con người bằng cách lập bản đồ các điểm mấu chốt và phân tích cách chúng thay đổi theo thời gian. Điều này cho phép các hệ thống AI hiểu được tư thế cơ thể, cử chỉ và các mô hình chuyển động với độ chính xác cao.
Computer vision models thực hiện điều này bằng cách phân tích hình ảnh hoặc video để xác định các điểm mấu chốt trên bàn tay và theo dõi chuyển động của chúng. Sau khi các điểm này được ánh xạ, AI có thể nhận diện cử chỉ bằng cách phân tích mối quan hệ không gian giữa các điểm mấu chốt và cách chúng thay đổi theo thời gian.
Ví dụ, nếu khoảng cách giữa ngón cái và ngón trỏ giảm xuống, AI có thể hiểu đó là cử chỉ chụm ngón tay. Tương tự, việc theo dõi cách các điểm mấu chốt di chuyển theo chuỗi giúp xác định các cử chỉ tay phức tạp và thậm chí dự đoán các chuyển động trong tương lai.

Fig 1. Một ví dụ về việc nhận diện các điểm mấu chốt trên bàn tay bằng computer vision.
Thú vị là, pose estimation cho việc theo dõi bàn tay đã mở ra những khả năng thú vị, từ điều khiển thiết bị thông minh không cần chạm tay đến cải thiện độ chính xác của robot và hỗ trợ trong các ứng dụng chăm sóc sức khỏe. Khi AI và computer vision tiếp tục phát triển, việc theo dõi bàn tay có khả năng sẽ đóng vai trò lớn hơn trong việc giúp công nghệ trở nên tương tác, dễ tiếp cận và trực quan hơn trong cuộc sống hàng ngày.
Link to this sectionKhám phá YOLO11 cho pose estimation#
Trước khi đi sâu vào cách tạo một giải pháp theo dõi bàn tay dựa trên AI, hãy xem xét kỹ hơn về pose estimation và cách YOLO11 hỗ trợ computer vision task này. Không giống như object detection tiêu chuẩn giúp xác định toàn bộ đối tượng, pose estimation tập trung vào việc phát hiện các cột mốc quan trọng - như khớp, chi hoặc cạnh - để phân tích chuyển động và tư thế.
Cụ thể, Ultralytics YOLO11 được thiết kế cho pose estimation theo thời gian thực. Bằng cách tận dụng cả hai phương pháp top-down và bottom-up, nó phát hiện người và ước tính các điểm mấu chốt một cách hiệu quả trong một bước duy nhất, vượt trội hơn các model trước đó về tốc độ và độ chính xác.
Ngay khi cài đặt, YOLO11 đã được huấn luyện sẵn trên COCO-Pose dataset và có thể nhận diện các điểm mấu chốt trên cơ thể người, bao gồm đầu, vai, khuỷu tay, cổ tay, hông, đầu gối và mắt cá chân.

Fig 2. Sử dụng YOLO11 cho pose estimation con người.
Ngoài pose estimation cho con người, YOLO11 có thể được custom-trained để phát hiện các điểm mấu chốt trên nhiều đối tượng khác nhau, cả vật thể sống và không sống. Sự linh hoạt này giúp YOLO11 trở thành lựa chọn tuyệt vời cho hàng loạt ứng dụng.
Link to this sectionTổng quan về bộ dữ liệu Hand Keypoints#
Bước đầu tiên trong việc custom-training một model là thu thập và chú thích dữ liệu hoặc tìm một bộ dữ liệu hiện có phù hợp với nhu cầu của dự án. Ví dụ, bộ dữ liệu Hand Keypoints là một điểm khởi đầu tốt để huấn luyện các model vision AI phục vụ theo dõi bàn tay và pose estimation. Với 26.768 hình ảnh đã được chú thích, nó giúp loại bỏ nhu cầu dán nhãn thủ công.
Bộ dữ liệu này có thể được dùng để huấn luyện các model như Ultralytics YOLO11 học cách phát hiện và theo dõi các chuyển động tay một cách nhanh chóng. Bộ dữ liệu bao gồm 21 điểm mấu chốt cho mỗi bàn tay, bao gồm cổ tay, các ngón tay và các khớp. Ngoài ra, các chú thích trong bộ dữ liệu được tạo bằng Google MediaPipe, một công cụ phát triển các giải pháp AI cho xử lý phương tiện thời gian thực, đảm bảo việc phát hiện điểm mấu chốt chính xác và đáng tin cậy.

Fig 3. 21 điểm mấu chốt bao gồm trong bộ dữ liệu Hand Keypoints.
Việc sử dụng một bộ dữ liệu có cấu trúc như thế này giúp tiết kiệm thời gian và cho phép các lập trình viên tập trung vào việc huấn luyện và tinh chỉnh model thay vì phải thu thập và dán nhãn dữ liệu. Trên thực tế, bộ dữ liệu này đã được chia sẵn thành các tập huấn luyện (18.776 ảnh) và xác thực (7.992 ảnh), giúp việc đánh giá hiệu suất model trở nên dễ dàng.
Link to this sectionCách huấn luyện YOLO11 cho pose estimation bàn tay#
Huấn luyện YOLO11 cho pose estimation bàn tay là một quy trình đơn giản, đặc biệt là với Ultralytics Python package, giúp cho việc thiết lập và huấn luyện model dễ dàng hơn. Vì bộ dữ liệu Hand Keypoints đã được hỗ trợ trong quy trình huấn luyện, nó có thể được sử dụng ngay lập tức mà không cần định dạng thêm, giúp tiết kiệm thời gian và công sức.
Quy trình huấn luyện diễn ra như sau:
- Thiết lập môi trường: Bước đầu tiên là cài đặt gói Ultralytics Python.
- Tải bộ dữ liệu Hand Keypoints: YOLO11 hỗ trợ bộ dữ liệu này một cách tự nhiên, vì vậy nó có thể được tải xuống và chuẩn bị một cách tự động.
- Sử dụng model tiền huấn luyện: Bạn có thể bắt đầu với một model pose estimation YOLO11 đã được huấn luyện sẵn, giúp cải thiện độ chính xác và tăng tốc quá trình huấn luyện.
- Huấn luyện model: Model sẽ học cách phát hiện và theo dõi các điểm mấu chốt trên bàn tay thông qua nhiều chu kỳ huấn luyện.
- Theo dõi hiệu suất: Gói Ultralytics cũng cung cấp các công cụ tích hợp để theo dõi các chỉ số chính như độ chính xác và mất mát (loss), giúp đảm bảo model được cải thiện theo thời gian.
- Lưu và triển khai: Sau khi huấn luyện, model có thể được exported và sử dụng cho các ứng dụng theo dõi bàn tay thời gian thực.
Link to this sectionĐánh giá model custom-trained của bạn#
Khi thực hiện các bước tạo một custom model, bạn sẽ nhận thấy rằng việc theo dõi hiệu suất là rất cần thiết. Cùng với việc theo dõi tiến trình trong quá trình huấn luyện, việc đánh giá model sau đó là rất quan trọng để đảm bảo nó phát hiện và theo dõi chính xác các điểm mấu chốt trên bàn tay.
Các performance metrics chính như độ chính xác, giá trị loss và mean average precision (mAP) giúp đánh giá hiệu quả hoạt động của model. Gói Ultralytics Python cung cấp các công cụ tích hợp để trực quan hóa kết quả và so sánh các dự đoán với chú thích thực tế, giúp dễ dàng phát hiện các khía cạnh cần cải thiện.
Để hiểu rõ hơn về hiệu suất của model, bạn có thể kiểm tra các biểu đồ đánh giá như đường cong loss, biểu đồ precision-recall và ma trận nhầm lẫn (confusion matrix), vốn được tạo tự động trong log huấn luyện.
Các biểu đồ này giúp xác định các vấn đề như overfitting (khi model ghi nhớ dữ liệu huấn luyện nhưng gặp khó khăn với dữ liệu mới) hoặc underfitting (khi model không học được các mô hình đủ tốt để hoạt động chính xác) và hướng dẫn các điều chỉnh để cải thiện độ chính xác. Ngoài ra, việc kiểm tra model trên hình ảnh hoặc video mới là rất quan trọng để xem nó hoạt động như thế nào trong các tình huống thực tế.
Link to this sectionCác ứng dụng của giải pháp theo dõi bàn tay dựa trên AI#
Tiếp theo, hãy cùng xem qua một số ứng dụng có tác động lớn nhất của hand keypoints estimation with Ultralytics YOLO11.
Link to this sectionNhận diện cử chỉ thời gian thực với YOLO11#
Giả sử bạn có thể điều chỉnh âm lượng trên TV chỉ bằng cách vẫy tay hoặc điều hướng hệ thống nhà thông minh bằng một thao tác vuốt đơn giản trong không trung. Việc nhận diện cử chỉ thời gian thực được hỗ trợ bởi YOLO11 giúp các tương tác không chạm này trở nên khả thi bằng cách phát hiện chính xác các chuyển động tay theo thời gian thực.
Điều này hoạt động bằng cách sử dụng AI cameras để theo dõi các điểm mấu chốt trên tay bạn và diễn giải cử chỉ thành các lệnh. Camera cảm biến độ sâu, cảm biến hồng ngoại, hoặc thậm chí webcam thông thường đều có thể ghi lại các chuyển động tay, trong khi YOLO11 xử lý dữ liệu để nhận diện các cử chỉ khác nhau. Ví dụ, một hệ thống như vậy có thể phân biệt giữa thao tác vuốt để chuyển bài hát, thao tác chụm để phóng to hoặc chuyển động tròn để điều chỉnh âm lượng.
Link to this sectionPhát hiện điểm mấu chốt bàn tay dựa trên AI cho nhận diện ngôn ngữ ký hiệu#
Các giải pháp AI theo dõi bàn tay có thể hỗ trợ giao tiếp liền mạch giữa người khiếm thính và người không biết ngôn ngữ ký hiệu. Ví dụ, các thiết bị thông minh tích hợp camera và YOLO11 có thể được sử dụng để dịch tức thì ngôn ngữ ký hiệu thành văn bản hoặc giọng nói.
Nhờ những tiến bộ như YOLO11, các công cụ dịch ngôn ngữ ký hiệu đang trở nên chính xác và dễ tiếp cận hơn. Điều này tác động đến các ứng dụng như công nghệ hỗ trợ, dịch vụ dịch thuật trực tiếp và các nền tảng giáo dục. AI có thể giúp xóa bỏ rào cản giao tiếp và thúc đẩy sự hòa nhập tại nơi làm việc, trường học và các không gian công cộng.
Link to this sectionComputer vision cho theo dõi bàn tay: Cải thiện trải nghiệm AR và VR#
Bạn đã bao giờ chơi một trò chơi thực tế ảo (VR) mà bạn có thể cầm nắm các vật thể mà không cần bộ điều khiển? Theo dõi bàn tay được hỗ trợ bởi computer vision giúp điều này trở nên khả thi bằng cách cho phép người dùng tương tác một cách tự nhiên trong môi trường augmented reality (AR) và VR.

Fig 4. Theo dõi bàn tay là một phần quan trọng của các ứng dụng AR và VR.
Với việc ước tính các điểm mấu chốt trên bàn tay sử dụng các model như Ultralytics YOLO11, AI theo dõi các chuyển động trong thời gian thực, cho phép thực hiện các cử chỉ như chụm, nắm và vuốt. Điều này nâng cao trải nghiệm chơi game, đào tạo ảo và cộng tác từ xa, giúp các tương tác trở nên trực quan hơn. Khi công nghệ theo dõi bàn tay phát triển, AR và VR sẽ mang lại cảm giác sống động và chân thực hơn nữa.
Link to this sectionCác điểm chính cần lưu ý#
Việc ước tính các điểm mấu chốt trên bàn tay với Ultralytics YOLO11 đang giúp các giải pháp theo dõi bàn tay dựa trên AI trở nên dễ tiếp cận và đáng tin cậy hơn. Từ nhận diện cử chỉ thời gian thực đến phiên dịch ngôn ngữ ký hiệu và các ứng dụng AR/VR, computer vision đang mở ra những khả năng mới trong tương tác giữa người và máy tính.
Ngoài ra, các quy trình custom training và tinh chỉnh được tối ưu hóa đang giúp các lập trình viên xây dựng các model hiệu quả cho nhiều mục đích sử dụng trong thực tế. Khi công nghệ computer vision phát triển, chúng ta có thể mong đợi nhiều sự đổi mới hơn nữa trong các lĩnh vực như chăm sóc sức khỏe, robot, trò chơi và an ninh.
Tham gia cộng đồng của chúng tôi và khám phá những tiến bộ AI trên kho lưu trữ GitHub của chúng tôi. Khám phá tác động của AI trong sản xuất và computer vision trong chăm sóc sức khỏe thông qua các trang giải pháp của chúng tôi. Khám phá các gói cấp phép của chúng tôi và bắt đầu hành trình AI của bạn ngay hôm nay!






