Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Khám phá ước tính điểm chính của bàn tay dựa trên AI với sự hỗ trợ của Ultralytics YOLO11 cho ước tính tư thế trong các ứng dụng như nhận dạng cử chỉ theo thời gian thực.
Gần đây, những người phiên dịch ngôn ngữ ký hiệu tại Super Bowl đã thu hút rất nhiều sự chú ý. Khi bạn xem họ hát bài hát của nghệ sĩ yêu thích của bạn trên TV, bạn có thể hiểu họ nếu bạn biết ngôn ngữ ký hiệu vì não của bạn xử lý các chuyển động tay của họ. Nhưng điều gì sẽ xảy ra nếu máy tính có thể làm điều tương tự? Nhờ các giải pháp theo dõi tay dựa trên AI, máy móc có thể theo dõi và giải thích các chuyển động tay với độ chính xác ấn tượng.
Cốt lõi của các giải pháp này là thị giác máy tính, một lĩnh vực con của AI cho phép máy móc xử lý và hiểu thông tin trực quan. Bằng cách phân tích hình ảnh và video, Vision AI giúp chúng phát hiện các đối tượng, theo dõi chuyển động và nhận dạng các cử chỉ phức tạp với độ chính xác đáng kể.
Ví dụ: các mô hình thị giác máy tính như Ultralytics YOLO11 có thể được huấn luyện để phát hiện và phân tích các điểm chính của bàn tay trong thời gian thực bằng cách sử dụng ước tính tư thế. Bằng cách đó, các mô hình này có thể được sử dụng cho các ứng dụng như nhận dạng cử chỉ, dịch ngôn ngữ ký hiệu và tương tác AR/VR.
Trong bài viết này, chúng ta sẽ khám phá cách YOLO11 cho phép theo dõi tay dựa trên AI, các bộ dữ liệu được sử dụng để huấn luyện và cách huấn luyện tùy chỉnh một mô hình để ước tính tư thế tay. Chúng ta cũng sẽ xem xét các ứng dụng thực tế. Hãy cùng bắt đầu!
Tìm hiểu về phát hiện điểm then chốt bàn tay dựa trên AI
AI có thể được sử dụng để nhận dạng và theo dõi các chuyển động của tay trong dữ liệu trực quan bằng cách xác định các điểm chính như cổ tay, đầu ngón tay và khớp ngón tay. Một phương pháp, được gọi là ước tính tư thế, giúp máy tính hiểu được chuyển động của con người bằng cách lập bản đồ các điểm chính và phân tích cách chúng thay đổi theo thời gian. Điều này cho phép các hệ thống AI diễn giải tư thế cơ thể, cử chỉ và kiểu chuyển động với độ chính xác cao.
Các mô hình thị giác máy tính giúp điều này trở nên khả thi bằng cách phân tích hình ảnh hoặc video để xác định các điểm chính trên bàn tay và theo dõi chuyển động của chúng. Sau khi các điểm này được lập bản đồ, AI có thể nhận dạng các cử chỉ bằng cách phân tích các mối quan hệ không gian giữa các điểm chính và cách chúng thay đổi theo thời gian.
Ví dụ: nếu khoảng cách giữa ngón tay cái và ngón trỏ giảm, AI có thể hiểu đó là một chuyển động véo. Tương tự, việc theo dõi cách các điểm chính di chuyển theo trình tự giúp xác định các cử chỉ tay phức tạp và thậm chí dự đoán các chuyển động trong tương lai.
Hình 1. Một ví dụ về nhận dạng các điểm chính trên bàn tay bằng cách sử dụng thị giác máy tính.
Điều thú vị là, ước tính tư thế để theo dõi tay đã mở ra những khả năng thú vị, từ điều khiển rảnh tay các thiết bị thông minh đến cải thiện độ chính xác của robot và hỗ trợ trong các ứng dụng chăm sóc sức khỏe. Khi AI và thị giác máy tính tiếp tục phát triển, theo dõi tay có thể sẽ đóng một vai trò lớn hơn trong việc làm cho công nghệ trở nên tương tác, dễ tiếp cận và trực quan hơn trong cuộc sống hàng ngày.
Khám phá YOLO11 cho ước tính tư thế
Trước khi đi sâu vào cách tạo ra một giải pháp để theo dõi bàn tay dựa trên AI, hãy xem xét kỹ hơn về pose estimation (ước tính tư thế) và cách YOLO11 hỗ trợ tác vụ computer vision này. Không giống như object detection tiêu chuẩn, xác định toàn bộ đối tượng, pose estimation tập trung vào việc phát hiện các điểm mốc chính - chẳng hạn như khớp, chi hoặc cạnh - để phân tích chuyển động và tư thế.
Cụ thể, Ultralytics YOLO11 được thiết kế để ước tính tư thế theo thời gian thực. Bằng cách tận dụng cả phương pháp từ trên xuống và từ dưới lên, nó phát hiện người và ước tính các điểm chính một cách hiệu quả trong một bước, vượt trội hơn các mô hình trước đó về tốc độ và độ chính xác.
Ngay khi xuất xưởng, YOLO11 đã được huấn luyện trước trên tập dữ liệu COCO-Pose và có thể nhận dạng các điểm chính trên cơ thể người, bao gồm đầu, vai, khuỷu tay, cổ tay, hông, đầu gối và mắt cá chân.
Ngoài việc ước tính tư thế người, YOLO11 có thể được huấn luyện tùy chỉnh để phát hiện các điểm chính trên nhiều đối tượng, cả động vật và vật vô tri. Tính linh hoạt này làm cho YOLO11 trở thành một lựa chọn tuyệt vời cho một loạt các ứng dụng.
Tổng quan về bộ dữ liệu Hand Keypoints
Bước đầu tiên trong việc tùy chỉnh huấn luyện một mô hình là thu thập dữ liệu và chú thích nó hoặc tìm một bộ dữ liệu hiện có phù hợp với nhu cầu của dự án. Ví dụ: bộ dữ liệu Điểm chính của bàn tay là một điểm khởi đầu tốt để huấn luyện các mô hình Vision AI để theo dõi tay và ước tính tư thế. Với 26.768 hình ảnh được chú thích, nó loại bỏ nhu cầu gắn nhãn thủ công.
Nó có thể được sử dụng để huấn luyện các mô hình như Ultralytics YOLO11 để nhanh chóng học cách phát hiện và theo dõi chuyển động của bàn tay. Bộ dữ liệu bao gồm 21 điểm chính trên mỗi bàn tay, bao gồm cổ tay, ngón tay và các khớp. Ngoài ra, chú thích của bộ dữ liệu được tạo bằng Google MediaPipe, một công cụ để phát triển các giải pháp hỗ trợ AI để xử lý phương tiện theo thời gian thực, đảm bảo phát hiện điểm chính chính xác và đáng tin cậy.
Hình 3. 21 điểm chính có trong bộ dữ liệu Điểm chính của Bàn tay.
Việc sử dụng một bộ dữ liệu có cấu trúc như thế này giúp tiết kiệm thời gian và cho phép các nhà phát triển tập trung vào việc huấn luyện và tinh chỉnh mô hình của họ thay vì thu thập và dán nhãn dữ liệu. Trên thực tế, bộ dữ liệu đã được chia thành các tập hợp con huấn luyện (18.776 hình ảnh) và xác thực (7.992 hình ảnh), giúp dễ dàng đánh giá hiệu suất của mô hình.
Cách huấn luyện YOLO11 để ước tính dáng tay
Huấn luyện YOLO11 để ước tính tư thế tay là một quy trình đơn giản, đặc biệt với gói Ultralytics Python, giúp việc thiết lập và huấn luyện mô hình trở nên dễ dàng hơn. Vì bộ dữ liệu Hand Keypoints đã được hỗ trợ trong quy trình huấn luyện, nên có thể sử dụng ngay mà không cần định dạng bổ sung, giúp tiết kiệm thời gian và công sức.
Đây là cách quy trình huấn luyện hoạt động:
Thiết lập môi trường: Bước đầu tiên là cài đặt gói Ultralytics Python.
Tải bộ dữ liệu Điểm chính của Bàn tay: YOLO11 hỗ trợ bộ dữ liệu này một cách tự nhiên, vì vậy nó có thể được tải xuống và chuẩn bị tự động.
Sử dụng mô hình được huấn luyện trước: Bạn có thể bắt đầu với một mô hình ước tính tư thế YOLO11 được huấn luyện trước, giúp cải thiện độ chính xác và tăng tốc quá trình huấn luyện.
Huấn luyện mô hình: Mô hình học cách phát hiện và theo dõi các điểm chính trên bàn tay bằng cách trải qua nhiều chu kỳ huấn luyện.
Giám sát hiệu suất: Gói Ultralytics cũng cung cấp các công cụ tích hợp để theo dõi các số liệu chính như độ chính xác và độ mất mát, giúp đảm bảo mô hình được cải thiện theo thời gian.
Lưu và triển khai: Sau khi được đào tạo, mô hình có thể được xuất và sử dụng cho các ứng dụng theo dõi tay theo thời gian thực.
Đánh giá mô hình được huấn luyện tùy chỉnh của bạn
Trong quá trình tạo một mô hình tùy chỉnh, bạn sẽ nhận thấy rằng việc theo dõi hiệu suất là rất cần thiết. Cùng với việc theo dõi tiến trình trong quá trình huấn luyện, việc đánh giá mô hình sau đó là rất quan trọng để đảm bảo nó phát hiện và theo dõi chính xác các điểm chính trên bàn tay.
Các số liệu hiệu suất chính như độ chính xác, giá trị mất mát và độ chính xác trung bình (mAP) giúp đánh giá hiệu suất của mô hình. Gói Ultralytics Python cung cấp các công cụ tích hợp để trực quan hóa kết quả và so sánh các dự đoán với chú thích thực tế, giúp bạn dễ dàng xác định các lĩnh vực cần cải thiện.
Để hiểu rõ hơn về hiệu suất của mô hình, bạn có thể kiểm tra các biểu đồ đánh giá như đường cong mất mát, đồ thị precision-recall và ma trận nhầm lẫn, được tự động tạo trong nhật ký huấn luyện.
Các biểu đồ này giúp xác định các vấn đề như overfitting (khi mô hình ghi nhớ dữ liệu huấn luyện nhưng gặp khó khăn với dữ liệu mới) hoặc underfitting (khi mô hình không học đủ tốt các mẫu để thực hiện chính xác) và hướng dẫn các điều chỉnh để cải thiện độ chính xác. Ngoài ra, việc kiểm tra mô hình trên hình ảnh hoặc video mới là rất quan trọng để xem nó hoạt động tốt như thế nào trong các tình huống thực tế.
Các ứng dụng của giải pháp theo dõi tay dựa trên AI
Giả sử bạn có thể điều chỉnh âm lượng trên TV của mình bằng cách vẫy tay đơn giản hoặc điều hướng hệ thống nhà thông minh bằng một thao tác vuốt đơn giản trong không khí. Nhận dạng cử chỉ theo thời gian thực được hỗ trợ bởi YOLO11 giúp các tương tác không chạm này trở nên khả thi bằng cách phát hiện chính xác các chuyển động của tay trong thời gian thực.
Hệ thống này hoạt động bằng cách sử dụng camera AI để theo dõi các điểm chính trên bàn tay và diễn giải cử chỉ thành lệnh. Camera đo độ sâu, cảm biến hồng ngoại hoặc thậm chí webcam thông thường sẽ ghi lại chuyển động của tay, trong khi YOLO11 có thể xử lý dữ liệu để nhận dạng các cử chỉ khác nhau. Ví dụ: một hệ thống như vậy có thể phân biệt giữa thao tác vuốt để thay đổi bài hát, thao tác chụm để phóng to hoặc chuyển động tròn để điều chỉnh âm lượng.
Phát hiện các điểm đặc trưng trên bàn tay dựa trên AI để nhận dạng ngôn ngữ ký hiệu
Các giải pháp AI để theo dõi cử động tay có thể hỗ trợ giao tiếp liền mạch giữa người khiếm thính và người không biết ngôn ngữ ký hiệu. Ví dụ: các thiết bị thông minh tích hợp camera và YOLO11 có thể được sử dụng để dịch ngay lập tức ngôn ngữ ký hiệu thành văn bản hoặc giọng nói.
Nhờ những tiến bộ như YOLO11, các công cụ dịch ngôn ngữ ký hiệu đang trở nên chính xác và dễ tiếp cận hơn. Điều này tác động đến các ứng dụng như công nghệ hỗ trợ, dịch vụ dịch trực tiếp và nền tảng giáo dục. AI có thể giúp thu hẹp khoảng cách giao tiếp và thúc đẩy tính hòa nhập tại nơi làm việc, trường học và không gian công cộng.
Thị giác máy tính để theo dõi tay: Cải thiện trải nghiệm AR và VR
Bạn đã bao giờ chơi một trò chơi thực tế ảo (VR) mà bạn có thể nắm bắt các vật thể mà không cần dùng đến bộ điều khiển chưa? Công nghệ theo dõi tay được hỗ trợ bởi thị giác máy tính giúp điều này trở nên khả thi bằng cách cho phép người dùng tương tác một cách tự nhiên trong môi trường thực tế tăng cường (AR) và VR.
Hình 4. Theo dõi tay là một phần quan trọng của các ứng dụng AR và VR.
Với tính năng ước tính các điểm chính trên bàn tay bằng các mô hình như Ultralytics YOLO11, AI theo dõi các chuyển động trong thời gian thực, cho phép thực hiện các cử chỉ như véo, nắm và vuốt. Điều này giúp tăng cường trải nghiệm chơi game, đào tạo ảo và cộng tác từ xa, làm cho các tương tác trở nên trực quan hơn. Khi công nghệ theo dõi tay được cải thiện, AR và VR sẽ mang lại cảm giác sống động và chân thực hơn nữa.
Những điều cần nhớ
Ước tính các điểm chính trên bàn tay với Ultralytics YOLO11 đang làm cho các giải pháp theo dõi tay dựa trên AI trở nên dễ tiếp cận và đáng tin cậy hơn. Từ nhận dạng cử chỉ theo thời gian thực đến diễn giải ngôn ngữ ký hiệu và các ứng dụng AR/VR, thị giác máy tính đang mở ra những khả năng mới trong tương tác giữa người và máy tính.
Ngoài ra, các quy trình tùy chỉnh huấn luyện và tinh chỉnh được tối ưu hóa đang giúp các nhà phát triển xây dựng các mô hình hiệu quả cho nhiều mục đích sử dụng thực tế khác nhau. Khi công nghệ thị giác máy tính phát triển, chúng ta có thể kỳ vọng vào nhiều đổi mới hơn nữa trong các lĩnh vực như chăm sóc sức khỏe, robot, trò chơi và bảo mật.