Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Nâng cao ước tính điểm chính của bàn tay với Ultralytics YOLO11

Abirami Vina

6 phút đọc

5 tháng 3, 2025

Khám phá ước tính điểm chính của bàn tay do AI điều khiển với Ultralytics YOLO11 hỗ trợ ước tính tư thế trong các ứng dụng như nhận dạng cử chỉ thời gian thực.

Gần đây, các phiên dịch viên ngôn ngữ ký hiệu tại Super Bowl đã thu hút rất nhiều sự chú ý. Khi bạn xem họ hát bài hát của nghệ sĩ yêu thích trên TV, bạn có thể hiểu họ nếu bạn biết ngôn ngữ ký hiệu bởi vì não bạn xử lý các chuyển động tay của họ. Nhưng nếu máy tính cũng có thể làm được điều tương tự thì sao? Nhờ các giải pháp theo dõi cử chỉ tay do AI điều khiển, máy móc có thể track và diễn giải các chuyển động của tay với độ chính xác ấn tượng.

Cốt lõi của các giải pháp này là thị giác máy tính , một lĩnh vực của AI cho phép máy móc xử lý và hiểu thông tin trực quan. Bằng cách phân tích hình ảnh và video, Vision AI giúp chúng detect các vật thể, track các chuyển động và nhận dạng các cử chỉ phức tạp với độ chính xác đáng kinh ngạc.

Ví dụ, các mô hình thị giác máy tính như Ultralytics YOLO11 có thể được đào tạo để detect và phân tích các điểm chính của bàn tay theo thời gian thực bằng cách ước tính tư thế. Nhờ đó, các mô hình này có thể được sử dụng cho các ứng dụng như nhận dạng cử chỉ, dịch ngôn ngữ ký hiệu và tương tác AR/VR. 

Trong bài viết này, chúng ta sẽ khám phá cách YOLO11 cho phép theo dõi bàn tay dựa trên AI, các tập dữ liệu được sử dụng để đào tạo và cách đào tạo tùy chỉnh một mô hình để ước tính tư thế bàn tay. Chúng ta cũng sẽ xem xét các ứng dụng thực tế. Hãy bắt đầu thôi!

Tìm hiểu về phát hiện điểm then chốt bàn tay dựa trên AI

AI có thể được sử dụng để nhận dạng và track Chuyển động tay trong dữ liệu trực quan bằng cách xác định các điểm chính như cổ tay, đầu ngón tay và khớp ngón tay. Một phương pháp, được gọi là ước tính tư thế , giúp máy tính hiểu chuyển động của con người bằng cách lập bản đồ các điểm chính và phân tích sự thay đổi của chúng theo thời gian. Điều này cho phép các hệ thống AI diễn giải tư thế cơ thể, cử chỉ và các kiểu chuyển động với độ chính xác cao.

Các mô hình thị giác máy tính giúp điều này trở nên khả thi bằng cách phân tích hình ảnh hoặc video để xác định các điểm chính trên bàn tay và track chuyển động của chúng. Khi những điểm này được lập bản đồ, AI có thể nhận dạng cử chỉ bằng cách phân tích mối quan hệ không gian giữa các điểm chính và cách chúng thay đổi theo thời gian. 

Ví dụ: nếu khoảng cách giữa ngón tay cái và ngón trỏ giảm, AI có thể hiểu đó là một chuyển động véo. Tương tự, việc theo dõi cách các điểm chính di chuyển theo trình tự giúp xác định các cử chỉ tay phức tạp và thậm chí dự đoán các chuyển động trong tương lai.

__wf_reserved_inherit
Hình 1. Một ví dụ về nhận dạng các điểm chính trên bàn tay bằng cách sử dụng thị giác máy tính.

Điều thú vị là, ước tính tư thế để theo dõi tay đã mở ra những khả năng thú vị, từ điều khiển rảnh tay các thiết bị thông minh đến cải thiện độ chính xác của robot và hỗ trợ trong các ứng dụng chăm sóc sức khỏe. Khi AI và thị giác máy tính tiếp tục phát triển, theo dõi tay có thể sẽ đóng một vai trò lớn hơn trong việc làm cho công nghệ trở nên tương tác, dễ tiếp cận và trực quan hơn trong cuộc sống hàng ngày.

Khám phá YOLO11 để ước tính tư thế

Trước khi đi sâu vào cách tạo ra giải pháp theo dõi bàn tay dựa trên AI, chúng ta hãy xem xét kỹ hơn về ước tính tư thế và cách YOLO11 hỗ trợ tác vụ thị giác máy tính này. Không giống như phát hiện vật thể tiêu chuẩn, vốn xác định toàn bộ vật thể, ước tính tư thế tập trung vào việc phát hiện các điểm mốc quan trọng - chẳng hạn như khớp, chân tay hoặc cạnh - để phân tích chuyển động và tư thế. 

Cụ thể, Ultralytics YOLO11 được thiết kế để ước tính tư thế theo thời gian thực. Bằng cách tận dụng cả phương pháp từ trên xuống và từ dưới lên, nó phát hiện người và ước tính các điểm chính một cách hiệu quả chỉ trong một bước, vượt trội hơn các mô hình trước đây về tốc độ và độ chính xác.

Ra khỏi hộp, YOLO11 được đào tạo trước trên tập dữ liệu COCO -Pose và có thể nhận dạng các điểm chính trên cơ thể con người, bao gồm đầu, vai, khuỷu tay, cổ tay, hông, đầu gối và mắt cá chân. 

__wf_reserved_inherit
Hình 2. Sử dụng YOLO11 để ước tính tư thế của con người.

Ngoài ước tính tư thế của con người, YOLO11 có thể được đào tạo tùy chỉnh để detect các điểm chính trên nhiều đối tượng khác nhau, cả hữu hình và vô hình. Tính linh hoạt này làm cho YOLO11 một lựa chọn tuyệt vời cho nhiều ứng dụng khác nhau.

Tổng quan về bộ dữ liệu Hand Keypoints

Bước đầu tiên trong việc tùy chỉnh huấn luyện một mô hình là thu thập dữ liệu và chú thích nó hoặc tìm một bộ dữ liệu hiện có phù hợp với nhu cầu của dự án. Ví dụ: bộ dữ liệu Điểm chính của bàn tay là một điểm khởi đầu tốt để huấn luyện các mô hình Vision AI để theo dõi tay và ước tính tư thế. Với 26.768 hình ảnh được chú thích, nó loại bỏ nhu cầu gắn nhãn thủ công. 

Nó có thể được sử dụng để đào tạo các mô hình như Ultralytics YOLO11 để nhanh chóng học cách detect Và track chuyển động của bàn tay. Bộ dữ liệu bao gồm 21 điểm chính trên mỗi bàn tay, bao gồm cổ tay, ngón tay và khớp. Ngoài ra, các chú thích của bộ dữ liệu được tạo bằng Google MediaPipe, một công cụ phát triển các giải pháp hỗ trợ AI để xử lý phương tiện theo thời gian thực, đảm bảo phát hiện điểm chính xác và đáng tin cậy. 

__wf_reserved_inherit
Hình 3. 21 điểm chính có trong bộ dữ liệu Điểm chính của Bàn tay.

Việc sử dụng một bộ dữ liệu có cấu trúc như thế này giúp tiết kiệm thời gian và cho phép các nhà phát triển tập trung vào việc huấn luyện và tinh chỉnh mô hình của họ thay vì thu thập và dán nhãn dữ liệu. Trên thực tế, bộ dữ liệu đã được chia thành các tập hợp con huấn luyện (18.776 hình ảnh) và xác thực (7.992 hình ảnh), giúp dễ dàng đánh giá hiệu suất của mô hình. 

Cách đào tạo YOLO11 để ước tính tư thế bàn tay

Đào tạo YOLO11 Việc ước lượng tư thế bàn tay là một quá trình đơn giản, đặc biệt là với gói Ultralytics Python , giúp việc thiết lập và huấn luyện mô hình dễ dàng hơn. Vì bộ dữ liệu Hand Keypoints đã được hỗ trợ trong quy trình huấn luyện, nên có thể sử dụng ngay mà không cần định dạng bổ sung, giúp tiết kiệm thời gian và công sức.

Đây là cách quy trình huấn luyện hoạt động:

  • Thiết lập môi trường : Bước đầu tiên là cài đặt Ultralytics Python bưu kiện.
  • Tải tập dữ liệu Hand Keypoints : YOLO11 hỗ trợ bộ dữ liệu này một cách tự nhiên, do đó có thể tải xuống và chuẩn bị tự động.
  • Sử dụng mô hình được đào tạo trước: Bạn có thể bắt đầu với một mô hình được đào tạo trước YOLO11 mô hình ước tính tư thế, giúp cải thiện độ chính xác và tăng tốc quá trình đào tạo.
  • Huấn luyện mô hình: Mô hình học cách detect Và track các điểm chính bằng tay bằng cách trải qua nhiều chu kỳ đào tạo.
  • Giám sát hiệu suất: Ultralytics gói cũng cung cấp các công cụ tích hợp để track các số liệu quan trọng như độ chính xác và tổn thất, giúp đảm bảo mô hình được cải thiện theo thời gian.
  • Lưu và triển khai: Sau khi được đào tạo, mô hình có thể được xuất và sử dụng cho các ứng dụng theo dõi tay theo thời gian thực.

Đánh giá mô hình được huấn luyện tùy chỉnh của bạn

Trong quá trình tạo một mô hình tùy chỉnh, bạn sẽ nhận thấy rằng việc theo dõi hiệu suất là rất cần thiết. Cùng với việc theo dõi tiến trình trong quá trình huấn luyện, việc đánh giá mô hình sau đó là rất quan trọng để đảm bảo nó phát hiện và theo dõi chính xác các điểm chính trên bàn tay. 

Các số liệu hiệu suất chính như độ chính xác, giá trị tổn thất và độ chính xác trung bình ( mAP ) giúp đánh giá hiệu suất hoạt động của mô hình. Ultralytics Python Gói này cung cấp các công cụ tích hợp để trực quan hóa kết quả và so sánh các dự đoán với chú thích thực tế, giúp dễ dàng xác định các khu vực cần cải thiện.

Để hiểu rõ hơn về hiệu suất của mô hình, bạn có thể kiểm tra các biểu đồ đánh giá như đường cong mất mát, đồ thị precision-recall và ma trận nhầm lẫn, được tự động tạo trong nhật ký huấn luyện. 

Các biểu đồ này giúp xác định các vấn đề như overfitting (khi mô hình ghi nhớ dữ liệu huấn luyện nhưng gặp khó khăn với dữ liệu mới) hoặc underfitting (khi mô hình không học đủ tốt các mẫu để thực hiện chính xác) và hướng dẫn các điều chỉnh để cải thiện độ chính xác. Ngoài ra, việc kiểm tra mô hình trên hình ảnh hoặc video mới là rất quan trọng để xem nó hoạt động tốt như thế nào trong các tình huống thực tế.

Các ứng dụng của giải pháp theo dõi tay dựa trên AI

Tiếp theo, chúng ta hãy cùng tìm hiểu một số ứng dụng có tác động lớn nhất của việc ước tính điểm chính bằng tay với Ultralytics YOLO11 .

Nhận dạng cử chỉ thời gian thực với YOLO11

Giả sử bạn có thể điều chỉnh âm lượng trên TV chỉ bằng cách vẫy tay hoặc điều khiển hệ thống nhà thông minh bằng một cú vuốt nhẹ trong không khí. Nhận dạng cử chỉ theo thời gian thực được hỗ trợ bởi YOLO11 giúp những tương tác không cần chạm này trở nên khả thi bằng cách phát hiện chính xác chuyển động của tay theo thời gian thực. 

Điều này hoạt động bằng cách sử dụng camera AI để track các điểm chính trên bàn tay của bạn và diễn giải cử chỉ thành mệnh lệnh. Camera cảm biến độ sâu, cảm biến hồng ngoại hoặc thậm chí cả webcam thông thường đều ghi lại chuyển động của bàn tay, trong khi YOLO11 có thể xử lý dữ liệu để nhận dạng các cử chỉ khác nhau. Ví dụ, một hệ thống như vậy có thể phân biệt giữa thao tác vuốt để thay đổi bài hát, chụm để phóng to hoặc chuyển động tròn để điều chỉnh âm lượng.

Phát hiện các điểm đặc trưng trên bàn tay dựa trên AI để nhận dạng ngôn ngữ ký hiệu

Các giải pháp AI theo dõi cử chỉ tay có thể hỗ trợ giao tiếp liền mạch giữa người khiếm thính và người không biết ngôn ngữ ký hiệu. Ví dụ, các thiết bị thông minh tích hợp camera và YOLO11 có thể được sử dụng để dịch ngay lập tức ngôn ngữ ký hiệu thành văn bản hoặc lời nói. 

Nhờ những tiến bộ như YOLO11 Các công cụ dịch ngôn ngữ ký hiệu đang ngày càng chính xác và dễ tiếp cận hơn. Điều này tác động đến các ứng dụng như công nghệ hỗ trợ, dịch vụ dịch thuật trực tiếp và nền tảng giáo dục. AI có thể giúp thu hẹp khoảng cách giao tiếp và thúc đẩy tính hòa nhập tại nơi làm việc, trường học và không gian công cộng.

Thị giác máy tính để theo dõi tay: Cải thiện trải nghiệm AR và VR

Bạn đã bao giờ chơi một trò chơi thực tế ảo (VR) mà bạn có thể nắm bắt các vật thể mà không cần dùng đến bộ điều khiển chưa? Công nghệ theo dõi tay được hỗ trợ bởi thị giác máy tính giúp điều này trở nên khả thi bằng cách cho phép người dùng tương tác một cách tự nhiên trong môi trường thực tế tăng cường (AR) và VR. 

__wf_reserved_inherit
Hình 4. Theo dõi tay là một phần quan trọng của các ứng dụng AR và VR.

Với ước tính điểm chính bằng tay sử dụng các mô hình như Ultralytics YOLO11 AI theo dõi chuyển động theo thời gian thực, cho phép thực hiện các cử chỉ như véo, nắm và vuốt. Điều này nâng cao trải nghiệm chơi game, đào tạo ảo và cộng tác từ xa, giúp tương tác trực quan hơn. Khi công nghệ theo dõi cử chỉ tay được cải thiện, AR và VR sẽ trở nên sống động và chân thực hơn bao giờ hết. 

Những điều cần nhớ

Ước tính điểm chính bằng tay Ultralytics YOLO11 đang giúp các giải pháp theo dõi cử chỉ bằng AI trở nên dễ tiếp cận và đáng tin cậy hơn. Từ nhận dạng cử chỉ thời gian thực đến phiên dịch ngôn ngữ ký hiệu và các ứng dụng AR/VR, thị giác máy tính đang mở ra những khả năng mới trong tương tác giữa người và máy tính.

Ngoài ra, các quy trình tùy chỉnh huấn luyện và tinh chỉnh được tối ưu hóa đang giúp các nhà phát triển xây dựng các mô hình hiệu quả cho nhiều mục đích sử dụng thực tế khác nhau. Khi công nghệ thị giác máy tính phát triển, chúng ta có thể kỳ vọng vào nhiều đổi mới hơn nữa trong các lĩnh vực như chăm sóc sức khỏe, robot, trò chơi và bảo mật.

Tương tác với cộng đồng của chúng tôi và khám phá những tiến bộ của AI trên kho lưu trữ GitHub của chúng tôi. Khám phá tác động của AI trong sản xuấtthị giác máy tính trong chăm sóc sức khỏe thông qua các trang giải pháp của chúng tôi. Khám phá các gói cấp phép của chúng tôi và bắt đầu hành trình AI của bạn ngay hôm nay!

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí