Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

Công nghệ Vision AI cho phép nhận diện cử chỉ không cần chạm.

Khám phá cách công nghệ nhận diện cử chỉ được hỗ trợ bởi thị giác máy tính. detect , track và hiểu các cử chỉ tay trong nhiều ứng dụng khác nhau.

Khi công nghệ phát triển, cách chúng ta tương tác với nó cũng phát triển theo. Những cỗ máy đời đầu phụ thuộc vào sức lao động thể chất và điều khiển cơ học, trong khi khoa học máy tính hiện đại đã giới thiệu màn hình cảm ứng và nhập liệu bằng giọng nói. 

Hiện nay, nhận dạng cử chỉ là một phần của bước tiến tiếp theo, sử dụng các chuyển động tự nhiên làm giao diện người dùng. Một cái vẫy tay đơn giản, một cái chụm ngón tay, hoặc một ký hiệu tay nhanh chóng đã có thể điều khiển các ứng dụng, màn hình và máy móc. 

Tương tác không cần chạm này có thể được hỗ trợ bởi thị giác máy tính , một nhánh của trí tuệ nhân tạo giúp máy móc nhìn và diễn giải những gì camera thu được. Hệ thống AI thị giác có thể được tích hợp vào điện thoại thông minh, tai nghe thực tế ảo (VR) và thực tế tăng cường (AR), ô tô và các thiết bị nhà thông minh, nơi các cử chỉ có thể thay thế các thao tác chạm, nhấp chuột và nút bấm để mang lại trải nghiệm người dùng mượt mà hơn.

Điều khiển không chạm đang trở nên phổ biến hơn trong cuộc sống hàng ngày. Tại nơi làm việc và các không gian chung, việc tránh tiếp xúc vật lý có thể cải thiện vệ sinh và an toàn. Nhiều sản phẩm kỹ thuật số cũng đang chuyển sang tương tác không cần dùng tay, và cử chỉ cung cấp một cách dễ dàng, trực quan để điều khiển thiết bị mà không cần chạm vào chúng.

Trong bài viết này, chúng ta sẽ cùng tìm hiểu nhận dạng cử chỉ là gì, làm thế nào thị giác máy tính giúp nó chính xác hơn và nó được sử dụng ở đâu trong các ứng dụng thực tế. Bắt đầu nào!

Nhận dạng cử chỉ là gì?

Nhận dạng cử chỉ là một công nghệ cảm biến cho phép máy móc hiểu được các cử chỉ của con người, chẳng hạn như ký hiệu tay hoặc chuyển động cơ thể, và chuyển đổi chúng thành các hành động kỹ thuật số. Thay vì chạm vào màn hình hoặc nhấn nút, người dùng có thể điều khiển thiết bị thông qua các chuyển động đơn giản, tự nhiên. 

Điều này làm cho các tương tác trở nên trực quan hơn và đó là lý do tại sao phương thức nhập liệu bằng cử chỉ đang được áp dụng rộng rãi trong nhiều hệ thống điều khiển dựa trên học máy và trí tuệ nhân tạo. Đặc biệt, nhận dạng cử chỉ tay là một trong những hình thức nhận dạng cử chỉ được sử dụng rộng rãi nhất, và nó thường dựa vào thị giác máy tính. 

Nói một cách đơn giản, giải pháp Vision AI có thể phát hiện bàn tay trong hình ảnh từ camera. track Cách chúng di chuyển hoặc thay đổi hình dạng, và đối chiếu các mô hình đó với một cử chỉ đã biết để kích hoạt hành động trên màn hình.

Một phần quan trọng của các giải pháp này là mô hình thị giác máy tính , được huấn luyện trên các tập dữ liệu hình ảnh hoặc video đã được gắn nhãn, thể hiện các cử chỉ tay khác nhau. Với dữ liệu huấn luyện đa dạng và quá trình đánh giá cẩn thận, mô hình có thể khái quát hóa tốt hơn trên nhiều người dùng, điều kiện ánh sáng và phông nền khác nhau, giúp nó nhận dạng cử chỉ đáng tin cậy hơn trong môi trường thực tế.

Hình 1. Dữ liệu được sử dụng để huấn luyện mô hình thị giác máy tính. detect điểm mấu chốt của cử chỉ ( Nguồn )

Khám phá các loại cử chỉ khác nhau và tương tác giữa người và máy tính.

Trước khi đi sâu vào vai trò của thị giác máy tính trong nhận dạng cử chỉ, chúng ta hãy cùng xem xét lại các loại cử chỉ mà các hệ thống này thường nhận dạng.

Trong hầu hết các trường hợp, cử chỉ được chia thành hai loại: tĩnh và động. Cử chỉ tĩnh là những tư thế tay cố định, chẳng hạn như giơ ngón cái, giơ biển báo dừng hoặc giơ dấu hiệu hòa bình. Vì chúng không liên quan đến chuyển động, nên chúng thường có thể được nhận biết chỉ từ một khung hình.

Trong khi đó, các cử chỉ động liên quan đến chuyển động theo thời gian, chẳng hạn như vẫy tay hoặc vuốt trong không khí. Để nhận dạng chúng, hệ thống Trí tuệ nhân tạo thị giác cần phân tích nhiều khung hình để có thể... track Hiểu cách bàn tay di chuyển, hướng đi và thời điểm của cử chỉ.

Vai trò của các thuật toán thị giác máy tính trong nhận dạng cử chỉ

Hệ thống nhận dạng cử chỉ có thể được xây dựng theo nhiều cách khác nhau. Một số hệ thống phương pháp nhập liệu sử dụng cảm biến đeo được, chẳng hạn như găng tay hoặc thiết bị theo dõi gắn trên cổ tay, để thu thập chuyển động của bàn tay. 

Những thiết lập này có thể chính xác, nhưng không phải lúc nào cũng thực tế. Thiết bị đeo cần được đeo, thiết lập, sạc và bảo trì, và chúng có thể gây cảm giác hạn chế trong không gian chung hoặc khi sử dụng hàng ngày.

Đó là lý do tại sao nhiều hệ thống tiên tiến hiện nay dựa vào thị giác máy tính. Với camera RGB tiêu chuẩn và cảm biến độ sâu hoặc cảm biến thời gian bay, các thiết bị có thể thu nhận chuyển động tay và cơ thể trong thời gian thực mà người dùng không cần đeo thêm thiết bị nào khác. Điều này làm cho nhận dạng cử chỉ dựa trên thị giác trở nên rất phù hợp với điện thoại thông minh, ô tô, TV thông minh và kính thực tế ảo (AR và VR).

Ví dụ, các mô hình thị giác máy tính như Ultralytics YOLO11Ultralytics YOLO26 sắp ra mắt hỗ trợ các tác vụ như phát hiện đối tượng, theo dõi đối tượng và ước tính tư thế. Những khả năng này có thể được sử dụng để detect bàn tay trong mỗi khung hình, track Ứng dụng theo dõi chuyển động của người dùng theo thời gian và lập bản đồ các điểm mốc quan trọng như đầu ngón tay và khớp. Điều này giúp nhận diện các cử chỉ như giơ lòng bàn tay để tạm dừng, chụm ngón tay để phóng to, vuốt để điều hướng menu hoặc cử chỉ chỉ trỏ để chọn một mục trong AR và VR.

Các tác vụ thị giác máy tính được sử dụng để nhận dạng tương tác người-máy.

Dưới đây là tổng quan về một số tác vụ thị giác máy tính quan trọng được sử dụng trong nhận dạng cử chỉ:

  • Phát hiện đối tượng : Nhiệm vụ này được sử dụng để xác định vị trí bàn tay trong khung hình ảnh hoặc video, thường bằng cách vẽ các khung bao quanh chúng. Điều này giúp hệ thống tập trung vào khu vực cử chỉ và bỏ qua các chi tiết nền không cần thiết.
  • Theo dõi đối tượng: Dựa trên phát hiện đối tượng, nhiệm vụ này theo dõi các bàn tay được phát hiện qua nhiều khung hình và duy trì nhận dạng của chúng theo thời gian. Nó đặc biệt hữu ích cho các cử chỉ động, nơi chuyển động và hướng là rất quan trọng.
  • Ước lượng tư thế: Thay vì tập trung vào các khung bao quanh, ước lượng tư thế xác định các điểm mấu chốt trên bàn tay, chẳng hạn như đầu ngón tay, khớp ngón tay và cổ tay. Những điểm mốc này tạo ra một bộ xương bàn tay đơn giản, ghi lại vị trí các ngón tay và chuyển động tinh tế, cho phép phân loại cử chỉ chi tiết hơn.
  • Phân đoạn đối tượng: Nhiệm vụ này nhằm mục đích tách từng bàn tay khỏi nền ở cấp độ pixel bằng cách tạo mặt nạ cho mỗi bàn tay hiển thị. Nó hữu ích trong các cảnh lộn xộn, khi các bàn tay chồng lên nhau hoặc khi nhiều bàn tay xuất hiện trong khung hình.

Nhiều giải pháp Trí tuệ nhân tạo thị giác (Vision AI) sử dụng các tác vụ này cùng nhau như một phần của quy trình duy nhất. Ví dụ, một hệ thống có thể bắt đầu bằng việc phát hiện đối tượng để tìm bàn tay, sau đó sử dụng tính năng theo dõi để bám theo chúng qua các khung hình nhằm ghi lại các cử chỉ động. 

Nếu cử chỉ phụ thuộc vào vị trí ngón tay, ước lượng tư thế có thể thêm các điểm mấu chốt để có chi tiết tốt hơn, trong khi phân đoạn đối tượng có thể giúp tách biệt từng bàn tay chính xác hơn trong các cảnh lộn xộn hoặc khi nhiều bàn tay chồng lên nhau. Kết hợp với nhau, các bước này cung cấp cả thông tin về vị trí và chuyển động, giúp nhận dạng cử chỉ chính xác và đáng tin cậy hơn.

Cơ chế hoạt động của nhận dạng cử chỉ dựa trên thị giác

Giờ đây, khi chúng ta đã hiểu rõ hơn về các tác vụ thị giác máy tính đằng sau việc nhận dạng cử chỉ, hãy cùng xem xét từng bước cách thức hoạt động của một hệ thống dựa trên thị giác.

Một hệ thống điển hình bắt đầu bằng việc thu video từ camera, đôi khi kèm theo dữ liệu độ sâu nếu thiết bị hỗ trợ. Sau đó, các khung hình được xử lý sơ bộ bằng phần mềm xử lý ảnh để giúp mô hình xử lý chúng một cách nhất quán hơn, chẳng hạn như thay đổi kích thước, ổn định hình ảnh hoặc giảm nhiễu và hiện tượng mờ do chuyển động.

Tiếp theo, hệ thống xác định bàn tay trong khung hình bằng cách sử dụng phương pháp phát hiện hoặc phân đoạn và theo dõi chúng theo thời gian bằng cách sử dụng công nghệ theo dõi. Nếu ứng dụng cần độ chi tiết cao hơn, nó cũng có thể chạy ước tính tư thế để trích xuất các điểm chính như đầu ngón tay và khớp. Sử dụng thông tin này, mô hình phân loại cử chỉ, cho dù đó là tư thế trong một khung hình duy nhất như giơ ngón cái lên hay một kiểu chuyển động như vuốt.

Cuối cùng, cử chỉ được nhận dạng sẽ được ánh xạ tới một hành động trong giao diện, chẳng hạn như cuộn, phóng to, chọn mục, điều chỉnh âm lượng hoặc điều khiển tương tác AR và VR. Quy trình cụ thể có thể khác nhau, với các ứng dụng đơn giản hơn sử dụng ít bước hơn và các ứng dụng phức tạp hơn kết hợp phát hiện, theo dõi và ước tính tư thế để đạt độ chính xác tốt hơn.

Ứng dụng của nhận dạng cử chỉ dựa trên thị giác

Tiếp theo, chúng ta hãy cùng tìm hiểu cách nhận dạng cử chỉ được sử dụng trong các ứng dụng thực tế để hiểu vị trí của bàn tay.

Tương tác bằng cử chỉ với hệ thống thông tin giải trí trên ô tô

Công nghệ nhận diện cử chỉ đang bắt đầu xuất hiện trong giao diện xe thông minh, đặc biệt là trong hệ thống thông tin giải trí. Đây là một cách thuận tiện để điều khiển một số tính năng nhất định bằng các chuyển động tay đơn giản, giúp giảm tần suất người lái phải với tay đến màn hình cảm ứng hoặc các nút vật lý. Ví dụ, một cử chỉ nhanh có thể được sử dụng để điều chỉnh âm lượng, quản lý cuộc gọi hoặc điều hướng qua các menu trên màn hình. 

Hình 2. Một tài xế thực hiện các cử chỉ tay trong phạm vi phát hiện của hệ thống thông tin giải trí ( Nguồn )

Tương tác dựa trên cử chỉ trong trò chơi

Trong lĩnh vực game và trải nghiệm nhập vai, điều khiển bằng cử chỉ đang thay đổi cách mọi người tương tác với thế giới ảo. Thay vì chỉ dựa vào tay cầm hoặc cần điều khiển, người chơi có thể sử dụng các chuyển động tay tự nhiên để điều hướng menu, nhặt đồ vật ảo, điều khiển nhân vật hoặc kích hoạt các hành động trong game.

Hình 3. Chơi trò chơi bằng cử chỉ tay ( Nguồn ).

Kiểu tương tác không cần chạm này có thể mang lại cảm giác mượt mà hơn, đặc biệt là trong AR và VR. Do đó, theo dõi tay và điều khiển bằng cử chỉ đang trở thành những tính năng phổ biến trong các thiết bị đeo VR và thực tế hỗn hợp.

Điều khiển bằng cử chỉ liền mạch cho các thiết bị nhà thông minh

Các thiết bị nhà thông minh như TV thông minh, loa thông minh và đèn thông minh đang bắt đầu hỗ trợ điều khiển bằng cử chỉ, cho phép thực hiện các thao tác nhanh chóng mà không cần chạm. Chỉ với một chuyển động tay đơn giản, người dùng có thể bật đèn, điều chỉnh âm lượng hoặc thực hiện các lệnh cơ bản mà không cần với tới công tắc hoặc điều khiển từ xa.

Ví dụ, trong các hệ thống giải trí gia đình, camera chiều sâu được tích hợp hoặc kết nối có thể nhận diện các cử chỉ như vuốt, chỉ hoặc giơ tay. Điều này giúp việc duyệt menu, thay đổi cài đặt hoặc xác nhận lựa chọn dễ dàng hơn từ xa. Ẩn sau đó, các mô hình thị giác máy tính xử lý nguồn cấp dữ liệu camera trong thời gian thực để... detect và giải thích những cử chỉ này. 

Điều khiển cử chỉ bằng trí tuệ nhân tạo trong robot 

Hãy xem xét một tình huống trong nhà máy, nơi một công nhân cần điều khiển robot trong khi mang vác các bộ phận, đeo găng tay hoặc đứng ở khoảng cách an toàn so với thiết bị đang di chuyển. Trong những điều kiện này, việc với tay đến các nút bấm hoặc bảng điều khiển có thể chậm hoặc thậm chí không an toàn. 

Ngược lại, hệ thống điều khiển bằng cử chỉ có thể là một cách thực tế hơn, không cần dùng tay để tương tác với các máy móc này. Điều này đặc biệt hữu ích đối với robot cộng tác, hay cobot, được thiết kế để làm việc cùng với con người. 

Thay vì phải đến gần bảng điều khiển, người vận hành có thể sử dụng các tín hiệu tay đơn giản để khởi động, dừng hoặc điều khiển robot từ xa. Điều này giúp giảm sự phụ thuộc vào các thao tác vật lý và hỗ trợ quy trình làm việc an toàn hơn trong nhà máy.

Các hệ thống điều khiển dựa trên thị giác tiên tiến được hỗ trợ bởi các mô hình học sâu hoặc thuật toán học máy cũng có thể vượt xa các lệnh cơ bản. Chúng có thể diễn giải các chuyển động tay tinh tế hơn và phản hồi mượt mà với những thay đổi hướng nhỏ, cũng như hướng dẫn và tự động hóa chính xác hơn. 

Hình 4. Một bàn tay robot phân tích cử chỉ của người dùng ( Nguồn )

Ưu điểm và nhược điểm của công nghệ nhận diện cử chỉ

Dưới đây là một số lợi ích chính của việc sử dụng công nghệ nhận diện cử chỉ:

  • Cải thiện khả năng truy cập: Cử chỉ có thể là một giải pháp thay thế cho những người dùng gặp khó khăn khi sử dụng bàn phím, màn hình cảm ứng hoặc bộ điều khiển.
  • Hoạt động từ xa: Các cử chỉ có thể được nhận diện từ khắp phòng, điều này rất hữu ích cho TV thông minh, ki-ốt và các thiết bị gia đình.
  • Linh hoạt trên nhiều thiết bị: Các bộ cử chỉ tương tự có thể hoạt động trên điện thoại, ô tô, màn hình thông minh và tai nghe AR hoặc VR, giúp tương tác nhất quán.

Đồng thời, có một vài thách thức thực tế có thể ảnh hưởng đến độ chính xác và tính nhất quán. Dưới đây là một số yếu tố cần xem xét:

  • Các vấn đề về ánh sáng và chất lượng camera: Ánh sáng yếu, chói, bóng tối hoặc camera độ phân giải thấp có thể làm giảm hiệu suất nhận dạng. Điều này, đến lượt nó, có thể ảnh hưởng đến khả năng điều khiển chuyển động.
  • Sự khác biệt giữa người dùng: Mỗi người thực hiện các cử chỉ khác nhau một cách tự nhiên, và sự khác biệt về kích thước bàn tay, độ linh hoạt của ngón tay hoặc các phụ kiện có thể ảnh hưởng đến độ chính xác.
  • Hạn chế của chuyển động nhanh: Các cử chỉ nhanh có thể gây ra hiện tượng nhòe chuyển động hoặc khiến mô hình bỏ lỡ các khung hình quan trọng, đặc biệt là trên các máy ảnh có tốc độ khung hình thấp.

Những điều cần nhớ

Công nghệ nhận dạng cử chỉ đã vượt ra khỏi phạm vi phòng thí nghiệm nghiên cứu và hiện là một phần của các thiết bị và phát minh hàng ngày. Cụ thể, thị giác máy tính cho phép điều khiển không cần chạm trong trò chơi, robot, nhà thông minh và hệ thống ô tô. Khi các mô hình thị giác được cải thiện, các giao diện không cần chạm này có thể sẽ dễ xây dựng hơn và được sử dụng rộng rãi hơn.

Khám phá cộng đồngkho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về các mô hình thị giác máy tính. Khám phá các trang giải pháp của chúng tôi để đọc về các ứng dụng như trí tuệ nhân tạo trong nông nghiệpthị giác máy tính trong logistics . Kiểm tra các tùy chọn cấp phép của chúng tôi và bắt đầu xây dựng mô hình AI thị giác của riêng bạn.

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí