Hãy theo dõi YOLO Vision 2025!
Ngày 25 tháng 9 năm 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Tầm nhìn Yolo 2024

Liệu AI có thể phát hiện hành động của con người? Khám phá nhận dạng hoạt động

Abirami Vina

6 phút đọc

Ngày 22 tháng 9 năm 2025

Từ ứng dụng thể dục đến theo dõi bệnh nhân, hãy khám phá cách thị giác máy tính giải quyết câu hỏi: AI có thể phát hiện hành động của con người trong bối cảnh thế giới thực không?

Cuộc sống hàng ngày đầy rẫy những chuyển động nhỏ mà chúng ta hiếm khi dừng lại để suy nghĩ. Việc đi lại trong phòng, ngồi vào bàn làm việc, hay vẫy tay chào bạn bè có thể dễ dàng với chúng ta, nhưng việc phát hiện chúng bằng AI lại phức tạp hơn nhiều. Những gì con người làm một cách tự nhiên lại trở nên phức tạp hơn nhiều khi được máy móc cố gắng hiểu.

Khả năng này được gọi là nhận dạng hoạt động của con người (HAR), cho phép máy tính phát hiện và diễn giải các mô hình hành vi của con người. Ứng dụng thể dục là một ví dụ điển hình về HAR trong thực tế. Bằng cách theo dõi số bước chân và thói quen tập luyện, ứng dụng này cho thấy AI có thể giám sát các hoạt động hàng ngày như thế nào. 

Nhận thấy tiềm năng của HAR, nhiều ngành công nghiệp đã bắt đầu ứng dụng công nghệ này. Trên thực tế, thị trường nhận dạng hành động của con người dự kiến sẽ đạt hơn 12,56 tỷ đô la vào năm 2033.

Một phần đáng kể của tiến bộ này được thúc đẩy bởi thị giác máy tính , một nhánh của AI cho phép máy móc phân tích dữ liệu trực quan, chẳng hạn như hình ảnh và video. Với thị giác máy tính và nhận dạng hình ảnh, HAR đã phát triển từ một khái niệm nghiên cứu thành một phần thiết thực và thú vị của các ứng dụng AI tiên tiến. 

Trong bài viết này, chúng ta sẽ tìm hiểu HAR là gì, các phương pháp khác nhau được sử dụng để nhận dạng hành động của con người và cách thị giác máy tính giúp trả lời câu hỏi: Liệu AI có thể phát hiện hành động của con người trong các ứng dụng thực tế không? Hãy cùng bắt đầu!

Nhận dạng hành động của con người là gì?

Nhận dạng hành động của con người cho phép hệ thống máy tính hiểu được các hoạt động hoặc hành động của con người bằng cách phân tích chuyển động cơ thể. Không giống như việc chỉ phát hiện một người trong hình ảnh, HAR có thể hỗ trợ xác định người đó đang làm gì. Ví dụ, phân biệt giữa đi bộ và chạy, nhận biết một cái vẫy tay, hoặc nhận thấy khi ai đó ngã.

Nền tảng của HAR nằm ở các mô hình chuyển động và tư thế. Một thay đổi nhỏ trong cách đặt tay hoặc chân của con người có thể báo hiệu nhiều hành động khác nhau. Bằng cách nắm bắt và diễn giải những chi tiết tinh tế này, hệ thống HAR có thể có được những hiểu biết có ý nghĩa từ các chuyển động của cơ thể.

Để đạt được điều này, công nghệ nhận dạng hành động của con người kết hợp nhiều công nghệ như máy học, mô hình học sâu, thị giác máy tính và xử lý hình ảnh , phối hợp với nhau để phân tích chuyển động cơ thể và diễn giải hành động của con người với độ chính xác cao hơn. 

Hình 1. Nhận dạng hoạt động của con người liên quan đến các nhánh khác nhau của khoa học máy tính ( Nguồn )

Các hệ thống HAR trước đây bị hạn chế hơn nhiều. Chúng chỉ có thể xử lý một vài hành động đơn giản, lặp đi lặp lại trong môi trường được kiểm soát và thường gặp khó khăn trong các tình huống thực tế. 

Ngày nay, nhờ AI và lượng lớn dữ liệu video, HAR đã có những tiến bộ đáng kể về cả độ chính xác lẫn độ tin cậy. Các hệ thống hiện đại có thể nhận dạng nhiều hoạt động với độ chính xác cao hơn nhiều, giúp công nghệ này trở nên thiết thực trong các lĩnh vực như chăm sóc sức khỏe, an ninh và thiết bị tương tác.

Các phương pháp khác nhau để phát hiện hành động của con người

Bây giờ chúng ta đã hiểu rõ hơn về nhận dạng hành động của con người, hãy cùng xem xét những cách khác nhau mà máy móc có thể phát hiện hành động của con người. 

Sau đây là một số phương pháp phổ biến:

  • Phương pháp dựa trên cảm biến: Các thiết bị thông minh như máy đo gia tốc, thiết bị đeo và điện thoại thông minh có thể thu thập tín hiệu trực tiếp từ cơ thể người. Chúng có thể hiển thị các kiểu chuyển động như đi bộ, chạy, hoặc thậm chí đứng yên. Bộ đếm bước chân trên đồng hồ thông minh là một ví dụ điển hình cho phương pháp này.
  • Phương pháp dựa trên thị giác: Camera kết hợp với công nghệ thị giác máy tính phân tích hình ảnh và video để theo dõi hình dạng và chuyển động của cơ thể theo từng khung hình. Điều này cho phép nhận dạng các hoạt động phức tạp hơn. TV hoặc hệ thống chơi game điều khiển bằng cử chỉ dựa trên phương pháp này.
  • Phương pháp đa phương thức: Đây là sự kết hợp giữa cảm biến và camera, tạo nên một hệ thống đáng tin cậy hơn, vì một nguồn có thể xác nhận những gì nguồn kia phát hiện. Ví dụ, thiết bị đeo có thể ghi nhận chuyển động trong khi camera xác minh tư thế, một thiết lập thường được sử dụng trong phát hiện té ngã trong chăm sóc người cao tuổi.

Vai trò của tập dữ liệu trong việc nhận dạng hoạt động của con người

Đối với bất kỳ mô hình hoặc hệ thống HAR nào, tập dữ liệu là điểm khởi đầu. Tập dữ liệu HAR là tập hợp các ví dụ, chẳng hạn như video clip, hình ảnh hoặc dữ liệu cảm biến, ghi lại các hành động như đi bộ, ngồi hoặc vẫy tay. Những ví dụ này được sử dụng để huấn luyện các mô hình AI nhận dạng các mẫu chuyển động của con người, sau đó có thể áp dụng vào các ứng dụng thực tế. 

Chất lượng dữ liệu đào tạo ảnh hưởng trực tiếp đến hiệu suất của mô hình. Dữ liệu sạch và nhất quán giúp hệ thống dễ dàng nhận dạng hành động chính xác hơn. 

Đó là lý do tại sao các tập dữ liệu thường được xử lý trước khi huấn luyện. Một bước phổ biến là chuẩn hóa, giúp điều chỉnh các giá trị một cách nhất quán để giảm lỗi và ngăn ngừa quá khớp (khi một mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng lại gặp khó khăn với dữ liệu mới).

Để đo lường hiệu suất của các mô hình sau khi huấn luyện, các nhà nghiên cứu dựa vào các số liệu đánh giá và bộ dữ liệu chuẩn cho phép kiểm tra và so sánh công bằng. Các bộ sưu tập phổ biến như UCF101, HMDB51 và Kinetics bao gồm hàng ngàn video clip được gắn nhãn để phát hiện hành động của con người. Về phía cảm biến, các bộ dữ liệu được thu thập từ điện thoại thông minh và thiết bị đeo cung cấp các tín hiệu chuyển động có giá trị, giúp các mô hình nhận dạng hoạt động mạnh mẽ hơn trong các môi trường khác nhau.

Hình 2. Một cái nhìn thoáng qua về tập dữ liệu nhận dạng hoạt động của con người. ( Nguồn )

Tầm nhìn máy tính hỗ trợ nhận dạng hoạt động của con người như thế nào

Trong số các phương pháp phát hiện hành động của con người, thị giác máy tính đã nhanh chóng trở thành một trong những công nghệ phổ biến và được nghiên cứu rộng rãi nhất. Ưu điểm chính của nó là có thể trích xuất chi tiết phong phú trực tiếp từ hình ảnh và video. Bằng cách xem xét từng điểm ảnh trong từng khung hình và phân tích các mẫu chuyển động, nó có thể nhận dạng các hoạt động theo thời gian thực mà không cần người dùng phải đeo thêm thiết bị.

Những tiến bộ gần đây trong học sâu, đặc biệt là mạng nơ-ron tích chập (CNN), được thiết kế để phân tích hình ảnh, đã giúp thị giác máy tính nhanh hơn, chính xác hơn và đáng tin cậy hơn. 

Ví dụ, các mô hình thị giác máy tính tiên tiến được sử dụng rộng rãi như Ultralytics YOLO11 được xây dựng dựa trên những tiến bộ này. YOLO11 hỗ trợ các tác vụ như phát hiện đối tượng, phân đoạn thực thể, theo dõi người trên các khung hình video và ước tính tư thế của con người, khiến nó trở thành một công cụ tuyệt vời để nhận dạng hoạt động của con người.

Tổng quan về Ultralytics YOLO11

Ultralytics YOLO11 là một mô hình Vision AI được thiết kế để đạt được cả tốc độ và độ chính xác. Nó hỗ trợ các tác vụ thị giác máy tính cốt lõi như phát hiện đối tượng, theo dõi đối tượng và ước tính tư thế . Những khả năng này đặc biệt hữu ích cho việc nhận dạng hoạt động của con người.

Phát hiện đối tượng xác định và định vị mọi người trong một cảnh, theo dõi chuyển động của họ trên các khung hình video để nhận dạng chuỗi hành động và ước tính tư thế lập bản đồ các khớp chính trên cơ thể con người để phân biệt giữa các hoạt động tương tự hoặc phát hiện những thay đổi đột ngột như ngã. 

Ví dụ, thông tin chi tiết từ mô hình có thể được sử dụng để phân biệt giữa việc một người ngồi im lặng, rồi đứng dậy, và cuối cùng giơ tay lên cổ vũ. Những hành động đơn giản thường ngày này thoạt nhìn có vẻ giống nhau, nhưng lại mang ý nghĩa rất khác nhau khi được phân tích theo trình tự.

Hình 3. Sử dụng Ultralytics YOLO11 để ước tính tư thế. ( Nguồn )

Ứng dụng thực tế của thị giác máy tính và HAR

Tiếp theo, chúng ta hãy xem xét kỹ hơn cách nhận dạng hoạt động của con người được hỗ trợ bởi thị giác máy tính được áp dụng trong các trường hợp sử dụng thực tế tác động đến cuộc sống hàng ngày của chúng ta.

Chăm sóc sức khỏe và hạnh phúc

Trong chăm sóc sức khỏe , những thay đổi nhỏ trong chuyển động có thể cung cấp những thông tin hữu ích về tình trạng của một người. Ví dụ, một cú vấp ngã của bệnh nhân lớn tuổi hoặc góc nghiêng của chân tay trong quá trình phục hồi chức năng có thể tiết lộ nguy cơ hoặc tiến triển. Những dấu hiệu này thường dễ bị bỏ qua bằng các phương pháp truyền thống, chẳng hạn như kiểm tra sức khỏe. 

YOLO11 có thể hỗ trợ bằng cách sử dụng ước tính tư thế và phân tích hình ảnh để theo dõi bệnh nhân theo thời gian thực. Nó có thể được sử dụng để phát hiện té ngã, theo dõi các bài tập phục hồi và quan sát các hoạt động hàng ngày như đi bộ hoặc giãn cơ. Nhờ hoạt động dựa trên phân tích hình ảnh mà không cần cảm biến hoặc thiết bị đeo, YOLO11 cung cấp một cách đơn giản để thu thập thông tin chính xác hỗ trợ chăm sóc bệnh nhân.

Hình 4. Theo dõi chuyển động cơ thể bằng cách sử dụng hỗ trợ của YOLO11 để ước tính tư thế. ( Nguồn )

An ninh và giám sát

Hệ thống an ninh dựa vào khả năng phát hiện nhanh chóng các hoạt động bất thường của con người, chẳng hạn như ai đó lảng vảng, chạy trong khu vực cấm hoặc thể hiện hành vi hung hăng đột ngột. Những dấu hiệu này thường bị bỏ qua trong môi trường đông đúc, nơi nhân viên an ninh không thể giám sát mọi thứ một cách thủ công. Đó chính là lúc công nghệ thị giác máy tính và YOLO11 phát huy tác dụng. 

YOLO11 giúp giám sát an ninh dễ dàng hơn bằng cách cung cấp năng lượng cho hệ thống giám sát video thời gian thực, có khả năng phát hiện chuyển động đáng ngờ và gửi cảnh báo tức thì. YOLO11 hỗ trợ an ninh đám đông ở nơi công cộng và tăng cường phát hiện xâm nhập ở khu vực riêng tư. 

Với cách tiếp cận này, nhân viên bảo vệ có thể làm việc cùng với các hệ thống thị giác máy tính, tạo ra sự tương tác và hợp tác giữa con người và máy tính, cho phép phản ứng nhanh hơn và kịp thời hơn đối với các hoạt động đáng ngờ.

Ưu và nhược điểm của việc sử dụng thị giác máy tính cho HAR

Sau đây là một số lợi ích của việc sử dụng công nghệ thị giác máy tính để nhận dạng hoạt động của con người:

  • Khả năng mở rộng: Sau khi thiết lập, cùng một hệ thống nhận dạng có thể tự động theo dõi nhiều người cùng lúc, giúp ích cho việc tự động hóa trong các cơ sở chăm sóc sức khỏe, nhà máy và không gian công cộng.
  • Xử lý thời gian thực: Các giải pháp Vision AI có thể được sử dụng để phân tích luồng video khi chúng diễn ra, cho phép phản hồi nhanh hơn.
  • Theo dõi không xâm lấn: Không giống như thiết bị đeo hoặc cảm biến, công nghệ này không yêu cầu mọi người phải mang theo thiết bị, cho phép phân tích hành vi một cách tự nhiên và dễ dàng. 

Mặc dù việc sử dụng thị giác máy tính cho HAR mang lại nhiều lợi ích, nhưng cũng có những hạn chế cần cân nhắc. Dưới đây là một số yếu tố cần lưu ý:  

  • Mối lo ngại về quyền riêng tư: Giám sát bằng video có thể gây ra các vấn đề về bảo vệ dữ liệu và sự đồng ý, đặc biệt là trong các môi trường nhạy cảm như nhà ở hoặc nơi làm việc.
  • Khả năng sai lệch: Nếu tập dữ liệu đào tạo thiếu tính đa dạng, thuật toán có thể hiểu sai hành động của một số nhóm người nhất định, dẫn đến kết quả không công bằng hoặc không chính xác.
  • Độ nhạy với môi trường: Độ chính xác có thể giảm do ánh sáng kém, bối cảnh lộn xộn hoặc người bị ẩn một phần, điều này có nghĩa là hệ thống cần được thiết kế cẩn thận.

Những điểm chính

Trí tuệ nhân tạo (AI) và thị giác máy tính đang giúp máy móc nhận dạng hành động của con người chính xác hơn và theo thời gian thực. Bằng cách phân tích các khung hình video và mô hình chuyển động, các hệ thống này có thể nhận diện cả cử chỉ thường ngày lẫn những thay đổi đột ngột. Khi công nghệ tiếp tục được cải thiện, nhận dạng hoạt động của con người đang vượt ra khỏi phạm vi phòng thí nghiệm nghiên cứu và trở thành một công cụ thiết thực cho các ứng dụng chăm sóc sức khỏe, an ninh và hàng ngày.

Khám phá thêm về AI bằng cách truy cập kho lưu trữ GitHub và tham gia cộng đồng của chúng tôi. Xem các trang giải pháp của chúng tôi để tìm hiểu về AI trong robotthị giác máy tính trong sản xuất . Khám phá các tùy chọn cấp phép của chúng tôi để bắt đầu với Vision AI.

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard