AI có thể detect hành động của con người? Nhận dạng hoạt động

Cuộc sống hàng ngày có đầy những chuyển động nhỏ mà chúng ta hiếm khi dừng lại để suy nghĩ. Đi bộ qua phòng, ngồi tại bàn làm việc hoặc vẫy tay chào bạn bè có vẻ dễ dàng đối với chúng ta, nhưng việc phát hiện chúng bằng AI phức tạp hơn nhiều. Những gì đến tự nhiên với con người lại trở thành một thứ phức tạp hơn nhiều khi một cỗ máy đang cố gắng hiểu nó.

Khả năng này được gọi là nhận dạng hoạt động của con người (HAR) và nó cho phép máy tính detect và diễn giải các mô hình trong hành vi con người. Một ứng dụng thể dục là một ví dụ tuyệt vời về HAR trong thực tế. Bằng cách theo dõi số bước chân và thói quen tập luyện, nó cho thấy AI có thể giám sát các hoạt động hàng ngày như thế nào.

Nhận thấy tiềm năng của HAR, nhiều ngành công nghiệp đã bắt đầu áp dụng công nghệ này. Trên thực tế, thị trường nhận dạng hành động của con người dự kiến sẽ đạt hơn 12,56 tỷ đô la vào năm 2033.

Một phần quan trọng của sự tiến bộ này là được thúc đẩy bởi thị giác máy tính, một nhánh của AI cho phép máy móc phân tích dữ liệu trực quan, chẳng hạn như hình ảnh và video. Với thị giác máy tính và nhận dạng hình ảnh, HAR đã phát triển từ một khái niệm nghiên cứu thành một phần thực tế và thú vị của các ứng dụng AI tiên tiến.

Trong bài viết này, chúng ta sẽ khám phá HAR là gì, các phương pháp khác nhau được sử dụng để nhận dạng hành động của con người và cách thị giác máy tính giúp trả lời câu hỏi: AI có thể detect Hành động của con người trong các ứng dụng thực tế? Hãy bắt đầu thôi!

Nhận dạng hành động người là gì?

Nhận dạng hành động của con người giúp các hệ thống máy tính có thể hiểu được các hoạt động hoặc hành động của con người bằng cách phân tích các chuyển động của cơ thể. Không giống như chỉ đơn giản là phát hiện một người trong một hình ảnh, HAR có thể hỗ trợ xác định những gì người đó đang làm. Ví dụ: phân biệt giữa đi bộ và chạy, nhận ra một cái vẫy tay hoặc nhận thấy khi ai đó ngã xuống.

Nền tảng của HAR nằm ở các kiểu chuyển động và tư thế. Một thay đổi nhỏ trong cách tay hoặc chân của một người được định vị có thể báo hiệu nhiều hành động khác nhau. Bằng cách nắm bắt và giải thích những chi tiết tinh tế này, các hệ thống HAR có thể thu được những hiểu biết có ý nghĩa từ các chuyển động của cơ thể.

Để đạt được điều này, nhận dạng hành động của con người kết hợp nhiều công nghệ như học máy, mô hình học sâu, thị giác máy tính và xử lý ảnh, phối hợp với nhau để phân tích chuyển động cơ thể và giải thích hành động của con người với độ chính xác cao hơn.

Hình 1. Nhận dạng hoạt động của con người liên quan đến các nhánh khác nhau của khoa học máy tính (Nguồn: cell.com)

‍

Các hệ thống HAR trước đây bị giới hạn hơn nhiều. Chúng chỉ có thể xử lý một vài hành động đơn giản, lặp đi lặp lại trong môi trường được kiểm soát và thường gặp khó khăn trong các tình huống thực tế.

Ngày nay, nhờ AI và lượng lớn dữ liệu video, HAR đã tiến bộ đáng kể về độ chính xác và độ mạnh mẽ. Các hệ thống hiện đại có thể nhận ra một loạt các hoạt động với độ chính xác cao hơn nhiều, làm cho công nghệ này trở nên thiết thực cho các lĩnh vực như chăm sóc sức khỏe, an ninh và thiết bị tương tác.

Các phương pháp khác nhau để phát hiện hành động của con người

Bây giờ chúng ta đã hiểu rõ hơn về nhận dạng hành động của con người, hãy cùng xem xét những cách khác nhau mà máy móc có thể detect hành động của con người.

Dưới đây là một số phương pháp phổ biến:

Phương pháp dựa trên cảm biến: Các thiết bị thông minh như máy đo gia tốc, thiết bị đeo và điện thoại thông minh có thể thu thập tín hiệu trực tiếp từ cơ thể người. Chúng có thể hiển thị các kiểu chuyển động như đi bộ, chạy hoặc thậm chí đứng yên. Bộ đếm bước trên đồng hồ thông minh là một ví dụ điển hình về phương pháp này.
Phương pháp dựa trên tầm nhìn: Máy ảnh kết hợp với thị giác máy tính phân tích hình ảnh và video để track cách cơ thể nhìn và di chuyển theo từng khung hình. Điều này cho phép nhận dạng các hoạt động phức tạp hơn. TV hoặc hệ thống chơi game điều khiển bằng cử chỉ dựa trên phương pháp này.
Phương pháp đa phương thức (Multimodal methods): Đây là sự kết hợp của các cảm biến và camera để tạo ra một hệ thống đáng tin cậy hơn, vì một nguồn có thể xác nhận những gì nguồn kia phát hiện. Ví dụ: một thiết bị đeo có thể ghi lại chuyển động trong khi camera xác minh tư thế, một thiết lập thường được sử dụng để phát hiện ngã cho người già.

Vai trò của bộ dữ liệu trong nhận dạng hoạt động của con người

Đối với bất kỳ mô hình hoặc hệ thống HAR nào, bộ dữ liệu (datasets) là điểm khởi đầu. Một bộ dữ liệu HAR là một tập hợp các ví dụ, chẳng hạn như video clip, hình ảnh hoặc dữ liệu cảm biến, ghi lại các hành động như đi bộ, ngồi hoặc vẫy tay. Các ví dụ này được sử dụng để huấn luyện các mô hình AI nhận dạng các mẫu trong chuyển động của con người, sau đó có thể được áp dụng trong các ứng dụng thực tế.

Chất lượng của dữ liệu huấn luyện ảnh hưởng trực tiếp đến hiệu suất của mô hình. Dữ liệu sạch và nhất quán giúp hệ thống nhận dạng các hành động một cách chính xác dễ dàng hơn.

Đó là lý do tại sao các tập dữ liệu thường được tiền xử lý trước khi huấn luyện. Một bước phổ biến là chuẩn hóa (normalization), giúp điều chỉnh các giá trị một cách nhất quán để giảm lỗi và ngăn ngừa tình trạng overfitting (khi một mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng gặp khó khăn với dữ liệu mới).

Để đo lường hiệu suất của các mô hình ngoài quá trình huấn luyện, các nhà nghiên cứu dựa vào các số liệu đánh giá và bộ dữ liệu chuẩn cho phép kiểm tra và so sánh công bằng. Các bộ sưu tập phổ biến như UCF101, HMDB51 và Kinetics bao gồm hàng nghìn video clip được gắn nhãn để phát hiện hành động của con người. Về phía cảm biến, các bộ dữ liệu thu thập từ điện thoại thông minh và thiết bị đeo cung cấp các tín hiệu chuyển động có giá trị, giúp các mô hình nhận dạng trở nên mạnh mẽ hơn trong các môi trường khác nhau.

Hình 2. Cái nhìn thoáng qua về bộ dữ liệu nhận dạng hoạt động của con người. (Nguồn)

‍

Thị giác máy tính hỗ trợ nhận dạng hoạt động của con người như thế nào

Trong số những cách khác nhau để detect Thị giác máy tính (computer vision) đã nhanh chóng trở thành một trong những công nghệ phổ biến và được nghiên cứu rộng rãi nhất. Ưu điểm chính của nó là có thể trích xuất chi tiết phong phú trực tiếp từ hình ảnh và video. Bằng cách xem xét từng điểm ảnh trong từng khung hình và phân tích các mẫu chuyển động, nó có thể nhận dạng các hoạt động theo thời gian thực mà không cần người dùng phải đeo thêm thiết bị.

Những tiến bộ gần đây trong học sâu, đặc biệt là mạng nơ-ron tích chập (CNN), được thiết kế để phân tích hình ảnh, đã giúp thị giác máy tính nhanh hơn, chính xác hơn và đáng tin cậy hơn.

Ví dụ, các mô hình thị giác máy tính hiện đại được sử dụng rộng rãi như Ultralytics YOLO11 được xây dựng dựa trên những tiến bộ này. YOLO11 hỗ trợ các tác vụ như phát hiện đối tượng, phân đoạn trường hợp, theo dõi mọi người trên các khung hình video và ước tính tư thế của con người, khiến nó trở thành một công cụ tuyệt vời để nhận dạng hoạt động của con người.

Tổng quan về Ultralytics YOLO11

Ultralytics YOLO11 là một mô hình Vision AI được thiết kế để đạt được cả tốc độ và độ chính xác. Nó hỗ trợ các tác vụ thị giác máy tính cốt lõi như phát hiện vật thể, theo dõi vật thể và ước tính tư thế . Những khả năng này đặc biệt hữu ích cho việc nhận dạng hoạt động của con người.

Phát hiện đối tượng xác định và định vị mọi người trong một cảnh, theo dõi chuyển động của họ trên các khung hình video để nhận dạng các chuỗi hành động và ước tính tư thế lập bản đồ các khớp chính của cơ thể con người để phân biệt giữa các hoạt động hoặc detect những thay đổi đột ngột như ngã.

Ví dụ: thông tin chi tiết từ mô hình có thể được sử dụng để phân biệt giữa một người đang ngồi yên lặng, sau đó đứng dậy và cuối cùng giơ tay lên để cổ vũ. Những hành động đơn giản hàng ngày này có vẻ tương tự nhau khi nhìn thoáng qua, nhưng mang những ý nghĩa rất khác nhau khi được phân tích theo trình tự.

Hình 3. Sử dụng Ultralytics YOLO11 để ước tính tư thế. ( Nguồn )

Ứng dụng thực tế của thị giác máy tính và HAR

Tiếp theo, hãy xem xét kỹ hơn về cách nhận dạng hoạt động của con người được hỗ trợ bởi thị giác máy tính được áp dụng trong các trường hợp sử dụng thực tế, tác động đến cuộc sống hàng ngày của chúng ta.

Chăm sóc sức khỏe và phúc lợi

Trong lĩnh vực chăm sóc sức khỏe, những thay đổi nhỏ trong cử động có thể cung cấp những thông tin hữu ích về tình trạng của một người. Ví dụ, một cú vấp của bệnh nhân lớn tuổi hoặc góc độ của một chi trong quá trình phục hồi chức năng có thể cho thấy các rủi ro hoặc tiến triển. Những dấu hiệu này thường dễ bị bỏ qua bằng các phương pháp truyền thống, như kiểm tra sức khỏe.

YOLO11 có thể giúp bằng cách sử dụng ước tính tư thế và phân tích hình ảnh để theo dõi bệnh nhân theo thời gian thực. Nó có thể được sử dụng để detect thác nước, track Các bài tập phục hồi và quan sát các hoạt động hàng ngày như đi bộ hoặc giãn cơ. Nhờ hoạt động dựa trên phân tích trực quan mà không cần cảm biến hay thiết bị đeo, phương pháp này mang đến một cách đơn giản để thu thập thông tin chính xác, hỗ trợ chăm sóc bệnh nhân.

Hình 4. Theo dõi chuyển động cơ thể bằng cách sử dụng YOLO11 hỗ trợ cho việc ước tính tư thế. ( Nguồn )

An ninh và giám sát

Hệ thống an ninh dựa vào khả năng phát hiện nhanh chóng các hoạt động bất thường của con người, chẳng hạn như ai đó lảng vảng, chạy trong khu vực cấm hoặc thể hiện hành vi hung hăng đột ngột. Những dấu hiệu này thường bị bỏ qua trong môi trường đông đúc, nơi nhân viên an ninh không thể giám sát mọi thứ một cách thủ công. Đó là lúc công nghệ thị giác máy tính và YOLO11 vào đi.

YOLO11 giúp giám sát an ninh dễ dàng hơn bằng cách cung cấp năng lượng cho giám sát video thời gian thực có thể detect Phát hiện chuyển động đáng ngờ và gửi cảnh báo tức thì. Hỗ trợ an ninh đám đông ở nơi công cộng và tăng cường phát hiện xâm nhập ở khu vực riêng tư.

Với cách tiếp cận này, nhân viên an ninh có thể làm việc song song với các hệ thống thị giác máy tính, tạo ra sự tương tác và hợp tác giữa người và máy tính, cho phép phản ứng nhanh chóng và kịp thời hơn đối với các hoạt động đáng ngờ.

Ưu và nhược điểm của việc sử dụng thị giác máy tính cho HAR

Dưới đây là một số ưu điểm của việc sử dụng thị giác máy tính để nhận dạng hoạt động của con người:

Khả năng mở rộng: Sau khi thiết lập, cùng một hệ thống nhận dạng có thể tự động theo dõi nhiều người cùng một lúc, làm cho nó hữu ích cho tự động hóa trong các cơ sở chăm sóc sức khỏe, nhà máy và không gian công cộng.
Xử lý theo thời gian thực: Các giải pháp Vision AI có thể được sử dụng để phân tích các luồng video khi chúng diễn ra, cho phép phản hồi nhanh hơn.
Non-invasive tracking (Theo dõi không xâm lấn): Không giống như thiết bị đeo hoặc cảm biến, nó không yêu cầu mọi người mang theo thiết bị, cho phép phân tích hành vi tự nhiên và dễ dàng.

Mặc dù có nhiều lợi ích khi sử dụng computer vision (thị giác máy tính) cho HAR, nhưng cũng có những hạn chế cần xem xét. Dưới đây là một số yếu tố cần lưu ý:

Các lo ngại về quyền riêng tư: Việc giám sát bằng video có thể làm dấy lên các vấn đề về bảo vệ dữ liệu và sự đồng ý, đặc biệt là trong các môi trường nhạy cảm như nhà ở hoặc nơi làm việc.
Sai lệch tiềm ẩn: Nếu bộ dữ liệu huấn luyện thiếu tính đa dạng, các thuật toán có thể hiểu sai hành động đối với một số nhóm người nhất định, dẫn đến kết quả không công bằng hoặc không chính xác.
Độ nhạy môi trường: Độ chính xác có thể giảm do ánh sáng kém, nền lộn xộn hoặc người bị che khuất một phần, điều đó có nghĩa là hệ thống cần được thiết kế cẩn thận.

Những điều cần nhớ

Trí tuệ nhân tạo và thị giác máy tính đang giúp máy móc nhận diện hành động của con người chính xác hơn và theo thời gian thực. Bằng cách phân tích các khung hình video và các kiểu chuyển động, các hệ thống này có thể xác định cả những cử chỉ hàng ngày và những thay đổi đột ngột. Khi công nghệ tiếp tục được cải thiện, việc nhận dạng hành vi của con người đang vượt ra khỏi các phòng thí nghiệm nghiên cứu và trở thành một công cụ thiết thực cho chăm sóc sức khỏe, an ninh và các ứng dụng hàng ngày.

Tìm hiểu thêm về AI bằng cách truy cập kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi. Tham khảo các trang giải pháp của chúng tôi để tìm hiểu về AI trong ngành robot và thị giác máy tính trong sản xuất. Khám phá các tùy chọn cấp phép của chúng tôi để bắt đầu với Vision AI.

‍

AI có thể detect hành động của con người? Khám phá nhận dạng hoạt động

Nhận dạng hành động người là gì?

Các phương pháp khác nhau để phát hiện hành động của con người

Vai trò của bộ dữ liệu trong nhận dạng hoạt động của con người