Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Từ ứng dụng thể dục đến giám sát bệnh nhân, khám phá cách thị giác máy tính giải quyết câu hỏi: liệu AI có thể phát hiện hành động của con người trong môi trường thực tế không?
Cuộc sống hàng ngày có đầy những chuyển động nhỏ mà chúng ta hiếm khi dừng lại để suy nghĩ. Đi bộ qua phòng, ngồi tại bàn làm việc hoặc vẫy tay chào bạn bè có vẻ dễ dàng đối với chúng ta, nhưng việc phát hiện chúng bằng AI phức tạp hơn nhiều. Những gì đến tự nhiên với con người lại trở thành một thứ phức tạp hơn nhiều khi một cỗ máy đang cố gắng hiểu nó.
Khả năng này được gọi là nhận dạng hoạt động của con người (HAR) và nó cho phép máy tính phát hiện và giải thích các mẫu trong hành vi của con người. Một ứng dụng thể dục là một ví dụ tuyệt vời về HAR trong thực tế. Bằng cách theo dõi các bước và thói quen tập luyện, nó cho thấy AI có thể theo dõi các hoạt động hàng ngày như thế nào.
Nhận thấy tiềm năng của HAR, nhiều ngành công nghiệp đã bắt đầu áp dụng công nghệ này. Trên thực tế, thị trường nhận dạng hành động của con người dự kiến sẽ đạt hơn 12,56 tỷ đô la vào năm 2033.
Một phần quan trọng của sự tiến bộ này là được thúc đẩy bởi thị giác máy tính, một nhánh của AI cho phép máy móc phân tích dữ liệu trực quan, chẳng hạn như hình ảnh và video. Với thị giác máy tính và nhận dạng hình ảnh, HAR đã phát triển từ một khái niệm nghiên cứu thành một phần thực tế và thú vị của các ứng dụng AI tiên tiến.
Trong bài viết này, chúng ta sẽ khám phá HAR là gì, các phương pháp khác nhau được sử dụng để nhận dạng hành động của con người và cách thị giác máy tính giúp trả lời câu hỏi: Liệu AI có thể phát hiện hành động của con người trong các ứng dụng thực tế không? Hãy cùng bắt đầu!
Nhận dạng hành động người là gì?
Nhận dạng hành động của con người giúp các hệ thống máy tính có thể hiểu được các hoạt động hoặc hành động của con người bằng cách phân tích các chuyển động của cơ thể. Không giống như chỉ đơn giản là phát hiện một người trong một hình ảnh, HAR có thể hỗ trợ xác định những gì người đó đang làm. Ví dụ: phân biệt giữa đi bộ và chạy, nhận ra một cái vẫy tay hoặc nhận thấy khi ai đó ngã xuống.
Nền tảng của HAR nằm ở các kiểu chuyển động và tư thế. Một thay đổi nhỏ trong cách tay hoặc chân của một người được định vị có thể báo hiệu nhiều hành động khác nhau. Bằng cách nắm bắt và giải thích những chi tiết tinh tế này, các hệ thống HAR có thể thu được những hiểu biết có ý nghĩa từ các chuyển động của cơ thể.
Để đạt được điều này, nhận dạng hành động của con người kết hợp nhiều công nghệ như học máy, mô hình học sâu, thị giác máy tính và xử lý ảnh, phối hợp với nhau để phân tích chuyển động cơ thể và giải thích hành động của con người với độ chính xác cao hơn.
Hình 1. Nhận dạng hoạt động của con người liên quan đến các nhánh khác nhau của khoa học máy tính (Nguồn)
Các hệ thống HAR trước đây bị giới hạn hơn nhiều. Chúng chỉ có thể xử lý một vài hành động đơn giản, lặp đi lặp lại trong môi trường được kiểm soát và thường gặp khó khăn trong các tình huống thực tế.
Ngày nay, nhờ AI và lượng lớn dữ liệu video, HAR đã tiến bộ đáng kể về độ chính xác và độ mạnh mẽ. Các hệ thống hiện đại có thể nhận ra một loạt các hoạt động với độ chính xác cao hơn nhiều, làm cho công nghệ này trở nên thiết thực cho các lĩnh vực như chăm sóc sức khỏe, an ninh và thiết bị tương tác.
Các phương pháp khác nhau để phát hiện hành động của con người
Bây giờ chúng ta đã hiểu rõ hơn về nhận dạng hành động người là gì, hãy xem xét các cách khác nhau mà máy móc có thể phát hiện hành động của con người.
Dưới đây là một số phương pháp phổ biến:
Phương pháp dựa trên cảm biến: Các thiết bị thông minh như máy đo gia tốc, thiết bị đeo và điện thoại thông minh có thể thu thập tín hiệu trực tiếp từ cơ thể người. Chúng có thể hiển thị các kiểu chuyển động như đi bộ, chạy hoặc thậm chí đứng yên. Bộ đếm bước trên đồng hồ thông minh là một ví dụ điển hình về phương pháp này.
Các phương pháp dựa trên thị giác: Máy ảnh kết hợp với thị giác máy tính phân tích hình ảnh và video để theo dõi hình dáng và chuyển động của cơ thể theo từng khung hình. Điều này cho phép nhận dạng các hoạt động phức tạp hơn. TV điều khiển bằng cử chỉ hoặc hệ thống trò chơi dựa vào phương pháp này.
Phương pháp đa phương thức (Multimodal methods): Đây là sự kết hợp của các cảm biến và camera để tạo ra một hệ thống đáng tin cậy hơn, vì một nguồn có thể xác nhận những gì nguồn kia phát hiện. Ví dụ: một thiết bị đeo có thể ghi lại chuyển động trong khi camera xác minh tư thế, một thiết lập thường được sử dụng để phát hiện ngã cho người già.
Vai trò của bộ dữ liệu trong nhận dạng hoạt động của con người
Đối với bất kỳ mô hình hoặc hệ thống HAR nào, bộ dữ liệu (datasets) là điểm khởi đầu. Một bộ dữ liệu HAR là một tập hợp các ví dụ, chẳng hạn như video clip, hình ảnh hoặc dữ liệu cảm biến, ghi lại các hành động như đi bộ, ngồi hoặc vẫy tay. Các ví dụ này được sử dụng để huấn luyện các mô hình AI nhận dạng các mẫu trong chuyển động của con người, sau đó có thể được áp dụng trong các ứng dụng thực tế.
Chất lượng của dữ liệu huấn luyện ảnh hưởng trực tiếp đến hiệu suất của mô hình. Dữ liệu sạch và nhất quán giúp hệ thống nhận dạng các hành động một cách chính xác dễ dàng hơn.
Đó là lý do tại sao các tập dữ liệu thường được tiền xử lý trước khi huấn luyện. Một bước phổ biến là chuẩn hóa (normalization), giúp điều chỉnh các giá trị một cách nhất quán để giảm lỗi và ngăn ngừa tình trạng overfitting (khi một mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng gặp khó khăn với dữ liệu mới).
Để đo lường hiệu suất của các mô hình ngoài quá trình huấn luyện, các nhà nghiên cứu dựa vào các số liệu đánh giá và bộ dữ liệu chuẩn cho phép kiểm tra và so sánh công bằng. Các bộ sưu tập phổ biến như UCF101, HMDB51 và Kinetics bao gồm hàng nghìn video clip được gắn nhãn để phát hiện hành động của con người. Về phía cảm biến, các bộ dữ liệu thu thập từ điện thoại thông minh và thiết bị đeo cung cấp các tín hiệu chuyển động có giá trị, giúp các mô hình nhận dạng trở nên mạnh mẽ hơn trong các môi trường khác nhau.
Hình 2. Cái nhìn thoáng qua về bộ dữ liệu nhận dạng hoạt động của con người. (Nguồn)
Thị giác máy tính hỗ trợ nhận dạng hoạt động của con người như thế nào
Trong số các phương pháp khác nhau để phát hiện hành động của con người, thị giác máy tính đã nhanh chóng trở thành một trong những phương pháp phổ biến và được nghiên cứu rộng rãi nhất. Ưu điểm chính của nó là khả năng thu thập các chi tiết phong phú trực tiếp từ hình ảnh và video. Bằng cách xem xét các pixel theo từng khung hình và phân tích các kiểu chuyển động, nó có thể nhận dạng các hoạt động trong thời gian thực mà không cần mọi người phải đeo thêm thiết bị.
Những tiến bộ gần đây trong học sâu, đặc biệt là mạng nơ-ron tích chập (CNN), được thiết kế để phân tích hình ảnh, đã giúp thị giác máy tính nhanh hơn, chính xác hơn và đáng tin cậy hơn.
Ví dụ: các mô hình thị giác máy tính hiện đại được sử dụng rộng rãi như Ultralytics YOLO11 được xây dựng dựa trên những tiến bộ này. YOLO11 hỗ trợ các tác vụ như phát hiện đối tượng, phân đoạn thể hiện, theo dõi người qua các khung hình video và ước tính tư thế người, khiến nó trở thành một công cụ tuyệt vời để nhận dạng hoạt động của con người.
Tổng quan về Ultralytics YOLO11
Ultralytics YOLO11 là một mô hình Vision AI được thiết kế để đạt tốc độ và độ chính xác cao. Nó hỗ trợ các tác vụ thị giác máy tính cốt lõi như phát hiện đối tượng, theo dõi đối tượng và ước tính tư thế. Những khả năng này đặc biệt hữu ích cho việc nhận dạng hoạt động của con người.
Phát hiện đối tượng xác định và định vị người trong một khung cảnh, theo dõi các chuyển động của họ trên các khung hình video để nhận dạng các chuỗi hành động và ước tính tư thế ánh xạ các khớp cơ thể chính của con người để phân biệt giữa các hoạt động tương tự hoặc phát hiện những thay đổi đột ngột như té ngã.
Ví dụ: thông tin chi tiết từ mô hình có thể được sử dụng để phân biệt giữa một người đang ngồi yên lặng, sau đó đứng dậy và cuối cùng giơ tay lên để cổ vũ. Những hành động đơn giản hàng ngày này có vẻ tương tự nhau khi nhìn thoáng qua, nhưng mang những ý nghĩa rất khác nhau khi được phân tích theo trình tự.
Hình 3. Sử dụng Ultralytics YOLO11 để ước tính tư thế. (Nguồn)
Ứng dụng thực tế của thị giác máy tính và HAR
Tiếp theo, hãy xem xét kỹ hơn về cách nhận dạng hoạt động của con người được hỗ trợ bởi thị giác máy tính được áp dụng trong các trường hợp sử dụng thực tế, tác động đến cuộc sống hàng ngày của chúng ta.
Chăm sóc sức khỏe và phúc lợi
Trong lĩnh vực chăm sóc sức khỏe, những thay đổi nhỏ trong cử động có thể cung cấp những thông tin hữu ích về tình trạng của một người. Ví dụ, một cú vấp của bệnh nhân lớn tuổi hoặc góc độ của một chi trong quá trình phục hồi chức năng có thể cho thấy các rủi ro hoặc tiến triển. Những dấu hiệu này thường dễ bị bỏ qua bằng các phương pháp truyền thống, như kiểm tra sức khỏe.
YOLO11 có thể hỗ trợ bằng cách sử dụng ước tính dáng điệu (pose estimation) và phân tích hình ảnh để theo dõi bệnh nhân trong thời gian thực. Nó có thể được sử dụng để phát hiện té ngã, theo dõi các bài tập phục hồi và quan sát các hoạt động hàng ngày như đi bộ hoặc kéo giãn cơ thể. Vì nó hoạt động thông qua phân tích trực quan mà không cần cảm biến hoặc thiết bị đeo, nên nó cung cấp một cách đơn giản để thu thập thông tin chính xác, hỗ trợ việc chăm sóc bệnh nhân.
Hình 4. Theo dõi chuyển động cơ thể bằng cách sử dụng tính năng ước tính tư thế của YOLO11. (Nguồn)
An ninh và giám sát
Các hệ thống an ninh dựa vào việc phát hiện nhanh chóng các hoạt động bất thường của con người, chẳng hạn như ai đó lảng vảng, chạy trong khu vực hạn chế hoặc thể hiện sự hung hăng đột ngột. Những dấu hiệu này thường bị bỏ qua trong môi trường bận rộn, nơi nhân viên bảo vệ không thể tự theo dõi mọi thứ. Đó là nơi thị giác máy tính và YOLO11 phát huy tác dụng.
YOLO11 giúp việc giám sát an ninh trở nên dễ dàng hơn bằng cách hỗ trợ giám sát video theo thời gian thực, có thể phát hiện các chuyển động đáng ngờ và gửi cảnh báo ngay lập tức. Nó hỗ trợ an toàn đám đông ở những nơi công cộng và tăng cường phát hiện xâm nhập ở các khu vực riêng tư.
Với cách tiếp cận này, nhân viên an ninh có thể làm việc song song với các hệ thống thị giác máy tính, tạo ra sự tương tác và hợp tác giữa người và máy tính, cho phép phản ứng nhanh chóng và kịp thời hơn đối với các hoạt động đáng ngờ.
Ưu và nhược điểm của việc sử dụng thị giác máy tính cho HAR
Dưới đây là một số ưu điểm của việc sử dụng thị giác máy tính để nhận dạng hoạt động của con người:
Khả năng mở rộng: Sau khi thiết lập, cùng một hệ thống nhận dạng có thể tự động theo dõi nhiều người cùng một lúc, làm cho nó hữu ích cho tự động hóa trong các cơ sở chăm sóc sức khỏe, nhà máy và không gian công cộng.
Xử lý theo thời gian thực:Các giải pháp Vision AI có thể được sử dụng để phân tích các luồng video khi chúng diễn ra, cho phép phản hồi nhanh hơn.
Non-invasive tracking (Theo dõi không xâm lấn): Không giống như thiết bị đeo hoặc cảm biến, nó không yêu cầu mọi người mang theo thiết bị, cho phép phân tích hành vi tự nhiên và dễ dàng.
Mặc dù có nhiều lợi ích khi sử dụng computer vision (thị giác máy tính) cho HAR, nhưng cũng có những hạn chế cần xem xét. Dưới đây là một số yếu tố cần lưu ý:
Các lo ngại về quyền riêng tư: Việc giám sát bằng video có thể làm dấy lên các vấn đề về bảo vệ dữ liệu và sự đồng ý, đặc biệt là trong các môi trường nhạy cảm như nhà ở hoặc nơi làm việc.
Sai lệch tiềm ẩn: Nếu bộ dữ liệu huấn luyện thiếu tính đa dạng, các thuật toán có thể hiểu sai hành động đối với một số nhóm người nhất định, dẫn đến kết quả không công bằng hoặc không chính xác.
Độ nhạy môi trường: Độ chính xác có thể giảm do ánh sáng kém, nền lộn xộn hoặc người bị che khuất một phần, điều đó có nghĩa là hệ thống cần được thiết kế cẩn thận.
Những điều cần nhớ
Trí tuệ nhân tạo và thị giác máy tính đang giúp máy móc nhận diện hành động của con người chính xác hơn và theo thời gian thực. Bằng cách phân tích các khung hình video và các kiểu chuyển động, các hệ thống này có thể xác định cả những cử chỉ hàng ngày và những thay đổi đột ngột. Khi công nghệ tiếp tục được cải thiện, việc nhận dạng hành vi của con người đang vượt ra khỏi các phòng thí nghiệm nghiên cứu và trở thành một công cụ thiết thực cho chăm sóc sức khỏe, an ninh và các ứng dụng hàng ngày.