Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Thị giác AI

Liệu AI có thể phát hiện hành động của con người? Khám phá nhận dạng hoạt động

Từ các ứng dụng thể dục đến giám sát bệnh nhân, khám phá cách computer vision giải quyết câu hỏi: liệu AI có thể phát hiện hành động của con người trong môi trường thực tế không?

ABAbirami Vina
6 min read
AI phát hiện hành động của con người thông qua nhận dạng hoạt động

Cuộc sống hàng ngày chứa đầy những chuyển động nhỏ mà chúng ta hiếm khi dừng lại để suy nghĩ. Đi bộ qua phòng, ngồi tại bàn làm việc, hoặc vẫy tay chào một người bạn có thể cảm thấy dễ dàng, nhưng việc phát hiện chúng bằng AI lại phức tạp hơn nhiều. Những điều vốn tự nhiên đối với con người lại trở nên phức tạp hơn nhiều khi máy móc cố gắng hiểu được chúng.

Khả năng này được gọi là nhận diện hoạt động con người (HAR), và nó cho phép máy tính phát hiện và diễn giải các khuôn mẫu trong hành vi con người. Một ứng dụng thể dục là ví dụ điển hình về HAR trong thực tế. Bằng cách theo dõi số bước chân và lịch trình tập luyện, nó cho thấy cách AI có thể giám sát các hoạt động hàng ngày.

Nhận thấy tiềm năng của HAR, nhiều ngành công nghiệp đã bắt đầu áp dụng công nghệ này. Trên thực tế, thị trường nhận diện hành động con người dự kiến sẽ đạt hơn 12,56 tỷ USD vào năm 2033.

Một phần quan trọng của sự tiến bộ này được thúc đẩy bởi computer vision, một nhánh của AI cho phép máy móc phân tích dữ liệu trực quan, chẳng hạn như hình ảnh và video. Với computer vision và nhận diện hình ảnh, HAR đã phát triển từ một khái niệm nghiên cứu thành một phần thiết thực và thú vị của các ứng dụng AI tiên tiến.

Trong bài viết này, chúng ta sẽ khám phá HAR là gì, các phương pháp khác nhau được sử dụng để nhận diện hành động con người, và cách computer vision giúp trả lời câu hỏi: Liệu AI có thể phát hiện các hành động của con người trong các ứng dụng thực tế? Hãy cùng bắt đầu!

Link to this sectionNhận diện hành động con người là gì?#

Nhận diện hành động con người giúp các hệ thống máy tính hiểu được các hoạt động hoặc hành động của con người bằng cách phân tích các chuyển động của cơ thể. Không giống như việc chỉ đơn thuần detecting một người trong hình ảnh, HAR có thể hỗ trợ xác định xem người đó đang làm gì. Ví dụ, phân biệt giữa đi bộ và chạy, nhận diện một cái vẫy tay, hoặc chú ý khi ai đó bị ngã.

Nền tảng của HAR nằm ở các khuôn mẫu chuyển động và tư thế. Một sự thay đổi nhỏ trong cách đặt tay hoặc chân của con người có thể báo hiệu nhiều hành động khác nhau. Bằng cách nắm bắt và diễn giải những chi tiết tinh tế này, các hệ thống HAR có thể thu được những thông tin có ý nghĩa từ các chuyển động cơ thể.

Để đạt được điều này, nhận diện hành động con người kết hợp nhiều công nghệ như machine learning, deep learning models, computer vision, và image processing, hoạt động cùng nhau để phân tích các chuyển động cơ thể và diễn giải các hành động của con người với độ chính xác cao hơn.

Nhận diện hành động của con người bao gồm các nhánh khác nhau của khoa học máy tính

Hình 1. Nhận diện hoạt động con người liên quan đến các ngành khoa học máy tính khác nhau (Nguồn: cell.com)

Các hệ thống HAR trước đây còn hạn chế hơn nhiều. Chúng chỉ có thể xử lý một vài hành động đơn giản, lặp đi lặp lại trong các môi trường được kiểm soát và thường gặp khó khăn trong các tình huống thực tế.

Ngày nay, nhờ vào AI và lượng dữ liệu video khổng lồ, HAR đã tiến bộ đáng kể về cả độ chính xác và tính mạnh mẽ. Các hệ thống hiện đại có thể nhận diện nhiều hoạt động với độ chính xác cao hơn nhiều, giúp công nghệ này trở nên thực tế cho các lĩnh vực như chăm sóc sức khỏe, bảo mật và các thiết bị tương tác.

Link to this sectionCác phương pháp khác nhau để phát hiện hành động con người#

Bây giờ chúng ta đã hiểu rõ hơn về nhận diện hành động con người, hãy cùng xem xét các phương pháp khác nhau mà máy móc có thể dùng để phát hiện hành động của con người.

Dưới đây là một số phương pháp phổ biến:

  • Phương pháp dựa trên cảm biến: Các thiết bị thông minh như gia tốc kế, thiết bị đeo và điện thoại thông minh có thể nắm bắt tín hiệu trực tiếp từ cơ thể con người. Chúng có thể hiển thị các khuôn mẫu chuyển động như đi bộ, chạy hoặc thậm chí là đứng yên. Một bộ đếm bước chân trên đồng hồ thông minh là một ví dụ tuyệt vời về phương pháp này.
  • Phương pháp dựa trên tầm nhìn: Các camera kết hợp với computer vision phân tích hình ảnh và video để theo dõi cách cơ thể trông và di chuyển theo từng khung hình. Điều này cho phép nhận diện các hoạt động phức tạp hơn. TV điều khiển bằng cử chỉ hoặc hệ thống chơi game dựa vào phương pháp này.
  • Phương pháp đa phương thức: Đây là sự kết hợp giữa cảm biến và camera tạo ra một hệ thống đáng tin cậy hơn, vì một nguồn có thể xác nhận những gì nguồn kia phát hiện. Ví dụ, một thiết bị đeo có thể ghi lại chuyển động trong khi camera xác minh tư thế, một thiết lập thường được sử dụng trong việc phát hiện té ngã cho người già.

Link to this sectionVai trò của các tập dữ liệu trong nhận diện hoạt động con người#

Đối với bất kỳ model hoặc hệ thống HAR nào, datasets đều là điểm khởi đầu. Tập dữ liệu HAR là một tập hợp các ví dụ, như clip video, hình ảnh hoặc dữ liệu cảm biến, ghi lại các hành động như đi bộ, ngồi hoặc vẫy tay. Những ví dụ này được sử dụng để huấn luyện các model AI nhận diện các khuôn mẫu trong chuyển động của con người, sau đó có thể được áp dụng trong các ứng dụng thực tế.

Chất lượng của dữ liệu huấn luyện ảnh hưởng trực tiếp đến hiệu suất của model. Dữ liệu sạch, nhất quán giúp hệ thống nhận diện các hành động chính xác hơn.

Đó là lý do tại sao các tập dữ liệu thường được tiền xử lý trước khi huấn luyện. Một bước phổ biến là chuẩn hóa (normalization), giúp điều chỉnh các giá trị một cách nhất quán để giảm sai số và ngăn chặn overfitting (khi một model hoạt động tốt trên dữ liệu huấn luyện nhưng gặp khó khăn với dữ liệu mới).

Để đo lường hiệu suất của các model ngoài việc huấn luyện, các nhà nghiên cứu dựa vào các chỉ số đánh giá và tập dữ liệu benchmark cho phép kiểm thử và so sánh công bằng. Các bộ sưu tập phổ biến như UCF101, HMDB51 và Kinetics bao gồm hàng nghìn clip video được gán nhãn để phát hiện hành động con người. Về phía cảm biến, các tập dữ liệu được thu thập từ điện thoại thông minh và thiết bị đeo cung cấp các tín hiệu chuyển động có giá trị giúp các model nhận diện trở nên mạnh mẽ hơn trong các môi trường khác nhau.

Cái nhìn sơ lược về một tập dữ liệu nhận diện hành động của con người

Hình 2. Một cái nhìn thoáng qua về tập dữ liệu nhận diện hoạt động con người. (Source)

Link to this sectionComputer vision hỗ trợ nhận diện hoạt động con người như thế nào#

Trong số các cách khác nhau để phát hiện hành động con người, computer vision đã nhanh chóng trở thành một trong những phương pháp phổ biến và được nghiên cứu rộng rãi nhất. Lợi thế chính của nó là khả năng trích xuất các chi tiết phong phú trực tiếp từ hình ảnh và video. Bằng cách quan sát các pixel theo từng khung hình và phân tích các khuôn mẫu chuyển động, nó có thể nhận diện các hoạt động theo thời gian thực mà không cần con người phải đeo thêm các thiết bị phụ trợ.

Sự tiến bộ gần đây trong deep learning, đặc biệt là các convolutional neural networks (CNNs) được thiết kế để phân tích hình ảnh, đã giúp computer vision trở nên nhanh hơn, chính xác hơn và đáng tin cậy hơn.

Ví dụ, các model computer vision hiện đại và phổ biến như Ultralytics YOLO11 được xây dựng dựa trên những tiến bộ này. YOLO11 hỗ trợ các tác vụ như object detection, instance segmentation, theo dõi người qua các khung hình video và ước tính tư thế con người (pose estimation), khiến nó trở thành một công cụ tuyệt vời cho việc nhận diện hoạt động con người.

Link to this sectionTổng quan về Ultralytics YOLO11#

Ultralytics YOLO11 là một model vision AI được thiết kế cho cả tốc độ và độ chính xác. Nó hỗ trợ các tác vụ computer vision cốt lõi như object detection, object tracking, và pose estimation. Những khả năng này đặc biệt hữu ích cho nhận diện hoạt động con người.

Object detection xác định và định vị mọi người trong một cảnh, việc theo dõi (tracking) các chuyển động của họ qua các khung hình video để nhận diện các chuỗi hành động, và pose estimation ánh xạ các khớp cơ thể người quan trọng để phân biệt giữa các hoạt động tương tự hoặc phát hiện các thay đổi đột ngột như té ngã.

Ví dụ, các thông tin chi tiết từ model có thể được sử dụng để phân biệt giữa một người đang ngồi yên lặng, sau đó đứng dậy và cuối cùng giơ tay lên để cổ vũ. Những hành động hàng ngày đơn giản này có thể trông giống nhau trong nháy mắt, nhưng mang những ý nghĩa rất khác nhau khi được phân tích theo trình tự.

Sử dụng Ultralytics YOLO11 để ước tính tư thế

Hình 3. Sử dụng Ultralytics YOLO11 để thực hiện pose estimation. (Source)

Link to this sectionCác ứng dụng thực tế của computer vision và HAR#

Tiếp theo, hãy cùng xem xét kỹ hơn cách nhận diện hoạt động con người được cung cấp bởi computer vision được áp dụng trong các trường hợp sử dụng thực tế ảnh hưởng đến cuộc sống hàng ngày của chúng ta.

Link to this sectionChăm sóc sức khỏe và phúc lợi#

Trong healthcare, những thay đổi nhỏ trong chuyển động có thể cung cấp thông tin hữu ích về tình trạng của một người. Ví dụ, một cú vấp ngã của một bệnh nhân cao tuổi hoặc góc của một chi trong quá trình phục hồi chức năng có thể tiết lộ các rủi ro hoặc sự tiến triển. Những dấu hiệu này thường dễ bị bỏ sót bởi các phương pháp truyền thống, như kiểm tra sức khỏe.

YOLO11 có thể hỗ trợ bằng cách sử dụng pose estimation và phân tích hình ảnh để giám sát bệnh nhân theo thời gian thực. Nó có thể được sử dụng để phát hiện té ngã, theo dõi các bài tập phục hồi và quan sát các hoạt động hàng ngày như đi bộ hoặc giãn cơ. Vì nó hoạt động thông qua phân tích trực quan mà không cần cảm biến hoặc thiết bị đeo, nó cung cấp một cách đơn giản để thu thập thông tin chính xác hỗ trợ việc chăm sóc bệnh nhân.

Theo dõi chuyển động cơ thể bằng ước tính tư thế YOLO11

Hình 4. Theo dõi các chuyển động cơ thể bằng sự hỗ trợ của YOLO11 cho pose estimation. (Source)

Link to this sectionBảo mật và giám sát#

Các hệ thống bảo mật dựa vào việc phát hiện nhanh các hoạt động bất thường của con người, chẳng hạn như ai đó đang lảng vảng, chạy trong khu vực hạn chế hoặc thể hiện sự gây hấn đột ngột. Những dấu hiệu này thường bị bỏ sót trong các môi trường bận rộn nơi nhân viên bảo vệ không thể quan sát thủ công mọi thứ. Đó là lúc computer vision và YOLO11 phát huy tác dụng.

YOLO11 giúp cho security monitoring trở nên dễ dàng hơn bằng cách cung cấp giám sát video thời gian thực có thể phát hiện các chuyển động đáng ngờ và gửi cảnh báo tức thì. Nó hỗ trợ sự an toàn cho đám đông ở các không gian công cộng và tăng cường phát hiện xâm nhập trong các khu vực riêng tư.

Với phương pháp này, nhân viên bảo vệ có thể làm việc cùng với các hệ thống computer vision, tạo ra sự tương tác và quan hệ đối tác giữa người và máy, cho phép phản ứng nhanh chóng và kịp thời hơn với các hoạt động đáng ngờ.

Link to this sectionƯu điểm và nhược điểm của việc sử dụng computer vision cho HAR#

Dưới đây là một số ưu điểm của việc sử dụng computer vision để nhận diện hoạt động con người:

  • Khả năng mở rộng (Scalability): Sau khi được thiết lập, cùng một hệ thống nhận diện có thể tự động giám sát nhiều người cùng lúc, giúp nó hữu ích cho việc tự động hóa trong các cơ sở y tế, nhà máy và không gian công cộng.
  • Xử lý thời gian thực: Các Vision AI solutions có thể được sử dụng để phân tích các luồng video ngay khi chúng diễn ra, cho phép các phản ứng nhanh hơn.
  • Theo dõi không xâm lấn: Không giống như các thiết bị đeo hoặc cảm biến, nó không yêu cầu mọi người phải mang theo thiết bị, cho phép phân tích hành vi một cách tự nhiên và dễ dàng.

Mặc dù có nhiều lợi ích khi sử dụng computer vision cho HAR, cũng có những hạn chế cần xem xét. Dưới đây là một số yếu tố cần ghi nhớ:

  • Mối quan ngại về quyền riêng tư: Giám sát dựa trên video có thể làm dấy lên các vấn đề về bảo vệ dữ liệu và sự đồng ý, đặc biệt là trong các môi trường nhạy cảm như gia đình hoặc nơi làm việc.
  • Tiềm ẩn sai lệch (Bias): Nếu các tập dữ liệu huấn luyện thiếu sự đa dạng, các thuật toán có thể hiểu sai hành động đối với một số nhóm người nhất định, dẫn đến kết quả không công bằng hoặc không chính xác.
  • Độ nhạy môi trường: Độ chính xác có thể giảm do điều kiện ánh sáng kém, nền lộn xộn, hoặc mọi người bị che khuất một phần, nghĩa là các hệ thống cần được thiết kế cẩn thận.

Link to this sectionCác điểm chính cần lưu ý#

Trí tuệ nhân tạo và computer vision đang làm cho máy móc có thể nhận diện các hành động của con người một cách chính xác hơn và theo thời gian thực. Bằng cách phân tích các khung hình video và khuôn mẫu chuyển động, các hệ thống này có thể nhận diện cả những cử chỉ hàng ngày và những thay đổi đột ngột. Khi công nghệ tiếp tục cải thiện, nhận diện hoạt động con người đang vượt ra khỏi các phòng thí nghiệm nghiên cứu và trở thành một công cụ thiết thực cho chăm sóc sức khỏe, bảo mật và các ứng dụng hàng ngày.

Khám phá thêm về AI bằng cách ghé thăm GitHub repository của chúng tôi và tham gia cộng đồng của chúng tôi. Xem qua các trang giải pháp của chúng tôi để tìm hiểu về AI in roboticscomputer vision in manufacturing. Khám phá các tùy chọn cấp phép của chúng tôi để bắt đầu với vision AI.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning