Khám phá Nhận dạng hành động (Nhận dạng hoạt động của con người): cách thức video, ước tính tư thế và học sâu detect hành động của con người đối với chăm sóc sức khỏe, an ninh và thể thao.
Nhận dạng hành động, thường được gọi là Nhận dạng hoạt động con người (HAR), là một nhánh chuyên biệt của Thị giác máy tính (CV) tập trung vào việc xác định và phân loại các chuyển động hoặc hành vi cụ thể trong dữ liệu video. Trong khi nhận dạng hình ảnh tiêu chuẩn phân tích các khung hình tĩnh để detect Nhận dạng hành động và đối tượng kết hợp chiều thứ tư—thời gian—để diễn giải các sự kiện động. Bằng cách xử lý chuỗi khung hình , các hệ thống Trí tuệ Nhân tạo (AI) tiên tiến có thể phân biệt giữa các hành vi phức tạp như đi bộ, vẫy tay, ngã hoặc thực hiện một kỹ thuật thể thao cụ thể. Khả năng này rất cần thiết để tạo ra các hệ thống thông minh có thể hiểu ý định của con người và tương tác an toàn trong môi trường thực tế.
Để nhận diện chính xác các hành động, các mô hình Học sâu (Deep Learning - DL) phải trích xuất và tổng hợp hai loại đặc trưng chính: không gian và thời gian. Đặc trưng không gian nắm bắt hình ảnh trực quan của khung cảnh, chẳng hạn như sự hiện diện của một người hoặc vật thể, thường sử dụng Mạng thần kinh tích chập (Convolutional Neural Networks - CNN) . Đặc trưng thời gian mô tả cách các yếu tố này thay đổi theo thời gian, cung cấp ngữ cảnh cần thiết để phân biệt hành động "ngồi xuống" với hành động "đứng dậy".
Các phương pháp hiện đại thường sử dụng quy trình nhiều giai đoạn để đạt được độ chính xác cao:
Khả năng tự động hóa việc diễn giải chuyển động của con người đã thúc đẩy việc ứng dụng rộng rãi trong nhiều ngành công nghiệp khác nhau. Thị trường nhận dạng hoạt động của con người toàn cầu tiếp tục mở rộng khi các doanh nghiệp tìm cách số hóa quy trình làm việc vật lý và tăng cường an toàn.
Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong chăm sóc sức khỏe , nhận dạng hành động là yếu tố quan trọng đối với việc giám sát bệnh nhân tự động. Các hệ thống có thể được huấn luyện để... detect Các trường hợp té ngã trong bệnh viện hoặc các cơ sở chăm sóc người cao tuổi, sẽ kích hoạt cảnh báo ngay lập tức cho nhân viên điều dưỡng. Hơn nữa, thị giác máy tính hỗ trợ phục hồi chức năng từ xa bằng cách phân tích tư thế tập luyện của bệnh nhân trong thời gian thực, đảm bảo họ thực hiện các động tác chính xác để hỗ trợ phục hồi và ngăn ngừa chấn thương.
Các huấn luyện viên và nhà bình luận thể thao sử dụng trí tuệ nhân tạo (AI) để phân tích hiệu suất của vận động viên. Các thuật toán nhận dạng hành động có thể tự động gắn thẻ các sự kiện trong đoạn phim trận đấu—chẳng hạn như cú ném bóng rổ, cú giao bóng tennis hoặc đường chuyền bóng đá—cho phép phân tích thống kê chi tiết. Dữ liệu này giúp hoàn thiện kỹ thuật và phát triển chiến lược dựa trên các mô hình chuyển động cụ thể của người chơi .
Điều quan trọng là phải phân biệt Nhận dạng hành động với các thuật ngữ tương tự trong lĩnh vực thị giác máy tính để chọn đúng công cụ cho công việc.
Một bước cơ bản trong nhiều quy trình nhận dạng hành động là trích xuất dữ liệu khung xương. Tiếp theo Python Ví dụ này minh họa cách sử dụng ultralytics thư viện với
YOLO26 để trích xuất các điểm mấu chốt của tư thế, đóng vai trò là lớp dữ liệu nền tảng cho việc phân loại hành động tiếp theo.
from ultralytics import YOLO
# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")
for result in results:
# Keypoints (x, y, visibility) used for downstream action analysis
if result.keypoints is not None:
print(f"Keypoints shape: {result.keypoints.data.shape}")
Việc triển khai các hệ thống này đặt ra nhiều thách thức, bao gồm nhu cầu về lượng lớn dữ liệu huấn luyện được gắn nhãn và chi phí tính toán để xử lý video. Các bộ dữ liệu chuẩn như Kinetics-400 là tiêu chuẩn để đánh giá hiệu suất của mô hình.
Khi phần cứng được cải tiến, xu hướng đang chuyển dịch sang Trí tuệ nhân tạo biên (Edge AI) , cho phép các mô hình chạy trực tiếp trên camera hoặc thiết bị di động. Điều này cho phép suy luận thời gian thực với độ trễ thấp hơn và quyền riêng tư tốt hơn, vì dữ liệu video không cần phải được gửi lên đám mây. Các phát triển trong tương lai hướng đến việc tối ưu hóa hơn nữa tốc độ và độ chính xác của các công cụ phát hiện và ước tính tư thế cơ bản, vốn là nền tảng cho các tác vụ nhận dạng phức tạp này.