Khám phá Nhận dạng hành động (Nhận dạng hoạt động của con người): cách thức video, ước tính tư thế và học sâu detect hành động của con người đối với chăm sóc sức khỏe, an ninh và thể thao.
Nhận dạng Hành động, thường được gọi là Nhận dạng Hoạt động của Con người (HAR), là một tập hợp con chuyên biệt của Thị giác Máy tính (CV) tập trung vào việc xác định và phân loại các chuyển động hoặc hành vi cụ thể trong dữ liệu video. Không giống như nhận dạng hình ảnh tiêu chuẩn, vốn phân tích các khung hình tĩnh để detect Nhận dạng hành động kết hợp yếu tố thời gian để hiểu các sự kiện động. Bằng cách xử lý chuỗi hình ảnh, hệ thống Trí tuệ Nhân tạo (AI) có thể phân biệt các hành động như đi bộ, chạy, vẫy tay hoặc ngã. Khả năng này rất cần thiết để tạo ra các hệ thống có thể diễn giải hành vi của con người trong môi trường thực tế, thu hẹp khoảng cách giữa việc nhìn thấy điểm ảnh và hiểu được ý định.
Để nhận dạng chính xác các hành động, các mô hình Học sâu (DL) phải trích xuất hai loại đặc điểm: không gian và thời gian. Đặc điểm không gian mô tả hình ảnh trực quan của một cảnh, chẳng hạn như sự hiện diện của một người hoặc vật thể, thường được trích xuất thông qua Mạng nơ-ron tích chập (CNN) . Đặc điểm thời gian mô tả cách các yếu tố không gian này thay đổi theo thời gian.
Các phương pháp tiếp cận hiện đại thường sử dụng một đường ống bao gồm:
Sau đây là Python ví dụ minh họa cách sử dụng ultralytics thư viện để trích xuất các điểm chính của tư thế từ video, đóng vai trò là lớp dữ liệu nền tảng cho nhiều hệ thống nhận dạng hành động.
from ultralytics import YOLO
# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")
# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)
for result in results:
# Keypoints can be analyzed over time to determine actions
keypoints = result.keypoints.xyn # Normalized x, y coordinates
print(keypoints)
Khả năng tự động hóa việc diễn giải chuyển động của con người đã thúc đẩy việc áp dụng rộng rãi trong nhiều lĩnh vực. Thị trường nhận dạng hoạt động của con người trên toàn cầu tiếp tục mở rộng khi các ngành công nghiệp tìm cách số hóa quy trình làm việc vật lý.
Trong lĩnh vực AI chăm sóc sức khỏe , nhận dạng hành động rất quan trọng để theo dõi bệnh nhân tự động. Hệ thống có thể được đào tạo để detect té ngã trong bệnh viện hoặc các cơ sở hỗ trợ sinh hoạt, kích hoạt cảnh báo ngay lập tức cho nhân viên. Hơn nữa, thị giác máy tính hỗ trợ phục hồi chức năng vật lý từ xa bằng cách phân tích hình thức tập luyện của bệnh nhân theo thời gian thực, đảm bảo họ thực hiện đúng các động tác để hỗ trợ phục hồi và ngăn ngừa chấn thương.
Các huấn luyện viên và phát thanh viên sử dụng AI trong thể thao để phân tích hiệu suất của vận động viên. Các thuật toán nhận dạng hành động có thể tự động gắn thẻ các sự kiện trong cảnh quay trận đấu—chẳng hạn như cú ném bóng rổ, cú giao bóng tennis hoặc đường chuyền bóng đá—cho phép phân tích thống kê chi tiết. Dữ liệu này giúp tinh chỉnh kỹ thuật và phát triển chiến lược dựa trên các kiểu di chuyển của cầu thủ .
Hệ thống an ninh đã phát triển vượt xa khả năng phát hiện chuyển động đơn thuần. Giám sát an ninh tiên tiến sử dụng nhận dạng hành động để xác định các hành vi đáng ngờ, chẳng hạn như đánh nhau, tụ tập hoặc trộm cắp vặt, đồng thời bỏ qua các chuyển động vô hại. Điều này giúp giảm thiểu báo động giả và cải thiện hiệu quả làm việc của nhân viên an ninh.
Điều quan trọng là phải phân biệt Nhận dạng hành động với các thuật ngữ tương tự trong lĩnh vực thị giác máy tính để chọn đúng công cụ cho công việc.
Việc triển khai các hệ thống này đặt ra nhiều thách thức, bao gồm nhu cầu về lượng lớn dữ liệu đào tạo được gắn nhãn và chi phí tính toán xử lý video. Các tập dữ liệu chuẩn như Kinetics-400 và UCF101 là tiêu chuẩn để đào tạo và đánh giá các mô hình.
Khi phần cứng được cải thiện, xu hướng chuyển dịch sang Edge AI (Trí tuệ nhân tạo biên), cho phép các mô hình chạy trực tiếp trên camera hoặc thiết bị di động. Điều này cho phép suy luận thời gian thực với độ trễ thấp hơn và bảo mật tốt hơn, vì dữ liệu video không cần phải được gửi lên đám mây. Các phát triển trong tương lai, bao gồm YOLO26 sắp ra mắt, nhằm mục đích tối ưu hóa hơn nữa tốc độ và độ chính xác của các công cụ phát hiện và ước tính tư thế cơ bản, hỗ trợ các tác vụ nhận dạng phức tạp này.