Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nhận dạng hành động

Khám phá Nhận dạng hành động (Nhận dạng hoạt động của con người): cách thức video, ước tính tư thế và học sâu detect hành động của con người đối với chăm sóc sức khỏe, an ninh và thể thao.

Nhận dạng Hành động, thường được gọi là Nhận dạng Hoạt động của Con người (HAR), là một tập hợp con chuyên biệt của Thị giác Máy tính (CV) tập trung vào việc xác định và phân loại các chuyển động hoặc hành vi cụ thể trong dữ liệu video. Không giống như nhận dạng hình ảnh tiêu chuẩn, vốn phân tích các khung hình tĩnh để detect Nhận dạng hành động kết hợp yếu tố thời gian để hiểu các sự kiện động. Bằng cách xử lý chuỗi hình ảnh, hệ thống Trí tuệ Nhân tạo (AI) có thể phân biệt các hành động như đi bộ, chạy, vẫy tay hoặc ngã. Khả năng này rất cần thiết để tạo ra các hệ thống có thể diễn giải hành vi của con người trong môi trường thực tế, thu hẹp khoảng cách giữa việc nhìn thấy điểm ảnh và hiểu được ý định.

Cơ chế cốt lõi của nhận dạng hành động

Để nhận dạng chính xác các hành động, các mô hình Học sâu (DL) phải trích xuất hai loại đặc điểm: không gian và thời gian. Đặc điểm không gian mô tả hình ảnh trực quan của một cảnh, chẳng hạn như sự hiện diện của một người hoặc vật thể, thường được trích xuất thông qua Mạng nơ-ron tích chập (CNN) . Đặc điểm thời gian mô tả cách các yếu tố không gian này thay đổi theo thời gian.

Các phương pháp tiếp cận hiện đại thường sử dụng một đường ống bao gồm:

  • Phát hiện đối tượng : Hệ thống định vị hiệu quả các cá nhân trong khung hình. Các mô hình tiên tiến như YOLO11 thường được sử dụng ở đây nhờ tốc độ và độ chính xác cao.
  • Ước lượng tư thế : Kỹ thuật này lập bản đồ cấu trúc xương của cơ thể người, theo dõi các điểm chính như khuỷu tay, đầu gối và vai. Mối quan hệ hình học giữa các điểm này trên một chuỗi khung hình cung cấp một tín hiệu mạnh mẽ để phân loại các hành động.
  • Phân tích thời gian: Chuỗi dữ liệu được xử lý bằng các kiến trúc được thiết kế cho dữ liệu chuỗi thời gian, chẳng hạn như Mạng nơ-ron hồi quy (RNN) hoặc Mạng bộ nhớ dài hạn ngắn hạn (LSTM) . Gần đây, Video Transformers đã trở nên phổ biến nhờ khả năng mô hình hóa các mối quan hệ phụ thuộc tầm xa trong các luồng video.

Sau đây là Python ví dụ minh họa cách sử dụng ultralytics thư viện để trích xuất các điểm chính của tư thế từ video, đóng vai trò là lớp dữ liệu nền tảng cho nhiều hệ thống nhận dạng hành động.

from ultralytics import YOLO

# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")

# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)

for result in results:
    # Keypoints can be analyzed over time to determine actions
    keypoints = result.keypoints.xyn  # Normalized x, y coordinates
    print(keypoints)

Mức độ Liên quan và Ứng dụng Thực tế

Khả năng tự động hóa việc diễn giải chuyển động của con người đã thúc đẩy việc áp dụng rộng rãi trong nhiều lĩnh vực. Thị trường nhận dạng hoạt động của con người trên toàn cầu tiếp tục mở rộng khi các ngành công nghiệp tìm cách số hóa quy trình làm việc vật lý.

Chăm sóc sức khỏe và An toàn bệnh nhân

Trong lĩnh vực AI chăm sóc sức khỏe , nhận dạng hành động rất quan trọng để theo dõi bệnh nhân tự động. Hệ thống có thể được đào tạo để detect té ngã trong bệnh viện hoặc các cơ sở hỗ trợ sinh hoạt, kích hoạt cảnh báo ngay lập tức cho nhân viên. Hơn nữa, thị giác máy tính hỗ trợ phục hồi chức năng vật lý từ xa bằng cách phân tích hình thức tập luyện của bệnh nhân theo thời gian thực, đảm bảo họ thực hiện đúng các động tác để hỗ trợ phục hồi và ngăn ngừa chấn thương.

Phân tích thể thao

Các huấn luyện viên và phát thanh viên sử dụng AI trong thể thao để phân tích hiệu suất của vận động viên. Các thuật toán nhận dạng hành động có thể tự động gắn thẻ các sự kiện trong cảnh quay trận đấu—chẳng hạn như cú ném bóng rổ, cú giao bóng tennis hoặc đường chuyền bóng đá—cho phép phân tích thống kê chi tiết. Dữ liệu này giúp tinh chỉnh kỹ thuật và phát triển chiến lược dựa trên các kiểu di chuyển của cầu thủ .

Giám sát thông minh

Hệ thống an ninh đã phát triển vượt xa khả năng phát hiện chuyển động đơn thuần. Giám sát an ninh tiên tiến sử dụng nhận dạng hành động để xác định các hành vi đáng ngờ, chẳng hạn như đánh nhau, tụ tập hoặc trộm cắp vặt, đồng thời bỏ qua các chuyển động vô hại. Điều này giúp giảm thiểu báo động giả và cải thiện hiệu quả làm việc của nhân viên an ninh.

Phân biệt các khái niệm liên quan

Điều quan trọng là phải phân biệt Nhận dạng hành động với các thuật ngữ tương tự trong lĩnh vực thị giác máy tính để chọn đúng công cụ cho công việc.

  • Nhận dạng hành động so với Hiểu video : Trong khi nhận dạng hành động tập trung vào việc xác định các hoạt động thể chất cụ thể (ví dụ: "mở cửa"), hiểu video là lĩnh vực rộng hơn nhằm mục đích hiểu toàn bộ bối cảnh, câu chuyện và mối quan hệ nhân quả trong video (ví dụ: "người đó đang mở cửa để thả chó ra").
  • Nhận dạng Hành động so với Theo dõi Đối tượng : Theo dõi đối tượng liên quan đến việc duy trì danh tính của một đối tượng hoặc người qua các khung hình. Nhận dạng hành động phân tích hành vi của đối tượng được theo dõi. Thông thường, theo dõi là bước tiên quyết để nhận dạng hành động trong các cảnh nhiều người.
  • Nhận dạng Hành động so với Ước tính Tư thế : Ước tính tư thế đưa ra dữ liệu tọa độ thô của các khớp cơ thể. Nhận dạng hành động lấy dữ liệu này (hoặc các đặc điểm trực quan) làm đầu vào để đưa ra nhãn ngữ nghĩa, chẳng hạn như "đạp xe" hoặc "nhảy".

Thách thức và Định hướng Tương lai

Việc triển khai các hệ thống này đặt ra nhiều thách thức, bao gồm nhu cầu về lượng lớn dữ liệu đào tạo được gắn nhãn và chi phí tính toán xử lý video. Các tập dữ liệu chuẩn như Kinetics-400UCF101 là tiêu chuẩn để đào tạo và đánh giá các mô hình.

Khi phần cứng được cải thiện, xu hướng chuyển dịch sang Edge AI (Trí tuệ nhân tạo biên), cho phép các mô hình chạy trực tiếp trên camera hoặc thiết bị di động. Điều này cho phép suy luận thời gian thực với độ trễ thấp hơn và bảo mật tốt hơn, vì dữ liệu video không cần phải được gửi lên đám mây. Các phát triển trong tương lai, bao gồm YOLO26 sắp ra mắt, nhằm mục đích tối ưu hóa hơn nữa tốc độ và độ chính xác của các công cụ phát hiện và ước tính tư thế cơ bản, hỗ trợ các tác vụ nhận dạng phức tạp này.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay