Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nhận dạng hành động

Khám phá Nhận dạng hành động (Nhận dạng hoạt động của con người): cách thức video, ước tính tư thế và học sâu detect hành động của con người đối với chăm sóc sức khỏe, an ninh và thể thao.

Nhận dạng hành động, thường được gọi là Nhận dạng hoạt động con người (HAR), là một nhánh chuyên biệt của Thị giác máy tính (CV) tập trung vào việc xác định và phân loại các chuyển động hoặc hành vi cụ thể trong dữ liệu video. Trong khi nhận dạng hình ảnh tiêu chuẩn phân tích các khung hình tĩnh để detect Nhận dạng hành động và đối tượng kết hợp chiều thứ tư—thời gian—để diễn giải các sự kiện động. Bằng cách xử lý chuỗi khung hình , các hệ thống Trí tuệ Nhân tạo (AI) tiên tiến có thể phân biệt giữa các hành vi phức tạp như đi bộ, vẫy tay, ngã hoặc thực hiện một kỹ thuật thể thao cụ thể. Khả năng này rất cần thiết để tạo ra các hệ thống thông minh có thể hiểu ý định của con người và tương tác an toàn trong môi trường thực tế.

Các cơ chế và kỹ thuật cốt lõi

Để nhận diện chính xác các hành động, các mô hình Học sâu (Deep Learning - DL) phải trích xuất và tổng hợp hai loại đặc trưng chính: không gian và thời gian. Đặc trưng không gian nắm bắt hình ảnh trực quan của khung cảnh, chẳng hạn như sự hiện diện của một người hoặc vật thể, thường sử dụng Mạng thần kinh tích chập (Convolutional Neural Networks - CNN) . Đặc trưng thời gian mô tả cách các yếu tố này thay đổi theo thời gian, cung cấp ngữ cảnh cần thiết để phân biệt hành động "ngồi xuống" với hành động "đứng dậy".

Các phương pháp hiện đại thường sử dụng quy trình nhiều giai đoạn để đạt được độ chính xác cao:

  • Ước lượng tư thế : Kỹ thuật này lập bản đồ cấu trúc xương của cơ thể người, theo dõi các điểm mấu chốt cụ thể như khuỷu tay, đầu gối và vai. Mối quan hệ hình học giữa các điểm này cung cấp một tín hiệu mạnh mẽ để phân loại các hành động, bất kể sự nhiễu loạn của môi trường xung quanh hoặc điều kiện ánh sáng.
  • Mô hình hóa theo thời gian: Các chuỗi dữ liệu được xử lý bằng các kiến trúc được thiết kế cho phân tích chuỗi thời gian, chẳng hạn như Mạng thần kinh hồi quy (RNN) hoặc mạng bộ nhớ dài hạn ngắn hạn (LSTM) . Gần đây, Video Transformers đã trở thành tiêu chuẩn để mô hình hóa các phụ thuộc tầm xa trong luồng video.
  • Tính năng chuyển động: Các thuật toán thường tích hợp luồng quang học để thể hiện rõ ràng track Hướng và tốc độ di chuyển của pixel giữa các khung hình, giúp mô hình nhận biết các mẫu chuyển động tinh tế mà phân tích không gian đơn thuần có thể bỏ sót.

Các Ứng dụng Thực tế

Khả năng tự động hóa việc diễn giải chuyển động của con người đã thúc đẩy việc ứng dụng rộng rãi trong nhiều ngành công nghiệp khác nhau. Thị trường nhận dạng hoạt động của con người toàn cầu tiếp tục mở rộng khi các doanh nghiệp tìm cách số hóa quy trình làm việc vật lý và tăng cường an toàn.

Chăm sóc sức khỏe và An toàn bệnh nhân

Trong lĩnh vực trí tuệ nhân tạo ứng dụng trong chăm sóc sức khỏe , nhận dạng hành động là yếu tố quan trọng đối với việc giám sát bệnh nhân tự động. Các hệ thống có thể được huấn luyện để... detect Các trường hợp té ngã trong bệnh viện hoặc các cơ sở chăm sóc người cao tuổi, sẽ kích hoạt cảnh báo ngay lập tức cho nhân viên điều dưỡng. Hơn nữa, thị giác máy tính hỗ trợ phục hồi chức năng từ xa bằng cách phân tích tư thế tập luyện của bệnh nhân trong thời gian thực, đảm bảo họ thực hiện các động tác chính xác để hỗ trợ phục hồi và ngăn ngừa chấn thương.

Phân tích thể thao

Các huấn luyện viên và nhà bình luận thể thao sử dụng trí tuệ nhân tạo (AI) để phân tích hiệu suất của vận động viên. Các thuật toán nhận dạng hành động có thể tự động gắn thẻ các sự kiện trong đoạn phim trận đấu—chẳng hạn như cú ném bóng rổ, cú giao bóng tennis hoặc đường chuyền bóng đá—cho phép phân tích thống kê chi tiết. Dữ liệu này giúp hoàn thiện kỹ thuật và phát triển chiến lược dựa trên các mô hình chuyển động cụ thể của người chơi .

Phân biệt các khái niệm liên quan

Điều quan trọng là phải phân biệt Nhận dạng hành động với các thuật ngữ tương tự trong lĩnh vực thị giác máy tính để chọn đúng công cụ cho công việc.

  • Nhận dạng hành động so với Hiểu video : Trong khi nhận dạng hành động tập trung vào việc xác định các hoạt động thể chất cụ thể (ví dụ: "mở cửa"), hiểu video là lĩnh vực rộng hơn nhằm mục đích hiểu toàn bộ bối cảnh, câu chuyện và mối quan hệ nhân quả trong video (ví dụ: "người đó đang mở cửa để thả chó ra").
  • Nhận diện hành động so với theo dõi đối tượng : Theo dõi đối tượng liên quan đến việc duy trì danh tính của một đối tượng hoặc người xuyên suốt các khung hình (gán một ID duy nhất). Nhận diện hành động phân tích hành vi của đối tượng được theo dõi đó. Thông thường, theo dõi là bước tiên quyết để nhận diện hành động trong các cảnh có nhiều người.

Thực hiện phân tích hành động

Một bước cơ bản trong nhiều quy trình nhận dạng hành động là trích xuất dữ liệu khung xương. Tiếp theo Python Ví dụ này minh họa cách sử dụng ultralytics thư viện với YOLO26 để trích xuất các điểm mấu chốt của tư thế, đóng vai trò là lớp dữ liệu nền tảng cho việc phân loại hành động tiếp theo.

from ultralytics import YOLO

# Load the latest YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image or video to track human skeletal movement
# The model detects persons and their joint locations
results = model("https://ultralytics.com/images/bus.jpg")

for result in results:
    # Keypoints (x, y, visibility) used for downstream action analysis
    if result.keypoints is not None:
        print(f"Keypoints shape: {result.keypoints.data.shape}")

Thách thức và Định hướng Tương lai

Việc triển khai các hệ thống này đặt ra nhiều thách thức, bao gồm nhu cầu về lượng lớn dữ liệu huấn luyện được gắn nhãn và chi phí tính toán để xử lý video. Các bộ dữ liệu chuẩn như Kinetics-400 là tiêu chuẩn để đánh giá hiệu suất của mô hình.

Khi phần cứng được cải tiến, xu hướng đang chuyển dịch sang Trí tuệ nhân tạo biên (Edge AI) , cho phép các mô hình chạy trực tiếp trên camera hoặc thiết bị di động. Điều này cho phép suy luận thời gian thực với độ trễ thấp hơn và quyền riêng tư tốt hơn, vì dữ liệu video không cần phải được gửi lên đám mây. Các phát triển trong tương lai hướng đến việc tối ưu hóa hơn nữa tốc độ và độ chính xác của các công cụ phát hiện và ước tính tư thế cơ bản, vốn là nền tảng cho các tác vụ nhận dạng phức tạp này.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay