Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Nhận dạng hành động

Khám phá cách nhận diện hành động xác định các hành vi trong video. Tìm hiểu cách sử dụng Ultralytics YOLO26 được sử dụng để ước lượng tư thế và xây dựng các hệ thống AI thông minh cho các nhiệm vụ nhận dạng con người (HAR).

Nhận dạng hành động, thường được gọi là Nhận dạng Hoạt động Con người (HAR), là một lĩnh vực con năng động của thị giác máy tính (CV) liên quan đến việc xác định và phân loại các hành vi hoặc chuyển động cụ thể được thực hiện bởi các đối tượng trong dữ liệu video. Trong khi phát hiện đối tượng truyền thống trả lời câu hỏi "có gì trong hình ảnh?", nhận dạng hành động giải quyết câu hỏi phức tạp hơn là "điều gì đang xảy ra theo thời gian?". Bằng cách phân tích chuỗi khung hình thay vì hình ảnh tĩnh, các mô hình học máy (ML) có thể phân biệt giữa các hoạt động phức tạp như "đi bộ", "đạp xe", "ngã" hoặc "bắt tay", khiến nó trở thành một thành phần quan trọng để xây dựng các hệ thống thông minh hiểu được ý định và ngữ cảnh của con người.

Khái niệm và kỹ thuật cốt lõi

Nhận diện hành động đòi hỏi một mô hình có khả năng xử lý cả thông tin không gian (hình dạng của các vật thể hoặc con người) và thông tin thời gian (cách chúng di chuyển theo thời gian). Để đạt được điều này, các hệ thống trí tuệ nhân tạo (AI) hiện đại thường sử dụng các kiến ​​trúc chuyên biệt vượt xa các mạng nơ-ron tích chập (CNN) tiêu chuẩn.

  • Ước lượng tư thế : Một kỹ thuật mạnh mẽ trong đó mô hình theo dõi các điểm mấu chốt cụ thể trên cơ thể người, chẳng hạn như khuỷu tay, đầu gối và vai. Sự thay đổi hình học của các điểm mấu chốt này theo thời gian cung cấp một tín hiệu mạnh mẽ để phân loại hành động, độc lập với các yếu tố nhiễu nền.
  • Mô hình hóa theo thời gian: Các thuật toán sử dụng các cấu trúc như Mạng thần kinh hồi quy (RNN) hoặc mạng bộ nhớ dài hạn ngắn hạn (LSTM) để ghi nhớ các khung hình trước đó và dự đoán các hành động trong tương lai. Gần đây, Video Transformers đã trở nên phổ biến nhờ khả năng xử lý các phụ thuộc tầm xa trong luồng video.
  • Mạng hai luồng: Phương pháp này xử lý các đặc điểm không gian (khung hình RGB) và các đặc điểm thời gian (thường sử dụng luồng quang học ) trong các luồng song song, kết hợp dữ liệu để đưa ra phân loại cuối cùng.

Các Ứng dụng Thực tế

Khả năng tự động diễn giải chuyển động của con người có tiềm năng mang tính cách mạng trong nhiều ngành công nghiệp, giúp nâng cao an toàn, hiệu quả và trải nghiệm người dùng.

  • Trí tuệ nhân tạo trong chăm sóc sức khỏe : Nhận diện hành động rất quan trọng đối với các hệ thống theo dõi bệnh nhân. Ví dụ, nó cho phép phát hiện té ngã tự động trong các viện dưỡng lão, cảnh báo nhân viên ngay lập tức nếu bệnh nhân ngã quỵ. Nó cũng được sử dụng trong phục hồi chức năng vật lý từ xa , nơi các huấn luyện viên AI phân tích tư thế tập luyện của bệnh nhân để đảm bảo họ thực hiện các động tác đúng cách và an toàn.
  • Giám sát và an ninh thông minh: Vượt xa khả năng phát hiện chuyển động đơn giản, các hệ thống an ninh tiên tiến sử dụng nhận dạng hành động để xác định các hành vi đáng ngờ, chẳng hạn như đánh nhau, trộm cắp vặt hoặc xâm nhập trái phép, đồng thời bỏ qua các hoạt động vô hại. Điều này giúp giảm thiểu báo động giả và cải thiện khả năng giám sát an ninh theo thời gian thực .

Áp dụng Phân tích Hành động với Ultralytics

Một quy trình làm việc phổ biến bao gồm việc phát hiện người và tư thế khung xương của họ trước, sau đó phân tích chuyển động của các khớp đó. Mô hình Ultralytics YOLO26 cung cấp tốc độ và độ chính xác hàng đầu cho bước ước tính tư thế ban đầu, vốn là nền tảng cho nhiều quy trình nhận dạng hành động.

Ví dụ sau đây minh họa cách trích xuất các điểm mấu chốt của khung xương từ một khung hình video bằng cách sử dụng Python :

from ultralytics import YOLO

# Load the YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Run inference on an image to detect person keypoints
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    # Access the keypoints (x, y, visibility)
    if result.keypoints is not None:
        print(f"Detected keypoints shape: {result.keypoints.data.shape}")

Phân biệt các thuật ngữ liên quan

Việc phân biệt nhận dạng hành động với các nhiệm vụ thị giác máy tính tương tự là rất quan trọng để đảm bảo áp dụng đúng phương pháp.

  • Nhận dạng hành động so với theo dõi đối tượng : Theo dõi đối tượng tập trung vào việc duy trì nhận dạng của một đối tượng hoặc người cụ thể khi họ di chuyển qua các khung hình (ví dụ: "Người A đang ở tọa độ X"). Nhận dạng hành động diễn giải hành vi của đối tượng được theo dõi đó (ví dụ: "Người A đang chạy").
  • Nhận diện hành động so với hiểu video : Trong khi nhận diện hành động xác định các hành vi vật lý cụ thể, hiểu video là một khái niệm rộng hơn, bao gồm việc nắm bắt toàn bộ câu chuyện, bối cảnh và mối quan hệ nhân quả trong một cảnh video.

Thách thức và xu hướng tương lai

Việc phát triển các mô hình nhận dạng hành động mạnh mẽ gặp nhiều thách thức, đặc biệt là về nhu cầu đối với các tập dữ liệu video lớn, được chú thích đầy đủ như Kinetics-400 hoặc UCF101. Việc gắn nhãn dữ liệu video tốn nhiều thời gian hơn đáng kể so với việc gắn nhãn hình ảnh tĩnh. Để giải quyết vấn đề này, các công cụ như Nền tảng Ultralytics giúp đơn giản hóa quy trình chú thích và huấn luyện.

Hơn nữa, hiệu quả tính toán là rất quan trọng. Xử lý video độ phân giải cao trong thời gian thực đòi hỏi tài nguyên phần cứng đáng kể. Ngành công nghiệp đang ngày càng hướng tới AI biên (Edge AI) , tối ưu hóa các mô hình để chạy trực tiếp trên camera và thiết bị di động nhằm giảm độ trễ và mức sử dụng băng thông. Những tiến bộ trong tương lai hướng đến việc cải thiện khả năng khái quát hóa của mô hình , cho phép hệ thống nhận dạng hành động ngay cả từ những góc nhìn mà chúng không được huấn luyện một cách rõ ràng.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay