Khám phá cách Video Understanding phân tích động lực thời gian để diễn giải các hành động. Tìm hiểu cách triển khai theo dõi thời gian thực với Ultralytics YOLO26 dành cho trí tuệ nhân tạo tiên tiến.
Hiểu video là một nhánh phức tạp của thị giác máy tính (CV) tập trung vào việc cho phép máy móc nhận thức, phân tích và diễn giải dữ liệu hình ảnh theo thời gian. Không giống như nhận dạng hình ảnh tiêu chuẩn, vốn xử lý các ảnh tĩnh riêng lẻ, hiểu video liên quan đến việc phân tích chuỗi khung hình để nắm bắt động lực thời gian, ngữ cảnh và mối quan hệ nhân quả. Bằng cách xử lý "chiều thứ tư" là thời gian, các hệ thống AI có thể vượt ra ngoài việc chỉ đơn giản là nhận dạng đối tượng để hiểu được các hành động, sự kiện và câu chuyện đang diễn ra trong một cảnh. Khả năng này rất cần thiết để tạo ra các hệ thống thông minh có thể tương tác an toàn và hiệu quả trong môi trường thực tế năng động.
Để diễn giải nội dung video một cách thành công, các mô hình phải tổng hợp hai loại thông tin chính: đặc điểm không gian (những gì có trong khung hình) và đặc điểm thời gian (sự thay đổi của mọi thứ). Điều này đòi hỏi một kiến trúc phức tạp, thường kết hợp nhiều chiến lược mạng nơ-ron khác nhau.
Khả năng hiểu bối cảnh thời gian đã mở ra cánh cửa cho tự động hóa tiên tiến trong nhiều ngành công nghiệp khác nhau.
Mặc dù khả năng hiểu video bao gồm nhiều chức năng khác nhau, nhưng nó vẫn khác biệt so với một số thuật ngữ liên quan trong lĩnh vực trí tuệ nhân tạo.
Một bước cơ bản trong việc hiểu video là phát hiện và theo dõi đối tượng một cách mạnh mẽ để thiết lập tính liên tục về mặt thời gian. Mô hình Ultralytics YOLO26 cung cấp hiệu năng tiên tiến nhất cho việc theo dõi thời gian thực, đóng vai trò là tiền đề cho việc phân tích hành vi ở cấp độ cao hơn.
Ví dụ sau đây minh họa cách thực hiện theo dõi đối tượng trên nguồn video bằng cách sử dụng... Python API:
from ultralytics import YOLO
# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Track objects in a video file with persistence to maintain IDs
# 'show=True' visualizes the tracking in real-time
results = model.track(source="path/to/video.mp4", persist=True, show=True)
Mặc dù đã có những tiến bộ đáng kể, việc hiểu video vẫn đòi hỏi nhiều tài nguyên tính toán do khối lượng dữ liệu khổng lồ trong các luồng video độ phân giải cao. Việc tính toán FLOPS cho các phép tích chập 3D hoặc bộ biến đổi thời gian có thể quá tốn kém đối với các thiết bị AI biên . Để giải quyết vấn đề này, các nhà nghiên cứu đang phát triển các kiến trúc hiệu quả như Mô-đun Dịch chuyển Thời gian (TSM) và tận dụng các công cụ tối ưu hóa như NVIDIA TensorRT để cho phép suy luận thời gian thực .
Những phát triển trong tương lai đang hướng tới việc học tập đa phương thức tinh vi, nơi các mô hình tích hợp các tín hiệu âm thanh (ví dụ: tiếng còi báo động) và ngữ cảnh văn bản để đạt được sự hiểu biết sâu sắc hơn. Các nền tảng như Ultralytics Platform cũng đang phát triển để đơn giản hóa việc chú thích và quản lý các tập dữ liệu video phức tạp, giúp dễ dàng hơn trong việc huấn luyện các mô hình tùy chỉnh cho các nhiệm vụ thời gian cụ thể.