Khám phá Video Understanding, AI tiên tiến diễn giải các hành động và sự kiện trong video. Tìm hiểu cách nó hoạt động và cung cấp năng lượng cho các ứng dụng trong lái xe tự động và an ninh thông minh.
Hiểu biết về Video là một lĩnh vực đang phát triển nhanh chóng trong Thị giác Máy tính (CV) và Trí tuệ Nhân tạo (AI) , tập trung vào việc cho phép máy móc diễn giải và phân tích dữ liệu hình ảnh theo thời gian. Không giống như nhận dạng hình ảnh tiêu chuẩn, vốn phân tích các ảnh chụp nhanh tĩnh, hiểu biết về video xử lý các chuỗi khung hình để nắm bắt động lực thời gian, bối cảnh và mối quan hệ nhân quả trong một cảnh. Khả năng này cho phép hệ thống không chỉ xác định các đối tượng hiện diện mà còn suy ra những gì đang xảy ra, dự đoán các hành động trong tương lai và hiểu được "câu chuyện" đằng sau đầu vào hình ảnh. Cách tiếp cận toàn diện này rất cần thiết để tạo ra các hệ thống tương tác tự nhiên với thế giới vật lý, từ xe tự hành điều hướng giao thông đến trợ lý thông minh giám sát an ninh tại nhà.
Kiến trúc kỹ thuật đằng sau việc hiểu video phức tạp hơn đáng kể so với việc phát hiện vật thể tĩnh. Để xử lý video hiệu quả, các mô hình học sâu phải đồng thời xử lý các đặc điểm không gian (hình dạng của vật thể) và các đặc điểm thời gian (cách các vật thể đó di chuyển và thay đổi).
Các hệ thống hiện đại thường sử dụng đường ống nhiều giai đoạn:
Quá trình này thường được hỗ trợ bởi các kỹ thuật dòng quang học để rõ ràng track các vectơ chuyển động giữa các khung hình, nâng cao khả năng phân biệt các mẫu chuyển động của mô hình. Những tiến bộ trong điện toán biên cho phép các tác vụ tính toán chuyên sâu này được thực hiện cục bộ trên các thiết bị để suy luận theo thời gian thực .
Điều quan trọng là phải phân biệt sự hiểu biết về video với các nhiệm vụ liên quan đến thị giác máy tính để đánh giá được phạm vi của nó:
Khả năng hiểu được các cảnh động thúc đẩy sự đổi mới trong nhiều ngành công nghiệp lớn:
Một bước nền tảng trong việc hiểu video là khả năng theo dõi đối tượng đáng tin cậy. Ví dụ sau đây minh họa cách triển khai theo dõi bằng mô hình Ultralytics YOLO11 . Điều này thiết lập tính liên tục về mặt thời gian cần thiết cho phân tích cấp cao hơn. Trong tương lai, các mô hình sắp ra mắt như YOLO26 sẽ hướng đến việc tích hợp sâu hơn các khả năng này để xử lý video nhanh hơn, toàn diện.
from ultralytics import YOLO
# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")
# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)
# Process results to extract tracking IDs and class names
for result in results:
boxes = result.boxes.xywh.cpu()
track_ids = result.boxes.id.int().cpu().tolist()
print(f"Detected IDs in this frame: {track_ids}")
Mặc dù đã có những tiến bộ đáng kể, việc hiểu video vẫn phải đối mặt với những thách thức như chi phí tính toán cao và khó khăn trong việc xử lý các hiện tượng che khuất, khi các vật thể tạm thời biến mất khỏi tầm nhìn. Các nhà nghiên cứu đang tích cực nghiên cứu các kiến trúc mô hình hiệu quả để giảm độ trễ và học tự giám sát để huấn luyện các mô hình trên một lượng lớn dữ liệu video chưa được gắn nhãn.
Các công cụ như NVIDIA TensorRT và ONNX thường được sử dụng để tối ưu hóa các mô hình nặng này cho việc triển khai. Khi lĩnh vực này phát triển, chúng ta có thể kỳ vọng sự tích hợp chặt chẽ hơn của AI đa phương thức , kết hợp video với âm thanh và văn bản để hiểu sâu hơn.