Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Hiểu biết về Video

Khám phá Video Understanding, AI tiên tiến diễn giải các hành động và sự kiện trong video. Tìm hiểu cách nó hoạt động và cung cấp năng lượng cho các ứng dụng trong lái xe tự động và an ninh thông minh.

Hiểu biết về Video là một lĩnh vực đang phát triển nhanh chóng trong Thị giác Máy tính (CV)Trí tuệ Nhân tạo (AI) , tập trung vào việc cho phép máy móc diễn giải và phân tích dữ liệu hình ảnh theo thời gian. Không giống như nhận dạng hình ảnh tiêu chuẩn, vốn phân tích các ảnh chụp nhanh tĩnh, hiểu biết về video xử lý các chuỗi khung hình để nắm bắt động lực thời gian, bối cảnh và mối quan hệ nhân quả trong một cảnh. Khả năng này cho phép hệ thống không chỉ xác định các đối tượng hiện diện mà còn suy ra những gì đang xảy ra, dự đoán các hành động trong tương lai và hiểu được "câu chuyện" đằng sau đầu vào hình ảnh. Cách tiếp cận toàn diện này rất cần thiết để tạo ra các hệ thống tương tác tự nhiên với thế giới vật lý, từ xe tự hành điều hướng giao thông đến trợ lý thông minh giám sát an ninh tại nhà.

Cơ chế cốt lõi của phân tích video

Kiến trúc kỹ thuật đằng sau việc hiểu video phức tạp hơn đáng kể so với việc phát hiện vật thể tĩnh. Để xử lý video hiệu quả, các mô hình học sâu phải đồng thời xử lý các đặc điểm không gian (hình dạng của vật thể) và các đặc điểm thời gian (cách các vật thể đó di chuyển và thay đổi).

Các hệ thống hiện đại thường sử dụng đường ống nhiều giai đoạn:

  1. Phân tích không gian: Mạng xương sống, thường là Mạng nơ-ron tích chập (CNN) hoặc Bộ chuyển đổi thị giác (ViT) , trích xuất các đặc điểm trực quan từ từng khung hình.
  2. Mô hình hóa thời gian: Các đặc điểm không gian này được tổng hợp theo thời gian bằng cách sử dụng các kiến trúc như mạng Bộ nhớ dài hạn ngắn (LSTM) hoặc ngày càng phổ biến hơn là các mô hình Transformer sử dụng cơ chế chú ý để tập trung vào các sự kiện có liên quan trên toàn bộ dòng thời gian.
  3. Nhận dạng hành động: Mô hình phân loại các hoạt động cụ thể, chẳng hạn như "chạy", "ngã" hoặc "vẫy tay", thường sử dụng các tập dữ liệu được thiết kế để nhận dạng hành động .

Quá trình này thường được hỗ trợ bởi các kỹ thuật dòng quang học để rõ ràng track các vectơ chuyển động giữa các khung hình, nâng cao khả năng phân biệt các mẫu chuyển động của mô hình. Những tiến bộ trong điện toán biên cho phép các tác vụ tính toán chuyên sâu này được thực hiện cục bộ trên các thiết bị để suy luận theo thời gian thực .

Phân biệt các khái niệm chính

Điều quan trọng là phải phân biệt sự hiểu biết về video với các nhiệm vụ liên quan đến thị giác máy tính để đánh giá được phạm vi của nó:

  • Hiểu video so với Theo dõi đối tượng: Trong khi theo dõi đối tượng tập trung vào việc duy trì danh tính của một trường hợp cụ thể trên các khung hình (ví dụ: theo dõi một chiếc ô tô), hiểu video diễn giải hành vi của đối tượng đó (ví dụ: ô tô đang đỗ).
  • Hiểu biết về video so với phát hiện bất thường: Phát hiện bất thường là một tập hợp con của hiểu biết về video được điều chỉnh cụ thể để đánh dấu các giá trị ngoại lệ hoặc sự kiện bất thường, thường được sử dụng trong giám sát thông minh .
  • Hiểu video so với AI tạo ra: Trong khi AI tạo ra và các mô hình chuyển văn bản thành video tạo ra nội dung mới, hiểu video là một quá trình phân tích trích xuất thông tin chi tiết có cấu trúc từ các cảnh quay hiện có.

Các Ứng dụng Thực tế

Khả năng hiểu được các cảnh động thúc đẩy sự đổi mới trong nhiều ngành công nghiệp lớn:

  • Chăm sóc sức khỏe và theo dõi bệnh nhân: Bệnh viện sử dụng công nghệ video để theo dõi chuyển động của bệnh nhân mà không cần sự giám sát liên tục của con người. Bằng cách sử dụng ước tính tư thế , các hệ thống có thể detect té ngã hoặc phân tích tiến trình phục hồi dáng đi. Đọc thêm về AI trong Chăm sóc Sức khỏe để xem những công nghệ này cải thiện kết quả điều trị cho bệnh nhân như thế nào.
  • Phân tích Thể thao: Huấn luyện viên và bình luận viên sử dụng các hệ thống này để tự động phân tích chiến thuật và diễn biến trận đấu của cầu thủ. Bằng cách theo dõi các điểm then chốt và xác định những pha bóng phức tạp, các đội bóng có được lợi thế cạnh tranh nhờ những thông tin chi tiết dựa trên dữ liệu. Khám phá những hiểu biết sâu sắc của chúng tôi về AI trong phân tích thể thao .
  • Trí tuệ bán lẻ: Các cửa hàng phân tích lưu lượng khách hàng và tương tác với sản phẩm để tối ưu hóa bố cục. Điều này bao gồm phân khúc theo từng trường hợp để phân biệt từng người mua sắm trong các lối đi đông đúc.

Triển khai phân tích video với Ultralytics

Một bước nền tảng trong việc hiểu video là khả năng theo dõi đối tượng đáng tin cậy. Ví dụ sau đây minh họa cách triển khai theo dõi bằng mô hình Ultralytics YOLO11 . Điều này thiết lập tính liên tục về mặt thời gian cần thiết cho phân tích cấp cao hơn. Trong tương lai, các mô hình sắp ra mắt như YOLO26 sẽ hướng đến việc tích hợp sâu hơn các khả năng này để xử lý video nhanh hơn, toàn diện.

from ultralytics import YOLO

# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)

# Process results to extract tracking IDs and class names
for result in results:
    boxes = result.boxes.xywh.cpu()
    track_ids = result.boxes.id.int().cpu().tolist()
    print(f"Detected IDs in this frame: {track_ids}")

Thách thức và Định hướng Tương lai

Mặc dù đã có những tiến bộ đáng kể, việc hiểu video vẫn phải đối mặt với những thách thức như chi phí tính toán cao và khó khăn trong việc xử lý các hiện tượng che khuất, khi các vật thể tạm thời biến mất khỏi tầm nhìn. Các nhà nghiên cứu đang tích cực nghiên cứu các kiến trúc mô hình hiệu quả để giảm độ trễ và học tự giám sát để huấn luyện các mô hình trên một lượng lớn dữ liệu video chưa được gắn nhãn.

Các công cụ như NVIDIA TensorRTONNX thường được sử dụng để tối ưu hóa các mô hình nặng này cho việc triển khai. Khi lĩnh vực này phát triển, chúng ta có thể kỳ vọng sự tích hợp chặt chẽ hơn của AI đa phương thức , kết hợp video với âm thanh và văn bản để hiểu sâu hơn.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay