Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Hiểu biết về Video

Khám phá Video Understanding, AI tiên tiến diễn giải các hành động và sự kiện trong video. Tìm hiểu cách nó hoạt động và cung cấp năng lượng cho các ứng dụng trong lái xe tự động và an ninh thông minh.

Hiểu video đề cập đến khả năng của các mô hình học máy trong việc xử lý, phân tích và hiểu dữ liệu hình ảnh theo thời gian. Không giống như nhận dạng hình ảnh , vốn chỉ phân tích các ảnh tĩnh, hiểu video liên quan đến việc diễn giải chuỗi khung hình để nắm bắt động lực thời gian, ngữ cảnh và mối quan hệ nhân quả. Điều này cho phép hệ thống AI không chỉ xác định đối tượng mà còn hiểu được hành động, sự kiện và "câu chuyện" đang diễn ra trong một đoạn video. Đây là một thành phần quan trọng của thị giác máy tính (CV) hiện đại, hỗ trợ các ứng dụng năng động từ điều hướng tự động đến phân tích thể thao tự động.

Cơ chế cốt lõi của phân tích video

Phân tích video đòi hỏi phải xử lý hai loại thông tin riêng biệt: không gian và thời gian. Các đặc điểm không gian liên quan đến những gì xuất hiện trong một khung hình duy nhất (đối tượng, phông nền, kết cấu), trong khi các đặc điểm thời gian mô tả cách các yếu tố đó thay đổi theo thời gian (chuyển động, tốc độ, tương tác).

Các hệ thống xử lý video hiện đại thường sử dụng phương pháp nhiều giai đoạn:

  • Trích xuất đặc trưng không gian: Một mạng lưới xương sống, chẳng hạn như Mạng nơ-ron tích chập (CNN) hoặc Bộ chuyển đổi thị giác (ViT) , xử lý các khung hình riêng lẻ để detect các đối tượng và đặc điểm nhận dạng.
  • Tổng hợp theo thời gian: Để hiểu chuyển động, các mô hình sử dụng các kiến trúc như mạng bộ nhớ dài hạn ngắn hạn (LSTM) hoặc bộ chuyển đổi theo thời gian. Các thành phần này phân tích cách các đặc điểm không gian phát triển trong một chuỗi, thường sử dụng cơ chế chú ý để tập trung vào các khoảnh khắc quan trọng trong dòng thời gian.
  • Suy luận cấp cao: Giai đoạn cuối cùng bao gồm việc phân loại các hoạt động hoặc dự đoán các sự kiện trong tương lai. Đây là nơi mô hình phân biệt giữa các hành động tương tự, chẳng hạn như "đi bộ" so với "chạy", dựa trên vận tốc và nhịp điệu chuyển động.

Các Ứng dụng Thực tế

Công nghệ hiểu video đang làm thay đổi các ngành công nghiệp bằng cách tự động hóa các tác vụ hình ảnh phức tạp mà trước đây đòi hỏi sự quan sát của con người.

  • Lái xe tự động: Xe tự lái phụ thuộc rất nhiều vào khả năng hiểu video để dự đoán hành vi của người đi bộ và các phương tiện khác. Bằng cách phân tích quỹ đạo và tốc độ của các vật thể xung quanh, hệ thống nhận thức của xe có thể dự đoán các va chạm tiềm tàng và đưa ra các quyết định lái xe an toàn.
  • Bán lẻ thông minh và an ninh: Trong môi trường bán lẻ, các hệ thống có thể phân tích hành vi của người mua sắm để tối ưu hóa bố cục cửa hàng hoặc detect trộm cắp. Các ứng dụng an ninh sử dụng tính năng phát hiện bất thường để cảnh báo các hoạt động bất thường, chẳng hạn như một người lảng vảng trong khu vực hạn chế hoặc một đám đông đột ngột tụ tập, từ đó cảnh báo nhân viên trong thời gian thực.
  • Giám sát chăm sóc sức khỏe: Hiểu video hỗ trợ chăm sóc bệnh nhân bằng cách theo dõi chuyển động để phát hiện các dấu hiệu bất thường. Ví dụ, các thuật toán ước lượng tư thế có thể phân tích kiểu dáng đi bộ để... track tiến trình phục hồi hoặc detect té ngã trong các cơ sở chăm sóc người cao tuổi mà không cần cảm biến xâm lấn.

Phân biệt các khái niệm chính

Điều quan trọng là phải phân biệt việc hiểu video với các nhiệm vụ thị giác máy tính khác:

  • Hiểu video so với theo dõi đối tượng: Trong khi theo dõi đối tượng tập trung vào việc duy trì nhận dạng của một thực thể cụ thể xuyên suốt các khung hình (ví dụ: theo dõi một chiếc xe cụ thể), thì hiểu video diễn giải ngữ cảnh hành động của đối tượng đó (ví dụ: nhận ra rằng chiếc xe đang vượt đèn đỏ).
  • Hiểu video so với chuyển đổi văn bản thành video: Chuyển đổi văn bản thành video là một quy trình tạo sinh, tạo ra nội dung hình ảnh mới từ một đoạn văn bản được cung cấp. Hiểu video là một quy trình phân tích, trích xuất ý nghĩa từ các đoạn phim hiện có.

Triển khai phân tích video với Ultralytics

Một yếu tố cơ bản để hiểu video là khả năng phát hiện và theo dõi đối tượng mạnh mẽ. Ví dụ sau đây minh họa cách triển khai tính năng theo dõi bằng mô hình Ultralytics YOLO26 . Điều này thiết lập tính liên tục về mặt thời gian cần thiết cho việc phân tích hành vi ở cấp độ cao hơn.

import cv2
from ultralytics import YOLO

# Load the YOLO26 model (nano version for speed)
model = YOLO("yolo26n.pt")

# Open a video file
video_path = "path/to/video.mp4"
cap = cv2.VideoCapture(video_path)

# Process video frames
while cap.isOpened():
    success, frame = cap.read()
    if success:
        # Track objects with persistence to maintain IDs over time
        results = model.track(frame, persist=True)

        # Visualize the results
        annotated_frame = results[0].plot()
        cv2.imshow("YOLO26 Tracking", annotated_frame)

        if cv2.waitKey(1) & 0xFF == ord("q"):
            break
    else:
        break

cap.release()
cv2.destroyAllWindows()

Thách thức và xu hướng tương lai

Mặc dù đã có những tiến bộ, việc hiểu video vẫn đòi hỏi nhiều tài nguyên tính toán do khối lượng dữ liệu khổng lồ trong các luồng video độ phân giải cao. Các nhà nghiên cứu đang tích cực phát triển các kiến trúc mô hình hiệu quả hơn để giảm độ trễ và chi phí tính toán . Các kỹ thuật như lượng tử hóa và cắt tỉa mô hình là rất cần thiết để triển khai các mô hình này trên các thiết bị biên.

Những phát triển trong tương lai hướng tới trí tuệ nhân tạo đa phương thức , nơi dữ liệu video được kết hợp với âm thanh và ngữ cảnh văn bản để hiểu sâu hơn. Ví dụ, một mô hình có thể sử dụng âm thanh của tiếng lốp xe rít lên kết hợp với dữ liệu hình ảnh để nhanh chóng xác định một vụ tai nạn giao thông. Các công cụ như NVIDIA TensorRTOpenVINO tiếp tục đóng vai trò quan trọng trong việc tối ưu hóa các mô hình phức tạp này để suy luận theo thời gian thực .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay