Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Hiểu biết về Video

Khám phá cách Video Understanding phân tích động lực thời gian để diễn giải các hành động. Tìm hiểu cách triển khai theo dõi thời gian thực với Ultralytics YOLO26 dành cho trí tuệ nhân tạo tiên tiến.

Hiểu video là một nhánh phức tạp của thị giác máy tính (CV) tập trung vào việc cho phép máy móc nhận thức, phân tích và diễn giải dữ liệu hình ảnh theo thời gian. Không giống như nhận dạng hình ảnh tiêu chuẩn, vốn xử lý các ảnh tĩnh riêng lẻ, hiểu video liên quan đến việc phân tích chuỗi khung hình để nắm bắt động lực thời gian, ngữ cảnh và mối quan hệ nhân quả. Bằng cách xử lý "chiều thứ tư" là thời gian, các hệ thống AI có thể vượt ra ngoài việc chỉ đơn giản là nhận dạng đối tượng để hiểu được các hành động, sự kiện và câu chuyện đang diễn ra trong một cảnh. Khả năng này rất cần thiết để tạo ra các hệ thống thông minh có thể tương tác an toàn và hiệu quả trong môi trường thực tế năng động.

Các thành phần cốt lõi của phân tích video

Để diễn giải nội dung video một cách thành công, các mô hình phải tổng hợp hai loại thông tin chính: đặc điểm không gian (những gì có trong khung hình) và đặc điểm thời gian (sự thay đổi của mọi thứ). Điều này đòi hỏi một kiến ​​trúc phức tạp, thường kết hợp nhiều chiến lược mạng nơ-ron khác nhau.

  • Mạng nơ-ron tích chập (CNN) : Các mạng này thường đóng vai trò là xương sống không gian, trích xuất các đặc điểm hình ảnh như hình dạng, kết cấu và đối tượng từ các khung hình riêng lẻ.
  • Mạng nơ-ron hồi quy (RNN) : Các kiến ​​trúc như bộ nhớ dài hạn ngắn hạn (LSTM) được sử dụng để xử lý chuỗi các đặc trưng được trích xuất bởi CNN, cho phép mô hình "ghi nhớ" các khung hình trong quá khứ và dự đoán các trạng thái trong tương lai.
  • Luồng quang học : Nhiều hệ thống sử dụng thuật toán luồng quang học để tính toán rõ ràng các vectơ chuyển động của pixel giữa các khung hình, cung cấp dữ liệu quan trọng về tốc độ và hướng độc lập với hình dạng đối tượng.
  • Vision Transformers (ViTs) : Các phương pháp hiện đại ngày càng dựa vào cơ chế chú ý để đánh giá tầm quan trọng của các khung hình hoặc vùng khác nhau, cho phép mô hình tập trung vào các sự kiện chính trong một luồng video dài.

Các Ứng dụng Thực tế

Khả năng hiểu bối cảnh thời gian đã mở ra cánh cửa cho tự động hóa tiên tiến trong nhiều ngành công nghiệp khác nhau.

  • Xe tự hành : Xe tự lái sử dụng công nghệ nhận diện video để dự đoán quỹ đạo di chuyển của người đi bộ và các phương tiện khác. Bằng cách phân tích các mô hình chuyển động, hệ thống có thể dự đoán các va chạm tiềm tàng và thực hiện các thao tác phức tạp.
  • Nhận diện hành động : Trong phân tích thể thao và giám sát chăm sóc sức khỏe , các hệ thống xác định các hoạt động cụ thể của con người—chẳng hạn như một cầu thủ ghi bàn hoặc một bệnh nhân bị ngã—để cung cấp thông tin chi tiết hoặc cảnh báo tự động.
  • Bán lẻ thông minh : Các cửa hàng sử dụng các hệ thống này để phát hiện các bất thường nhằm xác định hành vi trộm cắp hoặc để phân tích lưu lượng khách hàng nhằm tối ưu hóa bố trí cửa hàng tốt hơn.
  • Kiểm duyệt nội dung : Các nền tảng truyền thông lớn sử dụng công nghệ nhận diện video để tự động gắn cờ nội dung không phù hợp hoặc phân loại nội dung tải lên theo chủ đề, giảm đáng kể nhu cầu xem xét thủ công.

Phân biệt các khái niệm liên quan

Mặc dù khả năng hiểu video bao gồm nhiều chức năng khác nhau, nhưng nó vẫn khác biệt so với một số thuật ngữ liên quan trong lĩnh vực trí tuệ nhân tạo.

  • Hiểu video so với theo dõi đối tượng : Theo dõi tập trung vào việc duy trì nhận dạng duy nhất của một đối tượng (như một chiếc xe cụ thể) khi nó di chuyển qua các khung hình. Hiểu video diễn giải hành vi của chiếc xe đó, chẳng hạn như nhận biết nó đang "đỗ xe" hoặc "chạy quá tốc độ".
  • Hiểu video so với ước lượng tư thế : Ước lượng tư thế phát hiện cấu hình hình học của các khớp cơ thể trong một khung hình hoặc chuỗi khung hình. Hiểu video sử dụng dữ liệu này để suy luận ý nghĩa của chuyển động, chẳng hạn như "vẫy tay chào".
  • Hiểu video so với Trí tuệ nhân tạo đa phương thức : Trong khi hiểu video tập trung vào chuỗi hình ảnh, trí tuệ nhân tạo đa phương thức kết hợp video với âm thanh, văn bản hoặc dữ liệu cảm biến để phân tích toàn diện hơn.

Ứng dụng phân tích video với YOLO26

Một bước cơ bản trong việc hiểu video là phát hiện và theo dõi đối tượng một cách mạnh mẽ để thiết lập tính liên tục về mặt thời gian. Mô hình Ultralytics YOLO26 cung cấp hiệu năng tiên tiến nhất cho việc theo dõi thời gian thực, đóng vai trò là tiền đề cho việc phân tích hành vi ở cấp độ cao hơn.

Ví dụ sau đây minh họa cách thực hiện theo dõi đối tượng trên nguồn video bằng cách sử dụng... Python API:

from ultralytics import YOLO

# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Track objects in a video file with persistence to maintain IDs
# 'show=True' visualizes the tracking in real-time
results = model.track(source="path/to/video.mp4", persist=True, show=True)

Thách thức và xu hướng tương lai

Mặc dù đã có những tiến bộ đáng kể, việc hiểu video vẫn đòi hỏi nhiều tài nguyên tính toán do khối lượng dữ liệu khổng lồ trong các luồng video độ phân giải cao. Việc tính toán FLOPS cho các phép tích chập 3D hoặc bộ biến đổi thời gian có thể quá tốn kém đối với các thiết bị AI biên . Để giải quyết vấn đề này, các nhà nghiên cứu đang phát triển các kiến ​​trúc hiệu quả như Mô-đun Dịch chuyển Thời gian (TSM) và tận dụng các công cụ tối ưu hóa như NVIDIA TensorRT để cho phép suy luận thời gian thực .

Những phát triển trong tương lai đang hướng tới việc học tập đa phương thức tinh vi, nơi các mô hình tích hợp các tín hiệu âm thanh (ví dụ: tiếng còi báo động) và ngữ cảnh văn bản để đạt được sự hiểu biết sâu sắc hơn. Các nền tảng như Ultralytics Platform cũng đang phát triển để đơn giản hóa việc chú thích và quản lý các tập dữ liệu video phức tạp, giúp dễ dàng hơn trong việc huấn luyện các mô hình tùy chỉnh cho các nhiệm vụ thời gian cụ thể.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay