Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Hiểu biết về Video

Khám phá Video Understanding, AI tiên tiến diễn giải các hành động và sự kiện trong video. Tìm hiểu cách nó hoạt động và cung cấp năng lượng cho các ứng dụng trong lái xe tự động và an ninh thông minh.

Hiểu video là một lĩnh vực nâng cao của Trí tuệ nhân tạo (AI)Thị giác máy tính (CV), cho phép máy móc tự động diễn giải và phân tích nội dung của video. Không giống như xử lý hình ảnh tĩnh, hiểu video bao gồm phân tích chuỗi khung hình để nhận diện không chỉ các đối tượng mà còn cả hành động, tương tác và bối cảnh thời gian của các sự kiện. Mục tiêu là đạt được sự hiểu biết toàn diện về dữ liệu video, tương tự như cách con người nhận thức và diễn giải các cảnh động. Khả năng này là nền tảng cho một loạt các ứng dụng, từ xe tự hành đến giám sát tự động và kiểm duyệt nội dung.

Cách thức hoạt động của Hiểu video

Các hệ thống hiểu video thường tích hợp nhiều kỹ thuật AI để xử lý và diễn giải thông tin trực quan và thông tin về thời gian. Quá trình này bắt đầu với các tác vụ thị giác máy tính nền tảng được thực hiện trên các khung hình video riêng lẻ. Các tác vụ này thường bao gồm:

  • Phát hiện đối tượng: Xác định và định vị các đối tượng trong mỗi khung hình. Các mô hình như Ultralytics YOLO rất hiệu quả cho bước ban đầu này.
  • Theo dõi đối tượng: Theo dõi các đối tượng đã xác định trên một chuỗi các khung hình để hiểu chuyển động và sự tồn tại của chúng.
  • Ước Tính Tư Thế (Pose Estimation): Nhận dạng tư thế và các điểm chính của cơ thể người, điều này rất quan trọng để phân tích các hành động của con người.
  • Phân vùng ảnh (Image Segmentation): Phân loại từng pixel trong một khung hình để hiểu hình dạng và ranh giới chính xác của các đối tượng.

Sau khi các đặc trưng không gian này được trích xuất, hệ thống sẽ phân tích chúng theo thời gian bằng cách sử dụng các mô hình được thiết kế cho dữ liệu tuần tự, chẳng hạn như Mạng nơ-ron hồi quy (RNNs) hoặc, phổ biến hơn trong các kiến trúc hiện đại, là mạng Transformer. Các mô hình này xác định các mẫu trong cách các đối tượng và cảnh thay đổi, cho phép các tác vụ cấp cao hơn như nhận dạng hành động, phát hiện sự kiện và tóm tắt video. Một số kiến trúc nâng cao, như Mạng nơ-ron tích chập 3D, được thiết kế để học các đặc trưng không gian và thời gian đồng thời. Toàn bộ quy trình được quản lý trong một khuôn khổ Vận hành máy học (MLOps) gắn kết để đảm bảo huấn luyện, triển khai và giám sát hiệu quả.

Hiểu video so với các khái niệm liên quan

Điều quan trọng là phải phân biệt Video Understanding với các tác vụ thị giác máy tính liên quan khác.

  • So sánh giữa Hiểu video và Nhận diện/Theo dõi đối tượng: Nhận diện đối tượng xác định những gì có trong một khung hình duy nhất và theo dõi đối tượng theo dõi các đối tượng đó trên nhiều khung hình. Hiểu video sử dụng kết quả của các tác vụ này để diễn giải tại sao—các hành động, sự kiện và tương tác xảy ra theo thời gian. Ví dụ: theo dõi một người là theo dõi đối tượng; xác định rằng người đó đang mở cửa là hiểu video.
  • So sánh giữa Hiểu video và Nhận dạng ảnh: Nhận dạng ảnh tập trung vào việc phân loại các đối tượng hoặc cảnh trong một hình ảnh tĩnh duy nhất. Hiểu video mở rộng khái niệm này sang chiều thời gian, phân tích một chuỗi hình ảnh để hiểu các sự kiện động. Nó đòi hỏi sự hiểu biết không chỉ về "cái gì" mà còn cả "như thế nào" và "khi nào".
  • So sánh giữa Hiểu video và Chuyển văn bản thành video: Chuyển văn bản thành video là một tác vụ AI tạo sinh tạo ra nội dung video từ các mô tả bằng văn bản. Ngược lại, hiểu video là một tác vụ phân tích trích xuất ý nghĩa và tạo ra các mô tả hoặc dữ liệu có cấu trúc từ nội dung video hiện có.

Các Ứng dụng Thực tế

Hiểu video thúc đẩy một số lượng ngày càng tăng các giải pháp sáng tạo trong nhiều ngành công nghiệp khác nhau.

  1. Giám sát và an ninh thông minh: Trong các ứng dụng an ninh, các hệ thống hiểu video có thể tự động phát hiện các hoạt động bất thường. Ví dụ: một hệ thống có thể theo dõi các nguồn cấp giám sát trong bệnh viện để xác định khi nào bệnh nhân bị ngã hoặc phân tích lưu lượng truy cập trong một cửa hàng bán lẻ để phát hiện hành vi trộm cắp. Các hệ thống này vượt xa việc phát hiện chuyển động đơn giản bằng cách hiểu ngữ cảnh của các hành động, giảm đáng kể các báo động sai và cho phép phản ứng nhanh hơn. Bạn có thể tìm hiểu thêm bằng cách đọc về cách tăng cường giám sát thông minh với Ultralytics YOLO11.
  2. Lái xe tự động: Đối với xe tự lái, việc hiểu đường là rất quan trọng. Các mô hình hiểu video phân tích các nguồn cấp dữ liệu từ camera để dự đoán ý định của người đi bộ, giải thích hành vi của các phương tiện khác và nhận ra các tín hiệu giao thông trong các tình huống phức tạp. Mức độ hiểu biết sâu sắc này là rất cần thiết cho việc điều hướng an toàn và đáng tin cậy. Lĩnh vực này thường dựa vào nghiên cứu sâu rộng về nhận dạng hành động cho các hệ thống tự động.

Các ứng dụng khác bao gồm kiểm duyệt nội dung trên các nền tảng truyền thông xã hội bằng cách gắn cờ các video không phù hợp, phân tích thể thao bằng cách tóm tắt các điểm nổi bật của trò chơi và tạo ra trải nghiệm tương tác trong giải trí. Các nền tảng như Ultralytics HUB cung cấp các công cụ để huấn luyện các mô hình tùy chỉnh cho các tác vụ chuyên biệt này, trong khi tích hợp với các công cụ như TensorRT tối ưu hóa chúng cho suy luận thời gian thực.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard