Thuật ngữ

Hiểu về video

Khám phá Video Understanding, công nghệ AI tiên tiến có khả năng diễn giải các hành động và sự kiện trong video. Tìm hiểu cách thức hoạt động và hỗ trợ các ứng dụng trong lĩnh vực lái xe tự động và an ninh thông minh.

Hiểu Video là một lĩnh vực tiên tiến của Trí tuệ Nhân tạo (AI)Thị giác Máy tính (CV), cho phép máy móc tự động diễn giải và phân tích nội dung video. Không giống như xử lý hình ảnh tĩnh, hiểu video liên quan đến việc phân tích chuỗi khung hình để nhận dạng không chỉ các đối tượng mà còn cả hành động, tương tác và bối cảnh thời gian của sự kiện. Mục tiêu của nó là đạt được sự hiểu biết toàn diện về dữ liệu video, tương tự như cách con người cảm nhận và diễn giải các cảnh động. Khả năng này là nền tảng cho nhiều ứng dụng, từ xe tự hành đến giám sát tự động và kiểm duyệt nội dung.

Cách thức hoạt động của Video Understanding

Các hệ thống hiểu video thường tích hợp nhiều kỹ thuật AI để xử lý và diễn giải thông tin hình ảnh và thời gian. Quá trình này bắt đầu với các tác vụ thị giác máy tính cơ bản được thực hiện trên từng khung hình video. Các tác vụ này thường bao gồm:

  • Phát hiện đối tượng : Xác định và định vị các đối tượng trong mỗi khung hình. Các mô hình như Ultralytics YOLO rất hiệu quả cho bước đầu tiên này.
  • Theo dõi đối tượng : Theo dõi các đối tượng đã xác định trong một chuỗi khung hình để hiểu chuyển động và sự tồn tại của chúng.
  • Đánh giá tư thế : Nhận biết tư thế và các điểm chính của cơ thể con người, điều này rất quan trọng để phân tích hành động của con người.
  • Phân đoạn hình ảnh : Phân loại từng pixel trong một khung hình để hiểu hình dạng chính xác và ranh giới của các đối tượng.

Sau khi các đặc điểm không gian này được trích xuất, hệ thống sẽ phân tích chúng theo thời gian bằng các mô hình được thiết kế cho dữ liệu tuần tự, chẳng hạn như Mạng Nơ-ron Hồi quy (RNN) hoặc, phổ biến hơn trong các kiến trúc hiện đại, mạng Transformer . Các mô hình này xác định các mẫu về cách các đối tượng và cảnh thay đổi, cho phép thực hiện các tác vụ cấp cao hơn như nhận dạng hành động, phát hiện sự kiện và tóm tắt video. Một số kiến trúc tiên tiến, chẳng hạn như Mạng Nơ-ron Tích chập 3D , được thiết kế để học đồng thời các đặc điểm không gian và thời gian. Toàn bộ quá trình được quản lý trong một khuôn khổ Vận hành Học máy (MLOps) thống nhất để đảm bảo đào tạo , triển khai và giám sát hiệu quả.

Hiểu biết về video so với các khái niệm liên quan

Điều quan trọng là phải phân biệt Video Understanding với các nhiệm vụ thị giác máy tính liên quan khác.

  • Hiểu video so với Phát hiện/Theo dõi đối tượng: Phát hiện đối tượng xác định những gì có trong một khung hình duy nhất, và theo dõi đối tượng theo dõi các đối tượng đó qua nhiều khung hình. Hiểu video sử dụng kết quả của các tác vụ này để diễn giải lý do — các hành động, sự kiện và tương tác xảy ra theo thời gian. Ví dụ, theo dõi một người là theo dõi đối tượng; xác định người đó đang mở cửa là hiểu video.
  • Hiểu biết về Video so với Nhận dạng Hình ảnh: Nhận dạng Hình ảnh tập trung vào việc phân loại các đối tượng hoặc cảnh trong một hình ảnh tĩnh duy nhất. Hiểu biết về Video mở rộng khái niệm này sang chiều thời gian, phân tích một chuỗi hình ảnh để hiểu các sự kiện động. Nó đòi hỏi sự hiểu biết không chỉ về "cái gì" mà còn về "như thế nào" và "khi nào".
  • Hiểu video so với Chuyển văn bản thành video: Chuyển văn bản thành video là một tác vụ AI tạo nội dung video từ mô tả văn bản. Ngược lại, hiểu video là một tác vụ phân tích, trích xuất ý nghĩa và tạo mô tả hoặc dữ liệu có cấu trúc từ nội dung video hiện có.

Ứng dụng trong thế giới thực

Sự hiểu biết về video thúc đẩy ngày càng nhiều giải pháp sáng tạo trong nhiều ngành công nghiệp khác nhau.

  1. Giám sát và An ninh Thông minh: Trong các ứng dụng an ninh, hệ thống nhận diện hình ảnh có thể tự động phát hiện các hoạt động bất thường. Ví dụ, một hệ thống có thể giám sát nguồn cấp dữ liệu giám sát trong bệnh viện để xác định khi nào bệnh nhân bị ngã hoặc phân tích lưu lượng giao thông trong cửa hàng bán lẻ để phát hiện trộm cắp. Các hệ thống này vượt xa khả năng phát hiện chuyển động đơn thuần bằng cách hiểu bối cảnh của hành động, giảm đáng kể báo động giả và cho phép phản ứng nhanh hơn. Bạn có thể tìm hiểu thêm bằng cách đọc về việc nâng cao khả năng giám sát thông minh với Ultralytics YOLO11 .
  2. Lái xe tự động: Đối với xe tự lái , việc hiểu đường là rất quan trọng. Các mô hình hiểu biết về video phân tích dữ liệu từ camera để dự đoán ý định của người đi bộ, diễn giải hành vi của các phương tiện khác và nhận diện tín hiệu giao thông trong các tình huống phức tạp. Mức độ hiểu biết sâu sắc này là thiết yếu cho việc điều hướng an toàn và đáng tin cậy. Lĩnh vực này thường dựa vào nghiên cứu sâu rộng về nhận dạng hành động cho các hệ thống tự động .

Các ứng dụng khác bao gồm kiểm duyệt nội dung trên các nền tảng mạng xã hội bằng cách gắn cờ video không phù hợp, phân tích thể thao bằng cách tóm tắt các điểm nổi bật của trận đấu và tạo trải nghiệm tương tác trong giải trí. Các nền tảng như Ultralytics HUB cung cấp các công cụ để đào tạo các mô hình tùy chỉnh cho các tác vụ chuyên biệt này, trong khi tích hợp với các công cụ như TensorRT giúp tối ưu hóa chúng cho suy luận thời gian thực .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard