YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Nội suy khung

Khám phá cách nội suy khung hình sử dụng trí tuệ nhân tạo để tạo ra video mượt mà, tốc độ khung hình cao. Tìm hiểu cách nâng cao khả năng theo dõi đối tượng với Ultralytics YOLO26 và Ultralytics Nền tảng.

Nội suy khung hình là một kỹ thuật xử lý video và thị giác máy tính , tổng hợp các khung hình trung gian mới giữa các khung hình hiện có để tăng tốc độ khung hình của video và tạo chuyển động mượt mà hơn. Theo truyền thống, nội suy khung hình dựa trên việc ghép ảnh cơ bản, nhưng hiện đại sử dụng các mô hình học sâu (DL) tiên tiến để phân tích chuyển động và nội dung của các khung hình liền kề, dự đoán các chuyển động pixel phức tạp để tạo ra hình ảnh liên tục chất lượng cao. Phương pháp dựa trên trí tuệ nhân tạo này được áp dụng rộng rãi để chuyển đổi cảnh quay tiêu chuẩn thành phương tiện có tốc độ làm mới cao, tổng hợp hiệu ứng chuyển động chậm và ổn định các chuỗi chuyển động nhanh trong nhiều lĩnh vực đa phương tiện và khoa học.

Cách thức hoạt động của nội suy khung hình dựa trên trí tuệ nhân tạo

Các khung nội suy hiện đại khác biệt so với việc chỉ đơn giản là lấy trung bình các khung hình. Thay vào đó, chúng dựa vào các mạng nơ-ron phức tạp (NN) và các chiến lược ước lượng chuyển động tinh vi để lấp đầy khoảng trống giữa các đầu vào tuần tự:

  • Nội suy dựa trên luồng quang học: Phương pháp này tính toán chuyển động biểu kiến ​​của các pixel giữa các khung hình. Các mô hình sử dụng luồng ước tính này để biến dạng hình ảnh đầu vào và kết hợp chúng. Mặc dù nhanh, phương pháp này có thể gặp khó khăn với các vùng bị che khuất nhiều hoặc chuyển động nhanh.
  • Kiến trúc mạng tích chập và Transformer: Mạng nơ-ron tích chập sâu (CNN) và các mô hình Transformer mới hơn học được các mối quan hệ không gian và thời gian phong phú. Chúng xử lý hiện tượng che khuất và chuyển động nhanh bằng cách dự đoán các đặc điểm ngữ cảnh trên một trường tiếp nhận rộng hơn.
  • Các phương pháp tạo sinh: Những đột phá gần đây sử dụng mô hình khuếch tán để tạo ra các khung hình trung gian. Các mô hình này cho phép tổng hợp hình ảnh chân thực ngay cả khi các khung hình đầu vào có những khoảng trống chuyển động đáng kể, bằng cách áp dụng các kỹ thuật như Nội suy khung hình video dựa trên sự kiện (EVFI) để tái tạo các chuyển động tốc độ cao bằng cách sử dụng dữ liệu cảm biến thưa thớt.

Phân biệt các khái niệm liên quan

Để triển khai hiệu quả các quy trình nâng cao chất lượng video, điều quan trọng là phải phân biệt nội suy khung hình với các kỹ thuật trí tuệ nhân tạo (AI) liên quan:

  • So sánh nội suy khung hình và luồng quang học : Luồng quang học là một chỉ số cấp thấp đo hướng và tốc độ di chuyển của pixel. Nội suy khung hình là một tác vụ cấp cao hơn, thường sử dụng luồng quang học như một công cụ cơ bản để biến dạng pixel và tạo ra các khung hình hoàn toàn mới.
  • Nội suy khung hình so với siêu phân giải : Nội suy làm tăng độ phân giải thời gian bằng cách thêm nhiều khung hình mỗi giây (ví dụ: nâng cấp độ phân giải thời gian từ 30 FPS lên 60 FPS). Ngược lại, siêu phân giải làm tăng độ phân giải không gian bằng cách phóng to kích thước pixel của từng khung hình (ví dụ: từ 1080p lên 4K).

Các ứng dụng thực tiễn quan trọng

Nội suy khung hình giải quyết những thách thức quan trọng trong nhiều ngành công nghiệp bằng cách lấp đầy những khoảng trống trong dữ liệu hình ảnh:

  1. Truyền thông và phát sóng thể thao: Người sáng tạo sử dụng các công cụ như Google Công nghệ FILM (Frame Interpolation for Large Motion) của hãng này cho phép tạo ra các chuỗi chuyển động chậm siêu mượt từ các máy quay phim tiêu chuẩn. Điều này giúp tăng cường phân tích thể thao và hiệu ứng điện ảnh mà không cần đến phần cứng tốc độ cao đắt tiền.
  2. Hình ảnh sinh học và y học: Trong kính hiển vi tua nhanh thời gian, phương pháp nội suy khung hình tạo sinh giúp tăng cường khả năng theo dõi các đối tượng sinh học, chẳng hạn như tế bào đang phân chia hoặc vi khuẩn đang di chuyển. Bằng cách tổng hợp các trạng thái trung gian, các nhà nghiên cứu có thể giảm tần suất chụp ảnh vật lý, từ đó hạn chế độc tính quang học và bảo quản các mẫu vật dễ bị tổn thương.

Cải thiện quy trình làm việc AI bằng video nội suy

Trong học máy, việc sử dụng video tốc độ khung hình cao giúp cải thiện đáng kể độ chính xác của việc theo dõi đối tượng bằng cách cung cấp các chuyển đổi thời gian mượt mà hơn và giảm hiện tượng nhảy khung giới hạn. Sau khi video được làm mượt bằng phương pháp nội suy, các mô hình như Ultralytics YOLO26 có thể dễ dàng track các đối tượng trên các khung hình được tổng hợp.

Sau đây là Python Đoạn mã này minh họa cách thức thực hiện. track các đối tượng trong video tốc độ khung hình cao được nội suy bằng cách sử dụng ultralytics bưu kiện:

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Run persistent object tracking on the temporally up-sampled video
# The tracker uses the smooth motion to preserve object IDs more accurately
results = model.track(source="interpolated_high_fps_video.mp4", show=True, tracker="botsort.yaml")

Đối với việc xử lý video quy mô lớn, các nhóm có thể sử dụng Nền tảng Ultralytics để tự động hóa việc chú thích dữ liệu trên các tập dữ liệu nội suy, cho phép đào tạo trên đám mây liền mạch và triển khai mô hình mạnh mẽ cho các quy trình hiểu video phức tạp.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy