Frame Interpolation
Khám phá cách nội suy khung (frame interpolation) sử dụng AI để tạo video mượt mà, FPS cao. Tìm hiểu cách tăng cường theo dõi đối tượng với Ultralytics YOLO26 và Ultralytics Platform.
Nội suy khung hình là một kỹ thuật thị giác máy tính (computer vision) và xử lý video giúp tổng hợp các khung hình trung gian mới giữa các khung hình hiện có để tăng tốc độ khung hình của video và tạo chuyển động mượt mà hơn. Thay vì dựa vào kỹ thuật pha trộn hình ảnh cơ bản như truyền thống, nội suy khung hình hiện đại sử dụng các mô hình học sâu (deep learning - DL) tiên tiến để phân tích chuyển động và nội dung của các khung hình liền kề, từ đó dự đoán các chuyển động pixel phức tạp để tạo ra các hình ảnh liên tục, chất lượng cao. Cách tiếp cận dựa trên AI này được áp dụng rộng rãi để chuyển đổi cảnh quay tiêu chuẩn thành phương tiện có tốc độ làm mới cao, tổng hợp các hiệu ứng chuyển động chậm (slow-motion) và ổn định các chuỗi hình ảnh nhịp độ nhanh trong nhiều lĩnh vực đa phương tiện và khoa học khác nhau.
Link to this sectionCách thức hoạt động của nội suy khung hình dựa trên AI#
Các framework nội suy hiện đại không còn chỉ dựa vào việc lấy trung bình khung hình đơn giản. Thay vào đó, chúng dựa vào các mạng thần kinh (neural networks - NNs) phức tạp và các chiến lược ước tính chuyển động (motion estimation) tinh vi để lấp đầy khoảng trống giữa các đầu vào tuần tự:
- Nội suy dựa trên Optical Flow: Phương pháp này tính toán chuyển động biểu kiến của các pixel giữa các khung hình. Các mô hình sử dụng dòng chảy ước tính này để làm biến dạng (warp) các hình ảnh đầu vào và hòa trộn chúng. Mặc dù nhanh, phương pháp này có thể gặp khó khăn với các trường hợp bị che khuất nặng hoặc chuyển động quá nhanh.
- Kiến trúc Convolutional và Transformer: Các Mạng thần kinh tích chập (CNNs) sâu và các mô hình Transformer mới hơn giúp học các mối quan hệ không gian và thời gian phong phú. Chúng quản lý các tình trạng bị che khuất và chuyển động nhanh bằng cách dự đoán các đặc trưng ngữ cảnh trên một vùng tiếp nhận (receptive field) rộng hơn.
- Phương pháp tạo sinh (Generative): Các bước đột phá gần đây sử dụng mô hình khuếch tán (diffusion models) để tạo ra các khung hình trung gian. Các mô hình này cho phép tổng hợp hình ảnh chân thực về mặt cảm nhận ngay cả khi các khung hình đầu vào có khoảng cách chuyển động đáng kể, đồng thời áp dụng các kỹ thuật như Nội suy khung hình video dựa trên sự kiện (EVFI) để tái tạo các chuyển động tốc độ cao bằng dữ liệu cảm biến thưa thớt.
Link to this sectionPhân biệt các khái niệm liên quan#
Để triển khai hiệu quả các đường ống xử lý tăng cường video, điều quan trọng là phải phân biệt được nội suy khung hình với các kỹ thuật trí tuệ nhân tạo (AI) liên quan:
- Nội suy khung hình so với Optical Flow: Optical flow là một chỉ số cấp thấp dùng để đo hướng và tốc độ di chuyển của pixel. Nội suy khung hình là một tác vụ cấp cao hơn, thường sử dụng optical flow làm công cụ nền tảng để làm biến dạng các pixel và tạo ra các khung hình hoàn toàn mới.
- Nội suy khung hình so với Siêu phân giải (Super-Resolution): Nội suy làm tăng độ phân giải thời gian bằng cách thêm nhiều khung hình mỗi giây (ví dụ: lấy mẫu thời gian (temporal up-sampling) từ 30 FPS lên 60 FPS). Ngược lại, siêu phân giải làm tăng độ phân giải không gian bằng cách nâng cấp kích thước pixel của từng khung hình riêng lẻ (ví dụ: từ 1080p lên 4K).
Link to this sectionCác ứng dụng thực tế chính#
Nội suy khung hình giải quyết các thách thức quan trọng trong nhiều ngành công nghiệp bằng cách lấp đầy khoảng trống trong dữ liệu hình ảnh:
-
Truyền thông và phát sóng thể thao: Các nhà sáng tạo sử dụng các công cụ như FILM (Frame Interpolation for Large Motion) của Google để tạo ra các chuỗi chuyển động chậm siêu mượt mà từ các máy ảnh tiêu chuẩn. Điều này giúp nâng cao hiệu quả phân tích thể thao và các hiệu ứng điện ảnh mà không cần đến phần cứng tốc độ cao đắt tiền.
-
Hình ảnh sinh học và y tế: Trong kỹ thuật chụp ảnh tua nhanh thời gian (time-lapse microscopy), nội suy khung hình tạo sinh (generative frame interpolation) giúp cải thiện việc theo dõi các đối tượng sinh học, chẳng hạn như tế bào phân chia hoặc vi khuẩn di chuyển. Bằng cách tổng hợp các trạng thái trung gian, các nhà nghiên cứu có thể giảm tần suất chụp ảnh vật lý, từ đó hạn chế độc tính quang học và bảo tồn các mẫu vật nhạy cảm.
Link to this sectionCải thiện quy trình làm việc AI với video đã qua nội suy#
Trong machine learning, việc sử dụng video có tốc độ khung hình cao giúp cải thiện đáng kể độ chính xác của tác vụ theo dõi đối tượng (object tracking) phía sau bằng cách cung cấp các chuyển đổi thời gian mượt mà hơn và giảm hiện tượng nhảy bounding box. Sau khi video được làm mượt thông qua nội suy, các mô hình như Ultralytics YOLO26 có thể dễ dàng theo dõi các đối tượng trên các khung hình đã được tổng hợp.
Đoạn mã Python sau đây minh họa cách theo dõi các đối tượng trong video có FPS cao đã qua nội suy bằng gói ultralytics:
from ultralytics import YOLO
# Load the latest state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Run persistent object tracking on the temporally up-sampled video
# The tracker uses the smooth motion to preserve object IDs more accurately
results = model.track(source="interpolated_high_fps_video.mp4", show=True, tracker="botsort.yaml")Đối với xử lý video quy mô lớn, các đội ngũ có thể sử dụng Ultralytics Platform để tự động hóa gán nhãn dữ liệu (data annotation) trên các tập dữ liệu đã nội suy, cho phép huấn luyện trên đám mây liền mạch và triển khai mô hình (model deployment) mạnh mẽ cho các đường ống hiểu video (video understanding) phức tạp.






