YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

4D Gaussian Splatting

Khám phá cách 4D Gaussian Splatting cho phép kết xuất hình ảnh chân thực, theo thời gian thực cho các cảnh động. Tìm hiểu cách tách biệt các đối tượng chuyển động với Ultralytics YOLO26.

4D Gaussian Splatting là một kỹ thuật kết xuất tiên tiến trong thị giác máy tínhhọc sâu , mở rộng các nguyên tắc biểu diễn cảnh 3D rõ ràng bằng cách thêm chiều thời gian. Trong khi mô hình 3D truyền thống ghi lại môi trường tĩnh, 4D Gaussian Splatting cho phép kết xuất chân thực, thời gian thực của các cảnh động, chuyển động. Bằng cách mô hình hóa cách các đối tượng và môi trường biến dạng và dịch chuyển theo thời gian, công nghệ này thu hẹp khoảng cách giữa hình ảnh tĩnh và tổng hợp video sống động như thật, mang lại độ chân thực hình ảnh chưa từng có ở tốc độ khung hình cao.

Phân biệt với các kỹ thuật kết xuất liên quan

Để hiểu rõ khái niệm này, việc so sánh nó với các phương pháp tổng hợp hình ảnh mới có liên quan chặt chẽ sẽ rất hữu ích. Phương pháp Gaussian Splatting 3D tiêu chuẩn biểu diễn một cảnh bằng hàng triệu phân bố hình elip tĩnh. Biến thể 4D giới thiệu các thuộc tính phụ thuộc thời gian, cho phép các hình elip này di chuyển, xoay và thay đổi kích thước qua nhiều khung hình.

Hơn nữa, không giống như Neural Radiance Fields (NeRF) , dựa vào mạng nơ-ron sâu để tính toán ngầm định ánh sáng và màu sắc cho từng pixel, 4D Gaussian Splatting tính toán rõ ràng vị trí của các điểm trong không gian và thời gian. Quá trình raster hóa rõ ràng này làm giảm đáng kể chi phí tính toán thường liên quan đến việc kết xuất đồ họa máy tính , cho phép hiển thị các cảnh động nhanh hơn đáng kể.

Cách thức hoạt động của kỹ thuật Gaussian Splatting 4D

Kiến trúc này dựa trên các hàm toán học liên tục để track Trạng thái của mỗi phân bố Gaussian tại bất kỳ thời điểm nào. Trong quá trình tối ưu hóa, các thuật toán học máy cập nhật tọa độ không gian (X, Y, Z) và giá trị màu sắc cùng với trường biến dạng theo thời gian. Các nhà nghiên cứu thường sử dụng các thư viện cơ bản được ghi trong tài liệu chính thức PyTorch hoặc hướng dẫn TensorFlow để xử lý quá trình lan truyền ngược phức tạp cần thiết để huấn luyện các mô hình thời gian này.

Hệ thống này giảm thiểu sự khác biệt giữa kết quả hiển thị và chuỗi video thực tế. Những đột phá gần đây được công bố trên các kho lưu trữ học thuật như arXivThư viện số ACM đã chỉ ra rằng việc tách biệt nền tĩnh khỏi các yếu tố tiền cảnh động giúp cải thiện đáng kể tính ổn định của quá trình huấn luyện.

Ứng dụng AI và ML trong thế giới thực

  • Thực tế ảo (VR) nhập vai : Công nghệ 4D Gaussian Splatting được sử dụng rộng rãi để ghi lại các màn trình diễn sống động của con người cho VR và thực tế tăng cường. Thay vì dựa vào những bộ đồ ghi hình chuyển động cồng kềnh, người sáng tạo có thể ghi lại diễn viên từ nhiều góc độ và tạo ra một video hoàn chỉnh, có thể điều hướng tự do về màn trình diễn đó.
  • Xe tự hành và robot : Xe tự lái cần có sự hiểu biết sâu sắc về môi trường xung quanh. Bằng cách tái tạo các cảnh đường phố năng động—bao gồm người đi bộ và phương tiện giao thông—các kỹ sư có thể tạo ra các mô phỏng cực kỳ chân thực để thử nghiệm an toàn các mô hình điều hướng tự hành trước khi triển khai thực tế.

Chuẩn bị dữ liệu cho quá trình tái tạo 4D

Một bước quan trọng trong việc tạo ra các cảnh 4D chất lượng cao là tách các đối tượng chuyển động khỏi nền tĩnh. Các nhà phát triển thường sử dụng theo dõi đối tượngphân đoạn đối tượng để tạo mặt nạ động trước khi quá trình ghép ảnh bắt đầu.

Bạn có thể dễ dàng track và tách biệt các đối tượng chuyển động trong video bằng cách sử dụng mô hình Ultralytics YOLO26 . Đoạn mã sau đây minh họa cách thực hiện điều này trong quy trình tiền xử lý:

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 object detection model
model = YOLO("yolo26n.pt")

# Run real-time tracking on a dynamic scene video to isolate moving subjects
results = model.track(source="dynamic_scene.mp4", show=True, save=True)

Bằng cách tận dụng các quy trình AI tạo sinh hiện đại, các nhóm có thể tải video đã ghi và chú thích trực tiếp lên Nền tảng Ultralytics để quản lý tập dữ liệu một cách hiệu quả. Từ đó, việc áp dụng các mẹo huấn luyện mô hình đảm bảo các hộp giới hạn kết quả che phủ hoàn hảo các yếu tố động, mở đường cho việc tạo ra cảnh 4D hoàn hảo. Nghiên cứu tiên tiến từ các tổ chức như Google DeepMindOpenAI cho thấy việc tích hợp che phủ không gian nhận biết đối tượng đang trở thành một phương pháp thực hành tốt nhất tiêu chuẩn trong tổng hợp khung hình theo thời gian.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy