Khám phá Gaussian Splatting để tái tạo cảnh 3D chân thực. Tìm hiểu cách nó cho phép kết xuất thời gian thực và tích hợp với... Ultralytics YOLO26 dành cho thị giác.
Gaussian Splatting là một kỹ thuật rasterization hiện đại được sử dụng trong đồ họa máy tính và thị giác máy tính để tái tạo các cảnh 3D chân thực từ một tập hợp các hình ảnh 2D. Không giống như mô hình 3D truyền thống dựa trên lưới đa giác, hoặc các tiến bộ AI gần đây như Neural Radiance Fields (NeRF) sử dụng mạng nơ-ron để xấp xỉ một cảnh, Gaussian Splatting biểu diễn một cảnh dưới dạng một tập hợp hàng triệu phân bố Gaussian 3D (hình elip). Phương pháp này cho phép hiển thị thời gian thực ở tốc độ khung hình cao (thường vượt quá 100 FPS) trong khi vẫn duy trì độ trung thực hình ảnh vượt trội, giải quyết một nút thắt cổ chai hiệu suất lớn được tìm thấy trong các phương pháp tổng hợp khung hình trước đây.
Ý tưởng cốt lõi xoay quanh việc biểu diễn không gian 3D một cách rõ ràng thay vì ngầm định. Trong quy trình làm việc điển hình, quá trình bắt đầu với một đám mây điểm thưa được tạo ra từ một tập hợp ảnh bằng kỹ thuật gọi là Cấu trúc từ Chuyển động (Structure from Motion - SfM) . Mỗi điểm trong đám mây này sau đó được khởi tạo như một phân bố Gaussian 3D.
Trong quá trình huấn luyện , hệ thống tối ưu hóa một số tham số cho mỗi phân bố Gaussian:
Thuật ngữ "splatting" đề cập đến quá trình raster hóa , trong đó các hàm Gaussian 3D này được chiếu – hay "splatting" – lên mặt phẳng camera 2D để tạo thành hình ảnh. Phép chiếu này hoàn toàn khả vi, có nghĩa là các thuật toán giảm độ dốc tiêu chuẩn có thể được sử dụng để giảm thiểu sự khác biệt giữa hình ảnh được tạo ra và ảnh gốc.
Mặc dù cả hai kỹ thuật đều nhằm mục đích tạo ra những góc nhìn mới về một cảnh, nhưng chúng khác biệt về cơ bản về kiến trúc và hiệu năng. NeRF (Neural Radiance Fields) mã hóa một cảnh trong trọng số của mạng nơ-ron . Việc hiển thị NeRF yêu cầu truy vấn mạng này hàng triệu lần cho mỗi khung hình (ray marching), điều này tốn kém về mặt tính toán và chậm.
Ngược lại, Gaussian Splatting sử dụng một biểu diễn tường minh (danh sách các phân bố Gaussian). Điều này cho phép nó tận dụng hiệu quả quá trình raster hóa dựa trên ô tương tự như cách các trò chơi điện tử hiển thị đồ họa. Do đó, Gaussian Splatting huấn luyện và hiển thị nhanh hơn đáng kể so với NeRF, khiến nó khả thi hơn cho các ứng dụng dành cho người tiêu dùng và suy luận thời gian thực .
Tốc độ và chất lượng của Gaussian Splatting đã mở ra những cánh cửa mới trong nhiều ngành công nghiệp khác nhau:
Để thuật toán Gaussian Splatting hoạt động hiệu quả, ảnh huấn luyện thường cần phải tĩnh. Các đối tượng chuyển động (như người đi bộ hoặc ô tô) trong ảnh nguồn có thể gây ra các hiện tượng nhiễu gọi là "vật thể trôi nổi". Các quy trình tiên tiến sử dụng phân đoạn đối tượng để tự động che đi các yếu tố động này trước khi huấn luyện mô hình splat.
Nền tảng Ultralytics cho phép các nhóm quản lý tập dữ liệu và huấn luyện các mô hình có thể hỗ trợ trong giai đoạn tiền xử lý này. Dưới đây là cách người ta có thể sử dụng mô hình phân đoạn để tạo mặt nạ cho một tập dữ liệu dùng cho tái tạo 3D:
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image from the scan dataset
# Class 0 is 'person' in COCO - we mask them out to keep the scene static
results = model.predict("scan_frame_001.jpg", classes=[0])
# Save the generated mask to exclude the person from the 3D reconstruction
for result in results:
result.save_masks("scan_frame_001_mask.png")
Kỹ thuật Gaussian Splatting đại diện cho một bước chuyển mình trong lĩnh vực thị giác máy tính hướng tới các phương pháp lai kết hợp khả năng học hỏi của Deep Learning với hiệu quả của đồ họa máy tính cổ điển. Kỹ thuật này đang phát triển nhanh chóng, với các nhà nghiên cứu đang tìm cách nén kích thước tệp (có thể rất lớn) và tích hợp nó với trí tuệ nhân tạo tạo sinh để tạo ra các tài sản 3D từ các lời nhắc bằng văn bản. Khi các bộ tăng tốc phần cứng như GPU tiếp tục được cải thiện, Gaussian Splatting có khả năng trở thành tiêu chuẩn để thu thập và hiển thị thế giới thực dưới dạng kỹ thuật số.