Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Phân tán Gaussian

Khám phá Gaussian Splatting để tái tạo cảnh 3D chân thực. Tìm hiểu cách nó cho phép kết xuất thời gian thực và tích hợp với... Ultralytics YOLO26 dành cho thị giác.

Gaussian Splatting là một kỹ thuật rasterization hiện đại được sử dụng trong đồ họa máy tính và thị giác máy tính để tái tạo các cảnh 3D chân thực từ một tập hợp các hình ảnh 2D. Không giống như mô hình 3D truyền thống dựa trên lưới đa giác, hoặc các tiến bộ AI gần đây như Neural Radiance Fields (NeRF) sử dụng mạng nơ-ron để xấp xỉ một cảnh, Gaussian Splatting biểu diễn một cảnh dưới dạng một tập hợp hàng triệu phân bố Gaussian 3D (hình elip). Phương pháp này cho phép hiển thị thời gian thực ở tốc độ khung hình cao (thường vượt quá 100 FPS) trong khi vẫn duy trì độ trung thực hình ảnh vượt trội, giải quyết một nút thắt cổ chai hiệu suất lớn được tìm thấy trong các phương pháp tổng hợp khung hình trước đây.

Cách thức hoạt động của Gaussian Splatting

Ý tưởng cốt lõi xoay quanh việc biểu diễn không gian 3D một cách rõ ràng thay vì ngầm định. Trong quy trình làm việc điển hình, quá trình bắt đầu với một đám mây điểm thưa được tạo ra từ một tập hợp ảnh bằng kỹ thuật gọi là Cấu trúc từ Chuyển động (Structure from Motion - SfM) . Mỗi điểm trong đám mây này sau đó được khởi tạo như một phân bố Gaussian 3D.

Trong quá trình huấn luyện , hệ thống tối ưu hóa một số tham số cho mỗi phân bố Gaussian:

  • Vị trí: Tọa độ 3D (X, Y, Z) trong khung cảnh.
  • Hiệp phương sai: Tham số này xác định hình dạng và độ xoay của hình elip (ví dụ: độ kéo giãn hoặc độ nghiêng của "vết loang").
  • Độ mờ đục: Mức độ trong suốt hoặc đặc của hàm Gaussian (giá trị alpha).
  • Màu sắc: Được thể hiện bằng phương pháp điều hòa cầu (Spherical Harmonics ), cho phép màu sắc thay đổi tùy thuộc vào góc nhìn, nắm bắt được các phản chiếu và hiệu ứng ánh sáng chân thực.

Thuật ngữ "splatting" đề cập đến quá trình raster hóa , trong đó các hàm Gaussian 3D này được chiếu – hay "splatting" – lên mặt phẳng camera 2D để tạo thành hình ảnh. Phép chiếu này hoàn toàn khả vi, có nghĩa là các thuật toán giảm độ dốc tiêu chuẩn có thể được sử dụng để giảm thiểu sự khác biệt giữa hình ảnh được tạo ra và ảnh gốc.

So sánh Gaussian Splatting với NeRF

Mặc dù cả hai kỹ thuật đều nhằm mục đích tạo ra những góc nhìn mới về một cảnh, nhưng chúng khác biệt về cơ bản về kiến ​​trúc và hiệu năng. NeRF (Neural Radiance Fields) mã hóa một cảnh trong trọng số của mạng nơ-ron . Việc hiển thị NeRF yêu cầu truy vấn mạng này hàng triệu lần cho mỗi khung hình (ray marching), điều này tốn kém về mặt tính toán và chậm.

Ngược lại, Gaussian Splatting sử dụng một biểu diễn tường minh (danh sách các phân bố Gaussian). Điều này cho phép nó tận dụng hiệu quả quá trình raster hóa dựa trên ô tương tự như cách các trò chơi điện tử hiển thị đồ họa. Do đó, Gaussian Splatting huấn luyện và hiển thị nhanh hơn đáng kể so với NeRF, khiến nó khả thi hơn cho các ứng dụng dành cho người tiêu dùng và suy luận thời gian thực .

Các Ứng dụng Thực tế

Tốc độ và chất lượng của Gaussian Splatting đã mở ra những cánh cửa mới trong nhiều ngành công nghiệp khác nhau:

  • Du lịch và Bất động sản ảo: Người sáng tạo có thể ghi lại hình ảnh bảo tàng, di tích lịch sử hoặc ngôi nhà rao bán bằng máy bay không người lái hoặc điện thoại thông minh. Công nghệ Gaussian Splatting cho phép người dùng từ xa khám phá những không gian này trong Thực tế ảo (VR) với 6 bậc tự do (6DoF), nhìn thấy những chi tiết nhỏ như phản chiếu trên sàn gỗ mà phương pháp chụp ảnh lập thể truyền thống có thể bỏ sót.
  • Mô phỏng ô tô: Các công ty phát triển xe tự lái cần lượng dữ liệu khổng lồ để kiểm tra thuật toán nhận thức của họ. Công nghệ Gaussian Splatting có thể tái tạo các khu phố thực tế từ dữ liệu cảm biến, tạo ra môi trường mô phỏng chân thực như ảnh chụp. Trong các môi trường này, các mô hình thị giác như Ultralytics YOLO26 có thể được kiểm tra để đảm bảo chúng nhận diện chính xác các mối nguy hiểm trong các kịch bản 3D phức tạp.

Xử lý sơ bộ cho hiệu ứng Splatting bằng thị giác máy tính

Để thuật toán Gaussian Splatting hoạt động hiệu quả, ảnh huấn luyện thường cần phải tĩnh. Các đối tượng chuyển động (như người đi bộ hoặc ô tô) trong ảnh nguồn có thể gây ra các hiện tượng nhiễu gọi là "vật thể trôi nổi". Các quy trình tiên tiến sử dụng phân đoạn đối tượng để tự động che đi các yếu tố động này trước khi huấn luyện mô hình splat.

Nền tảng Ultralytics cho phép các nhóm quản lý tập dữ liệu và huấn luyện các mô hình có thể hỗ trợ trong giai đoạn tiền xử lý này. Dưới đây là cách người ta có thể sử dụng mô hình phân đoạn để tạo mặt nạ cho một tập dữ liệu dùng cho tái tạo 3D:

from ultralytics import YOLO

# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image from the scan dataset
# Class 0 is 'person' in COCO - we mask them out to keep the scene static
results = model.predict("scan_frame_001.jpg", classes=[0])

# Save the generated mask to exclude the person from the 3D reconstruction
for result in results:
    result.save_masks("scan_frame_001_mask.png")

Ý nghĩa của Trí tuệ Nhân tạo và Xu hướng Tương lai

Kỹ thuật Gaussian Splatting đại diện cho một bước chuyển mình trong lĩnh vực thị giác máy tính hướng tới các phương pháp lai kết hợp khả năng học hỏi của Deep Learning với hiệu quả của đồ họa máy tính cổ điển. Kỹ thuật này đang phát triển nhanh chóng, với các nhà nghiên cứu đang tìm cách nén kích thước tệp (có thể rất lớn) và tích hợp nó với trí tuệ nhân tạo tạo sinh để tạo ra các tài sản 3D từ các lời nhắc bằng văn bản. Khi các bộ tăng tốc phần cứng như GPU tiếp tục được cải thiện, Gaussian Splatting có khả năng trở thành tiêu chuẩn để thu thập và hiển thị thế giới thực dưới dạng kỹ thuật số.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay