Khám phá sức mạnh của Trường Bức xạ Nơ-ron (NeRF) cho các cảnh 3D chân thực như ảnh chụp, VR/AR, robot và tạo nội dung. Khám phá ngay!
Trường Sáng Nơ-ron (Neural Radiance Fields - NeRF) là một bước tiến đột phá trong AI tạo hình , được sử dụng để tổng hợp các cảnh 3D chân thực từ một tập hợp các hình ảnh 2D. Không giống như các phương pháp mô hình hóa 3D truyền thống dựa trên các cấu trúc hình học cụ thể như đa giác hoặc lưới, NeRF sử dụng mạng nơ-ron (NN) để tạo ra một biểu diễn "ngầm" của một cảnh. Điều này cho phép tạo ra các góc nhìn mới lạ với độ trung thực cao, nắm bắt chính xác các hiện tượng thị giác phức tạp như ánh sáng thay đổi, phản xạ và độ trong suốt.
Về cơ bản, mô hình NeRF hoạt động như một hàm thể tích liên tục. Nó lấy tọa độ không gian 3D và hướng nhìn làm đầu vào và xuất ra màu sắc và mật độ thể tích tương ứng cho điểm đó. Để dựng hình ảnh mới, hệ thống sử dụng một kỹ thuật gọi là dựng hình thể tích . Mô hình chiếu các tia từ camera ảo qua từng điểm ảnh vào cảnh, truy vấn mạng học sâu tại nhiều điểm dọc theo tia để dự đoán màu sắc và mật độ. Các giá trị này sau đó được tổng hợp để tính toán màu sắc điểm ảnh cuối cùng.
Quá trình đào tạo bao gồm việc tối ưu hóa trọng số mô hình để các chế độ xem được kết xuất khớp với ảnh đầu vào gốc. Điều này thường được thực hiện bằng các nền tảng như PyTorch hoặc TensorFlow . Kết quả là một môi trường 3D có thể điều hướng, chi tiết cao, được xây dựng hoàn toàn từ dữ liệu đào tạo bao gồm các bức ảnh tiêu chuẩn.
Công nghệ NeRF đã nhanh chóng mở rộng từ nghiên cứu học thuật sang các ngành công nghiệp thực tiễn, thu hẹp khoảng cách giữa nhiếp ảnh 2D và trải nghiệm 3D tương tác.
Điều quan trọng là phải phân biệt NeRF với các kỹ thuật 3D và thị giác khác vì chúng phục vụ các mục đích khác nhau trong hệ sinh thái AI.
Trong khi Ultralytics Các mô hình không được thiết kế để kết xuất thể tích, chúng đóng vai trò quan trọng trong quá trình tiền xử lý quy trình làm việc cho NeRF. Ví dụ: việc tạo NeRF sạch của một đối tượng cụ thể thường yêu cầu phải che phủ nền. Một mô hình phân đoạn thể hiện mạnh mẽ có thể tự động tạo ra các mặt nạ này.
Ví dụ sau đây minh họa cách sử dụng YOLO11 ĐẾN detect và xác định một đối tượng, bước đầu tiên phổ biến trong việc quản lý tập dữ liệu để tái tạo 3D:
from ultralytics import YOLO
# Load the official YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference to detect objects in an image
results = model("path/to/image.jpg")
# Show results to verify detection accuracy before downstream processing
results[0].show()
Sự phát triển nhanh chóng của lĩnh vực này được hỗ trợ bởi các thư viện nguồn mở như Nerfstudio , giúp đơn giản hóa quy trình đào tạo và NVIDIA Instant-NGP của , giúp giảm đáng kể thời gian đào tạo. Những công cụ này giúp các nhà nghiên cứu và nhà phát triển dễ dàng tiếp cận công nghệ tái tạo 3D mạnh mẽ.