Novel View Synthesis (NVS)
Khám phá tổng hợp góc nhìn mới để tạo ra các phối cảnh 3D từ hình ảnh 2D. Tìm hiểu cách nâng cao các model Ultralytics YOLO26 với dữ liệu tổng hợp để đạt được AI mạnh mẽ.
Quy trình tạo ra các góc nhìn mới, chưa từng thấy của một cảnh 3D từ một tập hợp hạn chế các hình ảnh 2D là một nhiệm vụ nâng cao trong computer vision (CV). Kỹ thuật này dựa nhiều vào deep learning (DL) để suy luận chính xác về hình học, ánh sáng, kết cấu và sự che khuất cơ bản. Bằng cách dự đoán cách các vật thể và môi trường sẽ hiển thị từ các góc độ chưa được ghi lại, công nghệ này thu hẹp khoảng cách giữa hình ảnh 2D và 3D scene representation sống động.
Link to this sectionQuá trình phát triển và những tiến bộ gần đây#
Trong lịch sử, việc tạo ra các góc nhìn mới dựa vào multi-view stereo cổ điển và các photogrammetry techniques truyền thống, vốn thường gặp khó khăn với ánh sáng phức tạp và bề mặt phản chiếu. Ngày nay, lĩnh vực này bị thống trị bởi neural rendering. Điều quan trọng là phải phân biệt khái niệm rộng này với các triển khai kiến trúc cụ thể như Neural Radiance Fields (NeRF) và Gaussian Splatting. Mặc dù các thuật ngữ đó đề cập đến các phương pháp toán học và cấu trúc cụ thể để kết xuất cảnh, mục tiêu bao quát mà cả hai giải quyết là tạo ra các góc nhìn mới.
Những bước đột phá gần đây trong năm 2024 và 2025 đã tích hợp generative diffusion models trực tiếp vào quy trình tổng hợp. Các kiến trúc mới hơn này cho phép zero-shot learning capabilities, cho phép các model tạo ra các chi tiết bị thiếu hợp lý trực tiếp trong không gian pixel mà không cần phải tái tạo lưới 3D rõ ràng. Điều này làm giảm chi phí tính toán vốn liên quan đến computer graphics rendering và tăng tốc việc tạo ra các kết quả chân thực như ảnh chụp.
Link to this sectionCác ứng dụng trong thực tế#
Khả năng tổng hợp các góc độ chưa từng thấy mang lại ý nghĩa sâu sắc cho nhiều ngành công nghiệp:
- Immersive Media: Trong spatial computing hiện đại, công nghệ này là nền tảng để tạo ra các virtual reality environments có thể khám phá và các augmented reality applications tương tác chỉ từ một vài bức ảnh chụp bằng điện thoại thông minh.
- E-Commerce: Các nhà bán lẻ có thể tạo ra các showcase sản phẩm 3D toàn diện từ một tập hợp thưa thớt các hình ảnh 2D, cho phép khách hàng kiểm tra sản phẩm kỹ thuật số từ mọi góc độ.
- Mô phỏng và đào tạo: Đối với autonomous vehicles và robotics, việc thu thập các tình huống thực tế là nguy hiểm và tốn kém. Bằng cách tổng hợp các góc nhìn mới từ dữ liệu đường phố hoặc kho hàng hiện có, các kỹ sư có thể tạo ra vô số biến thể của một cảnh. Điều này đóng vai trò như data augmentation mạnh mẽ, cải thiện độ bền vững của các artificial intelligence (AI) navigation models ở hạ nguồn.
Link to this sectionTích hợp với các quy trình làm việc của Ultralytics#
Khi các góc nhìn mới được tổng hợp, chúng thường yêu cầu phân tích cấu trúc. Sử dụng Ultralytics Platform, các nhà phát triển có thể quản lý liền mạch việc data collection and annotation cho các bộ dữ liệu được tạo ra một cách nhân tạo này.
Bằng cách huấn luyện các model tiên tiến như Ultralytics YOLO26 trên các góc nhìn đa dạng này, bạn có thể cải thiện đáng kể độ chính xác của các tác vụ object detection, image segmentation và pose estimation. Vì model học cách nhận dạng các đối tượng từ các góc độ chưa từng được ghi lại trước đây, việc model deployment kết quả trở nên linh hoạt hơn đáng kể trong các tình huống thực tế.
Để nhanh chóng phân tích một góc nhìn đã tổng hợp, bạn có thể truyền hình ảnh đã render trực tiếp vào một model đã được huấn luyện trước:
import cv2
from ultralytics import YOLO
# Load the highly recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Load a synthesized novel view using the OpenCV library
synthesized_view = cv2.imread("novel_view_render.jpg")
# Perform real-time object detection on the newly generated perspective
results = model(synthesized_view)
# Display the detection results
results[0].show()Cho dù bạn đang render các môi trường bằng PyTorch3D library hay tăng tốc suy luận trên phần cứng như tensor processing units (TPUs), việc tổng hợp và sau đó phân tích các góc nhìn mới vẫn là vấn đề tiên phong trong nghiên cứu AI, được hỗ trợ liên tục bởi recent academic preprints và các cụm cloud-based machine learning khổng lồ.






