Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Tổng hợp quan điểm mới (NVS)

Khám phá kỹ thuật tổng hợp hình ảnh mới để tạo ra phối cảnh 3D từ ảnh 2D. Tìm hiểu cách nâng cao chất lượng hình ảnh. Ultralytics YOLO26 sử dụng dữ liệu tổng hợp để tạo ra trí tuệ nhân tạo mạnh mẽ.

Quá trình tạo ra những góc nhìn mới, chưa từng thấy về một cảnh 3D từ một tập hợp hạn chế các hình ảnh 2D là một nhiệm vụ nâng cao trong lĩnh vực thị giác máy tính (CV) . Kỹ thuật này dựa rất nhiều vào học sâu (DL) để suy luận chính xác về hình học, ánh sáng, kết cấu và sự che khuất bên dưới. Bằng cách dự đoán cách các đối tượng và môi trường sẽ xuất hiện từ các góc độ chưa được ghi lại, công nghệ này thu hẹp khoảng cách giữa hình ảnh 2D và biểu diễn cảnh 3D sống động.

Sự tiến hóa và những tiến bộ gần đây

Trong quá khứ, việc tạo ra các góc nhìn mới dựa vào kỹ thuật lập thể đa góc nhìn cổ điển và kỹ thuật đo ảnh truyền thống, vốn thường gặp khó khăn với ánh sáng phức tạp và các bề mặt phản chiếu. Ngày nay, cảnh quan được chi phối bởi kỹ thuật dựng hình thần kinh. Điều quan trọng là phải phân biệt khái niệm rộng này với các triển khai kiến ​​trúc cụ thể như Neural Radiance Fields (NeRF)Gaussian Splatting . Mặc dù các thuật ngữ đó đề cập đến các phương pháp toán học và cấu trúc cụ thể để dựng hình cảnh, mục tiêu chung mà cả hai đều hướng đến là tạo ra các góc nhìn mới lạ.

Những đột phá gần đây trong năm 2024 và 2025 đã tích hợp các mô hình khuếch tán tạo sinh trực tiếp vào quy trình tổng hợp. Các kiến ​​trúc mới này cho phép khả năng học không cần dữ liệu huấn luyện (zero-shot learning ), cho phép các mô hình tạo ra các chi tiết bị thiếu một cách hợp lý trực tiếp trong không gian pixel mà không cần tái tạo lưới 3D rõ ràng. Điều này làm giảm chi phí tính toán thường liên quan đến việc kết xuất đồ họa máy tính và tăng tốc quá trình tạo ra các sản phẩm hình ảnh chân thực.

Các Ứng dụng Thực tế

Khả năng tổng hợp những góc nhìn chưa từng thấy có ý nghĩa sâu rộng đối với nhiều ngành công nghiệp:

  • Truyền thông nhập vai : Trong điện toán không gian hiện đại, công nghệ này là nền tảng để tạo ra các môi trường thực tế ảo có thể khám phá và các ứng dụng thực tế tăng cường tương tác chỉ từ một vài bức ảnh thông thường trên điện thoại thông minh.
  • Thương mại điện tử : Các nhà bán lẻ có thể tạo ra các bản trưng bày sản phẩm 3D toàn diện từ một tập hợp hình ảnh 2D hạn chế, cho phép khách hàng kiểm tra sản phẩm kỹ thuật số từ mọi góc độ.
  • Mô phỏng và Huấn luyện : Đối với xe tự hànhrobot , việc thu thập các trường hợp ngoại lệ trong thế giới thực rất nguy hiểm và tốn kém. Bằng cách tổng hợp các góc nhìn mới từ dữ liệu đường phố hoặc nhà kho hiện có, các kỹ sư có thể tạo ra vô số biến thể của một khung cảnh. Điều này hoạt động như một công cụ tăng cường dữ liệu mạnh mẽ, cải thiện độ tin cậy của các mô hình điều hướng trí tuệ nhân tạo (AI) tiếp theo.

Tích hợp với Ultralytics Quy trình làm việc

Sau khi các quan điểm mới được tổng hợp, chúng thường cần được phân tích cấu trúc. Sử dụng Nền tảng Ultralytics , các nhà phát triển có thể quản lý việc thu thập dữ liệu và chú thích cho các tập dữ liệu được tạo ra một cách liền mạch.

Bằng cách huấn luyện các mô hình tiên tiến như Ultralytics YOLO26 trên nhiều góc nhìn khác nhau, bạn có thể cải thiện đáng kể độ chính xác của các tác vụ phát hiện đối tượng , phân đoạn hình ảnhước tính tư thế . Bởi vì mô hình học cách nhận dạng đối tượng từ các góc độ chưa từng được ghi lại trước đó, việc triển khai mô hình sẽ trở nên bền vững hơn đáng kể trong các tình huống thực tế.

Để phân tích nhanh chóng hình ảnh tổng hợp, bạn có thể truyền trực tiếp hình ảnh đã được kết xuất vào một mô hình đã được huấn luyện trước:

import cv2
from ultralytics import YOLO

# Load the highly recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Load a synthesized novel view using the OpenCV library
synthesized_view = cv2.imread("novel_view_render.jpg")

# Perform real-time object detection on the newly generated perspective
results = model(synthesized_view)

# Display the detection results
results[0].show()

Cho dù bạn đang dựng hình môi trường bằng thư viện PyTorch3D hay tăng tốc suy luận trên phần cứng như bộ xử lý tensor (TPU) , việc tổng hợp và sau đó phân tích các góc nhìn mới vẫn luôn là trọng tâm của nghiên cứu AI, được hỗ trợ liên tục bởi các bài báo khoa học mới được công bố và các cụm máy học dựa trên đám mây khổng lồ.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy