YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Kỹ thuật hiển thị có thể vi phân

Khám phá cách thức mà công nghệ hiển thị có thể phân biệt (differentiable rendering) thu hẹp khoảng cách giữa đồ họa 3D và trí tuệ nhân tạo. Tìm hiểu cách tối ưu hóa các cảnh 3D cho quá trình huấn luyện Ultralytics và ứng dụng thị giác máy tính.

Kỹ thuật hiển thị có thể vi phân là một kỹ thuật tiên tiến trong lĩnh vực thị giác máy tính và đồ họa 3D, trong đó quá trình tạo ra hình ảnh đầu ra có thể vi phân hoàn toàn về mặt toán học đối với các tham số cảnh 3D đầu vào, chẳng hạn như hình học, ánh sáng, vật liệu và vị trí máy ảnh. Không giống như các công cụ hiển thị truyền thống hoạt động như những "hộp đen", công cụ hiển thị có thể vi phân cho phép các mô hình học máy tính toán độ dốc trực tiếp từ đầu ra pixel 2D trở lại các tài sản 3D cơ bản. Dòng độ dốc liên tục này cho phép các mạng học sâu tối ưu hóa môi trường 3D bằng cách sử dụng các kỹ thuật truyền ngược tiêu chuẩn, thu hẹp khoảng cách giữa hình ảnh 2D phẳng và nhận thức không gian 3D nhập vai.

Cơ chế hoạt động của các bộ hiển thị có khả năng vi phân

Về cơ bản, một bộ xử lý hình ảnh có khả năng vi phân sẽ theo dõi các thao tác trong quá trình raster hóa hoặc dò tia để có thể áp dụng quy tắc chuỗi của giải tích theo chiều ngược lại. Khi hệ thống tính toán sự chênh lệch (độ lệch) giữa hình ảnh đã được hiển thị và hình ảnh mục tiêu, nó sẽ truyền các gradient ngược lại từ các pixel 2D để điều chỉnh các lưới 3D hoặc kết cấu.

Một lĩnh vực quan trọng trong các nghiên cứu sáng tạo gần đây được ghi chép trong kho lưu trữ học thuật arXiv liên quan đến việc hiển thị có thể vi phân của SDF (Signed Distance Fields). Thay vì sử dụng các đa giác rõ ràng, Signed Distance Fields định nghĩa các hình dạng 3D theo cách toán học bằng cách tính toán khoảng cách từ bất kỳ điểm nào trong không gian đến ranh giới bề mặt gần nhất. Một phương pháp đơn giản để hiển thị có thể vi phân SDF sử dụng các thuật toán ray marching. Khi các tia sáng giao nhau với bề mặt SDF, trình hiển thị sử dụng phương pháp vi phân ngầm để tính toán độ dốc tại điểm giao nhau chính xác. Phương pháp này xử lý một cách tinh tế các hiện tượng che khuất phức tạp và độ dốc cạnh sắc nét mà không cần chi phí tính toán để theo dõi hàng nghìn đỉnh lưới dễ vỡ, khiến nó trở thành một thành phần không thể thiếu trong các thư viện như PyTorch3DNVIDIA .

Kỹ thuật hiển thị có thể vi phân so với kỹ thuật hiển thị thần kinh

Mặc dù các thuật ngữ này thường xuất hiện cùng nhau trong các tài liệu về học sâu, chúng lại mô tả các thành phần riêng biệt của các quy trình xử lý đồ họa hiện đại:

  • Kỹ thuật hiển thị có thể vi phân: Đây là khung toán học cơ bản và bộ công cụ thuật toán đảm bảo các gradient có thể truyền qua quy trình xử lý đồ họa. Đây là bộ máy tính toán cách thức mà sự thay đổi về ánh sáng hoặc hình dạng ảnh hưởng đến một pixel cụ thể.
  • Kỹ thuật hiển thị bằng mạng nơ-ron: Đây là một khái niệm rộng hơn, bao quát việc sử dụng mạng nơ-ron để tạo ra hoặc tổng hợp hình ảnh. Các quy trình hiển thị bằng mạng nơ-ron phụ thuộc rất nhiều vào các bộ hiển thị có thể vi phân để hoạt động. Ví dụ, các kỹ thuật phổ biến như Gaussian Splatting và Neural Radiance Fields sử dụng các phép toán có thể vi phân ở cấp độ nền tảng để đạt được hiệu ứng tổng hợp khung cảnh chân thực như ảnh chụp.

Ứng dụng trong suy luận 3D dựa trên hình ảnh

Bằng cách biến quá trình hiển thị thành một quá trình có thể đảo ngược, bộ hiển thị có khả năng vi phân cho phép thực hiện suy luận 3D dựa trên hình ảnh. Khái niệm này, thường được gọi là đồ họa nghịch đảo, cho phép các mô hình AI phân tích một bức ảnh 2D duy nhất và suy ra hình dạng 3D, kết cấu và ánh sáng đã tạo ra nó.

Các tổ chức hàng đầu như MIT CSAIL và các nhóm nghiên cứu của doanh nghiệp đang tham gia vào dự án nghiên cứuGoogle 3D đều ứng dụng công nghệ này để phát triển trí tuệ không gian. Các ứng dụng thực tiễn đang thay đổi diện mạo của các ngành công nghiệp:

  • Xe tự hành: Các hệ thống tái tạo môi trường 3D từ các luồng hình ảnh phẳng của camera trên bảng điều khiển để ước tính chính xác hơn khoảng cách và thể tích của các chướng ngại vật.
  • Ước lượng tư thế: Các mô hình áp dụng các thông số khung xương 3D trực tiếp lên hình ảnh 2D về chuyển động của con người để phân tích cơ sinh học.

Nâng cao khả năng thị giác máy tính nhờ kỹ thuật hiển thị có thể vi phân

Mặc dù được thảo luận sôi nổi tại các hội nghị lý thuyết như ACM SIGGRAPH, công nghệ hiển thị có thể vi phân lại có những ứng dụng thực tiễn cao trong lĩnh vực AI ứng dụng thực tế, đặc biệt là trong việc tạo dữ liệu tổng hợp. Các kỹ sư thị giác có thể sử dụng các khung công nghệ có thể vi phân để tối ưu hóa các cảnh 3D một cách tự động nhằm tạo ra dữ liệu huấn luyện cho các trường hợp ngoại lệ —chẳng hạn như mô phỏng các điều kiện ánh sáng hiếm gặp hoặc các tình huống che khuất của đối tượng cụ thể.

Dữ liệu tổng hợp được chú thích hoàn hảo này sau đó có thể được tải lên Ultralytics để huấn luyện các quy trình phát hiện đối tượng phân đoạn hình ảnh đáng tin cậy.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 architecture
model = YOLO("yolo26n.pt")

# Train the model natively on a dataset generated via a differentiable renderer
results = model.train(data="synthetic_rendered_data.yaml", epochs=50, imgsz=640)

Bằng cách thu hẹp khoảng cách giữa các kỹ thuật tạo hình 3D và các mô hình thị giác 2D ứng dụng thực tiễn như Ultralytics , các nhà phát triển có thể tạo ra các hệ thống AI có khả năng thích ứng cao, có thể hiểu được thế giới thực ngay cả khi dữ liệu huấn luyện còn hạn chế. Các tổ chức thúc đẩy sự phát triển của thị giác máy tính tại OpenAI tiếp tục tận dụng các công cụ này để xây dựng các mô hình xử lý thông tin hình ảnh với nhận thức không gian 3D thực sự.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy