Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

ControlNet

Khám phá cách ControlNet cung cấp khả năng điều khiển không gian chính xác cho trí tuệ nhân tạo tạo sinh. Tìm hiểu cách sử dụng Ultralytics YOLO26 được sử dụng để trích xuất tư thế nhằm hướng dẫn quá trình tạo ảnh hiện nay.

ControlNet là một kiến ​​trúc mạng nơ-ron tiên tiến được thiết kế để cung cấp khả năng kiểm soát không gian chi tiết cho các mô hình AI tạo hình ảnh từ văn bản quy mô lớn. Ban đầu được giới thiệu để nâng cao các mô hình như Stable Diffusion , nó cho phép người dùng hướng dẫn quá trình tạo hình ảnh bằng cách sử dụng các điều kiện đầu vào bổ sung ngoài các lời nhắc bằng văn bản. Bằng cách đưa các hướng dẫn trực quan cụ thể—chẳng hạn như bản đồ cạnh, bản đồ độ sâu hoặc khung xương người—vào mạng, người dùng có thể xác định chính xác bố cục, tư thế hoặc cấu trúc của đầu ra được tạo ra, thu hẹp khoảng cách giữa mô tả bằng ngôn ngữ tự nhiên và việc thực thi trực quan chính xác.

Cách thức hoạt động của kiến ​​trúc

Điểm đột phá cốt lõi của ControlNet nằm ở khả năng bảo toàn lượng kiến ​​thức khổng lồ đã được huấn luyện trước của mô hình nền tảng trong khi học các nhiệm vụ điều kiện hóa mới. Nó đạt được điều này bằng cách khóa các tham số của khối mạng nơ- ron gốc và tạo ra một bản sao có thể huấn luyện được. Bản sao này được kết nối với mô hình đã khóa bằng cách sử dụng các lớp "tích chập không" chuyên dụng, được khởi tạo với trọng số bằng không để đảm bảo không có nhiễu nào được thêm vào trong giai đoạn đầu của quá trình tinh chỉnh . Bạn có thể đọc thêm về lý thuyết toán học và cấu trúc trong bài báo nghiên cứu gốc về ControlNet trên arXiv .

Cấu trúc độc đáo này cho phép các nhà phát triển huấn luyện các bộ điều khiển điều kiện mạnh mẽ trên phần cứng cấp người tiêu dùng, giúp việc này trở nên dễ tiếp cận hơn nhiều so với việc huấn luyện một mô hình học sâu khổng lồ từ đầu.

So sánh ControlNet với các mô hình khuếch tán và LoRA

Khi thảo luận về trí tuệ nhân tạo tạo sinh, điều hữu ích là phân biệt ControlNet với các khái niệm liên quan:

  • Mô hình khuếch tán : Đây là những công cụ cơ bản tạo ra hình ảnh bằng cách loại bỏ nhiễu một cách lặp đi lặp lại. Chúng hầu như chỉ dựa vào các lệnh văn bản.
  • LoRA (Low-Rank Adaptation) : LoRA là một phương pháp giúp nhanh chóng dạy cho mô hình một phong cách hoặc chủ đề mới (như một nhân vật hoặc phong cách nghệ thuật cụ thể). Ngược lại, ControlNet quy định sự sắp xếp không gian chính xác của hình ảnh.

Các Ứng dụng Thực tế

ControlNet đã mở rộng đáng kể tiện ích của thị giác máy tính và trí tuệ nhân tạo tạo sinh trong quy trình làm việc chuyên nghiệp.

  • Mô phỏng phối cảnh kiến ​​trúc : Các kiến ​​trúc sư và nhà thiết kế nội thất sử dụng ControlNet để chuyển đổi các bản vẽ CAD đen trắng cơ bản hoặc các bản phác thảo vẽ tay thành các hình ảnh mô phỏng chân thực của các tòa nhà và không gian.
  • Tạo dáng nhân vật trong phát triển game : Các nhà làm phim hoạt hình tận dụng các mô hình ước tính tư thế người để trích xuất cấu trúc xương từ video tham khảo. Các bộ xương này được đưa vào ControlNet để tạo ra các hình ảnh nhân vật nhất quán, cách điệu với tư thế chính xác cho các tài sản trong trò chơi điện tử, giúp giảm đáng kể thời gian vẽ minh họa thủ công.

Chuẩn bị các điều kiện cho ControlNet

Để sử dụng ControlNet hiệu quả, trước tiên bạn phải trích xuất điều kiện không gian mong muốn từ ảnh nguồn. Ví dụ, bạn có thể sử dụng Ultralytics YOLO26 , mô hình thị giác tiên tiến nhất hiện nay, để trích xuất khung xương tư thế người. Khung xương này sau đó được lưu lại và sử dụng làm dữ liệu đầu vào cho quy trình chuyển đổi văn bản thành hình ảnh được hỗ trợ bởi ControlNet.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")

# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")

Cho dù bạn đang chuẩn bị các cạnh Canny bằng cách sử dụng các chức năng OpenCV tiêu chuẩn hay trích xuất các mặt nạ phân đoạn nâng cao, việc chuẩn bị dữ liệu đầu vào chất lượng cao là điều thiết yếu. Đối với việc quản lý tập dữ liệu dựa trên đám mây và chú thích dữ liệu cần thiết để huấn luyện các điều kiện ControlNet tùy chỉnh, các nền tảng như Ultralytics Platform cung cấp một môi trường liền mạch, toàn diện cho các nhóm AI hiện đại.

Tăng sức mạnh với Ultralytics YOLO

Nhận AI thị giác tiên tiến cho các dự án của bạn. Tìm giấy phép phù hợp với mục tiêu của bạn ngay hôm nay.

Tìm hiểu các tùy chọn cấp phép