ControlNet
Khám phá cách ControlNet cung cấp khả năng kiểm soát không gian chính xác cho AI tạo sinh. Tìm hiểu cách sử dụng Ultralytics YOLO26 để trích xuất tư thế (poses) nhằm hướng dẫn tạo ảnh ngay hôm nay.
ControlNet là một kiến trúc mạng thần kinh tiên tiến được thiết kế để cung cấp khả năng kiểm soát không gian chi tiết trên các mô hình AI tạo sinh chuyển văn bản thành hình ảnh. Ban đầu được giới thiệu để tăng cường các mô hình như Stable Diffusion, nó cho phép người dùng điều hướng quá trình tạo hình ảnh bằng cách sử dụng các điều kiện đầu vào bổ sung ngoài các câu lệnh văn bản. Bằng cách đưa các hướng dẫn hình ảnh cụ thể—chẳng hạn như bản đồ cạnh, bản đồ chiều sâu hoặc khung xương người—vào mạng, các chuyên gia có thể chỉ định chính xác bố cục, tư thế hoặc cấu trúc của đầu ra được tạo, thu hẹp khoảng cách giữa mô tả ngôn ngữ tự nhiên và việc thực thi hình ảnh chính xác.
Link to this sectionKiến trúc hoạt động như thế nào#
Đổi mới cốt lõi của ControlNet nằm ở khả năng bảo tồn kiến thức khổng lồ đã được huấn luyện trước của một mô hình nền tảng trong khi học các tác vụ điều kiện mới. Nó đạt được điều này bằng cách khóa các tham số của khối mạng thần kinh gốc và tạo một bản sao có thể huấn luyện. Bản sao này được kết nối với mô hình đã khóa bằng các lớp "zero convolution" chuyên biệt, khởi tạo với trọng số bằng 0 để đảm bảo không có nhiễu nào được thêm vào trong giai đoạn đầu của quá trình tinh chỉnh. Bạn có thể đọc thêm về lý thuyết toán học và cấu trúc trong ấn phẩm nghiên cứu gốc về ControlNet trên arXiv.
Cấu trúc độc đáo này cho phép các nhà phát triển huấn luyện các điều khiển điều kiện mạnh mẽ trên phần cứng cấp độ người tiêu dùng, giúp nó trở nên dễ tiếp cận hơn nhiều so với việc huấn luyện một mô hình học sâu khổng lồ từ đầu.
Link to this sectionControlNet so với các Diffusion Models và LoRA#
Khi thảo luận về trí tuệ nhân tạo tạo sinh, việc phân biệt ControlNet với các khái niệm liên quan là rất hữu ích:
- Diffusion Models: Đây là các bộ máy nền tảng cơ bản tạo ra hình ảnh bằng cách loại bỏ nhiễu lặp đi lặp lại. Chúng dựa gần như hoàn toàn vào các câu lệnh văn bản.
- LoRA (Low-Rank Adaptation): LoRA là một phương pháp để nhanh chóng dạy cho một mô hình một phong cách hoặc chủ thể mới (như một nhân vật cụ thể hoặc phong cách nghệ thuật). Ngược lại, ControlNet chỉ định chính xác cấu trúc không gian của hình ảnh.
Link to this sectionCác ứng dụng trong thực tế#
ControlNet đã mở rộng đáng kể tiện ích của thị giác máy tính và AI tạo sinh trong các quy trình làm việc chuyên nghiệp.
- Kết xuất khái niệm kiến trúc: Các kiến trúc sư và nhà thiết kế nội thất sử dụng ControlNet để chuyển đổi các bản thiết kế hỗ trợ bởi máy tính (CAD) trắng đen cơ bản hoặc các bản phác thảo vẽ tay thành các bản kết xuất ảnh thực tế của các tòa nhà và căn phòng.
- Tạo tư thế nhân vật trong phát triển game: Các nhà làm phim hoạt hình tận dụng các mô hình ước tính tư thế con người để trích xuất cấu trúc khung xương từ video tham chiếu. Những khung xương này được đưa vào ControlNet để tạo ra các sprite nhân vật nhất quán, được cách điệu theo các tư thế chính xác cho tài sản trò chơi điện tử, giúp giảm đáng kể thời gian vẽ minh họa thủ công.
Link to this sectionChuẩn bị các điều kiện cho ControlNet#
Để sử dụng ControlNet hiệu quả, trước tiên bạn phải trích xuất điều kiện không gian mong muốn từ một hình ảnh nguồn. Ví dụ, bạn có thể sử dụng Ultralytics YOLO26, mô hình thị giác tiên tiến nhất hiện nay, để trích xuất một khung xương tư thế người. Khung xương này sau đó được lưu lại và sử dụng làm đầu vào điều kiện cho quy trình tạo văn bản thành hình ảnh hỗ trợ ControlNet.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")
# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")Cho dù bạn đang chuẩn bị các cạnh Canny bằng các hàm OpenCV tiêu chuẩn hay trích xuất các mặt nạ phân đoạn nâng cao, việc chuẩn bị các đầu vào chất lượng cao là rất cần thiết. Đối với việc quản lý tập dữ liệu dựa trên đám mây và gán nhãn dữ liệu cần thiết để huấn luyện các điều kiện ControlNet tùy chỉnh, các nền tảng như Ultralytics Platform cung cấp một môi trường liền mạch, toàn diện cho các đội ngũ AI hiện đại.






