Khám phá cách ControlNet cung cấp khả năng điều khiển không gian chính xác cho trí tuệ nhân tạo tạo sinh. Tìm hiểu cách sử dụng Ultralytics YOLO26 được sử dụng để trích xuất tư thế nhằm hướng dẫn quá trình tạo ảnh hiện nay.
ControlNet là một kiến trúc mạng nơ-ron tiên tiến được thiết kế để cung cấp khả năng kiểm soát không gian chi tiết cho các mô hình AI tạo hình ảnh từ văn bản quy mô lớn. Ban đầu được giới thiệu để nâng cao các mô hình như Stable Diffusion , nó cho phép người dùng hướng dẫn quá trình tạo hình ảnh bằng cách sử dụng các điều kiện đầu vào bổ sung ngoài các lời nhắc bằng văn bản. Bằng cách đưa các hướng dẫn trực quan cụ thể—chẳng hạn như bản đồ cạnh, bản đồ độ sâu hoặc khung xương người—vào mạng, người dùng có thể xác định chính xác bố cục, tư thế hoặc cấu trúc của đầu ra được tạo ra, thu hẹp khoảng cách giữa mô tả bằng ngôn ngữ tự nhiên và việc thực thi trực quan chính xác.
Điểm đột phá cốt lõi của ControlNet nằm ở khả năng bảo toàn lượng kiến thức khổng lồ đã được huấn luyện trước của mô hình nền tảng trong khi học các nhiệm vụ điều kiện hóa mới. Nó đạt được điều này bằng cách khóa các tham số của khối mạng nơ- ron gốc và tạo ra một bản sao có thể huấn luyện được. Bản sao này được kết nối với mô hình đã khóa bằng cách sử dụng các lớp "tích chập không" chuyên dụng, được khởi tạo với trọng số bằng không để đảm bảo không có nhiễu nào được thêm vào trong giai đoạn đầu của quá trình tinh chỉnh . Bạn có thể đọc thêm về lý thuyết toán học và cấu trúc trong bài báo nghiên cứu gốc về ControlNet trên arXiv .
Cấu trúc độc đáo này cho phép các nhà phát triển huấn luyện các bộ điều khiển điều kiện mạnh mẽ trên phần cứng cấp người tiêu dùng, giúp việc này trở nên dễ tiếp cận hơn nhiều so với việc huấn luyện một mô hình học sâu khổng lồ từ đầu.
Khi thảo luận về trí tuệ nhân tạo tạo sinh, điều hữu ích là phân biệt ControlNet với các khái niệm liên quan:
ControlNet đã mở rộng đáng kể tiện ích của thị giác máy tính và trí tuệ nhân tạo tạo sinh trong quy trình làm việc chuyên nghiệp.
Để sử dụng ControlNet hiệu quả, trước tiên bạn phải trích xuất điều kiện không gian mong muốn từ ảnh nguồn. Ví dụ, bạn có thể sử dụng Ultralytics YOLO26 , mô hình thị giác tiên tiến nhất hiện nay, để trích xuất khung xương tư thế người. Khung xương này sau đó được lưu lại và sử dụng làm dữ liệu đầu vào cho quy trình chuyển đổi văn bản thành hình ảnh được hỗ trợ bởi ControlNet.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")
# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")
Cho dù bạn đang chuẩn bị các cạnh Canny bằng cách sử dụng các chức năng OpenCV tiêu chuẩn hay trích xuất các mặt nạ phân đoạn nâng cao, việc chuẩn bị dữ liệu đầu vào chất lượng cao là điều thiết yếu. Đối với việc quản lý tập dữ liệu dựa trên đám mây và chú thích dữ liệu cần thiết để huấn luyện các điều kiện ControlNet tùy chỉnh, các nền tảng như Ultralytics Platform cung cấp một môi trường liền mạch, toàn diện cho các nhóm AI hiện đại.