Узнайте, как ControlNet обеспечивает точное пространственное управление генеративным ИИ. Научитесь использовать Ultralytics для извлечения поз, чтобы уже сегодня начать генерировать изображения.
ControlNet — это усовершенствованная архитектура нейронной сети, разработанная для обеспечения тонкого пространственного контроля над крупными генеративными моделями ИИ, преобразующими текст в изображения. Первоначально введенная для улучшения таких моделей, как Stable Diffusion, она позволяет пользователям управлять генерацией изображений с помощью дополнительных входных условий, помимо текстовых подсказок. Подавая в сеть определенные визуальные ориентиры, такие как карты краев , карты глубины или скелеты человека, специалисты могут диктовать точную композицию, позу или структуру генерируемого результата, преодолевая разрыв между описаниями на естественном языке и точным визуальным воплощением.
Основная инновация ControlNet заключается в его способности сохранять обширные, предварительно обученные знания базовой модели, одновременно обучаясь новым задачам кондиционирования . Это достигается путем блокировки параметров исходного блока нейронной сети и создания обучаемого клона. Этот клон подключается к заблокированной модели с помощью специальных слоев «нулевой свертки», которые инициализируются с нулевыми весами, чтобы гарантировать отсутствие шума на ранних этапах точной настройки. Вы можете узнать больше о математической и структурной теории в оригинальной публикации исследования ControlNet на arXiv.
Эта уникальная структура позволяет разработчикам обучать надежные механизмы регулирования кондиционирования на потребительском оборудовании, что делает ее более доступной по сравнению с обучением массивной модели глубокого обучения с нуля.
При обсуждении генеративного искусственного интеллекта полезно отличать ControlNet от смежных концепций:
ControlNet значительно расширил возможности компьютерного зрения и генеративного ИИ в профессиональных рабочих процессах.
Чтобы эффективно использовать ControlNet, необходимо сначала извлечь из исходного изображения нужные пространственные условия. Например , можно использовать Ultralytics , новейшую модель компьютерного зрения, для извлечения скелета позы человека. Затем этот скелет сохраняется и используется в качестве входных данных для конвейера преобразования текста в изображение с поддержкой ControlNet.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")
# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")
Независимо от того, готовите ли вы края Canny с помощью стандартных OpenCV или извлекаете усовершенствованные маски сегментации, подготовка высококачественных входных данных имеет решающее значение. Для управления облачными наборами данных и анотации данных, необходимых для обучения пользовательских условий ControlNet, такие платформы, как Ultralytics , предоставляют современным командам ИИ бесшовную комплексную среду.