Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

ControlNet

Узнайте, как ControlNet обеспечивает точное пространственное управление генеративным ИИ. Научитесь использовать Ultralytics для извлечения поз, чтобы уже сегодня начать генерировать изображения.

ControlNet — это усовершенствованная архитектура нейронной сети, разработанная для обеспечения тонкого пространственного контроля над крупными генеративными моделями ИИ, преобразующими текст в изображения. Первоначально введенная для улучшения таких моделей, как Stable Diffusion, она позволяет пользователям управлять генерацией изображений с помощью дополнительных входных условий, помимо текстовых подсказок. Подавая в сеть определенные визуальные ориентиры, такие как карты краев , карты глубины или скелеты человека, специалисты могут диктовать точную композицию, позу или структуру генерируемого результата, преодолевая разрыв между описаниями на естественном языке и точным визуальным воплощением.

Как работает архитектура

Основная инновация ControlNet заключается в его способности сохранять обширные, предварительно обученные знания базовой модели, одновременно обучаясь новым задачам кондиционирования . Это достигается путем блокировки параметров исходного блока нейронной сети и создания обучаемого клона. Этот клон подключается к заблокированной модели с помощью специальных слоев «нулевой свертки», которые инициализируются с нулевыми весами, чтобы гарантировать отсутствие шума на ранних этапах точной настройки. Вы можете узнать больше о математической и структурной теории в оригинальной публикации исследования ControlNet на arXiv.

Эта уникальная структура позволяет разработчикам обучать надежные механизмы регулирования кондиционирования на потребительском оборудовании, что делает ее более доступной по сравнению с обучением массивной модели глубокого обучения с нуля.

ControlNet против диффузионных моделей и LoRA

При обсуждении генеративного искусственного интеллекта полезно отличать ControlNet от смежных концепций:

  • Модели диффузии: это базовые движки, которые генерируют изображения путем итеративного удаления шума. Они полагаются почти исключительно на текстовые подсказки
  • LoRA (адаптация низкого ранга): LoRA — это метод быстрого обучения модели новому стилю или предмету (например, определенному персонажу или художественному стилю). В отличие от этого, ControlNet диктует точное пространственное расположение изображения.

Применение в реальном мире

ControlNet значительно расширил возможности компьютерного зрения и генеративного ИИ в профессиональных рабочих процессах.

  • Визуализация архитектурных концепций: Архитекторы и дизайнеры интерьеров используют ControlNet для преобразования базовых черно-белых чертежей, созданных с помощью компьютерных программ автоматизированного проектирования (CAD), или нарисованных от руки эскизов в фотореалистичные визуализации зданий и помещений.
  • Позирование персонажей в разработке игр: аниматоры используют модели оценки позы человека для извлечения скелетных структур из эталонного видео. Эти скелеты вводятся в ControlNet для генерации согласованных, стилизованных спрайтов персонажей, удерживающих точные позы для ресурсов видеоигр, что значительно сокращает время ручной иллюстрации.

Подготовка условий для ControlNet

Чтобы эффективно использовать ControlNet, необходимо сначала извлечь из исходного изображения нужные пространственные условия. Например , можно использовать Ultralytics , новейшую модель компьютерного зрения, для извлечения скелета позы человека. Затем этот скелет сохраняется и используется в качестве входных данных для конвейера преобразования текста в изображение с поддержкой ControlNet.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")

# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")

Независимо от того, готовите ли вы края Canny с помощью стандартных OpenCV или извлекаете усовершенствованные маски сегментации, подготовка высококачественных входных данных имеет решающее значение. Для управления облачными наборами данных и анотации данных, необходимых для обучения пользовательских условий ControlNet, такие платформы, как Ultralytics , предоставляют современным командам ИИ бесшовную комплексную среду.

Зарядитесь энергией с помощью Ultralytics YOLO

Получите передовое AI-зрение для ваших проектов. Найдите подходящую лицензию для ваших целей уже сегодня.

Изучите варианты лицензирования