Explore como o ControlNet fornece controlo espacial preciso sobre a IA generativa. Aprenda a usar Ultralytics para extrair poses para orientar a geração de imagens hoje mesmo.
ControlNet é uma arquitetura avançada de rede neural projetada para conceder controle espacial refinado sobre grandes modelos de IA generativa de texto para imagem. Originalmente introduzida para aprimorar modelos como o Stable Diffusion, ela permite que os utilizadores orientem a geração de imagens usando condições de entrada adicionais, além de apenas prompts de texto. Ao alimentar guias visuais específicos — como mapas de bordas , mapas de profundidade ou esqueletos humanos — na rede, os profissionais podem ditar a composição, postura ou estrutura exata da saída gerada, preenchendo a lacuna entre descrições em linguagem natural e execução visual precisa .
A principal inovação do ControlNet reside na sua capacidade de preservar o vasto conhecimento pré-treinado de um modelo básico, enquanto aprende novas tarefas de condicionamento . Isto é conseguido bloqueando os parâmetros do bloco da rede neural original e criando um clone treinável. Este clone é conectado ao modelo bloqueado usando camadas especializadas de "convolução zero", que são inicializadas com pesos zero para garantir que nenhum ruído seja adicionado durante os estágios iniciais do ajuste fino. Você pode ler mais sobre a teoria matemática e estrutural na publicação original da pesquisa do ControlNet no arXiv.
Essa estrutura única permite que os programadores treinem controlos de condicionamento robustos em hardware de nível de consumidor, tornando-o altamente acessível em comparação com o treino de um modelo de aprendizagem profunda massivo a partir do zero.
Ao discutir inteligência artificial generativa, é útil diferenciar a ControlNet de conceitos relacionados:
A ControlNet expandiu drasticamente a utilidade da visão computacional e da IA generativa em fluxos de trabalho profissionais.
Para utilizar o ControlNet de forma eficaz, primeiro é necessário extrair a condição espacial desejada de uma imagem de origem. Por exemplo, pode-se usar o Ultralytics , o mais recente modelo de visão de última geração, para extrair um esqueleto de pose humana. Este esqueleto é então guardado e utilizado como entrada de condicionamento para um pipeline de texto para imagem habilitado para ControlNet.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")
# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")
Quer esteja a preparar bordas Canny usando OpenCV padrão ou a extrair máscaras de segmentação avançadas, é essencial preparar entradas de alta qualidade. Para o gerenciamento de conjuntos de dados baseados na nuvem e a anotação de dados necessária para treinar condições personalizadas do ControlNet, plataformas como a Ultralytics oferecem um ambiente completo e integrado para equipes modernas de IA.