Descubra cómo ControlNet proporciona un control espacial preciso sobre la IA generativa. Aprenda a utilizar Ultralytics para extraer poses que guíen la generación de imágenes hoy mismo.
ControlNet es una arquitectura de red neuronal avanzada diseñada para proporcionar un control espacial detallado sobre grandes modelos de IA generativa de texto a imagen. Introducida originalmente para mejorar modelos como Stable Diffusion, permite a los usuarios guiar la generación de imágenes utilizando condiciones de entrada adicionales más allá de las simples indicaciones de texto. Al introducir guías visuales específicas, como mapas de bordes , mapas de profundidad o esqueletos humanos, en la red, los profesionales pueden dictar la composición, la postura o la estructura exactas del resultado generado, salvando la distancia entre las descripciones en lenguaje natural y la ejecución visual precisa .
La innovación principal de ControlNet reside en su capacidad para conservar el vasto conocimiento preentrenado de un modelo base fundamental mientras aprende nuevas tareas de acondicionamiento . Lo consigue bloqueando los parámetros del bloque de red neuronal original y creando un clon entrenable . Este clon se conecta al modelo bloqueado mediante capas especializadas de «convolución cero», que se inicializan con pesos cero para garantizar que no se añada ruido durante las primeras etapas del ajuste fino. Puede obtener más información sobre la teoría matemática y estructural en la publicación original de la investigación de ControlNet en arXiv.
Esta estructura única permite a los desarrolladores entrenar controles de acondicionamiento robustos en hardware de consumo, lo que la hace muy accesible en comparación con el entrenamiento de un modelo de aprendizaje profundo masivo desde cero.
Al hablar de la inteligencia artificial generativa , resulta útil diferenciar la ControlNet de conceptos relacionados:
ControlNet ha ampliado drásticamente la utilidad de la visión por ordenador y la IA generativa en flujos de trabajo profesionales.
Para utilizar ControlNet de manera eficaz, primero debe extraer la condición espacial deseada de una imagen de origen. Por ejemplo, puede utilizar Ultralytics , el último modelo de visión de última generación, para extraer un esqueleto de postura humana. A continuación, este esqueleto se guarda y se utiliza como entrada de acondicionamiento para un proceso de texto a imagen habilitado para ControlNet.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")
# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")
Tanto si se preparan bordes Canny utilizando OpenCV estándar como si se extraen máscaras de segmentación avanzadas, es esencial preparar entradas de alta calidad. Para la gestión de conjuntos de datos basados en la nube y la anotación de datos necesaria para entrenar condiciones ControlNet personalizadas, plataformas como Ultralytics proporcionan un entorno perfecto e integral para los equipos de IA modernos.