Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

ControlNet

Descubra cómo ControlNet proporciona un control espacial preciso sobre la IA generativa. Aprenda a utilizar Ultralytics para extraer poses que guíen la generación de imágenes hoy mismo.

ControlNet es una arquitectura de red neuronal avanzada diseñada para proporcionar un control espacial detallado sobre grandes modelos de IA generativa de texto a imagen. Introducida originalmente para mejorar modelos como Stable Diffusion, permite a los usuarios guiar la generación de imágenes utilizando condiciones de entrada adicionales más allá de las simples indicaciones de texto. Al introducir guías visuales específicas, como mapas de bordes , mapas de profundidad o esqueletos humanos, en la red, los profesionales pueden dictar la composición, la postura o la estructura exactas del resultado generado, salvando la distancia entre las descripciones en lenguaje natural y la ejecución visual precisa .

Cómo funciona la arquitectura

La innovación principal de ControlNet reside en su capacidad para conservar el vasto conocimiento preentrenado de un modelo base fundamental mientras aprende nuevas tareas de acondicionamiento . Lo consigue bloqueando los parámetros del bloque de red neuronal original y creando un clon entrenable . Este clon se conecta al modelo bloqueado mediante capas especializadas de «convolución cero», que se inicializan con pesos cero para garantizar que no se añada ruido durante las primeras etapas del ajuste fino. Puede obtener más información sobre la teoría matemática y estructural en la publicación original de la investigación de ControlNet en arXiv.

Esta estructura única permite a los desarrolladores entrenar controles de acondicionamiento robustos en hardware de consumo, lo que la hace muy accesible en comparación con el entrenamiento de un modelo de aprendizaje profundo masivo desde cero.

ControlNet frente a modelos de difusión y LoRA

Al hablar de la inteligencia artificial generativa , resulta útil diferenciar la ControlNet de conceptos relacionados:

  • Modelos de difusión: Son los motores base subyacentes que generan imágenes mediante la eliminación iterativa del ruido. Se basan casi exclusivamente en indicaciones de texto.
  • LoRA (Adaptación de bajo rango): LoRA es un método para enseñar rápidamente a un modelo un nuevo estilo o tema (como un personaje específico o un estilo artístico). Por el contrario, ControlNet dicta la disposición espacial exacta de la imagen.

Aplicaciones en el mundo real

ControlNet ha ampliado drásticamente la utilidad de la visión por ordenador y la IA generativa en flujos de trabajo profesionales.

  • Representación de conceptos arquitectónicos: los arquitectos y diseñadores de interiores utilizan ControlNet para transformar los planos básicos en blanco y negro de diseño asistido por ordenador (CAD) o los bocetos dibujados a mano en representaciones fotorrealistas de edificios y habitaciones.
  • Posado de personajes en el desarrollo de videojuegos: los animadores aprovechan los modelos de estimación de poses humanas para extraer estructuras esqueléticas de un vídeo de referencia. Estos esqueletos se introducen en ControlNet para generar sprites de personajes estilizados y coherentes que mantienen poses exactas para los activos de los videojuegos, lo que reduce significativamente el tiempo de ilustración manual.

Preparación de las condiciones para ControlNet

Para utilizar ControlNet de manera eficaz, primero debe extraer la condición espacial deseada de una imagen de origen. Por ejemplo, puede utilizar Ultralytics , el último modelo de visión de última generación, para extraer un esqueleto de postura humana. A continuación, este esqueleto se guarda y se utiliza como entrada de acondicionamiento para un proceso de texto a imagen habilitado para ControlNet.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")

# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")

Tanto si se preparan bordes Canny utilizando OpenCV estándar como si se extraen máscaras de segmentación avanzadas, es esencial preparar entradas de alta calidad. Para la gestión de conjuntos de datos basados en la nube y la anotación de datos necesaria para entrenar condiciones ControlNet personalizadas, plataformas como Ultralytics proporcionan un entorno perfecto e integral para los equipos de IA modernos.

Potencia con Ultralytics YOLO

Obtenga visión artificial avanzada para sus proyectos. Encuentre la licencia adecuada para sus objetivos hoy mismo.

Explore las opciones de licencia