Glosario

Difusión estable

Descubra Stable Diffusion, un modelo de IA de vanguardia para generar imágenes realistas a partir de indicaciones de texto, que revoluciona la creatividad y la eficacia.

Stable Diffusion es un potente y popular modelo de IA generativa de código abierto lanzado por Stability AI en 2022. Es conocido principalmente por su capacidad para crear imágenes detalladas y de alta calidad a partir de descripciones de texto sencillas, un proceso conocido como síntesis de texto a imagen. Como modelo de difusión latente, representa un avance significativo a la hora de hacer accesible la generación de imágenes de alto rendimiento a un público más amplio de desarrolladores, artistas e investigadores debido a su naturaleza de código abierto y a sus requisitos computacionales relativamente modestos en comparación con otros modelos a gran escala.

Cómo funciona la difusión estable

En esencia, la difusión estable funciona según los principios de un proceso de difusión. El modelo se entrena primero tomando un gran número de imágenes y añadiendo progresivamente "ruido" (estática aleatoria) hasta que la imagen original queda completamente oscurecida. A continuación, aprende a invertir este proceso, partiendo de ruido puro y eliminando gradualmente el ruido paso a paso para formar una imagen coherente que coincida con un texto determinado.

Lo que hace que Stable Diffusion sea especialmente eficiente es que realiza este proceso de difusión en un "espacio latente" de baja dimensión en lugar de en el espacio de alta dimensión de los píxeles. Este enfoque, descrito en el artículo de investigación original sobre el modelo de difusión latente, reduce significativamente la potencia de cálculo necesaria tanto para el entrenamiento como para la inferencia, lo que permite ejecutar el modelo en GPU de consumo. El modelo utiliza un codificador de texto, como CLIP, para interpretar el texto del usuario y guiar el proceso de eliminación de ruido hacia la imagen deseada.

Difusión estable frente a otros modelos generativos

La difusión estable se distingue de otros modelos generativos destacados por sus características únicas:

  • En comparación con DALL-E y Midjourney: Aunque modelos como DALL-E 3 y Midjourney de OpenAI producen resultados asombrosos, están patentados y se ofrecen principalmente como servicios de pago. La principal ventaja de Stable Diffusion es que es de código abierto. Esto permite a cualquiera descargar el modelo, examinar su arquitectura y ajustarlo a conjuntos de datos personalizados para fines específicos sin necesidad de permiso.
  • En comparación con las GAN: Las redes generativas adversariales (GAN) son otra clase de modelos generativos. Los modelos de difusión, como Stable Diffusion, suelen ofrecer un entrenamiento más estable y a menudo destacan en la generación de una gama más diversa de imágenes de alta fidelidad. Las GAN, sin embargo, a veces pueden ser más rápidas en la generación de imágenes, ya que normalmente sólo requieren una única pasada hacia delante.

Aplicaciones reales

La flexibilidad y accesibilidad de la difusión estable han propiciado su adopción en numerosos campos.

  • Artes creativas y entretenimiento: Los artistas y diseñadores utilizan Stable Diffusion para el arte conceptual, los guiones gráficos y la creación de activos visuales únicos. Por ejemplo, un desarrollador de juegos puede generar docenas de conceptos de personajes o fondos ambientales en cuestión de minutos, lo que acelera drásticamente el flujo de trabajo creativo. Herramientas como Adobe Firefly han integrado tecnologías generativas similares para mejorar las suites de software creativo.
  • Generación de datos sintéticos: En visión por computador, los datos de entrenamiento de alta calidad son cruciales. Stable Diffusion puede generar grandes cantidades de datos sintéticos realistas para aumentar los conjuntos de datos del mundo real. Por ejemplo, para mejorar un modelo de detección de objetos como Ultralytics YOLO, los desarrolladores pueden generar imágenes de objetos en distintas condiciones de iluminación, orientación y configuración, lo que mejora la solidez y precisión del modelo, especialmente en el caso de clases de objetos poco comunes.

Desarrollo y ecosistema

Trabajar con Stable Diffusion se ve facilitado por un rico ecosistema de herramientas y bibliotecas. Frameworks como PyTorch son fundamentales para su funcionamiento. La biblioteca Hugging Face Diffusers se ha convertido en un estándar para descargar, ejecutar y experimentar fácilmente con Stable Diffusion y otros modelos de difusión. Mientras que Stable Diffusion destaca en la generación, plataformas como Ultralytics HUB proporcionan un entorno completo para el ciclo de vida más amplio del aprendizaje automático, incluida la gestión de conjuntos de datos y el despliegue de modelos de IA discriminativos para tareas como la segmentación y clasificación de imágenes. El auge de herramientas generativas tan potentes también pone sobre la mesa importantes debates sobre la ética de la IA, como la posibilidad de crear deepfakes y reforzar el sesgo algorítmico.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles