Glosario

IA generativa

Explora los fundamentos de la IA generativa. Descubre cómo crea datos sintéticos, se integra con Ultralytics e impulsa la innovación en la visión artificial.

La IA generativa se refiere a un subconjunto de la inteligencia artificial (IA) centrado en la creación de nuevos contenidos, como texto, imágenes, audio, vídeo y código informático, en respuesta a las indicaciones del usuario. A diferencia de los sistemas tradicionales de IA, diseñados principalmente para analizar o classify datos classify , los modelos generativos utilizan algoritmos de aprendizaje profundo (DL) para aprender los patrones, estructuras y distribuciones de probabilidad subyacentes de conjuntos de datos masivos. Una vez entrenados, estos sistemas pueden generar resultados novedosos que comparten similitudes estadísticas con los datos de entrenamiento, pero que son creaciones únicas. Esta capacidad ha posicionado a la IA generativa como piedra angular de los modernos modelos fundamentales, impulsando la innovación en las industrias creativas, el desarrollo de software y la investigación científica.

Cómo funcionan los modelos generativos

En el núcleo de la IA generativa se encuentran complejas arquitecturas de redes neuronales que aprenden a codificar y descodificar información. Estos modelos suelen entrenarse utilizando aprendizaje no supervisado en vastos corpus de datos.

Transformadores: Para el texto y el código, la arquitectura del transformador utiliza mecanismos como la autoatención para track entre palabras a lo largo de grandes distancias en una secuencia. Esto permite que los grandes modelos de lenguaje (LLM) generen texto coherente y relevante para el contexto.
Modelos de difusión: para la generación de imágenes, los modelos de difusión funcionan añadiendo ruido a una imagen hasta que resulta irreconocible y, a continuación, aprendiendo a invertir este proceso para reconstruir una imagen clara a partir del ruido aleatorio .
GAN: Las redes generativas adversarias (GAN) emplean dos redes neuronales —un generador y un discriminador— que compiten entre sí, lo que empuja al generador a producir resultados cada vez más realistas.

IA generativa frente a IA discriminatoria

Para entender la IA generativa, es fundamental distinguirla de la IA discriminativa. Aunque ambas son pilares del aprendizaje automático, sus objetivos difieren significativamente.

La IA generativa se centra en la creación. Modela la distribución de clases individuales para generar nuevas muestras. Por ejemplo, un modelo como Stable Diffusion genera una nueva imagen de un perro basándose en descripciones de texto.
La IA discriminativa se centra en la clasificación y la predicción. Aprende los límites de decisión entre clases para categorizar los datos de entrada. Los modelos de visión de alto rendimiento como YOLO26 son discriminativos; destacan en la detección de objetos mediante el análisis de una imagen para identificar y localizar objetos específicos (por ejemplo, detectar un perro en una foto) en lugar de crear la imagen en sí.

Aplicaciones en el mundo real

La versatilidad de la IA generativa permite aplicarla en diversos ámbitos, a menudo en combinación con modelos discriminativos para crear potentes flujos de trabajo.

Generación de datos sintéticos: Una de las aplicaciones más prácticas para los ingenieros de visión artificial es la creación de datos sintéticos. Recopilar datos del mundo real para casos extremos poco comunes, como defectos industriales específicos o condiciones peligrosas en las carreteras, puede ser peligroso o costoso. Los modelos generativos pueden producir miles de imágenes fotorrealistas de estos escenarios. Estos datos se utilizan para entrenar detectores robustos como YOLO26, mejorando su precisión en el mundo real.
Diseño creativo y creación de prototipos: En el sector creativo, las herramientas impulsadas por modelos de texto a imagen permiten a los diseñadores visualizar rápidamente conceptos. Al introducir una indicación, un artista puede generar múltiples variaciones de un diseño de producto, un diseño arquitectónico o un activo de marketing, lo que acelera significativamente la fase de ideación.
Generación de código y depuración: El desarrollo de software se ha transformado gracias a modelos entrenados en repositorios de código. Estos asistentes ayudan a los desarrolladores sugiriendo fragmentos de código, escribiendo documentación e incluso identificando errores, lo que agiliza el ciclo de vida del software.

Sinergias con la visión artificial

Los modelos generativos de IA y los modelos discriminativos de visión por ordenador suelen funcionar como tecnologías complementarias. Un proceso habitual consiste en utilizar un modelo generativo para aumentar un conjunto de datos, seguido del entrenamiento de un modelo discriminativo en ese conjunto de datos mejorado utilizando herramientas como la Ultralytics .

El siguiente ejemplo Python muestra cómo utilizar la función ultralytics paquete para cargar un modelo YOLO26. En un flujo de trabajo híbrido, puede utilizar este código para validar objetos dentro de una imagen generada sintéticamente.

from ultralytics import YOLO

# Load the YOLO26 model (Latest stable Ultralytics model)
model = YOLO("yolo26n.pt")

# Run inference on an image (e.g., a synthetic sample from a generative model)
# The model identifies objects within the generated content
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results to verify the synthetic data quality
results[0].show()

Desafíos y consideraciones

Aunque potente, la IA generativa plantea retos específicos que los usuarios deben sortear. En ocasiones, los modelos pueden producir alucinaciones, creando información o artefactos visuales que parecen plausibles pero que son incorrectos desde el punto de vista factual. Además, dado que estos modelos se entrenan con datos a escala de Internet, pueden propagar inadvertidamente sesgos en la IA presentes en el material de origen.

Las preocupaciones éticas relativas a los derechos de autor y la propiedad intelectual también son importantes, como se ha debatido en diversos marcos éticos sobre IA. Investigadores y organizaciones, como el Instituto de Stanford para una IA Centrada en el Ser Humano, están trabajando activamente en métodos para garantizar que estas potentes herramientas se desarrollen y se implementen de manera responsable. Además, el coste computacional de entrenar estos modelos masivos ha llevado a un mayor interés en la cuantización de modelos para hacer la inferencia más eficiente energéticamente en dispositivos periféricos.

IA generativa

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Cómo funcionan los modelos generativos

IA generativa frente a IA discriminatoria

Aplicaciones en el mundo real

Sinergias con la visión artificial

Desafíos y consideraciones

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

¿Qué es la estimación de profundidad monocular? Una visión general

Una mirada al uso deYOLO Ultralytics para la detección de amenazas mediante IA

Únase a la comunidad Ultralytics