Explora los fundamentos de GPT (Generative Pre-trained Transformer). Descubre cómo funcionan estos modelos y cómo integrarlos con Ultralytics para la visión.
GPT (Generative Pre-trained Transformer) se refiere a una familia de modelos de redes neuronales diseñados para generar texto similar al humano y resolver tareas complejas mediante la predicción del siguiente elemento de una secuencia. Estos modelos se basan en la arquitectura Transformer, utilizando específicamente bloques decodificadores que les permiten procesar datos en paralelo en lugar de secuencialmente. El aspecto «preentrenado» indica que el modelo se somete a una fase inicial de aprendizaje no supervisado en conjuntos de datos masivos —que abarcan libros, artículos y sitios web— para aprender la estructura estadística del lenguaje. «Generativo» significa la capacidad principal del modelo: crear contenido nuevo en lugar de simplemente clasificar las entradas existentes.
En el corazón de un modelo GPT se encuentra el mecanismo de atención, una técnica matemática que permite a la red sopesar la importancia de las diferentes palabras de una frase en relación entre sí. Este mecanismo permite al modelo comprender el contexto, los matices y las dependencias de largo alcance, como saber que un pronombre al final de un párrafo se refiere a un sustantivo mencionado al principio.
Tras el preentrenamiento inicial, estos modelos suelen someterse a un ajuste para especializarlos en tareas específicas o para alinearlos con los valores humanos. A menudo se utilizan técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) para garantizar que el modelo produzca respuestas seguras, útiles y precisas. Este proceso de dos pasos —un preentrenamiento general seguido de un ajuste específico— es lo que convierte a los modelos GPT en modelos base versátiles.
Los modelos GPT han pasado de ser objeto de investigación teórica a convertirse en herramientas prácticas y cotidianas en diversos sectores.
Aunque GPT destaca en el procesamiento del lenguaje natural (NLP), a menudo se combina con la visión artificial (CV) para crear sistemas multimodales . Un flujo de trabajo habitual consiste en utilizar un detector de alta velocidad como Ultralytics para identificar objetos en una imagen y, a continuación, introducir ese resultado estructurado en un modelo GPT para generar una narrativa descriptiva.
El siguiente ejemplo muestra cómo extraer nombres de objetos utilizando YOLO26 para crear una cadena de contexto para un GPT prompt:
from ultralytics import YOLO
# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to construct a text description
class_names = [model.names[int(cls)] for cls in results[0].boxes.cls]
# This string serves as the context for a GPT prompt
print(f"Detected objects for GPT context: {', '.join(class_names)}")
Es útil distinguir GPT de otras arquitecturas populares para comprender su función específica.
A pesar de sus impresionantes capacidades, los modelos GPT se enfrentan a retos como las alucinaciones, en las que generan con confianza información falsa. Los investigadores están trabajando activamente para mejorar los protocolos de ética y seguridad de la IA. Además, la integración de GPT con herramientas como la Ultralytics permite crear procesos más sólidos en los que los modelos de visión y lenguaje trabajan conjuntamente para resolver problemas complejos del mundo real.