Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

GPT (Transformador Pre-entrenado Generativo)

Descubre el poder de los modelos GPT: IA avanzada basada en transformadores para la generación de texto, tareas de PNL, chatbots, codificación y más. ¡Aprende las características clave ahora!

GPT (Generative Pre-trained Transformer) se refiere a una familia de modelos avanzados de modelos de Inteligencia Artificial (IA) capaces de comprender y generar textos similares a los humanos. Desarrollados por OpenAI, estos modelos son un tipo específico de Modelo de Lenguaje Amplio (LLM ) que ha revolucionado el campo del Procesamiento del Lenguaje Natural (PLN). El acrónimo desglosa las características fundamentales del modelo: "Generativo" indica su capacidad para crear nuevos contenidos. contenido, "Preentrenado" se refiere a la fase inicial de aprendizaje en conjuntos de datos masivos, y "Transformador" denota la arquitectura de red arquitectura de red neuronal subyacente que procesamiento sofisticado.

Arquitectura y funciones básicas

La columna vertebral de un modelo GPT es la arquitectura arquitectura de transformadores, introducida en el de investigación La atención es todo lo que necesitas. A diferencia de las redes neuronales Recurrentes (RNN) que procesaban los datos secuencialmente, los Transformadores utilizan un mecanismo de atención para procesar secuencias enteras. mecanismo de atención para procesar secuencias de datos simultáneamente. Esto permite al modelo sopesar la importancia de las distintas palabras de una frase, independientemente de la distancia que las separa. independientemente de la distancia entre ellas, lo que permite captar el contexto y los matices.

El proceso de formación consta de dos etapas fundamentales:

  1. Entrenamiento previo: El modelo realiza aprendizaje no supervisado en un amplio corpus de de datos de texto de Internet. Durante esta fase, aprende gramática, datos sobre el mundo y capacidades de razonamiento mediante la predicción de la siguiente palabra de una frase. predecir la siguiente palabra de una frase.
  2. Puesta a punto: Para que el modelo sea útil para tareas específicas, se somete a ajuste fino mediante aprendizaje supervisado y Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF). De este modo, los resultados del modelo se ajustan a la intención humana y se garantiza que responda a las preguntas con seguridad y precisión.

Aplicaciones en el mundo real

Los modelos GPT han trascendido los laboratorios de investigación para convertirse en herramientas comerciales de uso generalizado. Dos ejemplos destacados son:

  • Asistentes de codificación inteligentes: Herramientas como como GitHub Copilot utilizan modelos basados en GPT para a los desarrolladores de software. Al comprender el contexto y los comentarios del código, estos asistentes pueden generar funciones completas, depurar errores y sugerir optimizaciones. errores y sugerir optimizaciones, lo que acelera significativamente el el ciclo de vida del desarrollo de software.
  • IA conversacional y generación de contenidos: Aplicaciones como ChatGPT aprovechan estos modelos para impulsar sofisticados chatbots y asistentes virtuales. Más allá de las consultas sencillas, pueden pueden redactar mensajes de correo electrónico, resumir documentos extensos, crear textos de marketing e incluso con fines educativos.

GPT en contexto: Visión por ordenador e inteligencia artificial multimodal

Aunque la GPT se centra en el texto, los sistemas modernos de IA suelen combinarla con visión por ordenador (CV). Por ejemplo, un modelo de visión puede "ver" una imagen y un modelo GPT puede "hablar" de ella. Es importante distinguir entre las funciones de estos modelos.

El siguiente ejemplo muestra un flujo de trabajo en el que YOLO11 detecta los objetos objetos para crear un aviso estructurado para un modelo GPT.

from ultralytics import YOLO

# Load the YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Run inference on an image to "see" the scene
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to construct a context-aware prompt
detected_objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Write a creative short story involving these items: {', '.join(detected_objects)}"

# This prompt can now be sent to a GPT API for generation
print(f"Generated Prompt: {prompt}")

Retos y perspectivas

A pesar de sus capacidades, los modelos GPT se enfrentan a retos como alucinaciones, en las que el modelo genera información fiable pero incorrecta. También preocupa la la ética de la IA y el sesgo inherente a los datos de entrenamiento.

El futuro está en el aprendizaje multimodal, en el que modelos como GPT-4 pueden procesar texto, imágenes y audio simultáneamente. Organizaciones como el Stanford Institute for Human-Centered AI (HAI) investigan activamente de hacer que estos modelos básicos sean más robustos, interpretables y acordes con los valores humanos. Interactuar eficazmente con estos modelos en evolución también ha dado lugar la habilidad de la ingeniería rápida, que optimiza las entradas para obtener los mejores resultados posibles del modelo.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora