Glosario

Modelo de Lenguaje Grande (LLM)

Explora los fundamentos de los modelos de lenguaje grandes (LLM). Aprende sobre la arquitectura Transformer, la tokenización y cómo combinar los LLM con Ultralytics .

Un modelo de lenguaje grande (LLM) es un tipo sofisticado de inteligencia artificial (IA) entrenado con conjuntos de datos masivos para comprender, generar y manipular el lenguaje humano. Estos modelos representan una importante evolución en el aprendizaje profundo (DL), ya que utilizan redes neuronales con miles de millones de parámetros para captar patrones lingüísticos complejos, gramática y relaciones semánticas. En su esencia, la mayoría de los LLM modernos se basan en la arquitectura Transformer, que les permite procesar secuencias de datos en paralelo en lugar de secuencialmente. Esta arquitectura emplea un mecanismo de autoatención, lo que permite al modelo ponderar la importancia de las diferentes palabras de una frase en relación entre sí, independientemente de su distancia en el texto.

Mecanismos básicos de los LLM

La funcionalidad de un LLM comienza con la tokenización, un proceso en el que el texto sin procesar se divide en unidades más pequeñas llamadas tokens (palabras o subpalabras). Durante la fase de entrenamiento del modelo, el sistema analiza petabytes de texto de Internet, libros y artículos. Se dedica al aprendizaje no supervisado para predecir el siguiente token de una secuencia, aprendiendo de forma eficaz la estructura estadística del lenguaje.

Tras esta formación inicial, los desarrolladores suelen aplicar ajustes para especializar el modelo en tareas concretas, como el análisis médico o la asistencia en la codificación. Esta adaptabilidad es la razón por la que organizaciones como el Centro de Investigación de Modelos Fundamentales de Stanford classify como «modelos fundamentales», bases amplias sobre las que se construyen aplicaciones específicas.

Aplicaciones en el mundo real

Los LLM han pasado de la investigación teórica a aplicaciones prácticas de gran impacto en diversos sectores:

Asistentes virtuales inteligentes: El servicio de atención al cliente moderno depende en gran medida de los chatbots impulsados por LLM. A diferencia de los antiguos sistemas basados en reglas , estos agentes pueden manejar consultas matizadas. Para mejorar la precisión y reducir las alucinaciones, los desarrolladores integran la generación aumentada por recuperación (RAG), lo que permite al modelo consultar documentación externa y actualizada de la empresa antes de responder.
Sistemas multimodales de visión-lenguaje: la frontera de la IA conecta el texto con los datos visuales. Los modelos de visión-lenguaje (VLM) permiten a los usuarios realizar consultas sobre imágenes utilizando lenguaje natural. Por ejemplo, la combinación de una interfaz lingüística con un detector robusto como YOLO26 permite a los sistemas identificar y describir objetos en transmisiones de vídeo en tiempo real basándose en comandos de voz.

Conectando texto y visión con código

Mientras que los LLM estándar procesan texto, la industria está cambiando hacia la IA multimodal. El siguiente ejemplo muestra cómo las indicaciones lingüísticas pueden controlar las tareas de visión por ordenador utilizando YOLO, un modelo que entiende los descriptores de texto para la detección de vocabulario abierto.

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Distinguir conceptos relacionados

Es importante diferenciar los LLM de términos más amplios o paralelos:

LLM frente a procesamiento del lenguaje natural (NLP): El NLP es el campo académico general que se ocupa de la interacción entre los ordenadores y el lenguaje humano. Un LLM es una herramienta o tecnología específica utilizada dentro de ese campo para lograr resultados de vanguardia.
LLM frente a IA generativa: La IA generativa es una categoría que abarca cualquier IA capaz de crear contenido nuevo. Los LLM son el subconjunto basado en texto de esta categoría, mientras que modelos como Stable Diffusion representan el subconjunto de generación de imágenes .

Retos y perspectivas

A pesar de sus capacidades, los LLM se enfrentan a retos relacionados con el sesgo en la IA, ya que pueden reproducir inadvertidamente los prejuicios que se encuentran en sus datos de entrenamiento. Además, la enorme potencia computacional necesaria para entrenar modelos como GPT-4 o Google suscita preocupaciones sobre el consumo de energía. La investigación se centra actualmente en la cuantificación de modelos para que estos sistemas sean lo suficientemente eficientes como para funcionar en hardware periférico.

Para obtener información técnica más detallada, el artículo original Attention Is All You Need proporciona la teoría fundamental de Transformers. También puede explorar cómo NVIDIA está optimizando el hardware para estas enormes cargas de trabajo.

Modelo de Lenguaje Grande (LLM)

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Mecanismos básicos de los LLM

Aplicaciones en el mundo real

Conectando texto y visión con código

Distinguir conceptos relacionados

Retos y perspectivas

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

¿Qué es la estimación de profundidad monocular? Una visión general

Una mirada al uso deYOLO Ultralytics para la detección de amenazas mediante IA

Únase a la comunidad Ultralytics