Large Language Model (LLM)
Explora los fundamentos de los modelos de lenguaje grandes (LLM). Aprende sobre la arquitectura de transformadores, tokenización y cómo combinar LLM con Ultralytics YOLO26.
Un Modelo de lenguaje extenso (LLM) es un tipo sofisticado de Inteligencia Artificial (IA) entrenado con conjuntos de datos masivos para comprender, generar y manipular el lenguaje humano. Estos modelos representan una evolución significativa en el Aprendizaje Profundo (DL), utilizando redes neuronales con miles de millones de parámetros para capturar patrones lingüísticos complejos, gramática y relaciones semánticas. En esencia, la mayoría de los LLM modernos se basan en la arquitectura Transformer, que les permite procesar secuencias de datos en paralelo en lugar de secuencialmente. Esta arquitectura emplea un mecanismo de autoatención, lo que permite al modelo sopesar la importancia de diferentes palabras en una oración en relación con las otras, independientemente de su distancia en el texto.
Link to this sectionMecanismos centrales de los LLM#
La funcionalidad de un LLM comienza con la tokenización, un proceso donde el texto sin procesar se descompone en unidades más pequeñas llamadas tokens (palabras o subpalabras). Durante la fase de entrenamiento del modelo, el sistema analiza petabytes de texto de Internet, libros y artículos. Participa en el aprendizaje no supervisado para predecir el siguiente token en una secuencia, aprendiendo eficazmente la estructura estadística del lenguaje.
Tras este entrenamiento inicial, los desarrolladores suelen aplicar ajuste fino para especializar el modelo en tareas distintas, como el análisis médico o la asistencia en programación. Esta adaptabilidad es la razón por la que organizaciones como el Stanford Center for Research on Foundation Models los clasifican como "modelos fundacionales": bases amplias sobre las que se construyen aplicaciones específicas.
Link to this sectionAplicaciones en el mundo real#
Los LLM han pasado de la investigación teórica a aplicaciones prácticas de alto impacto en diversas industrias:
- Asistentes virtuales inteligentes: El servicio al cliente moderno depende en gran medida de chatbots impulsados por LLM. A diferencia de los antiguos sistemas basados en reglas, estos agentes pueden manejar consultas matizadas. Para mejorar la precisión y reducir las alucinaciones, los desarrolladores integran la Generación aumentada por recuperación (RAG), lo que permite al modelo hacer referencia a documentación externa y actualizada de la empresa antes de responder.
- Sistemas multimodales de visión y lenguaje: La frontera de la IA conecta el texto con datos visuales. Los Modelos de visión-lenguaje (VLM) permiten a los usuarios consultar imágenes utilizando lenguaje natural. Por ejemplo, combinar una interfaz lingüística con un detector robusto como YOLO26 permite a los sistemas identificar y describir objetos en transmisiones de vídeo en tiempo real basadas en comandos de voz.
Link to this sectionConectando texto y visión con código#
Aunque los LLM estándar procesan texto, la industria está cambiando hacia la IA multimodal. El siguiente ejemplo demuestra cómo las indicaciones lingüísticas pueden controlar tareas de visión artificial utilizando YOLO-World, un modelo que comprende descriptores de texto para la detección de vocabulario abierto.
from ultralytics import YOLOWorld
# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])
# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()Link to this sectionDistinguir conceptos relacionados#
Es importante diferenciar los LLM de términos más amplios o paralelos:
- LLM frente a Procesamiento de Lenguaje Natural (NLP): El NLP es el campo académico general que se ocupa de la interacción entre las computadoras y el lenguaje humano. Un LLM es una herramienta o tecnología específica utilizada dentro de ese campo para lograr resultados de vanguardia.
- LLM frente a IA Generativa: La IA generativa es una categoría que abarca cualquier IA capaz de crear contenido nuevo. Los LLM son el subconjunto basado en texto de esta categoría, mientras que modelos como Stable Diffusion representan el subconjunto de generación de imágenes.
Link to this sectionDesafíos y perspectivas de futuro#
A pesar de sus capacidades, los LLM se enfrentan a desafíos relacionados con el sesgo en la IA, ya que pueden reproducir inadvertidamente prejuicios encontrados en sus datos de entrenamiento. Además, la enorme potencia computacional necesaria para entrenar modelos como GPT-4 o Google Gemini genera preocupaciones sobre el consumo de energía. La investigación se centra actualmente en la cuantización de modelos para hacer que estos sistemas sean lo suficientemente eficientes como para ejecutarse en hardware de borde (edge hardware).
Para obtener conocimientos técnicos más profundos, el artículo original Attention Is All You Need proporciona la teoría fundamental de los Transformers. También puedes explorar cómo NVIDIA está optimizando el hardware para estas cargas de trabajo masivas.






