Prompt Compression
Explora cómo la compresión de prompts optimiza la eficiencia de la IA. Aprende a reducir el uso de tokens en LLM, disminuir costes y acelerar la velocidad de inferencia con Ultralytics YOLO26 hoy mismo.
La compresión de prompts es una técnica de optimización avanzada diseñada para reducir la longitud y la complejidad del texto de entrada proporcionado a Large Language Models (LLMs) y modelos multimodales. Al eliminar algorítmicamente palabras redundantes, contexto irrelevante y palabras vacías mientras se preserva el significado semántico central, la compresión de prompts permite que los sistemas de IA procesen la información de forma más eficiente. Este método es cada vez más crítico para minimizar costes computacionales, reducir la latencia de inferencia y evitar que los modelos excedan su ventana de contexto máxima.
Link to this sectionCómo funciona la compresión de prompts#
A nivel arquitectónico, la compresión de prompts a menudo utiliza modelos más pequeños y especializados o algoritmos de teoría de la información para evaluar la importancia de cada token en un prompt determinado. Técnicas como la fusión de tokens y la poda basada en entropía identifican y eliminan tokens que contribuyen poco al significado global. Esto garantiza que la entrada final contenga solo la información más densamente empaquetada.
Investigaciones recientes de organizaciones autorizadas destacan que los prompts altamente comprimidos pueden mantener el rendimiento en tareas de razonamiento complejas mientras reducen significativamente el consumo de tokens. Para los desarrolladores que integran IA en aplicaciones escalables, seguir las directrices de optimización de prompts de OpenAI y aprovechar los marcos de compresión es una práctica estándar recomendada para un despliegue eficiente.
Link to this sectionAplicaciones en el mundo real#
La compresión de prompts proporciona un valor inmediato en escenarios que requieren el procesamiento rápido de datos textuales o visuales extensos:
- Generación Aumentada por Recuperación (RAG): En aplicaciones de búsqueda empresarial, los pipelines RAG a menudo recuperan docenas de documentos extensos para responder a una sola consulta del usuario. Los algoritmos de compresión de prompts reducen estos documentos recuperados, destilándolos en resúmenes factuales concisos antes de enviarlos al modelo de generación. Esto evita el desbordamiento de tokens y acelera la inferencia en tiempo real.
- Agentes de IA autónomos: Los agentes y chatbots deben mantener una memoria a largo plazo de las interacciones del usuario. En lugar de pasar todo el historial de la conversación en cada consulta nueva, las técnicas de compresión resumen los turnos de diálogo anteriores, asegurando que el agente permanezca consciente del contexto sin incurrir en costes computacionales exponenciales.
Link to this sectionCompresión de prompts frente a técnicas relacionadas#
Para construir pipelines robustos de operaciones de aprendizaje automático (MLOps), es importante distinguir la compresión de prompts de conceptos relacionados:
- Vs. Caché de prompts: La caché almacena los estados computacionales internos de texto procesado previamente para evitar volver a calcularlos. La compresión, por otro lado, altera y acorta activamente el texto de entrada antes de que se produzca cualquier procesamiento.
- Vs. Ingeniería de prompts: La ingeniería de prompts es el arte diseñado por humanos de crear instrucciones efectivas. La compresión es una reducción algorítmica automatizada de esas instrucciones.
- Vs. Enriquecimiento de prompts: El enriquecimiento amplía un prompt añadiendo contexto externo, mientras que la compresión lo reduce. A menudo se utilizan juntos: un sistema puede enriquecer un prompt con resultados de bases de datos y luego comprimir el contenido final antes de la inferencia.
Link to this sectionImplementación en Visión por Computador#
En Visión por Computador (CV), los principios de compresión de prompts se aplican al utilizar modelos de vocabulario abierto que aceptan consultas de texto para identificar objetos. Mantener las descripciones de las clases concisas asegura una codificación textual más rápida y reduce la sobrecarga de memoria.
Para entornos de producción con clases fijas donde la velocidad es primordial, los desarrolladores suelen pasar de modelos basados en texto a modelos de arquitectura fija altamente optimizados como Ultralytics YOLO26. Puedes gestionar eficientemente conjuntos de datos y entrenar estos modelos de vanguardia utilizando la Plataforma Ultralytics.
from ultralytics import YOLO
# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")
# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)
# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()





