Descubre cómo la compresión de prompts optimiza la eficiencia de la IA. Aprende hoy mismo a reducir el uso de tokens en los modelos de lenguaje grande (LLM), a disminuir los costes y a aumentar la velocidad de inferencia con Ultralytics .
La compresión de prompts es una técnica de optimización avanzada diseñada para reducir la longitud y la complejidad del texto de entrada que se proporciona a los modelos de lenguaje a gran escala (LLM) y a los modelos multimodales. Al eliminar algorítmicamente las palabras redundantes, el contexto irrelevante y las palabras vacías, al tiempo que se conserva el significado semántico esencial, la compresión de prompts permite a los sistemas de IA procesar la información de forma más eficiente. Este método es cada vez más crucial para minimizar los costes computacionales, reducir la latencia de inferencia y evitar que los modelos superen su ventana de contexto máxima.
En el ámbito de la arquitectura, la compresión de prompts suele recurrir a modelos más pequeños y especializados o a algoritmos basados en la teoría de la información para evaluar la importancia de cada token en un prompt determinado. Técnicas como la fusión de tokens y la poda basada en la entropía identifican y eliminan los tokens que aportan poco al significado general. De este modo, se garantiza que la entrada final contenga únicamente la información más condensada .
Investigaciones recientes de organizaciones de prestigio ponen de relieve que las instrucciones altamente comprimidas pueden mantener el rendimiento en tareas de razonamiento complejas, al tiempo que reducen significativamente el consumo de tokens. Para los desarrolladores que integran la IA en aplicaciones escalables, seguir las directrices de optimización de instrucciones de OpenAI y aprovechar los marcos de compresión es una práctica recomendada estándar para una implementación eficiente.
La compresión instantánea ofrece un valor inmediato en situaciones que requieren el procesamiento rápido de grandes volúmenes de datos textuales o visuales :
Para crear flujos de trabajo sólidos de operaciones de aprendizaje automático (MLOps), es importante distinguir la compresión de prompts de otros conceptos relacionados:
En la visión por ordenador (CV), los principios de compresión de prompts se aplican al utilizar modelos de vocabulario abierto que aceptan consultas de texto para identificar objetos. Mantener las descripciones de las clases concisas garantiza una codificación textual más rápida y reduce la sobrecarga de memoria.
En entornos de producción de clases fijas, donde la velocidad es fundamental, los desarrolladores suelen pasar de modelos basados en entradas de texto a modelos de arquitectura fija altamente optimizados, como Ultralytics . Puede gestionar de forma eficiente los conjuntos de datos y entrenar estos modelos de última generación utilizando la Ultralytics .
from ultralytics import YOLO
# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")
# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)
# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()
Comience su viaje con el futuro del aprendizaje automático