Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Compresión rápida

Descubre cómo la compresión de prompts optimiza la eficiencia de la IA. Aprende hoy mismo a reducir el uso de tokens en los modelos de lenguaje grande (LLM), a disminuir los costes y a aumentar la velocidad de inferencia con Ultralytics .

La compresión de prompts es una técnica de optimización avanzada diseñada para reducir la longitud y la complejidad del texto de entrada que se proporciona a los modelos de lenguaje a gran escala (LLM) y a los modelos multimodales. Al eliminar algorítmicamente las palabras redundantes, el contexto irrelevante y las palabras vacías, al tiempo que se conserva el significado semántico esencial, la compresión de prompts permite a los sistemas de IA procesar la información de forma más eficiente. Este método es cada vez más crucial para minimizar los costes computacionales, reducir la latencia de inferencia y evitar que los modelos superen su ventana de contexto máxima.

Cómo funciona la compresión instantánea

En el ámbito de la arquitectura, la compresión de prompts suele recurrir a modelos más pequeños y especializados o a algoritmos basados en la teoría de la información para evaluar la importancia de cada token en un prompt determinado. Técnicas como la fusión de tokens y la poda basada en la entropía identifican y eliminan los tokens que aportan poco al significado general. De este modo, se garantiza que la entrada final contenga únicamente la información más condensada .

Investigaciones recientes de organizaciones de prestigio ponen de relieve que las instrucciones altamente comprimidas pueden mantener el rendimiento en tareas de razonamiento complejas, al tiempo que reducen significativamente el consumo de tokens. Para los desarrolladores que integran la IA en aplicaciones escalables, seguir las directrices de optimización de instrucciones de OpenAI y aprovechar los marcos de compresión es una práctica recomendada estándar para una implementación eficiente.

Aplicaciones en el mundo real

La compresión instantánea ofrece un valor inmediato en situaciones que requieren el procesamiento rápido de grandes volúmenes de datos textuales o visuales :

  • Generación aumentada por recuperación (RAG): En las aplicaciones de búsqueda empresarial, los flujos de trabajo RAG suelen recuperar decenas de documentos extensos para responder a una sola consulta de usuario. Los algoritmos de compresión de prompts reducen estos documentos recuperados, sintetizándolos en resúmenes concisos y objetivos antes de enviarlos al modelo de generación. Esto evita el desbordamiento de tokens y acelera la inferencia en tiempo real.
  • Agentes de IA autónomos: Los agentes y los chatbots deben conservar un historial de las interacciones con el usuario. En lugar de incluir todo el historial de la conversación en cada nueva consulta, las técnicas de compresión resumen los turnos de diálogo anteriores, lo que garantiza que el agente mantenga el contexto sin incurrir en costes computacionales exponenciales.

Compresión inmediata frente a técnicas relacionadas

Para crear flujos de trabajo sólidos de operaciones de aprendizaje automático (MLOps), es importante distinguir la compresión de prompts de otros conceptos relacionados:

  • Frente al almacenamiento en caché de comandos: el almacenamiento en caché almacena los estados computacionales internos del texto procesado anteriormente para evitar tener que volver a calcularlos. La compresión, por el contrario, modifica y acorta activamente el propio texto de entrada antes de que se produzca cualquier procesamiento.
  • Frente a la ingeniería de prompts: La ingeniería de prompts es el arte, impulsado por el ser humano, de diseñar instrucciones eficaces. La compresión es una reducción automatizada y algorítmica de dichas instrucciones.
  • Frente al enriquecimiento de indicaciones: El enriquecimiento amplía una indicación añadiendo contexto externo, mientras que la compresión la reduce. A menudo se utilizan conjuntamente: un sistema puede enriquecer una indicación con resultados de una base de datos y, a continuación, comprimir la carga útil final antes de la inferencia.

Aplicación en la visión artificial

En la visión por ordenador (CV), los principios de compresión de prompts se aplican al utilizar modelos de vocabulario abierto que aceptan consultas de texto para identificar objetos. Mantener las descripciones de las clases concisas garantiza una codificación textual más rápida y reduce la sobrecarga de memoria.

En entornos de producción de clases fijas, donde la velocidad es fundamental, los desarrolladores suelen pasar de modelos basados en entradas de texto a modelos de arquitectura fija altamente optimizados, como Ultralytics . Puede gestionar de forma eficiente los conjuntos de datos y entrenar estos modelos de última generación utilizando la Ultralytics .

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático