Узнайте, как сжатие запросов повышает эффективность ИИ. Узнайте, как с помощью Ultralytics сократить количество токенов в больших языковых моделях (LLM), снизить затраты и увеличить скорость инференции.
Сжатие запросов — это передовой метод оптимизации, предназначенный для сокращения длины и сложности входного текста, предоставляемого большим языковым моделям (LLM) и мультимодальным моделям. Благодаря алгоритмическому удалению избыточных слов, нерелевантного контекста и стоп-слов при сохранении основного семантического значения, сжатие запросов позволяет системам искусственного интеллекта обрабатывать информацию более эффективно. Этот метод становится все более важным для минимизации вычислительных затрат, сокращения задержки вывода и предотвращения превышения моделями максимального размера контекстного окна.
На архитектурном уровне при сжатии подсказок часто используются более компактные специализированные модели или алгоритмы, основанные на теории информации, для оценки значимости каждого токена в данной подсказке. Такие методы, как объединение токенов и обрезка на основе энтропии, позволяют выявлять и удалять токены, которые вносят незначительный вклад в общее значение. Это гарантирует, что конечный входной поток содержит только наиболее плотно упакованную информацию.
Результаты недавних исследований авторитетных организаций показывают, что сильно сжатые промты позволяют сохранить производительность при решении сложных задач логического мышления, при этом значительно сокращая количество обрабатываемых токенов. Для разработчиков, интегрирующих ИИ в масштабируемые приложения, соблюдение рекомендаций OpenAI по оптимизации промтов и использование фреймворков сжатия являются стандартной передовой практикой для эффективного развертывания.
Мгновенное сжатие обеспечивает немедленную выгоду в ситуациях, когда требуется быстрая обработка больших объемов текстовых или графических данных:
Для построения надёжных конвейеров операций машинного обучения (MLOps) важно проводить различие между сжатием подсказок и смежными понятиями:
В области компьютерного зрения (CV) принципы сжатия подсказок применяются при использовании моделей с открытым словарем, которые принимают текстовые запросы для распознавания объектов. Лаконичность описаний классов обеспечивает более быстрое текстовое кодирование и снижает нагрузку на память.
В производственных средах с фиксированными классами, где скорость имеет первостепенное значение, разработчики обычно переходят от моделей с текстовыми подсказками к высокооптимизированным моделям с фиксированной архитектурой, таким как Ultralytics . С помощью Ultralytics вы можете эффективно управлять наборами данных и обучать эти передовые модели.
from ultralytics import YOLO
# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")
# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)
# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()
Начните свой путь в будущее машинного обучения