Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Быстрое сжатие

Узнайте, как сжатие запросов повышает эффективность ИИ. Узнайте, как с помощью Ultralytics сократить количество токенов в больших языковых моделях (LLM), снизить затраты и увеличить скорость инференции.

Сжатие запросов — это передовой метод оптимизации, предназначенный для сокращения длины и сложности входного текста, предоставляемого большим языковым моделям (LLM) и мультимодальным моделям. Благодаря алгоритмическому удалению избыточных слов, нерелевантного контекста и стоп-слов при сохранении основного семантического значения, сжатие запросов позволяет системам искусственного интеллекта обрабатывать информацию более эффективно. Этот метод становится все более важным для минимизации вычислительных затрат, сокращения задержки вывода и предотвращения превышения моделями максимального размера контекстного окна.

Как работает мгновенное сжатие

На архитектурном уровне при сжатии подсказок часто используются более компактные специализированные модели или алгоритмы, основанные на теории информации, для оценки значимости каждого токена в данной подсказке. Такие методы, как объединение токенов и обрезка на основе энтропии, позволяют выявлять и удалять токены, которые вносят незначительный вклад в общее значение. Это гарантирует, что конечный входной поток содержит только наиболее плотно упакованную информацию.

Результаты недавних исследований авторитетных организаций показывают, что сильно сжатые промты позволяют сохранить производительность при решении сложных задач логического мышления, при этом значительно сокращая количество обрабатываемых токенов. Для разработчиков, интегрирующих ИИ в масштабируемые приложения, соблюдение рекомендаций OpenAI по оптимизации промтов и использование фреймворков сжатия являются стандартной передовой практикой для эффективного развертывания.

Применение в реальном мире

Мгновенное сжатие обеспечивает немедленную выгоду в ситуациях, когда требуется быстрая обработка больших объемов текстовых или графических данных:

  • Генерация с использованием данных поиска (RAG): В корпоративных поисковых системах конвейеры RAG часто извлекают десятки объемных документов для ответа на один пользовательский запрос. Алгоритмы сжатия подсказок сокращают эти извлеченные документы, преобразуя их в лаконичные фактологические резюме перед передачей в модель генерации. Это предотвращает переполнение токенов и ускоряет вычисления в режиме реального времени.
  • Автономные ИИ-агенты: агенты и чат-боты должны сохранять долгосрочную память о взаимодействиях с пользователем. Вместо того чтобы передавать всю историю разговора при каждом новом запросе, методы сжатия обобщают предыдущие фрагменты диалога, обеспечивая понимание контекста агентом без экспоненциального роста вычислительных затрат.

Сжатие по запросу и связанные методы

Для построения надёжных конвейеров операций машинного обучения (MLOps) важно проводить различие между сжатием подсказок и смежными понятиями:

  • В отличие от кэширования промтов: кэширование сохраняет внутренние вычислительные состояния ранее обработанного текста, чтобы избежать их повторного вычисления. Сжатие, с другой стороны, активно изменяет и сокращает сам входной текст до начала любой обработки.
  • В отличие от разработки подсказок: Разработка подсказок — это искусство создания эффективных инструкций, основанное на человеческом опыте. Компрессия — это автоматизированное, алгоритмическое сокращение этих инструкций.
  • В отличие от расширения запроса: Расширение запроса заключается в добавлении внешнего контекста, тогда как сжатие — в его сокращении. Эти методы часто используются вместе: система может расширить запрос с помощью результатов из базы данных, а затем сжать итоговую полезную нагрузку перед выполнением инференции.

Применение в области компьютерного зрения

В области компьютерного зрения (CV) принципы сжатия подсказок применяются при использовании моделей с открытым словарем, которые принимают текстовые запросы для распознавания объектов. Лаконичность описаний классов обеспечивает более быстрое текстовое кодирование и снижает нагрузку на память.

В производственных средах с фиксированными классами, где скорость имеет первостепенное значение, разработчики обычно переходят от моделей с текстовыми подсказками к высокооптимизированным моделям с фиксированной архитектурой, таким как Ultralytics . С помощью Ultralytics вы можете эффективно управлять наборами данных и обучать эти передовые модели.

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения