Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Инженерия промптов

Освойте искусство промпт-инжиниринга для управления AI-моделями, такими как LLM, для получения точных и качественных результатов в контенте, обслуживании клиентов и многом другом.

Разработка подсказок - это стратегический процесс структурирования и оптимизации входного текста, известного как подсказки, для эффективного направлять Модели искусственного интеллекта (ИИ) на создание конкретных высококачественных результатов. Изначально этот процесс был популяризирован благодаря появлению больших языковых моделей (LLM), таких как GPT-4, эта дисциплина превратилась в критический навык для взаимодействия с различными генеративными системами. Она включает в себя понимание нюансов того, как модель интерпретирует язык, контекст и инструкции, чтобы преодолеть разрыв между человеческими намерениями и машинным исполнением. Тщательно подбирая слова, форматирование ограничений и предоставление контекста, пользователи могут значительно повысить точность и релевантность ответы генеративного ИИ без необходимости изменять без необходимости изменять базовые параметры модели.

Механика эффективных подсказок

В своей основе разработка подсказок опирается на принцип, согласно которому модели ИИ чувствительны к формулировкам и структуре входных данных. Хорошо продуманная подсказка обычно содержит специальные компоненты, призванные уменьшить двусмысленность. К ним относятся явные инструкции, соответствующая фоновая информация (контекст) и спецификации вывода, такие как формат - например, запрос ответа в JS. например, запрос ответа в JSON или маркированный список. Продвинутые методы включают в себя обучение с помощью нескольких выстрелов, когда пользователь приводит примеры нужных пар вход-выход в подсказке, чтобы направить рассуждения модели. Еще один мощный метод - побуждение к цепочке мыслей, которое побуждает модель разбивать сложные проблемы на промежуточные шаги рассуждений, улучшая производительность при решении логически сложных задач, о чем подробно говорится в ИсследованияGoogle публикации.

Релевантность в компьютерном зрении

Несмотря на то, что часто этот процесс ассоциируется с созданием текстов, разработка подсказок приобретает все большее значение в Компьютерное зрение (КВ). Современные мультимодальные модели и детекторы с открытым словарным запасом, такие как YOLO, позволяют пользователям определять цели обнаружения цели обнаружения, используя естественный язык, а не заранее заданные идентификаторы классов. В данном контексте "подсказка" - это текстовое описание объекта (например, "красная каска" против "каска"). Эта возможность, часто называемая обучением с нулевого выстрела, позволяет моделям detect объекты, на которые они не были специально обучены, просто обрабатывая семантические отношения между текстовой подсказкой и визуальными признаками.

В следующем примере показано, как программно применяется проектирование подсказок с помощью ultralytics пакет для динамического определения классов для обнаружение объектов:

from ultralytics import YOLO

# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolo-world.pt")

# Use prompt engineering to define custom classes without retraining
# The model aligns these text descriptions with visual features
model.set_classes(["person in safety vest", "forklift", "cardboard box"])

# Run inference on an image to detect the prompted objects
results = model.predict("warehouse.jpg")

Применение в реальном мире

Использование оперативного инжиниринга охватывает различные отрасли промышленности, повышая уровень автоматизации и креативности:

  • Автоматизированная генерация контента: В маркетинге и СМИ профессионалы используют подробные подсказки для управления генераторов текста в изображения, таких как Midjourney или Стабильная диффузия. Конкретная подсказка, описывающая освещения, художественного стиля и композиции позволяет дизайнерам быстро создавать прототипы визуальных активов, что экономит время по сравнению с традиционными методами рендеринга. по сравнению с традиционными методами рендеринга.
  • Интеллектуальная поддержка клиентов: Компании внедряют чат-боты на базе LLM для обработки запросов клиентов. Инженеры разрабатывают "системные подсказки", которые определяют личность бота (например, "Вы - полезный ассистент технической помощник технической поддержки"), устанавливают границы, чтобы предотвратить галлюцинации, и инструктируют ИИ получать ответы из конкретной базы знаний.

Различение смежных понятий

Важно отличать оперативное проектирование от схожих терминов в сфере машинного обучения:

  • Инженерия запросов в сравнении с настройкой запросов: Создание подсказок подразумевает ручное составление запросов на естественном языке. В отличие от этого, настройка подсказок - это эффективный с точки зрения параметров механизм, который обучается мягким вкрапления (числовые векторы) на этапе обучения для оптимизации входных данных модели, часто незаметно для пользователя.
  • Оперативное проектирование по сравнению с точной настройкой: Тонкая настройка постоянно обновляет весов модели путем обучения на специализированном наборе данных. Оперативное проектирование не изменяет саму модель; оно лишь оптимизирует входные данные во время в режиме реального времени.
  • Prompt Engineering против RAG. RAG: Retrieval-Augmented Generation (RAG) - это архитектура системы, которая получает внешние данные для обоснования реакции модели. ответ. Инженерия подсказок - это техника, используемая в RAG для правильного форматирования полученных данных и представления их в LLM для обработки.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас