Chain-of-Thought Prompting
Изучи промпт-инжиниринг методом «цепочка рассуждений» (Chain-of-Thought, CoT) для улучшения логического вывода ИИ. Узнай, как разбиение задач на логические шаги помогает лучше генерировать код для Ultralytics YOLO26.
Chain-of-Thought (CoT) prompting — это передовой метод в промпт-инжиниринге, который позволяет большим языковым моделям (LLM) решать сложные логические задачи путем разбиения их на промежуточные этапы. Вместо того чтобы просить модель выдать немедленный окончательный ответ, CoT побуждает систему генерировать «ход мыслей», имитирующий решение задач человеком. Такое пошаговое рассуждение значительно повышает эффективность при выполнении задач, связанных с арифметикой, символьной логикой и здравым смыслом, преобразуя способы нашего взаимодействия с системами искусственного интеллекта (ИИ).
Link to this sectionМеханизм рассуждения#
Стандартные языковые модели часто сталкиваются с трудностями при решении многошаговых задач, поскольку пытаются сопоставить входные данные с выходными за один проход. Этот подход «черного ящика» может приводить к ошибкам, особенно если логический разрыв слишком велик. Chain-of-Thought prompting решает эту проблему, вставляя этапы рассуждения между исходным вопросом и окончательным результатом.
Этот процесс обычно работает двумя способами:
- Zero-Shot CoT: Ты добавляешь к промпту простую триггерную фразу, например «Давай подумаем шаг за шагом». Это активирует скрытые способности модели к рассуждению без необходимости приводить конкретные примеры.
- Few-Shot CoT: Промпт включает несколько примеров (экземпляров), состоящих из вопросов и их пошаговых решений. Это использует few-shot learning, чтобы показать модели, как именно структурировать логику перед попыткой решения новой задачи.
Благодаря явной генерации промежуточных рассуждений у модели появляется больше возможностей для самокоррекции, а также обеспечивается прозрачность того, как именно она пришла к выводу. Это критически важно для уменьшения галлюцинаций в LLM, когда модели в противном случае могут уверенно заявлять неверные факты.
Link to this sectionРеальные приложения#
Хотя изначально метод разрабатывался для текстовой логики, Chain-of-Thought prompting имеет мощные области применения в сочетании с другими доменами ИИ, такими как компьютерное зрение и генерация кода.
Link to this sectionУлучшение генерации кода для компьютерного зрения#
Разработчики используют CoT, чтобы направлять LLM при написании сложных программных скриптов для таких задач, как обнаружение объектов. Вместо расплывчатого запроса вроде «напиши код для поиска автомобилей», промпт CoT может структурировать запрос так: «Во-первых, импортируй необходимые библиотеки. Во-вторых, загрузи предобученную модель. В-третьих, определи источник изображения. Наконец, запусти цикл предсказания». Такой структурированный подход гарантирует, что сгенерированный код для таких моделей, как YOLO26, будет синтаксически верным и логически обоснованным.
Link to this sectionАвтономное принятие решений#
В области автономных транспортных средств системы должны обрабатывать визуальные данные и принимать критически важные для безопасности решения. Подход Chain-of-Thought позволяет системе сформулировать свою логику: «Я обнаруживаю пешехода рядом с переходом. Пешеход повернут к дороге. Светофор для меня горит зеленым, но пешеход может выйти на дорогу. Поэтому я замедляюсь и готовлюсь к остановке». Это делает решения ИИ интерпретируемыми и соответствует принципам объяснимого ИИ (XAI).
Link to this sectionChain-of-Thought в действии#
Хотя CoT — это прежде всего метод естественного языка, его можно программно внедрить для обеспечения последовательного взаимодействия с моделями машинного зрения. Следующий пример на Python демонстрирует, как разработчик может структурировать промпт, чтобы направить LLM (симулированную здесь) в процессе генерации корректного кода для инференса на платформе Ultralytics Platform.
# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script
cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.
Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.
Based on these steps, generate the Python code below:
"""
# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")Link to this sectionРазграничение похожих концепций#
Важно отличать Chain-of-Thought prompting от похожих терминов в сфере машинного обучения (ML):
- Prompt Chaining: Это подразумевает соединение нескольких отдельных вызовов модели, где результат одного шага становится входными данными для следующего. CoT происходит внутри одного промпта для вызова внутреннего рассуждения, в то время как prompt chaining организует рабочий процесс через несколько взаимодействий.
- Retrieval-Augmented Generation (RAG): RAG фокусируется на получении внешних данных (таких как документы или базы данных) для обоснования знаний модели. CoT фокусируется на самом процессе рассуждения. Часто они комбинируются — использование RAG для получения фактов и CoT для их осмысления.
- Prompt Tuning: Это метод эффективной по параметрам донастройки, который оптимизирует непрерывные «мягкие» промпты (векторы) во время обучения. CoT — это дискретная стратегия естественного языка, применяемая при инференсе в реальном времени без изменения весов модели.
Link to this sectionВзгляд в будущее#
По мере развития фундаментальных моделей, Chain-of-Thought prompting становится стандартной практикой для раскрытия их полного потенциала. Исследования таких групп, как Google DeepMind, показывают, что по мере роста масштабов моделей их способность к рассуждению CoT значительно улучшается. Эта эволюция прокладывает путь к созданию более надежных автономных агентов, способных обрабатывать сложные рабочие процессы в самых разных отраслях: от здравоохранения до умного производства.






