Глоссарий

Модели рассуждений

Узнайте, как модели искусственного интеллекта выходят за рамки сопоставления шаблонов и переходят к логическому выводу. Узнайте, как Ultralytics и Ultralytics обеспечивают визуальное мышление.

Модели рассуждений представляют собой значительную эволюцию в области искусственного интеллекта, выходя за рамки простого сопоставления шаблонов и выполняя многоэтапные логические выводы, решение проблем и принятие решений. В отличие от традиционных архитектур глубокого обучения, которые в значительной степени полагаются на статистические корреляции, обнаруженные в обширных наборах данных, модели рассуждений предназначены для «обдумывания» проблемы. Они часто используют такие методы, как подсказки цепочки мыслей или внутренние блокноты, чтобы разбить сложные запросы на промежуточные шаги перед генерацией окончательного ответа. Эта способность позволяет им решать задачи, требующие математики, кодирования и научного мышления, с гораздо большей точностью, чем стандартные большие языковые модели (LLM).

Основные механизмы мышления

Переход к рассуждениям предполагает обучение моделей генерировать собственный внутренний монолог или след рассуждений. Недавние разработки 2024 и 2025 годов, такие как серия OpenAI o1, продемонстрировали, что выделение большего времени на вычисления для «рассуждений во время вывода» значительно повышает производительность. Используя стратегии обучения с подкреплением, эти модели учатся проверять свои собственные шаги, detect и уточнять свою логику перед представлением решения. Это контрастирует со старыми моделями, которые просто предсказывают следующий наиболее вероятный токен на основе вероятности.

Применение в реальном мире

Модели рассуждений находят свое применение в сложных рабочих процессах, где точность имеет первостепенное значение.

Комплексная разработка программного обеспечения: помимо простого автодополнения кода, модели рассуждений могут проектировать целые программные модули. Они могут понимать зависимости между несколькими файлами, отлаживать сложные логические ошибки и оптимизировать алгоритмы путем моделирования путей выполнения. Эта способность имеет решающее значение для операций машинного обучения (MLOps) , где автоматизированные конвейеры должны быть надежными.
Научные открытия и исследования: в таких областях, как ИИ в здравоохранении, эти модели помогают исследователям, анализируя противоречивые клинические данные, чтобы предложить возможные диагнозы или лекарственные взаимодействия. Например , Google в области математического мышления показывают, как ИИ может решать новые геометрические задачи, что является навыком, который можно напрямую перенести в физические симуляции и структурную биологию.

Отличие моделей рассуждений от стандартных LLM

Важно различать «модели рассуждений» и универсальный генеративный ИИ.

Стандартные LLM (например, GPT-4, Llama 3): в основном это базовые модели, оптимизированные для обеспечения беглости, креативности и скорости. Они превосходны в генерации и обобщении текста, но часто испытывают трудности с задачами, требующими строгой логики, что приводит к галлюцинациям.
Модели рассуждений (например, OpenAI o1, Google 1.5 Pro): они специализированы или точно настроены, чтобы отдавать приоритет логической корректности над скоростью. По своей сути они используют процесс «медленного мышления» (мышление системы 2 ) по сравнению с «быстрым мышлением» (система 1) стандартных моделей. Это делает их менее подходящими для чата в реальном времени, но превосходными для задач прогнозного моделирования, требующих высокой точности.

Визуальное мышление с помощью компьютерного зрения

В то время как текстовое мышление хорошо известно, визуальное мышление является быстро развивающейся областью. Оно включает в себя интерпретацию сложных визуальных сцен для ответа на вопросы «почему» или «как», а не только «что» присутствует. Благодаря сочетанию высокоскоростного обнаружения объектов с помощью моделей, таких как Ultralytics , с механизмом мышления, системы могут анализировать причинно-следственные связи в видеопотоках.

Например, в автономных транспортных средствах система должна не только detect пешехода, но и делать вывод о том, что «пешеход смотрит в свой телефон и идет к бордюру, поэтому он может выйти на дорогу».

Следующий пример демонстрирует, как извлечь структурированные данные с помощью YOLO26, которые затем могут быть введены в модель рассуждений для получения информации о сцене.

from ultralytics import YOLO

# Load the YOLO26 model for high-accuracy detection
model = YOLO("yolo26n.pt")

# Run inference on an image containing multiple objects
results = model("https://ultralytics.com/images/bus.jpg")

# Extract class names and coordinates for logic processing
# A reasoning model could use this data to determine spatial relationships
detections = []
for r in results:
    for box in r.boxes:
        detections.append(
            {"class": model.names[int(box.cls)], "confidence": float(box.conf), "bbox": box.xywh.tolist()}
        )

print(f"Structured data for reasoning: {detections}")

Будущее искусственного интеллекта, основанного на логическом мышлении

Траектория развития ИИ движется в направлении искусственного общего интеллекта (AGI), где центральную роль будут играть способности к рассуждению. Мы наблюдаем конвергенцию, когда мультимодальное обучение позволяет моделям одновременно рассуждать на основе текста, кода, аудио и видео. Такие платформы, как Ultralytics , развиваются для поддержки этих сложных рабочих процессов, позволяя пользователям управлять наборами данных, которые стимулируют как визуальное восприятие, так и обучение логическому мышлению.

Для более подробного ознакомления с техническими основами, изучение научных работ по цепочке мышления дает глубокое понимание того, как подсказки могут раскрыть скрытые способности к рассуждению. Кроме того, понимание нейросимволическогоИИ помогает контекстуализировать, как логика и нейронные сети объединяются для создания более надежных систем.

Модели рассуждений

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Основные механизмы мышления

Применение в реальном мире

Отличие моделей рассуждений от стандартных LLM

Визуальное мышление с помощью компьютерного зрения

Будущее искусственного интеллекта, основанного на логическом мышлении

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Что такое монокулярная оценка глубины? Обзор

Обзор использованияYOLO Ultralytics YOLO для обнаружения угроз с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics