Узнайте, как модели искусственного интеллекта выходят за рамки сопоставления шаблонов и переходят к логическому выводу. Узнайте, как Ultralytics и Ultralytics обеспечивают визуальное мышление.
Модели рассуждений представляют собой значительную эволюцию в области искусственного интеллекта, выходя за рамки простого сопоставления шаблонов и выполняя многоэтапные логические выводы, решение проблем и принятие решений. В отличие от традиционных архитектур глубокого обучения, которые в значительной степени полагаются на статистические корреляции, обнаруженные в обширных наборах данных, модели рассуждений предназначены для «обдумывания» проблемы. Они часто используют такие методы, как подсказки цепочки мыслей или внутренние блокноты, чтобы разбить сложные запросы на промежуточные шаги перед генерацией окончательного ответа. Эта способность позволяет им решать задачи, требующие математики, кодирования и научного мышления, с гораздо большей точностью, чем стандартные большие языковые модели (LLM).
Переход к рассуждениям предполагает обучение моделей генерировать собственный внутренний монолог или след рассуждений. Недавние разработки 2024 и 2025 годов, такие как серия OpenAI o1, продемонстрировали, что выделение большего времени на вычисления для «рассуждений во время вывода» значительно повышает производительность. Используя стратегии обучения с подкреплением, эти модели учатся проверять свои собственные шаги, detect и уточнять свою логику перед представлением решения. Это контрастирует со старыми моделями, которые просто предсказывают следующий наиболее вероятный токен на основе вероятности.
Модели рассуждений находят свое применение в сложных рабочих процессах, где точность имеет первостепенное значение.
Важно различать «модели рассуждений» и универсальный генеративный ИИ.
В то время как текстовое мышление хорошо известно, визуальное мышление является быстро развивающейся областью. Оно включает в себя интерпретацию сложных визуальных сцен для ответа на вопросы «почему» или «как», а не только «что» присутствует. Благодаря сочетанию высокоскоростного обнаружения объектов с помощью моделей, таких как Ultralytics , с механизмом мышления, системы могут анализировать причинно-следственные связи в видеопотоках.
Например, в автономных транспортных средствах система должна не только detect пешехода, но и делать вывод о том, что «пешеход смотрит в свой телефон и идет к бордюру, поэтому он может выйти на дорогу».
Следующий пример демонстрирует, как извлечь структурированные данные с помощью YOLO26, которые затем могут быть введены в модель рассуждений для получения информации о сцене.
from ultralytics import YOLO
# Load the YOLO26 model for high-accuracy detection
model = YOLO("yolo26n.pt")
# Run inference on an image containing multiple objects
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names and coordinates for logic processing
# A reasoning model could use this data to determine spatial relationships
detections = []
for r in results:
for box in r.boxes:
detections.append(
{"class": model.names[int(box.cls)], "confidence": float(box.conf), "bbox": box.xywh.tolist()}
)
print(f"Structured data for reasoning: {detections}")
Траектория развития ИИ движется в направлении искусственного общего интеллекта (AGI), где центральную роль будут играть способности к рассуждению. Мы наблюдаем конвергенцию, когда мультимодальное обучение позволяет моделям одновременно рассуждать на основе текста, кода, аудио и видео. Такие платформы, как Ultralytics , развиваются для поддержки этих сложных рабочих процессов, позволяя пользователям управлять наборами данных, которые стимулируют как визуальное восприятие, так и обучение логическому мышлению.
Для более подробного ознакомления с техническими основами, изучение научных работ по цепочке мышления дает глубокое понимание того, как подсказки могут раскрыть скрытые способности к рассуждению. Кроме того, понимание нейросимволическогоИИ помогает контекстуализировать, как логика и нейронные сети объединяются для создания более надежных систем.