Узнайте, как модели мира позволяют ИИ прогнозировать будущие состояния с помощью динамики окружающей среды. Узнайте, как Ultralytics обеспечивает восприятие для прогнозирующего ИИ.
«Модель мира» — это внутреннее представление системы искусственного интеллекта о том, как функционирует окружающая среда, что позволяет ей предсказывать будущие состояния или результаты на основе текущих наблюдений и потенциальных действий. В отличие от традиционных моделей , которые напрямую сопоставляют входы и выходы (например, классификация изображения), модель мира изучает основную динамику, физику и причинно-следственные связи системы. Эта концепция имеет центральное значение для развития искусственного общего интеллекта (AGI) , поскольку она дает машинам форму «здравого смысла», позволяя им мысленно моделировать сценарии перед тем, как действовать в реальном мире.
По сути, мировая модель функционирует аналогично человеческой интуиции. Когда вы бросаете мяч, вы не вычисляете уравнения сопротивления ветра ; ваш мозг моделирует траекторию на основе прошлого опыта. Аналогично, в машинном обучении (ML) эти модели сжимают высокоразмерные сенсорные данные (такие как видеокадры) в компактное латентное состояние. Это сжатое состояние позволяет агенту эффективно «мечтать» или галлюцинировать о потенциальном будущем.
Ведущие исследования, такие как работа Ха и Шмидхубера над рекуррентными моделями мира, демонстрируют, как агенты могут изучать политики полностью внутри симулированной среды снов. Более поздние достижения в области генеративного ИИ, такие как Sora от OpenAI, представляют собой визуальную форму моделирования мира, где система понимает физику, освещение и постоянство объектов, чтобы генерировать связную видеопоследовательность.
Мировые модели особенно эффективны в областях, требующих принятия сложных решений.
Полезно отличать мировые модели от стандартных подходов:
Хотя построение полной модели мира является сложной задачей, основополагающая концепция опирается на прогнозирование будущих состояний. Для задач компьютерного зрения высокоскоростные модели обнаружения, такие как Ultralytics , действуют как сенсорные «глаза», которые подают наблюдения в логику принятия решений.
Следующий Python демонстрирует, как можно использовать YOLO для извлечения текущего состояния (положения объектов ), которое будет служить входными данными для этапа прогнозирования модели мира.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding boxes (xyxy) representing object states
for result in results:
boxes = result.boxes.xyxy.cpu().numpy()
print(f"Observed State (Object Positions): {boxes}")
# A World Model would take these 'boxes' to predict the NEXT frame's state
Эволюция мировых моделей движется в направлении физического ИИ, где цифровой интеллект беспрепятственно взаимодействует с физическим миром. Такие инновации, как JEPA (Joint Embedding Predictive Architecture) Янна ЛеКуна, предлагают изучать абстрактные представления, а не предсказывать каждый пиксель, что делает модели значительно более эффективными.
По мере совершенствования этих архитектур мы ожидаем их интеграции в Ultralytics , что позволит разработчикам не только detect , но и прогнозировать их траектории и взаимодействия в динамичных средах. Этот переход от статического обнаружения к динамическому прогнозированию знаменует собой следующий большой скачок в компьютерном зрении (CV).