Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Мировые модели

Узнайте, как модели мира позволяют ИИ прогнозировать будущие состояния с помощью динамики окружающей среды. Узнайте, как Ultralytics обеспечивает восприятие для прогнозирующего ИИ.

«Модель мира» — это внутреннее представление системы искусственного интеллекта о том, как функционирует окружающая среда, что позволяет ей предсказывать будущие состояния или результаты на основе текущих наблюдений и потенциальных действий. В отличие от традиционных моделей , которые напрямую сопоставляют входы и выходы (например, классификация изображения), модель мира изучает основную динамику, физику и причинно-следственные связи системы. Эта концепция имеет центральное значение для развития искусственного общего интеллекта (AGI) , поскольку она дает машинам форму «здравого смысла», позволяя им мысленно моделировать сценарии перед тем, как действовать в реальном мире.

Механизм, лежащий в основе мировых моделей

По сути, мировая модель функционирует аналогично человеческой интуиции. Когда вы бросаете мяч, вы не вычисляете уравнения сопротивления ветра ; ваш мозг моделирует траекторию на основе прошлого опыта. Аналогично, в машинном обучении (ML) эти модели сжимают высокоразмерные сенсорные данные (такие как видеокадры) в компактное латентное состояние. Это сжатое состояние позволяет агенту эффективно «мечтать» или галлюцинировать о потенциальном будущем.

Ведущие исследования, такие как работа Ха и Шмидхубера над рекуррентными моделями мира, демонстрируют, как агенты могут изучать политики полностью внутри симулированной среды снов. Более поздние достижения в области генеративного ИИ, такие как Sora от OpenAI, представляют собой визуальную форму моделирования мира, где система понимает физику, освещение и постоянство объектов, чтобы генерировать связную видеопоследовательность.

Применение в робототехнике и моделировании

Мировые модели особенно эффективны в областях, требующих принятия сложных решений.

  • Автономные транспортные средства: самоуправляемые автомобили используют модели мира для прогнозирования поведения других водителей и пешеходов. Моделируя тысячи потенциальных сценариев дорожного движения в секунду, автомобиль может выбрать наиболее безопасный маршрут. Это тесно связано с компьютерным зрением в автомобильных решениях, где точное восприятие является основой для прогнозирования.
  • Робототехника: В производственной робототехнике роботизированная рука, обученная с помощью модели мира, может адаптироваться к новым объектам или неожиданным препятствиям без необходимости повторного обучения. Она понимает физику захвата и движения, улучшая интеллектуальные производственные решения.

Мировые модели против стандартного обучения с подкреплением

Полезно отличать мировые модели от стандартных подходов:

  • Мировые модели против обучения с подкреплением (RL): Традиционное RL часто является «бесmodellным», что означает, что агент учится исключительно методом проб и ошибок в среде. Подход на основе мировой модели является «модельно-ориентированным», при котором агент создает симулятор для обучения, что значительно сокращает количество необходимых взаимодействий с реальным миром.
  • Мировые модели против крупных языковых моделей (LLM): В то время как LLM предсказывают следующий текстовый токен, мировые модели часто предсказывают следующий визуальный кадр или состояние. Однако границы стираются с появлением мультимодального обучения, в котором модели интегрируют текст, зрение и физику.

Концепции практической реализации

Хотя построение полной модели мира является сложной задачей, основополагающая концепция опирается на прогнозирование будущих состояний. Для задач компьютерного зрения высокоскоростные модели обнаружения, такие как Ultralytics , действуют как сенсорные «глаза», которые подают наблюдения в логику принятия решений.

Следующий Python демонстрирует, как можно использовать YOLO для извлечения текущего состояния (положения объектов ), которое будет служить входными данными для этапа прогнозирования модели мира.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding boxes (xyxy) representing object states
for result in results:
    boxes = result.boxes.xyxy.cpu().numpy()
    print(f"Observed State (Object Positions): {boxes}")
    # A World Model would take these 'boxes' to predict the NEXT frame's state

Будущее прогнозирующего ИИ

Эволюция мировых моделей движется в направлении физического ИИ, где цифровой интеллект беспрепятственно взаимодействует с физическим миром. Такие инновации, как JEPA (Joint Embedding Predictive Architecture) Янна ЛеКуна, предлагают изучать абстрактные представления, а не предсказывать каждый пиксель, что делает модели значительно более эффективными.

По мере совершенствования этих архитектур мы ожидаем их интеграции в Ultralytics , что позволит разработчикам не только detect , но и прогнозировать их траектории и взаимодействия в динамичных средах. Этот переход от статического обнаружения к динамическому прогнозированию знаменует собой следующий большой скачок в компьютерном зрении (CV).

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас