Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Мировая модель

Узнайте, как World Models моделирует окружающую среду для прогнозирования будущих результатов. Узнайте, как они улучшают Ultralytics для автономного вождения и передовой робототехники.

Мировая модель — это передовая система искусственного интеллекта, предназначенная для изучения комплексной симуляции своего окружения, прогнозирования того, как мир будет развиваться со временем и как ее собственные действия повлияют на это будущее. В отличие от традиционного прогнозного моделирования, которое обычно сосредоточено на сопоставлении статических входных данных с выходными — например, классификации изображения — мировая модель стремится понять причинно-следственную динамику сцены. Внутренне усваивая физику, логику и временные последовательности наблюдаемых данных, она может моделировать потенциальные результаты до того, как они произойдут. Эта способность аналогична ментальной модели человека, позволяя ИИ «мечтать» или визуализировать будущие сценарии для планирования сложных задач или генерации реалистичного видеоконтента.

Выход за пределы статического восприятия

Основная инновация моделей World Models заключается в их способности рассуждать о времени и причинно-следственных связях. В стандартных задачах компьютерного зрения такие модели, как Ultralytics , превосходно справляются с обнаружением объектов в одном кадре. Однако модель World Model идет дальше, предсказывая, где эти объекты будут находиться в следующем кадре. Этот переход от статического распознавания к динамическому прогнозированию имеет решающее значение для разработки автономных транспортных средств и сложной робототехники.

Недавние прорывы, такие как модель преобразования текста в видео Sora от OpenAI, демонстрируют генеративную мощь мировых моделей. Понимая, как взаимодействуют свет, движение и геометрия, эти системы могут создавать высокореалистичные среды на основе простых текстовых подсказок. Аналогичным образом, в сфере обучения с подкреплением агенты используют эти внутренние симуляции для безопасного обучения в виртуальном пространстве, прежде чем пытаться выполнять опасные задачи в реальном мире, что значительно повышает безопасность и эффективность ИИ.

Глобальные модели против базовых моделей

Полезно отличать мировые модели от других общих категорий ИИ.

  • Мировые модели против базовых моделей: Базовая модель — это универсальная модель, обученная на обширных данных (например, GPT-4). Мировая модель часто представляет собой особый тип базовой модели или ее компонент, специально разработанный для моделирования динамики окружающей среды и временной согласованности.
  • Мировые модели против крупных языковых моделей (LLM): В то время как LLM предсказывают следующий текстовый токен на основе лингвистических паттернов, мировые модели предсказывают следующее «состояние» мира (часто видеокадры или сенсорные данные) на основе физических и пространственных правил.

Применение в реальном мире

Полезность World Models выходит далеко за рамки создания развлекательных видео. Они становятся важными компонентами в отраслях, где требуется принятие сложных решений.

  1. Автономное вождение: Компании, занимающиеся производством самоуправляемых автомобилей, такие как Waymo, используют World Models для моделирования миллионов сценариев вождения. ИИ автомобиля может предсказывать траекторию движения пешеходов и других автомобилей, планируя безопасные маршруты через оживленные перекрестки, без необходимости испытывать все возможные аварийные ситуации в реальности.
  2. Робототехника и производство: в интеллектуальном производстве роботы, оснащенные World Models, могут манипулировать объектами, которые они никогда раньше не видели. Моделируя физику захвата или подъема, робот предсказывает, будет ли предмет скользить или ломаться, адаптируя свои действия в режиме реального времени, чтобы обеспечить точность.

Практический пример: визуализация будущих состояний

Хотя полномасштабные модели мира требуют огромных вычислительных ресурсов, концепцию прогнозирования будущих кадров можно проиллюстрировать с помощью принципов понимания видео. Следующий пример демонстрирует, как настроить среду, в которой агент (или модель) может начать track предвидеть движение объектов, что является основополагающим шагом в построении прогнозируемого мировоззрения.

import cv2
from ultralytics import YOLO26

# Load the Ultralytics YOLO26 model to act as the perception engine
model = YOLO26("yolo26n.pt")

# Open a video source (0 for webcam or a video file path)
cap = cv2.VideoCapture(0)

while cap.isOpened():
    success, frame = cap.read()
    if not success:
        break

    # The 'track' mode maintains object identity over time,
    # a prerequisite for learning object dynamics
    results = model.track(frame, persist=True)

    # Visualize the tracking, showing how the model follows movement
    annotated_frame = results[0].plot()

    cv2.imshow("Object Tracking Stream", annotated_frame)
    if cv2.waitKey(1) & 0xFF == ord("q"):
        break

cap.release()
cv2.destroyAllWindows()

Будущее прогнозирующего ИИ

Разработка мировых моделей представляет собой шаг в направлении создания искусственного общего интеллекта (AGI). Научившись эффективно моделировать мир, системы искусственного интеллекта приобретают пространственный интеллект и некую форму «здравого смысла» в отношении физических взаимодействий. В настоящее время исследователи изучают архитектуры совместного встраивания прогнозов (JEPA), чтобы сделать эти модели более эффективными, избегая больших вычислительных затрат на генерацию каждого пикселя и сосредоточившись вместо этого на прогнозировании высокоуровневых характеристик. По мере развития этих технологий можно ожидать более глубокой интеграции с Ultralytics , что позволит разработчикам обучать агентов не только видеть мир, но и по-настоящему его понимать.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас