Узнайте, как World Models моделирует окружающую среду для прогнозирования будущих результатов. Узнайте, как они улучшают Ultralytics для автономного вождения и передовой робототехники.
Мировая модель — это передовая система искусственного интеллекта, предназначенная для изучения комплексной симуляции своего окружения, прогнозирования того, как мир будет развиваться со временем и как ее собственные действия повлияют на это будущее. В отличие от традиционного прогнозного моделирования, которое обычно сосредоточено на сопоставлении статических входных данных с выходными — например, классификации изображения — мировая модель стремится понять причинно-следственную динамику сцены. Внутренне усваивая физику, логику и временные последовательности наблюдаемых данных, она может моделировать потенциальные результаты до того, как они произойдут. Эта способность аналогична ментальной модели человека, позволяя ИИ «мечтать» или визуализировать будущие сценарии для планирования сложных задач или генерации реалистичного видеоконтента.
Основная инновация моделей World Models заключается в их способности рассуждать о времени и причинно-следственных связях. В стандартных задачах компьютерного зрения такие модели, как Ultralytics , превосходно справляются с обнаружением объектов в одном кадре. Однако модель World Model идет дальше, предсказывая, где эти объекты будут находиться в следующем кадре. Этот переход от статического распознавания к динамическому прогнозированию имеет решающее значение для разработки автономных транспортных средств и сложной робототехники.
Недавние прорывы, такие как модель преобразования текста в видео Sora от OpenAI, демонстрируют генеративную мощь мировых моделей. Понимая, как взаимодействуют свет, движение и геометрия, эти системы могут создавать высокореалистичные среды на основе простых текстовых подсказок. Аналогичным образом, в сфере обучения с подкреплением агенты используют эти внутренние симуляции для безопасного обучения в виртуальном пространстве, прежде чем пытаться выполнять опасные задачи в реальном мире, что значительно повышает безопасность и эффективность ИИ.
Полезно отличать мировые модели от других общих категорий ИИ.
Полезность World Models выходит далеко за рамки создания развлекательных видео. Они становятся важными компонентами в отраслях, где требуется принятие сложных решений.
Хотя полномасштабные модели мира требуют огромных вычислительных ресурсов, концепцию прогнозирования будущих кадров можно проиллюстрировать с помощью принципов понимания видео. Следующий пример демонстрирует, как настроить среду, в которой агент (или модель) может начать track предвидеть движение объектов, что является основополагающим шагом в построении прогнозируемого мировоззрения.
import cv2
from ultralytics import YOLO26
# Load the Ultralytics YOLO26 model to act as the perception engine
model = YOLO26("yolo26n.pt")
# Open a video source (0 for webcam or a video file path)
cap = cv2.VideoCapture(0)
while cap.isOpened():
success, frame = cap.read()
if not success:
break
# The 'track' mode maintains object identity over time,
# a prerequisite for learning object dynamics
results = model.track(frame, persist=True)
# Visualize the tracking, showing how the model follows movement
annotated_frame = results[0].plot()
cv2.imshow("Object Tracking Stream", annotated_frame)
if cv2.waitKey(1) & 0xFF == ord("q"):
break
cap.release()
cv2.destroyAllWindows()
Разработка мировых моделей представляет собой шаг в направлении создания искусственного общего интеллекта (AGI). Научившись эффективно моделировать мир, системы искусственного интеллекта приобретают пространственный интеллект и некую форму «здравого смысла» в отношении физических взаимодействий. В настоящее время исследователи изучают архитектуры совместного встраивания прогнозов (JEPA), чтобы сделать эти модели более эффективными, избегая больших вычислительных затрат на генерацию каждого пикселя и сосредоточившись вместо этого на прогнозировании высокоуровневых характеристик. По мере развития этих технологий можно ожидать более глубокой интеграции с Ultralytics , что позволит разработчикам обучать агентов не только видеть мир, но и по-настоящему его понимать.