Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Google Genie 3 оживит ваш 3D-мир с помощью искусственного интеллекта

Абирами Вина

4 мин чтения

15 августа 2025 г.

Мировая модель ИИ Genie 3 от DeepMind преобразует текстовые или графические подсказки в трехмерные среды. Этот прогресс знаменует собой еще один шаг к человекоподобному интеллекту.

5 августа 2025 года компания Google DeepMind выпустила последнюю версию модели Genie, известную как Genie 3. Это новая модель ИИ, способная преобразовывать текстовые подсказки пользователя в динамичные интерактивные среды. 

Эти среды, или миры ИИ, позволяют пользователю перемещаться и взаимодействовать с ними в режиме реального времени, как в видеоигре. Пользователи также могут расширять или изменять среду, предоставляя дополнительные текстовые подсказки, позволяя вносить изменения на лету без перезапуска симуляции. 

Особое значение новейшей модели Genie Google заключается в том, что ее можно использовать для обучения агентов ИИ. Это предполагает обучение агентов ИИ принятию решений или выполнению задач с использованием данных и обратной связи. Используя симуляцию 3D-среды вместо реального мира, исследователи могут избежать многих проблем, затрат и рисков, связанных с обучением в реальном мире.

Google Genie 3 также может моделировать сложные сценарии, например, тестировать автономный автомобиль, движущийся в сложных погодных условиях, или крылатый костюм, скользящий по горной местности. 

В этой статье мы рассмотрим Google Genie 3 и его возможности. Давайте начнем!

Рис. 1. Кадр из симуляции Genie 3, показывающий полет в вингсьюте. (Источник)

Краткая история моделей Genie от Google

Прежде чем мы погрузимся в модели Genie от Google DeepMind, давайте лучше разберемся, что такое модели мира. 

Мировые модели — это системы AI, которые изучают правила реального мира, такие как физика, движение и пространственные отношения, из текста, изображений, видео и наборов данных о движениях. Это позволяет им создавать реалистичные сцены и прогнозировать их развитие. Модели Genie являются примерами таких систем.

Вот краткий обзор предыдущих моделей Google Genie, которые проложили путь к Genie 3:

  • Genie 1: Genie 1, часто называемый просто Google Genie, был первой моделью мира ИИ компании Google DeepMind, способной создавать интерактивные виртуальные среды. Пользователи могли описывать мир с помощью текста, изображений, фотографий или даже эскизов, а Genie генерировал его, позволяя управлять действиями в сцене. Он был разработан для обработки видеоданных во времени, предсказания следующего кадра и преобразования пользовательского ввода в действия в мире.
  • Genie 2: Развивая возможности Google Genie, Genie 2 мог создавать широкий спектр детализированных интерактивных 3D-миров. В качестве модели мира он моделировал виртуальные среды и реалистично реагировал на такие действия, как прыжки, плавание или перемещение объектов. Обученная на огромной коллекции видеороликов, она обеспечивала реалистичное взаимодействие объектов и правдоподобные движения персонажей.

Что такое Genie 3? Новая модель искусственного интеллекта от Google

Созданная на основе предыдущих моделей Genie, Genie 3 является последней и самой продвинутой в серии. В частности, она создана на основе Genie 2, которая может генерировать новые виртуальные среды, и Veo 3, новейшей модели генерации видео Google DeepMind. Veo 3 демонстрирует глубокое понимание физики и того, как объекты взаимодействуют в реальном мире.

В то время как Veo 3 использует жестко закодированный физический движок, Google Genie 3 сам учит физику с помощью метода, известного как самообучение. Это метод обучения ИИ, при котором модель ИИ изучает закономерности и взаимосвязи на основе неразмеченных данных, генерируя собственные сигналы обучения. 

Способность Google Genie 3 к самообучению имеет решающее значение для обучения систем ИИ, таких как ИИ-агенты или ИИ-роботы, выполнению различных задач. Исследователи Google DeepMind рассматривают Genie 3 как важный шаг на пути к созданию искусственного интеллекта общего назначения (AGI)

Рис. 2. Пример использования Google Genie 3 для моделирования управления роботом-вездеходом.(Источник)

AGI — это теоретическая форма ИИ, которая может понимать и изучать любую задачу или предмет и применять эти знания в различных ситуациях, как человек. В отличие от современных моделей искусственного интеллекта, которые созданы для конкретных задач и с трудом переносят свои навыки на новые проблемы, AGI сможет адаптироваться и учиться в широком диапазоне контекстов.

Ключевые особенности Google Genie 3, связанные с построением мира ИИ

Вот некоторые из ключевых функций, поддерживаемых Genie 3:

  • Генерация 3D-мира из текста: Это позволяет превратить простой текстовый запрос (например, «робот идет по улице») в интерактивную 3D-подобную среду с базовыми элементами управления движением.
  • События в мире, управляемые запросами: Пользователи могут динамически изменять среду, вводя новые команды (например, добавить дождь на улицу).
  • Визуальная память: Genie 3 может запоминать объекты, оставленные в окружающей среде, и позволяет вам вернуться к ним позже, в течение примерно одной минуты.
  • Плавный и стабильный вывод видео: Он может поддерживать вывод видео со скоростью 24 кадра в секунду (fps) при разрешении 720p, с более длительным временем работы по сравнению с Genie 2.
Рис. 3. Google Genie 3 может генерировать результаты, которые служат дольше, чем результаты Genie 2.(Источник)

От образования до игр: Сферы применения Genie 3 от Google DeepMind

Google Genie 3 может сделать обучение, исследования и тренинги более захватывающими и увлекательными. Например, на уроках истории, естествознания или географии он позволит учащимся исследовать древние города или путешествовать в космосе. Разработчикам искусственного интеллекта он также предлагает реалистичные виртуальные миры для отработки стратегий, решения задач и совершенствования навыков принятия решений.

Ученые также могут использовать ее для создания контролируемых симуляций для тестирования идей, изучения экосистем или наблюдения за поведением объектов. Другим интересным применением является разработка видеоигр. Разработчики игр могут превращать текстовые запросы в детализированные игровые миры, ускоряя разработку и уменьшая потребность в больших командах.

Рис. 4. Веселые, красочные и интерактивные игры можно разрабатывать с помощью Genie 3. (Источник)

Ограничения Google Genie 3 как модели мира

Хотя Google Genie 3 обладает множеством функций и преимуществ, важно учитывать и его недостатки. 

Вот некоторые ограничения, которые следует учитывать:

  • Ограниченный диапазон действий: Хотя вы можете запускать множество событий в виртуальном мире, не все они выполняются самим агентом. Действия, которые агент может выполнять напрямую, все еще ограничены.
  • Взаимодействие с другими агентами: Создание реалистичных взаимодействий между несколькими независимыми агентами в одной и той же среде все еще находится в стадии разработки.
  • Точность в реальном мире: Google Genie 3 пока не может воссоздать реальные места с идеальной географической точностью.

Основные выводы

Google Genie 3 - это значительный шаг вперед в создании реалистичных интерактивных 3D-миров с помощью искусственного интеллекта. Он может воплощать в жизнь идеи из простых текстовых подсказок, моделировать физику и даже обучать системы ИИ в безопасных виртуальных пространствах. 

Несмотря на существующие ограничения, это открывает множество возможностей для исследований, игр и разработки ИИ. Это также важный шаг на пути к системам AGI, которые могут думать и учиться больше, как люди.

Посетите наш репозиторий GitHub, чтобы узнать больше об ИИ. Присоединяйтесь к нашему активному сообществу и открывайте инновации в таких секторах, как ИИ в розничной торговле и Vision AI в производстве. Чтобы начать работу с компьютерным зрением сегодня, ознакомьтесь с нашими вариантами лицензирования.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно