Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Google Genie 3 оживляет ваш 3D-мир с помощью ИИ

Абирами Вина

4 мин чтения

15 августа 2025 г.

Мировая модель ИИ Genie 3 от DeepMind преобразует текстовые или графические подсказки в трехмерные среды. Этот прогресс знаменует собой еще один шаг к человекоподобному интеллекту.

5 августа 2025 года Google DeepMind выпустила последнюю версию модели Genie, известную как Genie 3. Это новая модель ИИ, которая может преобразовывать текстовые запросы пользователя в динамические интерактивные среды. 

Эти среды, или миры ИИ, позволяют пользователю перемещаться и взаимодействовать с ними в режиме реального времени, как в видеоигре. Пользователи также могут расширять или изменять среду, предоставляя дополнительные текстовые подсказки, позволяя вносить изменения на лету без перезапуска симуляции. 

Что делает последнюю модель Genie Google особенно значимой, так это то, что ее можно использовать для обучения AI-агентов. Это включает в себя обучение AI-агентов принятию решений или выполнению задач с использованием данных и обратной связи. Используя смоделированную трехмерную среду вместо реального мира, исследователи могут избежать многих проблем, затрат и рисков, связанных с обучением в реальном мире.

Google Genie 3 также может имитировать сложные сценарии, такие как тестирование автономного автомобиля, едущего в плохую погоду, или полет в вингсьюте по гористой местности. 

В этой статье мы рассмотрим Google Genie 3 и его возможности. Начнем!

Рис. 1. Кадр из симуляции Genie 3, показывающий полет в вингсьюте. (Источник)

Краткая история моделей Genie от Google

Прежде чем мы углубимся в модели Genie от Google DeepMind, давайте лучше поймем, что такое мировые модели. 

Мировые модели — это системы AI, которые изучают правила реального мира, такие как физика, движение и пространственные отношения, из текста, изображений, видео и наборов данных о движениях. Это позволяет им создавать реалистичные сцены и прогнозировать их развитие. Модели Genie являются примерами таких систем.

Вот краткий обзор более ранних моделей Google Genie, которые подготовили почву для Genie 3:

  • Genie 1: Genie 1, часто называемый просто Google Genie, был первой мировой моделью искусственного интеллекта Google DeepMind, способной создавать интерактивные виртуальные среды. Пользователи могли описывать мир с помощью текста, изображений, фотографий или даже эскизов, а Genie генерировал его, позволяя им контролировать действия в сцене. Он был разработан для обработки видеоданных во времени, прогнозирования следующего кадра и преобразования пользовательского ввода в действия в мире.
  • Genie 2: Основываясь на возможностях Google Genie, Genie 2 может создавать широкий спектр детализированных интерактивных 3D-миров. Как мировая модель, она имитировала виртуальные среды и реалистично реагировала на такие действия, как прыжки, плавание или перемещение объектов. Обученная на огромной коллекции видеороликов, она отличалась реалистичным взаимодействием объектов и реалистичными движениями персонажей.

Что такое Genie 3? Новая AI-модель от Google

Основанная на более ранних моделях Genie, Genie 3 является последней и самой продвинутой в серии. Она основана, в частности, на Genie 2, которая могла генерировать новые виртуальные среды, и Veo 3, новейшей модели генерации видео от Google DeepMind. Veo 3 демонстрирует глубокое понимание физики и того, как объекты взаимодействуют в реальном мире.

В то время как Veo 3 использует жестко запрограммированный физический движок, Google Genie 3 сама учится, как работает физика, используя метод, известный как самообучение без учителя. Это метод обучения AI, при котором AI-модель изучает закономерности и взаимосвязи из немаркированных данных, генерируя свои собственные сигналы обучения. 

Возможность самообучения Google Genie 3 имеет решающее значение для обучения систем ИИ, таких как AI-агенты или AI-роботы, для выполнения различных задач. Фактически, исследователи из Google DeepMind рассматривают Genie 3 как важный шаг на пути к созданию Общего искусственного интеллекта (AGI)

Рис. 2. Пример использования Google Genie 3 для имитации управления роботизированным марсоходом. (Источник)

AGI — это теоретическая форма ИИ, которая может понимать и изучать любую задачу или предмет и применять эти знания в различных ситуациях, как человек. В отличие от современных моделей искусственного интеллекта, которые созданы для конкретных задач и с трудом переносят свои навыки на новые проблемы, AGI сможет адаптироваться и учиться в широком диапазоне контекстов.

Ключевые особенности Google Genie 3, связанные с созданием мира ИИ

Вот некоторые из ключевых функций, поддерживаемых Genie 3:

  • Генерация 3D-мира из текста: Это позволяет превратить простой текстовый запрос (например, «робот идет по улице») в интерактивную 3D-подобную среду с базовыми элементами управления движением.
  • События в мире, управляемые запросами: Пользователи могут динамически изменять среду, вводя новые команды (например, добавить дождь на улицу).
  • Визуальная память: Genie 3 может запоминать объекты, оставленные в окружающей среде, и позволяет вам вернуться к ним позже, в течение примерно одной минуты.
  • Плавный и стабильный вывод видео: Он может поддерживать вывод видео со скоростью 24 кадра в секунду (fps) при разрешении 720p, с более длительным временем работы по сравнению с Genie 2.
Рис. 3. Google Genie 3 может генерировать результаты, которые сохраняются дольше, чем результаты, полученные с помощью Genie 2. (Источник)

От образования до игр: Применение Genie 3 от Google DeepMind

Google Genie 3 может сделать обучение, исследования и тренировки более захватывающими и увлекательными. Например, в классах он может оживить историю, науку или географию, позволяя учащимся исследовать древние города или путешествовать в космосе. Аналогично, для разработчиков искусственного интеллекта он предлагает реалистичные виртуальные миры для отработки стратегий, преодоления трудностей и улучшения навыков принятия решений.

Ученые также могут использовать ее для создания контролируемых симуляций для тестирования идей, изучения экосистем или наблюдения за поведением объектов. Другим интересным применением является разработка видеоигр. Разработчики игр могут превращать текстовые запросы в детализированные игровые миры, ускоряя разработку и уменьшая потребность в больших командах.

Рис. 4. Веселые, красочные и интерактивные игры можно разрабатывать с помощью Genie 3. (Источник)

Ограничения Google Genie 3 как мировой модели

Хотя Google Genie 3 предлагает множество функций и преимуществ, важно также учитывать ее недостатки. 

Вот некоторые ограничения, которые следует учитывать:

  • Ограниченный диапазон действий: Хотя вы можете запускать множество событий в виртуальном мире, не все они выполняются самим агентом. Действия, которые агент может выполнять напрямую, все еще ограничены.
  • Взаимодействие с другими агентами: Создание реалистичных взаимодействий между несколькими независимыми агентами в одной и той же среде все еще находится в стадии разработки.
  • Реалистичная точность: Google Genie 3 пока не может воссоздать реальные местоположения с идеальной географической точностью.

Основные выводы

Google Genie 3 представляет собой значительный шаг вперед в создании реалистичных, интерактивных 3D-миров с помощью ИИ. Он может воплощать идеи в жизнь из простых текстовых запросов, имитировать физику и даже обучать системы ИИ в безопасных виртуальных пространствах. 

Несмотря на существующие ограничения, это открывает множество возможностей для исследований, игр и разработки ИИ. Это также важный шаг на пути к системам AGI, которые могут думать и учиться больше, как люди.

Посетите наш репозиторий GitHub, чтобы узнать больше об ИИ. Присоединяйтесь к нашему активному сообществу и открывайте инновации в таких секторах, как ИИ в розничной торговле и Vision AI в производстве. Чтобы начать работу с компьютерным зрением сегодня, ознакомьтесь с нашими вариантами лицензирования.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена