Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

2024 год начинается с волны генеративного ИИ

Абирами Вина

6 мин чтения

12 апреля 2024 г.

Обзор интересных инноваций в области ИИ за первый квартал 2024 года. Мы рассмотрим такие прорывы, как Sora AI от OpenAI, мозговой чип Neuralink и новейшие большие языковые модели (LLM).

Кажется, что AI-сообщество почти ежедневно попадает в заголовки новостей. Первые несколько месяцев 2024 года были захватывающими и полными новых AI-инноваций. От мощных новых больших языковых моделей до имплантатов в мозг человека, 2024 год обещает быть удивительным.

Мы видим, как ИИ преобразует отрасли, делая информацию более доступной и даже делая первые шаги к слиянию нашего разума с машинами. Давайте вернемся в первый квартал 2024 года и внимательнее посмотрим на прогресс, достигнутый в области ИИ всего за несколько месяцев.

LLM в тренде

Большие языковые модели (LLM), предназначенные для понимания, генерации и манипулирования человеческим языком на основе огромных объемов текстовых данных, заняли центральное место в первом квартале 2024 года. Многие крупные технологические компании выпустили свои собственные модели LLM, каждая с уникальными возможностями. Невероятный успех предыдущих LLM, таких как GPT-3, вдохновил эту тенденцию. Вот некоторые из наиболее заметных выпусков LLM начала 2024 года.

Claude 3 от Anthropic

Компания Anthropic выпустила Claude 3 14 марта 2024 года. Модель Claude 3 представлена в трех версиях: Opus, Sonnet и Haiku, каждая из которых обслуживает разные рынки и цели. Haiku, самая быстрая модель, оптимизирована для быстрых, базовых ответов. Sonnet сочетает в себе скорость и интеллект и предназначена для корпоративных приложений. Opus, самая продвинутая версия, обеспечивает беспрецедентный интеллект и рассуждения и идеально подходит для сложных задач и достижения лучших показателей.

Claude 3 обладает множеством передовых функций и улучшений:

  • Улучшенные многоязычные разговоры: Улучшены возможности для языков, включая испанский, японский и французский.
  • Расширенные возможности Vision: Возможность обработки различных визуальных форматов.
  • Минимизация отказов: демонстрирует больше понимания с меньшим количеством ненужных отказов, что указывает на улучшенное понимание контекста.
  • Расширенное контекстное окно: предлагает контекстное окно размером 200K, но способно обрабатывать входные данные объемом более 1 миллиона токенов в зависимости от потребностей клиента.
__wf_reserved_inherit
Рис. 1. Claude 3 обладает большей контекстной осведомленностью, чем предыдущие версии.

DBRX от Databricks

Databricks DBRX — это открытая универсальная большая языковая модель (LLM), выпущенная компанией Databricks 27 марта 2024 года. DBRX демонстрирует отличные результаты по различным бенчмаркам, включая понимание языка, программирование и математику. Она превосходит другие известные модели, будучи примерно на 40% меньше аналогичных моделей.

__wf_reserved_inherit
Рис. 2. Сравнение DBRX с другими моделями.

DBRX была обучена с использованием предсказания следующего токена с детальной архитектурой mixture-of-experts (MoE), и именно поэтому мы видим значительные улучшения в производительности обучения и логического вывода. Ее архитектура позволяет модели более точно предсказывать следующее слово в последовательности, обращаясь к разнообразному набору специализированных подмоделей («экспертов»). Эти подмодели хорошо справляются с различными типами информации или задач.

Gemini 1.5 от Google

15 февраля 2024 года Google представила Gemini 1.5, вычислительно эффективную мультимодальную AI-модель, которая может анализировать обширные текстовые, видео- и аудиоданные. Новейшая модель является более продвинутой с точки зрения производительности, эффективности и возможностей. Ключевой особенностью Gemini 1.5 является ее прорыв в понимании длинного контекста. Модель способна обрабатывать до 1 миллиона токенов. Возможности Gemini 1.5 также обусловлены новой архитектурой на основе MoE.

__wf_reserved_inherit
Рис. 3. Сравнение длин контекста популярных LLM.

Вот некоторые из наиболее интересных функций Gemini 1.5:

  • Улучшенная обработка данных: позволяет напрямую загружать большие PDF-файлы, репозитории кода или длинные видео в качестве подсказок. Модель может рассуждать, используя различные типы данных, и выводить текст.
  • Множественная загрузка файлов и запросы: теперь разработчики могут загружать несколько файлов и задавать вопросы.
  • Может использоваться для различных задач: он оптимизирован для масштабирования в различных задачах и демонстрирует улучшения в таких областях, как математика, наука, рассуждения, многоязычие, понимание видео и код.

Потрясающие визуальные эффекты от ИИ

В первом квартале 2024 года появились генеративные модели ИИ, способные создавать настолько реалистичные визуальные эффекты, что это вызвало дебаты о будущем социальных сетей и прогрессе ИИ. Давайте углубимся в модели, вызывающие дискуссии.

Sora от OpenAI 

OpenAI, создатель ChatGPT, объявила 15 февраля 2024 года о создании современной модели глубокого обучения для преобразования текста в видео под названием Sora. Sora - это генератор текста в видео, способный генерировать минутные видеоролики с высоким визуальным качеством на основе текстовых подсказок пользователя. 

Например, взгляните на следующий запрос. 

“Великолепно отрисованный мир кораллового рифа из бумаги, изобилующий красочными рыбами и морскими существами.” 

И вот кадр из выходного видео. 

__wf_reserved_inherit
Рис. 4. Кадр из видео, сгенерированного Sora.

Архитектура Sora делает это возможным благодаря сочетанию диффузионных моделей для генерации текстур и моделей-трансформеров для структурной когерентности. На данный момент доступ к Sora предоставлен группам Red Team и избранной группе художников, дизайнеров и кинематографистов, чтобы понять риски и получить обратную связь. 

Stable Diffusion 3 от Stability AI 

Компания Stability AI объявила о выпуске Stable Diffusion 3, модели генерации изображений из текста, 22 февраля 2024 года. Модель сочетает в себе архитектуру diffusion transformer и flow matching. Техническая документация еще не опубликована, но есть несколько ключевых особенностей, на которые стоит обратить внимание.

__wf_reserved_inherit
Рис. 5. Выходное изображение на основе запроса: “Эпическое аниме-изображение волшебника на вершине горы ночью, произносящего космическое заклинание в темное небо, на котором написано "Stable Diffusion 3", сделанное из красочной энергии”

Последняя модель Stable Diffusion предлагает улучшенную производительность, качество изображения и точность при создании изображений с несколькими объектами. Stable Diffusion 3 также предложит множество моделей с диапазоном от 800 миллионов до 8 миллиардов параметров. Это позволит пользователям выбирать в зависимости от их конкретных потребностей в масштабируемости и детализации.

Lumiere от Google 

23 января 2024 года Google запустила Lumiere, модель диффузии текста в видео. Lumiere использует архитектуру под названием Space-Time-U-Net, или сокращенно STUNet. Она помогает Lumiere понимать, где находятся объекты и как они движутся в видео. Благодаря этому она может генерировать плавные и реалистичные видео.

__wf_reserved_inherit
Рис. 6. Кадр из видео, сгенерированного на основе запроса: “Panda play ukulele at home.” (Панда играет на укулеле дома).

Благодаря возможности генерировать 80 кадров на видео, Lumiere расширяет границы и устанавливает новые стандарты качества видео в сфере ИИ. Вот некоторые из функций Lumiere:

  • Изображение в видео: начиная с изображения и подсказки, Lumiere может анимировать изображения в видео.
  • Стилизованная генерация: Lumiere может создавать видео в определенных стилях, используя одно эталонное изображение.
  • Синемаграфы: Lumiere может анимировать определенные области изображения для создания динамичных сцен, например, когда конкретный объект движется, а остальная часть сцены остается статичной.
  • Реставрация видео: позволяет изменять части видео, например, менять одежду людей в нем или изменять детали фона.

Кажется, будущее уже здесь

Начало 2024 года также принесло множество AI-инноваций, которые кажутся чем-то из научно-фантастического фильма. Сейчас ведется работа над вещами, которые раньше мы бы назвали невозможными. Благодаря следующим открытиям будущее уже не кажется таким далеким.

Neuralink Илона Маска

Компания Neuralink Илона Маска 29 января 2024 года успешно имплантировала свой беспроводной мозговой чип человеку. Это огромный шаг к подключению человеческого мозга к компьютерам. Илон Маск поделился, что первый продукт Neuralink под названием «Телепатия» находится в разработке. 

__wf_reserved_inherit
Рис. 7. Имплант Neuralink

Цель состоит в том, чтобы позволить пользователям, особенно тем, кто потерял функциональность конечностей, без усилий управлять устройствами посредством своих мыслей. Потенциальные применения выходят за рамки удобства. Илон Маск представляет будущее, в котором люди с параличом смогут легко общаться.

HoloTile Floor от Disney 

18 января 2024 года Walt Disney Imagineering представила HoloTile Floor. Ее назвали первым в мире многопользовательским всенаправленным беговым полом. 

__wf_reserved_inherit
Рис. 8. Диснеевский инженер-конструктор Лэнни Смут позирует на фоне своей последней инновации — пола HoloTile.

Он может перемещаться под любым человеком или объектом, как телекинез, для создания эффекта полного погружения в виртуальную и дополненную реальность. Вы можете ходить в любом направлении и избегать столкновений, находясь на нем. Пол HoloTile от Disney также можно установить на театральных сценах для танцев и передвижения творческими способами.

Apple Vision Pro

2 февраля 2024 года долгожданная гарнитура Vision Pro от Apple вышла на рынок. Она обладает множеством функций и приложений, призванных переосмыслить опыт виртуальной и дополненной реальности. Гарнитура Vision Pro предназначена для широкой аудитории, сочетая в себе развлечения, производительность и пространственные вычисления. Apple с гордостью объявила, что на момент запуска для Vision Pro было оптимизировано более 600 приложений, от инструментов повышения производительности до игровых и развлекательных сервисов.

Devin от Cognition

12 марта 2024 года Cognition выпустила помощника по разработке программного обеспечения под названием Devin. Devin — это первая в мире попытка создания автономного ИИ-инженера-программиста. В отличие от традиционных помощников по кодированию, которые предлагают предложения или выполняют определенные задачи, Devin предназначен для управления целыми проектами разработки программного обеспечения от первоначальной концепции до завершения. 

Он может изучать новые технологии, создавать и развертывать полноценные приложения, находить и исправлять ошибки, обучать собственные модели, вносить вклад в проекты с открытым исходным кодом и производственные кодовые базы и даже брать на себя реальные задачи по разработке с таких сайтов, как Upwork. 

__wf_reserved_inherit
Рис. 9. Сравнение Devin с другими моделями.

Devin был оценен на SWE-bench, сложном бенчмарке, который предлагает агентам решать реальные проблемы GitHub, обнаруженные в проектах с открытым исходным кодом, таких как Django и scikit-learn. Он правильно решил 13,86% проблем от начала до конца, по сравнению с предыдущим уровнем в 1,96%.

Почетные упоминания

Произошло так много всего, что охватить все в этой статье невозможно. Но вот еще несколько достойных упоминаний. 

  • LATTE3D от NVIDIA, анонсированная 21 марта 2024 года, — это модель ИИ для преобразования текста в 3D, которая мгновенно создает 3D-представления из текстовых подсказок.
  • Новый генератор текста в видео от Midjourney, анонсированный генеральным директором Дэвидом Хольцем, начал обучение в январе и, как ожидается, скоро будет запущен.
  • Компания Lenovo, продвигая революцию AI PC, выпустила ThinkBook 13x с технологией E Ink Prism и высокопроизводительные AI-ноутбуки 8 января 2024 года.

Будьте в курсе тенденций в области ИИ вместе с нами!

Начало 2024 года ознаменовалось новаторскими достижениями в области искусственного интеллекта и многими крупными технологическими вехами. Но это только начало того, на что способен ИИ. Если вы хотите узнать больше о последних разработках в области ИИ, Ultralytics поможет вам.

Посетите наш репозиторий GitHub, чтобы ознакомиться с нашими последними разработками в области компьютерного зрения и ИИ. Вы также можете просмотреть страницы наших решений, чтобы узнать, как ИИ используется в таких отраслях, как производство и здравоохранение

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена