2024 год начнется с генеративной волны ИИ

Абирами Вина

6 минут чтения

12 апреля 2024 г.

Обзор захватывающих инноваций в области ИИ в первом квартале 2024 года. Мы расскажем о таких прорывах, как ИИ Sora от OpenAI, мозговой чип от Neuralink и новейшие LLM.

ИИ-сообщество, кажется, почти ежедневно выходит в свет. Первые несколько месяцев 2024 года были захватывающими и полными новых инноваций в области ИИ. От новых мощных моделей больших языков до имплантатов человеческого мозга - 2024 год обещает быть удивительным.

Мы видим, как ИИ преобразует отрасли, делает информацию более доступной и даже делает первые шаги к слиянию нашего разума с машинами. Давайте отмотаем назад первый квартал 2024 года и посмотрим на прогресс, достигнутый в области ИИ всего за несколько месяцев.

Магистратура в тренде

Большие языковые модели (LLM), предназначенные для понимания, генерирования и манипулирования человеческим языком на основе огромного количества текстовых данных, заняли центральное место в первом квартале 2024 года. Многие крупные технологические компании выпустили свои собственные модели LLM, каждая из которых обладает уникальными возможностями. Невероятный успех предыдущих моделей LLM, таких как GPT-3, вдохновил эту тенденцию. Вот некоторые из наиболее заметных релизов LLM начала 2024 года.

Клод Антропик 3

Anthropic выпустила Claude 3 14 марта 2024 года. Модель Claude 3 выпускается в трех версиях: Opus, Sonnet и Haiku, каждая из которых предназначена для разных рынков и целей. Haiku, самая быстрая модель, оптимизирована для быстрых, базовых ответов. Sonnet балансирует между скоростью и интеллектуальностью и ориентирована на корпоративные приложения. Opus, самая продвинутая версия, обеспечивает непревзойденный интеллект и логику и идеально подходит для решения сложных задач и достижения наивысших показателей.

В Claude 3 реализовано множество дополнительных функций и улучшений:

  • Улучшенные многоязычные разговоры: Улучшенные способности к языкам, включая испанский, японский и французский.
  • Расширенные возможности зрения: Возможность работы с различными визуальными форматами.
  • Минимизация отказов: Демонстрирует большее понимание при меньшем количестве ненужных отказов, что свидетельствует об улучшении понимания контекста.
  • Расширенное контекстное окно: Он предлагает контекстное окно на 200 тыс. единиц, но способен обрабатывать входы более 1 млн. токенов в зависимости от потребностей клиента.
__wf_reserved_inherit
Рис. 1. Клод 3 более контекстно осведомлен, чем предыдущие версии.

Databricks' DBRX

Databricks DBRX - это открытый LLM общего назначения, выпущенный компанией Databricks 27 марта 2024 года. DBRX демонстрирует отличные результаты в различных тестах, включая понимание языка, программирование и математику. Он превосходит другие известные модели и при этом примерно на 40 % меньше аналогичных моделей.

__wf_reserved_inherit
Рис. 2. Сравнение DBRX с другими моделями.

DBRX был обучен предсказанию следующего слова с помощью мелкозернистой архитектуры "смесь экспертов" (MoE), и именно поэтому мы видим значительные улучшения в результатах обучения и вывода. Архитектура позволяет модели более точно предсказывать следующее слово в последовательности, обращаясь к разнообразному набору специализированных подмоделей ("экспертов"). Эти подмодели хорошо справляются с различными типами информации или задач.

Gemini 1.5 от Google

15 февраля 2024 года компания Google представила Gemini 1.5 - эффективную в вычислительном плане мультимодальную модель искусственного интеллекта, способную анализировать обширные текстовые, видео- и аудиоданные. Последняя модель является более совершенной с точки зрения производительности, эффективности и возможностей. Ключевой особенностью Gemini 1.5 является прорыв в понимании длинных контекстов. Модель способна стабильно обрабатывать до 1 миллиона токенов. Возможности Gemini 1.5 также обусловлены новой архитектурой на основе MoE.

__wf_reserved_inherit
Рис. 3. Сравнение длины контекста популярных LLM

Вот некоторые из наиболее интересных функций Gemini 1.5:

  • Улучшена работа с данными: Позволяет напрямую загружать большие PDF-файлы, репозитории кода или длинные видеоролики в качестве подсказок. Модель может рассуждать в разных модальностях и выводить текст.
  • Загрузка нескольких файлов и запросы: Разработчики теперь могут загружать несколько файлов и задавать вопросы.
  • Может использоваться для различных задач: Он оптимизирован для масштабирования различных задач и демонстрирует улучшения в таких областях, как математика, естественные науки, рассуждения, многоязычие, понимание видео и кода

Потрясающие визуальные эффекты от искусственного интеллекта

В первом квартале 2024 года были представлены генеративные модели ИИ, способные создавать настолько реальные визуальные образы, что они вызвали дискуссии о будущем социальных сетей и прогрессе ИИ. Давайте рассмотрим модели, вызывающие бурные дискуссии.

Сора от OpenAI 

Компания OpenAI, создатель ChatGPT, 15 февраля 2024 года анонсировала новейшую модель глубокого обучения "текст-видео" под названием Sora. Sora - это генератор видео из текста в текст, способный создавать минутные видеоролики с высоким визуальным качеством на основе текстовых подсказок пользователя. 

Например, посмотрите на следующую подсказку. 

"Великолепно выполненный из бумаги мир кораллового рифа, изобилующий разноцветными рыбами и морскими обитателями". 

А вот кадр из выходного видео. 

__wf_reserved_inherit
Рис. 4. Кадр из видео, сгенерированного Sora.

Архитектура Sora делает это возможным благодаря сочетанию диффузионных моделей для создания текстур и трансформаторных моделей для обеспечения структурной целостности. Пока что доступ к Sora был предоставлен членам "красной команды" и избранной группе визуальных художников, дизайнеров и режиссеров, чтобы понять риски и получить обратную связь. 

Стабильная диффузия AI 3 

Компания Stability AI объявила о выходе Stable Diffusion 3, модели генерации текста в изображение, 22 февраля 2024 года. Модель сочетает в себе архитектуру диффузионного трансформатора и согласование потоков. Технический документ еще не опубликован, но есть несколько ключевых особенностей, на которые стоит обратить внимание.

__wf_reserved_inherit
Рис. 5. Выходное изображение по запросу: "Эпическое аниме, изображающее волшебника на вершине горы ночью, который произносит космическое заклинание в темное небо с надписью "Стабильная диффузия 3", созданное из разноцветной энергии".

Последняя модель Stable Diffusion отличается повышенной производительностью, качеством изображения и точностью при создании изображений с несколькими объектами. Stable Diffusion 3 также предложит множество моделей с числом параметров от 800 миллионов до 8 миллиардов. Это позволит пользователям сделать выбор в зависимости от их конкретных потребностей в масштабируемости и детализации.

Люмьер от Google 

23 января 2024 года компания Google запустила Lumiere, модель распространения текста в видео. Lumiere использует архитектуру под названием Space-Time-U-Net, или сокращенно STUNet. Она помогает Lumiere понять, где и как движутся объекты в видео. Благодаря этому он может генерировать плавные и реалистичные видео.

__wf_reserved_inherit
Рис. 6. Кадр из видео, созданного по подсказке: "Панда играет на укулеле дома".

Благодаря возможности генерировать 80 кадров на видео, Lumiere расширяет границы и устанавливает новые стандарты качества видео в пространстве искусственного интеллекта. Вот некоторые из особенностей Lumiere:

  • Изображение-видео: Начиная с изображения и подсказки, Lumiere может анимировать изображения в видео.
  • Стилизованная генерация: Lumiere может создавать видео в определенных стилях, используя одно опорное изображение.
  • Синемаграфы: Lumiere может анимировать определенные области изображения для создания динамичных сцен, например, определенный объект движется, а остальная часть сцены остается статичной.
  • Video Inpainting: Он может изменять части видео, например, менять наряды людей в нем или детали фона.

Будущее, похоже, уже наступило

Начало 2024 года также принесло множество инноваций в области искусственного интеллекта, которые кажутся чем-то из научно-фантастического фильма. Вещи, которые раньше мы считали невозможными, сейчас находятся в разработке. Будущее кажется не таким уж далеким благодаря следующим открытиям.

Neuralink Элона Маска

Компания Элона Маска Neuralink успешно имплантировала свой беспроводной чип в мозг человека 29 января 2024 года. Это огромный шаг на пути к соединению человеческого мозга с компьютером. Элон Маск рассказал, что первый продукт Neuralink под названием "Телепатия" уже находится в разработке. 

__wf_reserved_inherit
Рис 7. Имплантат Neuralink

Цель - дать пользователям, особенно тем, кто потерял функциональность конечностей, возможность управлять устройствами без усилий, с помощью своих мыслей. Потенциальные возможности применения выходят за рамки удобства. Элон Маск представляет себе будущее, в котором люди с параличом смогут легко общаться.

Disney's HoloTile Floor 

18 января 2024 года компания Walt Disney Imagineering представила HoloTile Floor. Его назвали первой в мире всенаправленной беговой дорожкой для нескольких человек. 

__wf_reserved_inherit
Рис. 8. Имажинист компании Disney Лэнни Смут позирует на своей последней инновации - полу HoloTile.

Он может перемещаться под любым человеком или предметом, подобно телекинезу, создавая эффект погружения в виртуальную и дополненную реальность. Вы можете ходить в любом направлении и избегать столкновений, находясь на нем. Disney's HoloTile Floor также может быть установлен на театральных сценах, чтобы танцевать и двигаться креативными способами.

Vision Pro от Apple

2 февраля 2024 года на рынке появится долгожданная гарнитура Vision Pro от Apple. Она обладает множеством функций и приложений, призванных переосмыслить возможности виртуальной и дополненной реальности. Гарнитура Vision Pro рассчитана на самую разную аудиторию, сочетая в себе развлечения, продуктивность и пространственные вычисления. Apple с гордостью объявила, что на момент запуска гарнитуры Vision Pro для нее было оптимизировано более 600 приложений - от инструментов для повышения производительности до игровых и развлекательных сервисов.

Девин из Cognition

12 марта 2024 года компания Cognition выпустила ассистента по разработке программного обеспечения под названием Devin. Devin - это первая в мире попытка создать автономный ИИ-программист. В отличие от традиционных помощников, которые предлагают предложения или выполняют конкретные задачи, Devin предназначен для работы с целыми проектами по разработке программного обеспечения от первоначальной концепции до завершения. 

Он может изучать новые технологии, создавать и развертывать полноценные приложения, находить и исправлять ошибки, обучать собственные модели, вносить вклад в кодовые базы с открытым исходным кодом и производственные коды и даже выполнять реальную работу по разработке на сайтах вроде Upwork. 

__wf_reserved_inherit
Рис. 9. Сравнение Devin с другими моделями.

Devin был оценен на SWE-bench, сложном эталоне, который просит агентов решить реальные проблемы GitHub, найденные в таких проектах с открытым исходным кодом, как Django и scikit-learn. Он правильно решил 13,86 % всех проблем, по сравнению с предыдущим передовым результатом в 1,96 %.

Почетные упоминания

Произошло так много событий, что охватить все в этой статье невозможно. Но вот еще несколько почетных упоминаний. 

  • LATTE3D от NVIDIA, анонсированная 21 марта 2024 года, - это модель ИИ "текст в 3D", которая мгновенно создает 3D-представления из текстовых подсказок.
  • Новый генератор видео из текста в текст Midjourney, о котором говорил генеральный директор Дэвид Хольц, начал обучение в январе и вскоре должен быть запущен.
  • Продвигая революцию ПК с искусственным интеллектом, компания Lenovo выпустила ThinkBook 13x с технологией E Ink Prism и высокопроизводительные ноутбуки с искусственным интеллектом 8 января 2024 года.

Будьте в курсе тенденций в области искусственного интеллекта вместе с нами!

Начало 2024 года ознаменовалось революционными достижениями в области искусственного интеллекта и многими крупными технологическими вехами. Но это только начало того, на что способен ИИ. Если вы хотите узнать больше о последних разработках в области ИИ, Ultralytics поможет вам в этом.

Загляните в наш репозиторий GitHub, чтобы ознакомиться с нашими последними разработками в области компьютерного зрения и ИИ. Вы также можете заглянуть на страницы наших решений, чтобы узнать, как ИИ используется в таких отраслях, как производство и здравоохранение

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена