X
Ultralytics YOLOv8.2 РелизUltralytics YOLOv8.2 РелизUltralytics YOLOv8.2 Стрела освобождения
Зелёная проверка
Ссылка копируется в буфер обмена

2024 год начинается с волны генеративного ИИ

Взгляните на захватывающие инновации в области искусственного интеллекта за первый квартал 2024 года. Мы расскажем о таких прорывах, как искусственный интеллект Sora от OpenAI, мозговой чип Neuralink и новейшие LLM.

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Кажется, что сообщество ИИ попадает в заголовки газет почти ежедневно. Первые несколько месяцев 2024 года были захватывающими и наполненными новыми инновациями в области искусственного интеллекта. От новых мощных больших языковых моделей до имплантатов человеческого мозга — 2024 год обещает быть удивительным.

Мы видим, как искусственный интеллект трансформирует отрасли, делая информацию более доступной и даже делая первые шаги к слиянию нашего разума с машинами. Давайте отмотаем назад первый квартал 2024 года и подробнее посмотрим на прогресс, достигнутый в области ИИ всего за несколько месяцев.

Магистры права в тренде

В первом квартале 2024 года в центре внимания оказались большие языковые модели (LLM), предназначенные для понимания, генерации и манипулирования человеческим языком на основе огромных объемов текстовых данных. Многие крупные технологические компании выпустили свои собственные модели LLM, каждая из которых обладает уникальными возможностями. Невероятный успех предыдущих LLM, таких как GPT-3, вдохновил эту тенденцию. Вот некоторые из самых заметных релизов LLM с начала 2024 года.

Anthropic's Claude 3

Anthropic вышел Claude 3 14 марта 2024 года. Модель Claude 3 выпускается в трех версиях: Opus, Sonnet и Haiku, каждая из которых предназначена для разных рынков и целей. Haiku, самая быстрая модель, оптимизирована для быстрых, базовых ответов. Sonnet сочетает в себе скорость и интеллект и ориентирован на корпоративные приложения. Opus, самая продвинутая версия, обеспечивает непревзойденный интеллект и рассуждение и идеально подходит для сложных задач и достижения самых высоких показателей.

Claude 3 может похвастаться множеством расширенных функций и улучшений:

  • Улучшенные многоязычные разговоры: улучшенные возможности в таких языках, как испанский, японский и французский.
  • Расширенные функции машинного зрения: возможность работы с различными визуальными форматами
  • Минимизированные отказы: показывает больше понимания с меньшим количеством ненужных отказов, что указывает на улучшение понимания контекста
  • Расширенное контекстное окно: Он предлагает 200 тыс. контекстных окон, но способен обрабатывать входные данные более 1 миллиона токенов в зависимости от потребностей клиентов.
Рис 1. Claude 3 более контекстуально зависима от контекста, чем предыдущие версии.

DBRX от Databricks

Databricks DBRX — это открытый LLM общего назначения, выпущенный Databricks 27 марта 2024 года. DBRX очень хорошо показывает себя в различных тестах, включая понимание языка, программирование и математику. Он превосходит другие известные модели, будучи при этом примерно на 40% меньше, чем аналогичные модели.

Рис 2. Сравнение DBRX с другими моделями.

DBRX был обучен с использованием прогнозирования следующего маркера с архитектурой мелкозернистой смеси экспертов (MoE), и именно поэтому мы можем увидеть значительные улучшения в производительности обучения и вывода. Его архитектура позволяет модели более точно предсказывать следующее слово в последовательности, обращаясь к разнообразному набору специализированных подмоделей («экспертов»). Эти подмодели хорошо справляются с различными типами информации или задач.

Gemini 1.5 от Google

15 февраля 2024 года Google представила Gemini 1.5, эффективную с точки зрения вычислений мультимодальную модель искусственного интеллекта, которая может анализировать обширные текстовые, видео- и аудиоданные. Последняя модель более продвинута с точки зрения производительности, эффективности и возможностей. Ключевой особенностью Gemini 1.5 является прорыв в понимании длинного контекста. Модель способна стабильно обрабатывать до 1 миллиона токенов. Возможности Gemini 1.5 также обусловлены новой архитектурой, основанной на MoE.

Рис 3. Сравнение длины контекста популярных LLM

Вот некоторые из самых интересных функций Gemini 1.5 :

  • Улучшенная обработка данных: позволяет напрямую загружать большие PDF-файлы, репозитории кода или длинные видео в качестве подсказок. Модель может рассуждать между модальностями и выходным текстом.
  • Загрузка нескольких файлов и запросы: теперь разработчики могут загружать несколько файлов и задавать вопросы.
  • Можно использовать для различных задач: он оптимизирован для масштабирования в различных задачах и демонстрирует улучшения в таких областях, как математика, естественные науки, рассуждение, многоязычность, понимание видео и код

Потрясающие визуальные эффекты от ИИ

В первом квартале 2024 года были представлены модели генеративного ИИ, которые могут создавать визуальные эффекты настолько реалистичные, что вызвали дебаты о будущем социальных сетей и прогрессе ИИ. Давайте углубимся в модели, вызывающие разговор.

Сора от OpenAI 

OpenAI, создатель ChatGPT15 февраля 2024 года объявил о выпуске новейшей модели глубокого обучения преобразования текста в видео под названием Sora. Sora - это генератор текста в видео, способный генерировать минутные видео с высоким визуальным качеством на основе текстовых пользовательских подсказок. 

Например, взгляните на следующую подсказку. 

«Великолепно выполненный из бумаги мир кораллового рифа, изобилующий разноцветными рыбами и морскими существами». 

А вот кадр из выходного видео. 

Рис 4. Кадр из видео, созданного Сорой.

Архитектура Sora делает это возможным благодаря сочетанию диффузионных моделей для генерации текстур и моделей трансформеров для структурной когерентности. До сих пор доступ к Соре был предоставлен членам «красной команды» и избранной группе художников, дизайнеров и кинематографистов, чтобы понять риски и получить обратную связь. 

Stability AIСтабильная диффузия 3 

Stability AI 22 февраля 2024 года компания объявила о выпуске Stable Diffusion 3, модели генерации текста в изображение. Модель сочетает в себе архитектуру диффузионного трансформатора и согласование потока. Они еще не выпустили технический документ, но есть несколько ключевых особенностей, на которые стоит обратить внимание.

Рис 5. Выходное изображение, основанное на подсказке: «Эпическое аниме-изображение волшебника на вершине горы ночью, произносящего космическое заклинание в темное небо с надписью «Stable Diffusion 3», сделанное из красочной энергии»

Новейшая модель Stable Diffusion обеспечивает повышенную производительность, качество изображения и точность при создании изображений с несколькими объектами. Stable Diffusion 3 также будет предлагать различные модели в диапазоне от 800 миллионов до 8 миллиардов параметров. Это позволит пользователям выбирать в зависимости от их конкретных потребностей в масштабируемости и детализации.

Люмьер от Google 

23 января 2024 года Google запустил Lumiere — модель диффузии текста в видео. Люмьер использует архитектуру под названием Space-Time-U-Net, или сокращенно STUNet. Это помогает Люмьеру понять, где находятся предметы и как они движутся на видео. Таким образом, он может создавать плавные и реалистичные видео.

Рис 6. Кадр из видео, сгенерированного на основе подсказки: «Панда играет на укулеле дома».

Обладая способностью генерировать 80 кадров на видео, Lumiere раздвигает границы и устанавливает новые стандарты качества видео в области искусственного интеллекта. Вот некоторые из функций Люмьера:

  • Преобразование изображения в видео: Начиная с изображения и подсказки, Lumiere может анимировать изображения в видео.
  • Стилизованная генерация: Люмьер может создавать видео в определенных стилях, используя одно эталонное изображение.
  • Синемаграфы: Люмьер может анимировать определенные области изображения для создания динамических сцен, таких как движение определенного объекта, в то время как остальная часть сцены остается статичной.
  • Закрашивание видео: Он может изменять части видео, например, изменять одежду людей в нем или изменять детали фона.

Кажется, что будущее уже наступило

Начало 2024 года также принесло множество инноваций в области искусственного интеллекта, которые напоминают что-то из научно-фантастического фильма. То, что раньше казалось невозможным, сейчас работает. Будущее не кажется таким уж далеким благодаря следующим открытиям.

Neuralink Илона Маска

29 января 2024 года компания Neuralink Илона Маска успешно имплантировала свой беспроводной мозговой чип человеку. Это огромный шаг на пути к соединению человеческого мозга с компьютерами. Илон Маск поделился, что первый продукт Neuralink под названием «Telepathy» находится в разработке. 

Рис 7. Имплантат Neuralink

Цель состоит в том, чтобы дать возможность пользователям, особенно тем, кто потерял функциональность конечностей, легко управлять устройствами с помощью своих мыслей. Потенциальные области применения выходят за рамки удобства. Илон Маск представляет себе будущее, в котором люди с параличом смогут легко общаться.

Пол HoloTile от Disney 

18 января 2024 года Walt Disney Imagineering представила HoloTile Floor. Его окрестили первой в мире многоместной всенаправленной беговой дорожкой. 

Рис 8. Фантазер Диснея Лэнни Смут позирует на своем последнем новшестве — полу HoloTile.

Он может перемещаться под любым человеком или объектом, как телекинез, для захватывающего опыта виртуальной и дополненной реальности. Вы можете идти в любом направлении, и избегать столкновений, находясь на нем. Диснеевский пол HoloTile также можно установить на театральных сценах, чтобы танцевать и творчески двигаться.

Apple Vision Pro

2 февраля 2024 года на рынке появилась долгожданная гарнитура Apple Vision Pro. Он имеет множество функций и приложений, предназначенных для переосмысления опыта виртуальной и дополненной реальности. Гарнитура Vision Pro предназначена для разнообразной аудитории, сочетая в себе развлечения, производительность и пространственные вычисления. Apple с гордостью объявила, что более 600 приложений, начиная от инструментов для повышения производительности и заканчивая игровыми и развлекательными сервисами, были оптимизированы для Vision Pro на момент его запуска.

Девин из Cognition

12 марта 2024 года Cognition выпустила помощника разработчика программного обеспечения по имени Девин. Devin — это первая в мире попытка автономного инженера-программиста с искусственным интеллектом. В отличие от традиционных помощников по программированию, которые предлагают предложения или выполняют конкретные задачи, Devin предназначен для выполнения целых проектов по разработке программного обеспечения от первоначальной концепции до завершения. 

Он может изучать новые технологии, создавать и развертывать полноценные приложения, находить и исправлять ошибки, обучать свои собственные модели, вносить свой вклад в базы кода с открытым исходным кодом и производственные базы кода и даже браться за реальные заказы на такие сайты, как Upwork. 

Рис 9. Сравнение Devin с другими моделями.

Девин был оценен на SWE-bench, сложном бенчмарке, который просит агентов решить реальные проблемы GitHub, обнаруженные в проектах с открытым исходным кодом, таких как Django и scikit-learn. Он правильно решил 13,86% проблем от начала до конца, по сравнению с предыдущим уровнем в 1,96%.

Поощрительные премии

Произошло так много событий, что охватить все в этой статье невозможно. Но вот еще несколько поощрительных упоминаний. 

  • LATTE3D от NVIDIA, анонсированная 21 марта 2024 года, представляет собой модель искусственного интеллекта с преобразованием текста в 3D, которая мгновенно создает 3D-представления из текстовых подсказок.
  • Новый генератор текста в видео от Midjourney, анонсированный генеральным директором Дэвидом Хольцем, начал обучение в январе и, как ожидается, будет запущен в ближайшее время.
  • 8 января 2024 года Lenovo выпустила ноутбук ThinkBook 13x с технологией E Ink Prism и высокопроизводительные ноутбуки с искусственным интеллектом.

Будьте в курсе тенденций искусственного интеллекта вместе с нами!

Начало 2024 года ознаменовалось революционными достижениями в области искусственного интеллекта и многими важными технологическими вехами. Но это только начало того, на что способен ИИ. Если вы хотите узнать больше о последних разработках в области искусственного интеллекта, Ultralytics позаботился о вас.

Ознакомьтесь с нашим репозиторием GitHub , чтобы ознакомиться с нашими последними вкладами в компьютерное зрение и ИИ. Вы также можете ознакомиться с нашими решениями, чтобы узнать, как ИИ используется в таких отраслях, как производство и здравоохранение

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения

Читайте больше в этой категории