Vision AI

2024 год начинается с волны генеративного ИИ

Взгляд на захватывающие ИИ-инновации первого квартала 2024 года. Мы рассмотрим прорывы, такие как Sora AI от OpenAI, мозговой чип Neuralink и новейшие LLM.

АБАбирами Вина

6 min readApril 12, 2024

Прорывы в области генеративного ИИ в начале 2024 года

ИИ-сообщество, кажется, попадает в заголовки новостей почти ежедневно. Первые несколько месяцев 2024 года были захватывающими и полными новых инноваций в области ИИ. От мощных новых больших языковых моделей до имплантатов в мозг человека — 2024 год обещает стать удивительным.

Мы видим, как ИИ трансформирует индустрии, делает информацию более доступной и даже делает первые шаги к слиянию нашего разума с машинами. Давай вернемся в первый квартал 2024 года и подробнее рассмотрим прогресс, достигнутый в области ИИ всего за несколько месяцев.

Link to this sectionLLM в тренде#

Большие языковые модели (LLM), разработанные для понимания, генерации и обработки человеческого языка на основе огромных объемов текстовых данных, заняли центральное место в первом квартале 2024 года. Многие крупные технологические компании выпустили свои собственные LLM, каждая из которых обладает уникальными возможностями. Невероятный успех предыдущих LLM, таких как GPT-3, вдохновил этот тренд. Вот некоторые из наиболее примечательных релизов LLM начала 2024 года.

Link to this sectionClaude 3 от Anthropic#

Компания Anthropic выпустила Claude 3 14 марта 2024 года. Модель Claude 3 представлена в трех версиях: Opus, Sonnet и Haiku, каждая из которых обслуживает разные рынки и цели. Haiku, самая быстрая модель, оптимизирована для оперативных, базовых ответов. Sonnet балансирует между скоростью и интеллектом и нацелена на корпоративные приложения. Opus, самая продвинутая версия, обеспечивает непревзойденный интеллект и рассуждение, идеально подходит для сложных задач и достижения лучших показателей в тестах.

Claude 3 может похвастаться множеством продвинутых функций и улучшений:

Расширенные многоязычные беседы: Улучшенные способности в языках, включая испанский, японский и французский.
Продвинутые функции зрения: Способна обрабатывать различные визуальные форматы.
Минимизированные отказы: Показывает больше понимания с меньшим количеством ненужных отказов, что указывает на улучшенное контекстуальное восприятие.
Расширенное контекстное окно: Предлагает контекстное окно на 200 тысяч токенов, но способна обрабатывать входные данные объемом более 1 миллиона токенов в зависимости от потребностей клиента.

График, показывающий контекстуальную осведомленность Claude 3 по сравнению с предыдущими версиями

Рис. 1. Claude 3 лучше осознает контекст, чем предыдущие версии.

Link to this sectionDBRX от Databricks#

Databricks DBRX — это открытая LLM общего назначения, выпущенная Databricks 27 марта 2024 года. DBRX отлично справляется с различными бенчмарками, включая понимание языка, программирование и математику. Она превосходит другие устоявшиеся модели, будучи при этом примерно на 40% меньше аналогичных моделей.

Сравнение DBRX с другими моделями

Рис. 2. Сравнение DBRX с другими моделями.

DBRX была обучена с использованием предсказания следующего токена с архитектурой мелкозернистой смеси экспертов (MoE), и именно поэтому мы видим значительные улучшения в производительности обучения и логического вывода. Ее архитектура позволяет модели точнее предсказывать следующее слово в последовательности, обращаясь к разнообразному набору специализированных подмоделей («экспертов»). Эти подмодели хорошо справляются с обработкой различных типов информации или задач.

Link to this sectionGemini 1.5 от Google#

15 февраля 2024 года Google представила Gemini 1.5 — вычислительно эффективную мультимодальную ИИ-модель, способную анализировать обширные текстовые, видео- и аудиоданные. Последняя модель более продвинута с точки зрения производительности, эффективности и возможностей. Ключевой особенностью Gemini 1.5 является прорыв в понимании длинного контекста. Модель способна стабильно обрабатывать до 1 миллиона токенов. Возможности Gemini 1.5 также обусловлены новой архитектурой на основе MoE.

Сравнение длины контекста популярных LLM

Рис. 3. Сравнение длин контекста популярных LLM

Вот некоторые из наиболее интересных функций Gemini 1.5:

Улучшенная обработка данных: Позволяет напрямую загружать большие PDF-файлы, репозитории кода или длинные видео в качестве промптов. Модель может рассуждать в разных модальностях и выводить текст.
Загрузка нескольких файлов и запросы: Разработчики теперь могут загружать несколько файлов и задавать вопросы.
Может использоваться для разных задач: Она оптимизирована для масштабирования на разнообразные задачи и показывает улучшения в таких областях, как математика, наука, логика, многоязычность, понимание видео и код.

Link to this sectionПотрясающие визуальные эффекты от ИИ#

Первый квартал 2024 года открыл генеративные ИИ-модели, которые могут создавать настолько реалистичные визуальные образы, что они вызвали дебаты о будущем социальных сетей и прогрессе ИИ. Давай погрузимся в модели, вызывающие обсуждение.

Link to this sectionSora от OpenAI#

Компания OpenAI, создатель ChatGPT, анонсировала 15 февраля 2024 года передовую модель глубокого обучения для преобразования текста в видео под названием Sora. Sora — это генератор текста в видео, способный создавать минутные видеоролики с высоким качеством изображения на основе текстовых промптов пользователя.

Например, взгляни на следующий промпт.

«Великолепно отрисованный мир из бумаги в виде кораллового рифа, наполненный красочными рыбами и морскими существами».

А вот кадр из полученного видео.

Кадр из видео, созданного OpenAI Sora

Рис. 4. Кадр из видео, сгенерированного Sora.

Архитектура Sora делает это возможным за счет сочетания диффузионных моделей для генерации текстур и моделей Transformer для структурной согласованности. На данный момент доступ к Sora был предоставлен участникам red teaming и избранной группе визуальных художников, дизайнеров и режиссеров, чтобы понять риски и получить обратную связь.

Link to this sectionStable Diffusion 3 от Stability AI#

22 февраля 2024 года компания Stability AI анонсировала выход Stable Diffusion 3 — модели для генерации изображений по текстовому описанию. В этой модели сочетаются архитектура диффузионного трансформера и метод flow matching. Техническая документация пока не опубликована, но есть несколько ключевых особенностей, на которые стоит обратить внимание.

Изображение, созданное Stable Diffusion 3: волшебник накладывает космическое заклинание

Рис 5. Итоговое изображение на основе промпта: «Эпическое аниме-произведение искусства: волшебник на вершине горы ночью произносит космическое заклинание в темное небо, из которого складывается надпись "Stable Diffusion 3", сделанная из красочной энергии» (Источник)

Последняя модель Stable Diffusion предлагает улучшенную производительность, качество изображения и точность при создании изображений с несколькими объектами. Stable Diffusion 3 также предложит ряд моделей с числом параметров от 800 миллионов до 8 миллиардов. Это позволит пользователям выбирать модель в соответствии со своими специфическими потребностями в масштабируемости и детализации.

Link to this sectionLumiere от Google#

23 января 2024 года Google запустила Lumiere, модель диффузии текста в видео. Lumiere использует архитектуру под названием Space-Time-U-Net, или сокращенно STUNet. Она помогает Lumiere понимать, где находятся объекты и как они перемещаются в видео. Благодаря этому она может создавать плавные и реалистичные видеоролики.

Кадр из видео, созданного Google Lumiere: панда играет на укулеле

Рис. 6. Кадр из видео, сгенерированного на основе промпта: «Панда играет на укулеле дома».

С возможностью генерации 80 кадров на видео, Lumiere раздвигает границы и устанавливает новые стандарты качества видео в пространстве ИИ. Вот некоторые функции Lumiere:

Изображение в видео: Начиная с изображения и промпта, Lumiere может оживлять изображения, превращая их в видео.
Стилизованная генерация: Lumiere может создавать видео в определенных стилях, используя одно эталонное изображение.
Синемаграфы: Lumiere может анимировать определенные области внутри изображения для создания динамических сцен, например, когда движется конкретный объект, а остальная часть сцены остается статичной.
Video Inpainting: Она может изменять части видео, например, меняя наряды людей в нем или изменяя детали фона.

Link to this sectionБудущее, кажется, уже здесь#

Начало 2024 года также принесло множество ИИ-инноваций, которые кажутся чем-то из научно-фантастического фильма. Над вещами, которые раньше мы назвали бы невозможными, теперь работают. Будущее уже не кажется таким далеким благодаря следующим открытиям.

Link to this sectionNeuralink от Илона Маска#

Компания Илона Маска Neuralink 29 января 2024 года успешно имплантировала свой беспроводной чип в мозг человека. Это огромный шаг к соединению человеческого мозга с компьютерами. Илон Маск поделился, что первый продукт Neuralink под названием «Telepathy» находится в разработке.

Имплантат Neuralink

Рис. 7. Имплантат Neuralink

Цель состоит в том, чтобы позволить пользователям, особенно тем, кто утратил функции конечностей, легко управлять устройствами с помощью своих мыслей. Потенциальные применения выходят за рамки удобства. Илон Маск представляет будущее, в котором люди с параличом смогут легко общаться.

Link to this sectionHoloTile Floor от Disney#

18 января 2024 года Walt Disney Imagineering представила пол HoloTile. Его назвали первой в мире всенаправленной беговой дорожкой для нескольких человек.

Imagineer компании Disney Лэнни Смут на полу HoloTile

Рис. 8. Disney Imagineer Лэнни Смут позирует на своей последней инновации, полу HoloTile.

Он может перемещаться под любым человеком или объектом, как телекинез, для захватывающего опыта виртуальной и дополненной реальности. Ты можешь ходить в любом направлении и избегать столкновений, находясь на нем. Пол HoloTile от Disney также можно устанавливать на театральных сценах, чтобы танцевать и двигаться творческими способами.

Link to this sectionVision Pro от Apple#

2 февраля 2024 года долгожданная гарнитура Vision Pro от Apple вышла на рынок. Она обладает множеством функций и приложений, призванных переосмыслить опыт виртуальной и дополненной реальности. Гарнитура Vision Pro ориентирована на разнообразную аудиторию, объединяя развлечения, продуктивность и пространственные вычисления. Apple с гордостью объявила, что более 600 приложений, от инструментов продуктивности до игр и развлекательных сервисов, были оптимизированы для Vision Pro на момент запуска.

Link to this sectionDevin от Cognition#

12 марта 2024 года компания Cognition выпустила помощника по разработке программного обеспечения под названием Devin. Devin — это первая в мире попытка создания автономного инженера-программиста на основе ИИ. В отличие от традиционных помощников по кодированию, которые предлагают предложения или выполняют конкретные задачи, Devin разработан для ведения целых проектов по разработке ПО от первоначальной концепции до завершения.

Он может изучать новые технологии, создавать и развертывать полноценные приложения, находить и исправлять ошибки, обучать свои собственные модели, вносить вклад в open-source и рабочие кодовые базы и даже браться за реальную работу по разработке на таких сайтах, как Upwork.

Сравнение Devin с другими моделями

Рис. 9. Сравнение Devin с другими моделями.

Devin оценивался на SWE-bench, сложном бенчмарке, который просит агентов решать реальные проблемы GitHub, найденные в open-source проектах, таких как Django и scikit-learn. Он правильно решил 13,86% задач от начала до конца, по сравнению с предыдущим лучшим показателем в 1,96%.

Link to this sectionПочетные упоминания#

Происходит так много всего, что охватить всё в этой статье невозможно. Но вот еще несколько почетных упоминаний.

LATTE3D от NVIDIA, анонсированный 21 марта 2024 года, представляет собой ИИ-модель для преобразования текста в 3D, которая мгновенно создает 3D-представления из текстовых промптов.
Новый генератор текста в видео от Midjourney, анонсированный генеральным директором Дэвидом Хольцем, начал обучение в январе и, как ожидается, скоро будет запущен.
Продвигая революцию ИИ-ПК, Lenovo выпустила ThinkBook 13x с технологией E Ink Prism и высокопроизводительные ИИ-ноутбуки 8 января 2024 года.

Link to this sectionСледи за трендами ИИ вместе с нами!#

Начало 2024 года ознаменовалось прорывными достижениями в области ИИ и многими крупными технологическими вехами. Но это только начало того, на что способен ИИ. Если хочешь узнать больше о последних разработках в области ИИ, Ultralytics к твоим услугам.

Загляни в наш GitHub repository, чтобы увидеть наши последние вклады в компьютерное зрение и ИИ. Ты также можешь посмотреть наши страницы решений, чтобы узнать, как ИИ используется в таких отраслях, как производство и здравоохранение.

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше

Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения

Запросить лицензию Начать работу