xAI запускает Grok 2.0 с интеграцией FLUX.1

Абирами Вина

4 мин. чтения

5 сентября 2024 г.

Узнайте о Grok 2.0 от xAI Элона Маска и его интеграции с FLUX.1. Узнайте о функциях, эталонных показателях, сравнении моделей и о том, как его опробовать.

14 августа компания Элона Маска xAI, специализирующаяся на разработке искусственного интеллекта, объявила о выпуске Grok 2.0, чат-бота, интегрированного с FLUX.1, моделью генерации изображений от Black Forest Labs, на сайте X (бывший Twitter). FLUX.1 - это продвинутая модель, способная создавать очень реалистичные изображения, в том числе те, которые могут быть восприняты как чувствительные или потенциально вводящие в заблуждение.

В отличие от многих популярных генераторов изображений, которые блокируют или фильтруют определенные типы контента, например изображения с насилием, откровенные или обманчивые, FLUX.1 имеет меньше ограничений. Некоторые видят в нем победу в борьбе за свободу слова, другие впечатлены его расширенными возможностями. Однако есть и опасения по поводу этических последствий и потенциального злоупотребления такой мощной технологией. Давайте разберемся, что дает Grok 2.0, чем отличается FLUX.1 и как вы можете сами попробовать эти инновационные инструменты.

Знакомство с FLUX.1: Генератор изображений искусственного интеллекта

FLUX.1 - это продвинутый генератор изображений с открытым исходным кодом, запущенный компанией Black Forest Labs 1 августа 2024 года. Black Forest Labs - это стартап, основанный бывшими инженерами Stability AI, известными своей работой над широко используемыми моделями Stable Diffusion. FLUX.1 призван составить прямую конкуренцию таким признанным игрокам, как MidJourney и DALL-E 3, и привносит новый уровень качества и гибкости в генерируемые ИИ изображения. Например, FLUX.1 отлично справляется со сложными деталями, с которыми не справляются многие модели, например, генерирует реалистично выглядящие человеческие руки или читаемый текст на вывесках.

Компания Black Forest Labs предлагает три различных варианта FLUX.1, которые можно использовать для разных целей. Вот более подробный обзор этих вариантов:

  • FLUX.1 [pro]: Флагманская модель для коммерческого использования, предназначенная для получения высококачественных результатов.
    ‍.
  • FLUX.1 [dev]: Версия с открытым весом, доступная для некоммерческого использования. Идеально подходит для исследований и разработок.
  • FLUX.1 [schnell]: Оптимизированная по скорости модель под лицензией Apache 2.0, идеально подходящая для личных проектов и локальных разработок, где требуется быстрая генерация изображений.
__wf_reserved_inherit
Рис. 1. Понимание вариаций FLUX.1

Как работает FLUX.1?

В FLUX.1 используется гибридная архитектура модели, сочетающая методы трансформации и диффузии, с размером модели в 12 миллиардов параметров (настраиваемые части нейронной сети, которые помогают ей обучаться на основе данных). Трансформаторы - это тип нейронной сети, которая может понимать последовательности, такие как текст и изображения, распознавая закономерности и взаимосвязи в данных. Диффузионные модели работают, начиная со случайного шума и постепенно улучшая его, пока не сформируется четкое изображение. Сочетая эти два подхода, FLUX.1 может использовать сильные стороны обеих архитектур для создания высококачественных изображений, соответствующих заданным текстовым подсказкам. 

В FLUX.1 также используются такие передовые технологии, как поворотные позиционные вкрапления и согласование потоков. Вращающиеся позиционные вкрапления помогают модели понять порядок и расположение элементов в тексте и изображениях, чтобы убедиться, что все вместе имеет смысл. Согласование потоков - это техника, используемая в генеративных моделях, чтобы сделать процесс создания изображений из случайного шума более плавным и эффективным.

Бенчмаркинг FLUX.1

Если сравнивать FLUX.1 с другими популярными моделями, такими как MidJourney v6.0, DALL-E 3 (HD) и SD3-Ultra, то FLUX.1 устанавливает новую планку в создании AI-изображений. Он превосходит другие модели в таких ключевых областях, как качество изображения, точность выполнения подсказок, разнообразие выходных данных и поддержка различных размеров и соотношений сторон. Модели FLUX.1 [pro] и [dev] отличаются тем, что создают высококачественные изображения, которые точно соответствуют запросам пользователей, и часто превосходят другие модели в предоставлении четких и точных результатов. С другой стороны, FLUX.1 [schnell] - одна из самых продвинутых моделей для быстрой генерации изображений и работает лучше, чем более сложные модели, такие как MidJourney.

__wf_reserved_inherit
Рис. 2. Сравнение Midjourney v6 и FLUX.1[pro]

Grok 2.0: Последние достижения xAI Элона Маска

Grok 2.0 - это новейшая крупная языковая модель, разработанная компанией Элона Маска xAI, специализирующейся на искусственном интеллекте. Выпущенная в августе 2024 года, Grok 2.0 доступна пользователям X Premium и Premium+ на платформе X (бывший Twitter). Кроме того, вскоре она станет доступна разработчикам и компаниям через корпоративный API.

__wf_reserved_inherit
Рис. 3. Пример того, как Grok 2.0 объясняет мем.

Grok 2.0 построен на архитектуре трансформера, и по сравнению со своей более ранней версией, Grok 1.5, он более приспособлен к выполнению инструкций, осмыслению проблем и предоставлению точной информации. Чатбот был протестирован в сравнении с другими ведущими моделями ИИ и показал впечатляющие результаты. Grok 2.0 превзошел такие популярные модели, как GPT-4 Turbo, Claude 3.5 Sonnet и Llama 3 405B в тестах, включающих научные вопросы для выпускников, общие знания и сложные математические задачи. Grok 2.0 также хорошо справляется с задачами, требующими визуального понимания, и показал высокие результаты в визуальных математических рассуждениях и ответах на вопросы на основе документов.

Связь между Grok 2.0 и FLUX.1

FLUX.1 был интегрирован в Grok 2.0, чтобы обеспечить бесшовное сочетание генерации текста и изображений. Объединение различных технологий - обычное дело для улучшения функциональности и удобства работы пользователей, но именно эта интеграция привлекла большое внимание. 

С одной стороны, интеграция FLUX.1 была высоко оценена некоторыми за добавление "веселого" элемента в Grok 2.0. Пользователи могут экспериментировать с созданием креативных и, порой, острых изображений, которые были бы ограничены или жестко модерировались другими инструментами ИИ. Например, пользователи делились на X изображениями, на которых общественные деятели были изображены в неуместных или спорных ситуациях, утверждая, что это поддерживает понятие свободы слова.

С другой стороны, критики утверждают, что отсутствие четких этических принципов в FLUX.1 может привести к серьезным этическим и социальным проблемам, таким как дезинформация и фейки. Некоторые опасаются, что сочетание мощной генерации текста и изображений без цензуры на одной из самых влиятельных платформ социальных сетей может усилить распространение дезинформации.

Grok 2.0 и его неограниченный подход

Дело не только в генерации изображений. Grok 2.0 сам по себе более ограничен, чем другие инструменты ИИ, с которыми мы недавно познакомились, например ChatGPT. Отсутствие модерации позволяет модели расширять границы, что одним кажется интересным, а другим - тревожным.

Например, было замечено, что Grok 2.0 генерирует текстовый контент, который можно легко интерпретировать как ложные или вводящие в заблуждение новости. Недавно Grok 2.0 создал ложную историю о том, что игрок НБА Клэй Томпсон якобы совершил "серию вандализма с кирпичами". Чатбот с искусственным интеллектом неправильно понял баскетбольный термин "бросать кирпичи", который означает просто промахиваться по мячу. Вместо этого Grok 2.0 воспринял его буквально и сфабриковал историю о Томпсоне, совершающем акты вандализма с помощью настоящих кирпичей. Пост быстро набрал популярность на сайте X, а некоторые пользователи даже добавили фальшивые аккаунты жертв, чтобы раздуть дезинформацию.

__wf_reserved_inherit
Рис. 4. Пост о X, написанный Гроком 2.

Несмотря на эти опасения, некоторые пользователи высоко оценивают "свободу слова" Grok 2.0. Они утверждают, что она позволяет вести более открытые беседы и обеспечивать творческую свободу, чем модели ИИ с жесткой модерацией. Они видят в Grok 2.0 противодействие тому, что они воспринимают как слишком осторожный, "бодрствующий" ИИ, который ограничивает обсуждение деликатных тем. Для этих пользователей Grok 2.0 предлагает платформу, которая не сковывает их общественными нормами.

Попробуйте сами FLUX.1 и Grok 2.0

Есть несколько вариантов, как опробовать FLUX.1 и Grok 2.0. Доступ к FLUX.1 можно получить непосредственно через платформы искусственного интеллекта, такие как Hugging Face, Replicate и Fal.ai. А Grok 2.0 доступен только для подписчиков X Premium и Premium+.

Основные выводы

FLUX.1 и Grok 2.0 расширяют границы искусственного интеллекта и вызывают глубокие дискуссии. FLUX.1 установил новый стандарт в области изображений, создаваемых искусственным интеллектом, благодаря своей способности создавать высокодетализированные и реалистичные изображения. Grok 2.0 использует FLUX.1 для расширения своих возможностей, выходящих за рамки простого текстового взаимодействия. С одной стороны, энтузиасты в восторге от творческой свободы и бесцензурного исследования, которое предлагают эти инструменты. С другой стороны, критики бьют тревогу по поводу риска дезинформации, глубоких подделок и этических последствий таких нерегулируемых возможностей на такой влиятельной платформе, как X. По мере развития FLUX.1 и Grok 2.0 они оказываются в центре дебатов о свободе, творчестве и ответственности в цифровую эпоху, которые, вероятно, будут определять будущее ИИ в ближайшие годы.

Чтобы узнать больше об Ultralytics, ознакомьтесь с нашим репозиторием на GitHub, присоединяйтесь к нашему сообществу и изучайте наши новейшие решения в области искусственного интеллекта в таких отраслях, как здравоохранение и производство! 🚀

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена