Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

xAI lança o Grok 2.0 com integração FLUX.1

Sabe mais sobre o Grok 2.0 da xAI de Elon Musk e a sua integração com o FLUX.1. Explora detalhes como funcionalidades, benchmarks, comparações de modelos e como experimentá-lo.

ABAbirami Vina
4 min read
Grok 2.0 com geração de imagens FLUX.1

Em 14 de agosto, a empresa de IA de Elon Musk, xAI, anunciou o lançamento do Grok 2.0, um chatbot integrado ao FLUX.1, um modelo de geração de imagens da Black Forest Labs, no X (antigo Twitter). O FLUX.1 é um modelo avançado capaz de criar imagens altamente realistas, incluindo aquelas que podem ser vistas como sensíveis ou potencialmente enganosas.

Ao contrário de muitos geradores de imagem populares que bloqueiam ou filtram certos tipos de conteúdo, como imagens violentas, explícitas ou enganosas, o FLUX.1 tem menos restrições. Alguns veem isso como uma vitória para a livre expressão, enquanto outros ficam impressionados com suas capacidades avançadas. No entanto, também existem preocupações sobre as implicações éticas e o potencial uso indevido de uma tecnologia tão poderosa. Vamos mergulhar e explorar o que o Grok 2.0 traz, o que faz o FLUX.1 se destacar e como você pode experimentar essas ferramentas inovadoras pessoalmente.

Link to this sectionConhecendo o FLUX.1: Um gerador de imagens por IA#

O FLUX.1 é um gerador de imagens por IA de código aberto avançado lançado pela Black Forest Labs em 1º de agosto de 2024. A Black Forest Labs é uma startup fundada por ex-engenheiros da Stability AI conhecidos pelo seu trabalho nos amplamente utilizados modelos Stable Diffusion. O FLUX.1 foi projetado para competir diretamente com players estabelecidos como MidJourney e DALL-E 3 e traz um novo nível de qualidade e flexibilidade para imagens geradas por IA. Por exemplo, o FLUX.1 faz um ótimo trabalho ao lidar com detalhes complexos com os quais muitos modelos lutam, como gerar mãos humanas com aparência realista ou textos legíveis em placas.

A Black Forest Labs oferece três variações diferentes do FLUX.1 que podem ser usadas para diferentes aplicações. Aqui está uma análise mais detalhada das variações:

  • FLUX.1 [pro]: O modelo carro-chefe é para uso comercial e projetado para entregar resultados da mais alta qualidade.
  • FLUX.1 [dev]: Uma versão de pesos abertos disponível para uso não comercial. É ideal para pesquisa e desenvolvimento.
  • FLUX.1 [schnell]: Um modelo otimizado para velocidade sob a licença Apache 2.0, perfeito para projetos pessoais e desenvolvimento local onde é necessária uma rápida geração de imagens.

Diagrama das variações do FLUX.1

Fig 1. Entendendo as variações do FLUX.1

Link to this sectionComo o FLUX.1 funciona?#

O FLUX.1 usa uma arquitetura de modelo híbrida que combina técnicas de Transformer e difusão com um tamanho de modelo de 12 bilhões de parâmetros (as partes ajustáveis da rede neural que a ajudam a aprender com os dados). Transformers são um tipo de rede neural que pode entender sequências como texto e imagens reconhecendo padrões e relacionamentos dentro dos dados. Modelos de difusão funcionam começando com ruído aleatório e refinando-o passo a passo até que uma imagem clara se forme. Ao combinar essas duas abordagens, o FLUX.1 pode usar os pontos fortes de ambas as arquiteturas para produzir imagens de alta qualidade que correspondem aos prompts textuais fornecidos.

O FLUX.1 também usa técnicas avançadas como embeddings posicionais rotativos e flow matching. Embeddings posicionais rotativos ajudam o modelo a entender a ordem e a posição dos elementos em textos e imagens para garantir que tudo faça sentido. Flow matching é uma técnica usada em modelos generativos para tornar o processo de criação de imagens a partir de ruído aleatório mais suave e eficiente.

Link to this sectionBenchmarking do FLUX.1#

Ao comparar o FLUX.1 com outros modelos populares como MidJourney v6.0, DALL·E 3 (HD) e SD3-Ultra, o FLUX.1 estabelece um novo benchmark na geração de imagens por IA. Ele se destaca em áreas-chave como qualidade de imagem, quão bem ele segue prompts, variedade de resultados e suporte para diferentes tamanhos e proporções. Os modelos FLUX.1 [pro] e [dev] se destacam por produzir imagens de alta qualidade que correspondem exatamente ao que os usuários desejam, e esses modelos frequentemente superam outros ao entregar resultados claros e precisos. Por outro lado, o FLUX.1 [schnell] é um dos modelos mais avançados para geração rápida de imagens e tem um desempenho melhor do que modelos mais complexos como MidJourney.

Comparação entre o Midjourney v6 e o FLUX.1 [pro]

Fig 2. Comparando Midjourney v6 e FLUX.1[pro]

Link to this sectionGrok 2.0: A novidade da xAI de Elon Musk#

O Grok 2.0 é o mais novo modelo de linguagem grande desenvolvido pela empresa de IA de Elon Musk, a xAI. Lançado em agosto de 2024, o Grok 2.0 está disponível para usuários X Premium e Premium+ na plataforma X (antigo Twitter). Além disso, em breve estará disponível para desenvolvedores e empresas por meio de uma API corporativa.

Exemplo do Grok 2.0 explicando um meme

Fig 3. Um exemplo do Grok 2.0 explicando um meme.

O Grok 2.0 foi construído sobre uma arquitetura Transformer e, em comparação com sua versão anterior, Grok 1.5, ele está mais sintonizado para seguir instruções, raciocinar sobre problemas e fornecer informações precisas. O chatbot foi testado contra outros modelos líderes de IA e mostrou resultados impressionantes. O Grok 2.0 supera modelos populares como GPT-4 Turbo, Claude 3.5 Sonnet e Llama 3 405B em benchmarks envolvendo questões científicas de nível de pós-graduação, conhecimento geral e problemas matemáticos complexos. O Grok 2.0 também é bom em tarefas que exigem compreensão visual e alcançou pontuações altas em raciocínio matemático visual e resposta a perguntas baseada em documentos.

Link to this sectionA conexão entre o Grok 2.0 e o FLUX.1#

O FLUX.1 foi integrado ao Grok 2.0 para fornecer uma combinação perfeita de geração de texto e imagem. Embora a combinação de diferentes tecnologias seja comum hoje em dia para melhorar a funcionalidade e a experiência do usuário, essa integração específica recebeu muita atenção.

Por um lado, a integração do FLUX.1 foi elogiada por alguns por adicionar um elemento "divertido" ao Grok 2.0. Os usuários podem experimentar a geração de imagens criativas e, por vezes, ousadas - coisas que seriam restritas ou fortemente moderadas por outras ferramentas de IA. Por exemplo, usuários compartilharam imagens no X retratando figuras públicas em situações inapropriadas ou controversas, alegando que isso apoia a noção de liberdade de expressão.

Por outro lado, críticos argumentam que a falta de diretrizes éticas claras do FLUX.1 poderia levar a sérias questões éticas e sociais, como desinformação e deepfakes. Alguns se preocupam que combinar uma geração de texto e imagem poderosa e sem censura em uma das plataformas de mídia social mais influentes possa escalar a propagação de desinformação.

Link to this sectionGrok 2.0 e sua abordagem irrestrita#

Não se trata apenas de geração de imagens. O Grok 2.0 em si é mais restrito do que outras ferramentas de IA com as quais nos familiarizamos recentemente, como o ChatGPT. Essa falta de moderação torna possível para o modelo ultrapassar limites de maneiras que alguns acham empolgantes e outros acham preocupantes.

Por exemplo, observou-se o Grok 2.0 gerando conteúdo de texto que pode facilmente ser interpretado como notícias falsas ou enganosas. Um incidente recente envolveu o Grok 2.0 criando uma história falsa sobre o jogador da NBA Klay Thompson supostamente em uma "onda de vandalismo com tijolos". O chatbot de IA entendeu mal o termo de basquete "throwing bricks" (lançar tijolos/errar arremessos), que se refere simplesmente a arremessos errados. Em vez disso, o Grok 2.0 levou ao pé da letra e fabricou uma história sobre Thompson cometendo atos de vandalismo com tijolos reais. A postagem ganhou tração rapidamente no X, com alguns usuários até adicionando contas de vítimas falsas para alimentar a desinformação.

Uma publicação no X escrita pelo Grok 2

Fig 4. A publicação no X que foi escrita pelo Grok 2.

Apesar dessas preocupações, alguns usuários apreciam a postura de "liberdade de expressão" do Grok 2.0. Eles argumentam que isso permite conversas mais abertas e liberdade criativa do que modelos de IA fortemente moderados. Eles veem o Grok 2.0 como um contraponto ao que percebem como uma "IA woke" excessivamente cautelosa que limita a discussão sobre tópicos sensíveis. Para esses usuários, o Grok 2.0 oferece uma plataforma que parece menos limitada por normas sociais.

Link to this sectionExperimente o FLUX.1 e o Grok 2.0 você mesmo#

Existem algumas opções diferentes relacionadas a experimentar o FLUX.1 e o Grok 2.0. O FLUX.1 pode ser acessado diretamente por meio de plataformas de IA como Hugging Face, Replicate e Fal.ai. Enquanto isso, o Grok 2.0 está disponível apenas para assinantes do X Premium e Premium+.

Link to this sectionPrincipais pontos#

O FLUX.1 e o Grok 2.0 estão ultrapassando os limites da IA e gerando conversas perspicazes. O FLUX.1 estabeleceu um novo padrão em imagens geradas por IA com sua capacidade de produzir fotos altamente detalhadas e realistas. O Grok 2.0 está usando o FLUX.1 para aprimorar suas capacidades além de apenas interações baseadas em texto. De um lado, entusiastas estão entusiasmados com a liberdade criativa e a exploração sem censura que essas ferramentas oferecem. Do outro lado, críticos estão levantando alarmes sobre os riscos de desinformação, deepfakes e as implicações éticas de tais capacidades não regulamentadas em uma plataforma tão influente quanto o X. À medida que o FLUX.1 e o Grok 2.0 evoluem, eles estão no centro de um debate sobre liberdade, criatividade e responsabilidade na era digital - um debate que provavelmente moldará o futuro da IA pelos próximos anos.

Para saber mais sobre a Ultralytics, confira nosso repositório no GitHub, junte-se à nossa comunidade e explore nossas soluções de IA mais recentes em setores como saúde e manufatura! 🚀

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática