Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

xAI lance Grok 2.0 avec l'intégration de FLUX.1

Abirami Vina

4 min de lecture

5 septembre 2024

Découvrez Grok 2.0 de xAI d'Elon Musk et son intégration avec FLUX.1. Explorez les détails tels que les fonctionnalités, les benchmarks, les comparaisons de modèles et comment l'essayer.

Le 14 août, xAI, la société d'IA d'Elon Musk, a annoncé la sortie de Grok 2.0, un chatbot intégré à FLUX.1, un modèle de génération d'images de Black Forest Labs, sur X (anciennement Twitter). FLUX.1 est un modèle avancé capable de créer des images très réalistes, y compris celles qui pourraient être considérées comme sensibles ou potentiellement trompeuses.

Contrairement à de nombreux générateurs d'images populaires qui bloquent ou filtrent certains types de contenu, tels que les images violentes, explicites ou trompeuses, FLUX.1 a moins de restrictions. Certains y voient une victoire pour la liberté d'expression, tandis que d'autres sont impressionnés par ses capacités avancées. Cependant, il existe également des préoccupations concernant les implications éthiques et l'utilisation abusive potentielle d'une technologie aussi puissante. Examinons de plus près ce que Grok 2.0 apporte, ce qui distingue FLUX.1 et comment vous pouvez essayer ces outils innovants vous-même.

Découverte de FLUX.1 : un générateur d'images IA

FLUX.1 est un générateur d'images d'IA open source avancé lancé par Black Forest Labs le 1er août 2024. Black Forest Labs est une startup fondée par d'anciens ingénieurs de Stability AI, connus pour leur travail sur les modèles Stable Diffusion largement utilisés. FLUX.1 est conçu pour concurrencer directement les acteurs établis tels que MidJourney et DALL-E 3 et apporte un nouveau niveau de qualité et de flexibilité aux images générées par l'IA. Par exemple, FLUX.1 gère très bien les détails délicats avec lesquels de nombreux modèles ont du mal, comme la génération de mains humaines réalistes ou de texte lisible sur des panneaux.

Black Forest Labs propose trois variantes différentes de FLUX.1 qui peuvent être utilisées pour différentes applications. Voici un aperçu plus détaillé des variantes :

  • FLUX.1 [pro] : Le modèle phare est destiné à un usage commercial et est conçu pour fournir des résultats de la plus haute qualité.
  • FLUX.1 [dev] : Une version à poids ouverts qui est disponible pour une utilisation non commerciale. Elle est idéale pour la recherche et le développement.
  • FLUX.1 [schnell] : Un modèle optimisé pour la vitesse sous la licence Apache 2.0, parfait pour les projets personnels et le développement local où une génération d’images rapide est nécessaire.
__wf_reserved_inherit
Fig 1. Comprendre les variations de FLUX.1

Comment fonctionne FLUX.1 ?

FLUX.1 utilise une architecture de modèle hybride qui combine des techniques de transformateur et de diffusion avec une taille de modèle de 12 milliards de paramètres (les parties réglables du réseau neuronal qui l'aident à apprendre des données). Les transformateurs sont un type de réseau neuronal qui peut comprendre des séquences comme du texte et des images en reconnaissant les modèles et les relations dans les données. Les modèles de diffusion fonctionnent en commençant par un bruit aléatoire et en l'affinant étape par étape jusqu'à ce qu'une image claire se forme. En combinant ces deux approches, FLUX.1 peut utiliser les forces des deux architectures pour produire des images de haute qualité qui correspondent aux invites textuelles données. 

FLUX.1 utilise également des techniques avancées telles que les embeddings positionnels rotatifs et le flow matching. Les embeddings positionnels rotatifs aident le modèle à comprendre l'ordre et la position des éléments dans le texte et les images afin de s'assurer que tout est cohérent. Le flow matching est une technique utilisée dans les modèles génératifs pour rendre le processus de création d'images à partir de bruit aléatoire plus fluide et plus efficace.

Évaluation comparative de FLUX.1

Lorsque l'on compare FLUX.1 avec d'autres modèles populaires comme MidJourney v6.0, DALL·E 3 (HD) et SD3-Ultra, FLUX.1 établit une nouvelle référence en matière de génération d'images par IA. Il excelle dans des domaines clés tels que la qualité de l'image, la fidélité aux invites, la variété des sorties et la prise en charge de différentes tailles et rapports d'aspect. Les modèles FLUX.1 [pro] et [dev] se distinguent par la production d'images de haute qualité qui correspondent étroitement à ce que les utilisateurs souhaitent, et ces modèles surpassent souvent les autres modèles en fournissant des résultats clairs et précis. D'autre part, FLUX.1 [schnell] est l'un des modèles les plus avancés pour la génération rapide d'images et fonctionne mieux que des modèles plus complexes comme MidJourney.

__wf_reserved_inherit
Fig 2. Comparaison de Midjourney v6 et FLUX.1[pro]

Grok 2.0 : La dernière nouveauté de xAI, la société d'Elon Musk

Grok 2.0 est le plus récent grand modèle linguistique développé par la société d'IA d'Elon Musk, xAI. Lancé en août 2024, Grok 2.0 est disponible pour les utilisateurs X Premium et Premium+ sur la plateforme X (anciennement Twitter). De plus, il sera bientôt disponible pour les développeurs et les entreprises via une API d'entreprise.

__wf_reserved_inherit
Fig 3. Un exemple de Grok 2.0 expliquant un mème.

Grok 2.0 est basé sur une architecture de transformeurs et, comparé à sa version précédente, Grok 1.5, il est plus à même de suivre les instructions, de raisonner face aux problèmes et de fournir des informations précises. Le chatbot a été testé par rapport à d'autres modèles d'IA de pointe et a affiché des résultats impressionnants. Grok 2.0 surpasse les modèles populaires tels que GPT-4 Turbo, Claude 3.5 Sonnet et Llama 3 405B sur des benchmarks impliquant des questions scientifiques de niveau supérieur, des connaissances générales et des problèmes mathématiques complexes. Grok 2.0 est également performant dans les tâches qui nécessitent une compréhension visuelle et a obtenu des scores élevés en raisonnement mathématique visuel et en réponse à des questions basées sur des documents.

Le lien entre Grok 2.0 et FLUX.1

FLUX.1 a été intégré à Grok 2.0 pour fournir une combinaison transparente de génération de texte et d'images. Bien que la combinaison de différentes technologies soit courante aujourd'hui pour améliorer la fonctionnalité et l'expérience utilisateur, cette intégration particulière a reçu beaucoup d'attention. 

D'une part, l'intégration de FLUX.1 a été saluée par certains pour avoir ajouté un élément « amusant » à Grok 2.0. Les utilisateurs peuvent expérimenter la génération d'images créatives et, parfois, audacieuses, des choses qui seraient limitées ou fortement modérées par d'autres outils d'IA. Par exemple, des utilisateurs ont partagé sur X des images représentant des personnalités publiques dans des situations inappropriées ou controversées, affirmant que cela soutenait la notion de liberté d'expression.

D'autre part, les critiques soutiennent que l'absence de directives éthiques claires de FLUX.1 pourrait entraîner de graves problèmes éthiques et sociaux tels que la désinformation et les deepfakes. Certains craignent que la combinaison d'un texte puissant et non censuré et de la génération d'images sur l'une des plateformes de médias sociaux les plus influentes ne puisse intensifier la propagation de la désinformation.

Grok 2.0 et son approche sans restriction

Il ne s'agit pas seulement de génération d'images. Grok 2.0 lui-même est plus limité que d'autres outils d'IA que nous avons récemment appris à connaître, comme ChatGPT. Ce manque de modération permet au modèle de repousser les limites d'une manière que certains trouvent excitante et d'autres troublante.

Par exemple, il a été observé que Grok 2.0 génère du contenu textuel qui peut facilement être interprété comme des nouvelles fausses ou trompeuses. Un incident récent a impliqué Grok 2.0 créant une fausse histoire au sujet du joueur de la NBA Klay Thompson qui aurait été pris dans une « frénésie de vandalisme de briques ». Le chatbot IA a mal compris le terme de basketball « throwing bricks », qui fait simplement référence à des tirs manqués. Au lieu de cela, Grok 2.0 l'a pris au pied de la lettre et a inventé une histoire au sujet de Thompson commettant des actes de vandalisme avec de vraies briques. La publication a rapidement gagné du terrain sur X, certains utilisateurs ajoutant même de faux témoignages de victimes pour alimenter la désinformation.

__wf_reserved_inherit
Fig 4. Le post sur X qui a été écrit par Grok 2.

Malgré ces préoccupations, certains utilisateurs apprécient la position de Grok 2.0 en faveur de la « liberté d'expression ». Ils soutiennent qu'elle permet des conversations plus ouvertes et une liberté de création plus grande que les modèles d'IA fortement modérés. Ils considèrent Grok 2.0 comme une alternative à ce qu'ils perçoivent comme une IA « woke » excessivement prudente, qui limite la discussion sur des sujets sensibles. Pour ces utilisateurs, Grok 2.0 offre une plateforme qui semble moins contrainte par les normes sociétales.

Essayez FLUX.1 et Grok 2.0 par vous-même

Il existe différentes options pour essayer FLUX.1 et Grok 2.0. FLUX.1 est accessible directement via des plateformes d'IA telles que Hugging Face, Replicate et Fal.ai. Grok 2.0, quant à lui, est uniquement disponible pour les abonnés X Premium et Premium+.

Principaux points à retenir

FLUX.1 et Grok 2.0 repoussent les limites de l'IA et suscitent des conversations pertinentes. FLUX.1 a établi une nouvelle norme en matière d'imagerie générée par l'IA grâce à sa capacité à produire des images très détaillées et réalistes. Grok 2.0 utilise FLUX.1 pour améliorer ses capacités au-delà des simples interactions textuelles. D'un côté, les passionnés sont ravis de la liberté créative et de l'exploration non censurée qu'offrent ces outils. De l'autre, les critiques tirent la sonnette d'alarme quant aux risques de désinformation, de deepfakes et aux implications éthiques de telles capacités non réglementées sur une plateforme aussi influente que X. Au fur et à mesure que FLUX.1 et Grok 2.0 évoluent, ils se trouvent au centre d'un débat sur la liberté, la créativité et la responsabilité à l'ère numérique, un débat qui façonnera probablement l'avenir de l'IA pour les années à venir.

Pour en savoir plus sur Ultralytics, consultez notre dépôt GitHub, rejoignez notre communauté et explorez nos dernières solutions d'IA dans des secteurs tels que la santé et l'industrie manufacturière ! 🚀

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers