xAI lance Grok 2.0 avec l'intégration de FLUX.1

Abirami Vina

4 min lire

5 septembre 2024

Découvrez Grok 2.0 de xAI d'Elon Musk et son intégration à FLUX.1. Explorez les détails tels que les fonctionnalités, les benchmarks, les comparaisons de modèles et la manière de l'essayer.

Le 14 août, xAI, la société d'IA d'Elon Musk, a annoncé la sortie sur X (anciennement Twitter) de Grok 2.0, un chatbot intégré à FLUX.1, un modèle de génération d'images de Black Forest Labs. FLUX.1 est un modèle avancé capable de créer des images très réalistes, y compris celles qui pourraient être considérées comme sensibles ou potentiellement trompeuses.

Contrairement à de nombreux générateurs d'images populaires qui bloquent ou filtrent certains types de contenu, tels que les images violentes, explicites ou trompeuses, FLUX.1 a moins de restrictions. Certains y voient une victoire pour la liberté d'expression, tandis que d'autres sont impressionnés par ses capacités avancées. Toutefois, les implications éthiques et l'utilisation abusive potentielle d'une technologie aussi puissante suscitent également des inquiétudes. Entrons dans le vif du sujet et explorons ce que Grok 2.0 apporte à la table, ce qui distingue FLUX.1 et comment vous pouvez essayer ces outils innovants vous-même.

Faire connaissance avec FLUX.1 : Un générateur d'images d'IA

FLUX.1 est un générateur d'images IA open-source avancé lancé par Black Forest Labs le 1er août 2024. Black Forest Labs est une startup fondée par d'anciens ingénieurs de Stability AI connus pour leur travail sur les modèles de Stable Diffusion largement utilisés. FLUX.1 est conçu pour concurrencer directement des acteurs établis comme MidJourney et DALL-E 3 et apporte un nouveau niveau de qualité et de flexibilité aux images générées par l'IA. Par exemple, FLUX.1 gère très bien les détails délicats que de nombreux modèles ne parviennent pas à résoudre, comme la génération de mains humaines réalistes ou de textes lisibles sur des panneaux.

Black Forest Labs propose trois variantes de FLUX.1 qui peuvent être utilisées pour différentes applications. Voici un aperçu de ces variantes :

  • FLUX.1 [pro]: Le modèle phare est destiné à un usage commercial et est conçu pour fournir des résultats de la plus haute qualité.
  • FLUX.1 [dev]: Une version à poids ouvert qui est disponible pour une utilisation non commerciale. Elle est idéale pour la recherche et le développement.
  • FLUX.1 [schnell]: Un modèle optimisé pour la vitesse sous la licence Apache 2.0, parfait pour les projets personnels et le développement local où la génération rapide d'images est nécessaire.
__wf_reserved_inherit
Fig 1. Comprendre les variations de FLUX.1

Comment fonctionne FLUX.1 ?

FLUX.1 utilise une architecture de modèle hybride qui combine les techniques de transformation et de diffusion avec une taille de modèle de 12 milliards de paramètres (les parties ajustables du réseau neuronal qui l'aident à apprendre à partir des données). Les transformateurs sont un type de réseau neuronal capable de comprendre des séquences telles que du texte et des images en reconnaissant des modèles et des relations dans les données. Les modèles de diffusion partent d'un bruit aléatoire et l'affinent pas à pas jusqu'à ce qu'une image claire se forme. En combinant ces deux approches, FLUX.1 peut utiliser les forces des deux architectures pour produire des images de haute qualité qui correspondent aux messages textuels donnés. 

FLUX.1 utilise également des techniques avancées telles que les encastrements positionnels rotatifs et la correspondance des flux. Les encastrements positionnels rotatifs aident le modèle à comprendre l'ordre et la position des éléments dans le texte et les images afin de s'assurer que tout a un sens ensemble. La correspondance des flux est une technique utilisée dans les modèles génératifs pour rendre le processus de création d'images à partir d'un bruit aléatoire plus fluide et plus efficace.

Évaluation comparative de FLUX.1

Si l'on compare FLUX.1 à d'autres modèles populaires tels que MidJourney v6.0, DALL-E 3 (HD) et SD3-Ultra, FLUX.1 établit une nouvelle référence en matière de génération d'images d'IA. Il excelle dans des domaines clés tels que la qualité de l'image, le suivi des instructions, la variété des sorties et la prise en charge de différentes tailles et de différents rapports d'aspect. Les modèles FLUX.1 [pro] et [dev] se distinguent par la production d'images de haute qualité qui correspondent parfaitement aux attentes des utilisateurs, et ces modèles surpassent souvent les autres modèles en fournissant des résultats clairs et précis. En revanche, FLUX.1 [schnell] est l'un des modèles les plus avancés pour la génération rapide d'images et ses performances sont supérieures à celles de modèles plus complexes comme MidJourney.

__wf_reserved_inherit
Fig 2. Comparaison entre Midjourney v6 et FLUX.1 [pro]

Grok 2.0 : Les dernières nouveautés de l'IAO d'Elon Musk

Grok 2.0 est le dernier grand modèle linguistique développé par xAI, la société d'IA d'Elon Musk. Sorti en août 2024, Grok 2.0 est disponible pour les utilisateurs X Premium et Premium+ sur la plateforme X (anciennement Twitter). Il sera également bientôt disponible pour les développeurs et les entreprises par le biais d'une API d'entreprise.

__wf_reserved_inherit
Fig. 3. Exemple de Grok 2.0 expliquant un mème.

Grok 2.0 est construit sur une architecture de transformateur et, par rapport à son ancienne version, Grok 1.5, il est plus apte à suivre des instructions, à raisonner sur des problèmes et à fournir des informations précises. Le chatbot a été testé par rapport à d'autres modèles d'IA de premier plan et a obtenu des résultats impressionnants. Grok 2.0 surpasse des modèles populaires tels que GPT-4 Turbo, Claude 3.5 Sonnet et Llama 3 405B sur des benchmarks impliquant des questions scientifiques de niveau supérieur, des connaissances générales et des problèmes mathématiques complexes. Grok 2.0 est également performant dans les tâches qui requièrent une compréhension visuelle et a obtenu des scores élevés en raisonnement mathématique visuel et en réponse à des questions basées sur des documents.

La connexion entre Grok 2.0 et FLUX.1

FLUX.1 a été intégré à Grok 2.0 pour offrir une combinaison transparente de génération de textes et d'images. S'il est courant aujourd'hui de combiner différentes technologies pour améliorer les fonctionnalités et l'expérience des utilisateurs, cette intégration particulière a suscité beaucoup d'attention. 

D'une part, l'intégration de FLUX.1 a été saluée par certains comme ajoutant un élément "amusant" à Grok 2.0. Les utilisateurs peuvent expérimenter la création d'images créatives et, parfois, osées - des choses qui seraient restreintes ou fortement modérées par d'autres outils d'IA. Par exemple, des utilisateurs ont partagé sur X des images représentant des personnalités publiques dans des situations inappropriées ou controversées, affirmant que cela soutenait la notion de liberté d'expression.

D'un autre côté, les critiques affirment que l'absence de lignes directrices éthiques claires de FLUX.1 pourrait conduire à de graves problèmes éthiques et sociaux tels que la désinformation et les "deepfakes". Certains craignent que la combinaison de textes et d'images puissants et non censurés sur l'une des plateformes de médias sociaux les plus influentes n'accélère la diffusion de la désinformation.

Grok 2.0 et son approche non restrictive

Il ne s'agit pas seulement de la génération d'images. Grok 2.0 lui-même est plus limité que d'autres outils d'IA avec lesquels nous nous sommes récemment familiarisés, comme ChatGPT. Cette absence de modération permet au modèle de repousser les limites d'une manière que certains trouvent excitante et d'autres inquiétante.

Par exemple, Grok 2.0 a été observé en train de générer du contenu textuel qui peut facilement être interprété comme des nouvelles fausses ou trompeuses. Lors d'un incident récent, Grok 2.0 a créé un faux article sur le joueur de la NBA Klay Thompson, censé être en proie à une "folie du vandalisme par les briques". Le chatbot d'IA a mal compris le terme de basket-ball "jeter des briques", qui fait simplement référence à des tirs manqués. Au lieu de cela, Grok 2.0 l'a pris au pied de la lettre et a inventé une histoire dans laquelle Thompson commettait des actes de vandalisme avec de vraies briques. Le message a rapidement gagné en popularité sur X, certains utilisateurs ajoutant même de faux comptes de victimes pour alimenter la désinformation.

__wf_reserved_inherit
Fig 4. L'article sur X rédigé par Grok 2.

Malgré ces préoccupations, certains utilisateurs apprécient la "liberté d'expression" de Grok 2.0. Ils estiment qu'il permet des conversations plus ouvertes et une plus grande liberté de création que les modèles d'IA fortement modérés. Ils considèrent Grok 2.0 comme un contrepoids à ce qu'ils perçoivent comme une IA trop prudente et "réveillée" qui limite les discussions sur des sujets sensibles. Pour ces utilisateurs, Grok 2.0 offre une plateforme qui semble moins contrainte par les normes sociétales.

Testez vous-même FLUX.1 et Grok 2.0

Il existe plusieurs options pour essayer FLUX.1 et Grok 2.0. FLUX.1 est accessible directement via des plateformes d'IA telles que Hugging Face, Replicate et Fal.ai. Quant à Grok 2.0, il n'est accessible qu'aux abonnés X Premium et Premium+.

Principaux enseignements

FLUX.1 et Grok 2.0 repoussent les limites de l'IA et suscitent des conversations perspicaces. FLUX.1 a établi une nouvelle norme en matière d'imagerie générée par l'IA grâce à sa capacité à produire des images très détaillées et réalistes. Grok 2.0 utilise FLUX.1 pour améliorer ses capacités au-delà des interactions textuelles. D'un côté, les enthousiastes sont ravis de la liberté créative et de l'exploration sans censure qu'offrent ces outils. D'un autre côté, les critiques s'alarment des risques de désinformation, des "deepfakes" et des implications éthiques de ces capacités non réglementées sur une plateforme aussi influente que X. Alors que FLUX.1 et Grok 2.0 évoluent, ils se trouvent au centre d'un débat sur la liberté, la créativité et la responsabilité à l'ère numérique - un débat qui façonnera probablement l'avenir de l'IA pour les années à venir.

Pour en savoir plus sur Ultralytics, consultez notre dépôt GitHub, rejoignez notre communauté et explorez nos dernières solutions d'IA dans des secteurs comme la santé et la fabrication! 🚀

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers