2024 commence par une vague d'IA générative

Abirami Vina

6 minutes de lecture

12 avril 2024

Un regard sur les innovations passionnantes en matière d'IA du premier trimestre 2024. Nous couvrirons des percées telles que Sora AI d'OpenAI, la puce cérébrale de Neuralink et les derniers LLM.

La communauté de l'IA semble faire les gros titres presque quotidiennement. Les premiers mois de 2024 ont été passionnants et riches en innovations dans le domaine de l'IA. Qu'il s'agisse de nouveaux modèles linguistiques puissants ou d'implants cérébraux humains, l'année 2024 s'annonce étonnante.

Nous voyons l'IA transformer les industries, rendre l'information plus accessible et même faire les premiers pas vers la fusion de nos esprits avec les machines. Revenons au premier trimestre 2024 et examinons de plus près les progrès réalisés dans le domaine de l'IA en quelques mois seulement.

Les LLM ont le vent en poupe

Les grands modèles de langage (LLM), conçus pour comprendre, générer et manipuler le langage humain à partir de grandes quantités de données textuelles, ont occupé le devant de la scène au cours du premier trimestre 2024. De nombreuses grandes entreprises technologiques ont lancé leurs propres modèles LLM, chacun doté de capacités uniques. L'incroyable succès des LLM précédents, comme le GPT-3, a inspiré cette tendance. Voici quelques-uns des modèles LLM les plus remarquables du début de l'année 2024.

Claude d'Anthropic 3

Anthropic a lancé Claude 3 le 14 mars 2024. Le modèle Claude 3 se décline en trois versions : Opus, Sonnet et Haiku, chacune servant des marchés et des objectifs différents. Haiku, le modèle le plus rapide, est optimisé pour des réponses rapides et basiques. Sonnet, qui équilibre vitesse et intelligence, est destiné aux applications d'entreprise. Opus, la version la plus avancée, offre une intelligence et un raisonnement inégalés et est idéal pour les tâches complexes et pour atteindre les meilleurs résultats.

Claude 3 présente de nombreuses fonctionnalités et améliorations :

  • Conversations multilingues améliorées : Amélioration des capacités dans des langues telles que l'espagnol, le japonais et le français.
  • Fonctions de vision avancées : Capable de traiter différents formats visuels.
  • Refus minimisés : Montre une meilleure compréhension avec moins de refus inutiles, ce qui indique une meilleure compréhension du contexte.
  • Fenêtre contextuelle étendue : Il offre une fenêtre contextuelle de 200 000, mais est capable de traiter des entrées de plus d'un million de jetons en fonction des besoins du client.
__wf_reserved_inherit
Fig 1. Claude 3 est plus sensible au contexte que les versions précédentes.

DBRX de Databricks

Databricks DBRX est un LLM ouvert et généraliste publié par Databricks le 27 mars 2024. DBRX obtient d'excellents résultats dans divers domaines, notamment la compréhension des langues, la programmation et les mathématiques. Il surpasse d'autres modèles établis tout en étant environ 40 % plus petit que des modèles similaires.

__wf_reserved_inherit
Fig. 2. Comparaison de DBRX avec d'autres modèles.

DBRX a été formé en utilisant la prédiction du prochain mot avec une architecture de mélange d'experts (MoE) à grain fin, et c'est pourquoi nous pouvons voir des améliorations significatives dans les performances de formation et d'inférence. Cette architecture permet au modèle de prédire plus précisément le mot suivant dans une séquence en consultant un ensemble varié de sous-modèles spécialisés (les "experts"). Ces sous-modèles sont capables de traiter différents types d'informations ou de tâches.

Gemini 1.5 de Google

Le 15 février 2024, Google a présenté Gemini 1.5, un modèle d'IA multimodale efficace en termes de calcul et capable d'analyser un grand nombre de données textuelles, vidéo et audio. Le dernier modèle est plus avancé en termes de performances, d'efficacité et de capacités. L'une des principales caractéristiques de Gemini 1.5 est sa percée dans la compréhension des contextes longs. Le modèle est capable de traiter jusqu'à 1 million de jetons de manière cohérente. Les capacités de Gemini 1.5 sont également dues à une nouvelle architecture basée sur le MoE.

__wf_reserved_inherit
Fig. 3. Comparaison des longueurs de contexte des LLM les plus courants

Voici quelques-unes des caractéristiques les plus intéressantes de Gemini 1.5 :

  • Amélioration du traitement des données : Permet de télécharger directement des PDF volumineux, des référentiels de code ou de longues vidéos en tant qu'invites. Le modèle peut raisonner à travers les modalités et produire du texte.
  • Téléchargements de fichiers multiples et questions : Les développeurs peuvent désormais télécharger plusieurs fichiers et poser des questions.
  • Peut être utilisé pour différentes tâches : Il est optimisé pour s'adapter à diverses tâches et montre des améliorations dans des domaines tels que les mathématiques, les sciences, le raisonnement, le multilinguisme, la compréhension des vidéos et le code.

Des images époustouflantes grâce à l'IA

Le premier trimestre 2024 a dévoilé des modèles d'IA générative capables de créer des visuels si réels qu'ils ont suscité des débats sur l'avenir des médias sociaux et les progrès de l'IA. Plongeons dans les modèles qui font parler d'eux.

Sora d'OpenAI 

OpenAI, le créateur de ChatGPT, a annoncé le 15 février 2024 un modèle d'apprentissage profond texte-vidéo de pointe appelé Sora. Sora est un générateur de texte-vidéo capable de générer des vidéos d'une minute avec une grande qualité visuelle à partir de messages textuels de l'utilisateur. 

Par exemple, regardez l'invite suivante. 

"Un monde de papercraft magnifiquement rendu d'un récif corallien, rempli de poissons et de créatures marines colorés. 

Et voici une image de la vidéo de sortie. 

__wf_reserved_inherit
Fig. 4. Image d'une vidéo générée par Sora.

L'architecture de Sora rend cela possible en combinant des modèles de diffusion pour la génération de textures et des modèles de transformation pour la cohérence structurelle. Jusqu'à présent, l'accès à Sora a été donné aux membres de l'équipe rouge et à un groupe sélectionné d'artistes visuels, de concepteurs et de cinéastes afin de comprendre les risques et d'obtenir un retour d'information. 

Stabilité Diffusion stable de l'IA 3 

Stability AI a annoncé l'arrivée de Stable Diffusion 3, un modèle de génération de texte en image, le 22 février 2024. Le modèle mélange l'architecture du transformateur de diffusion et la correspondance des flux. L'entreprise n'a pas encore publié de document technique, mais il y a quelques caractéristiques clés à surveiller.

__wf_reserved_inherit
Fig. 5. L'image de sortie basée sur l'invite : "Dessin animé épique d'un magicien au sommet d'une montagne la nuit jetant un sort cosmique dans le ciel sombre qui dit "Stable Diffusion 3" fait d'énergie colorée"

Le dernier modèle de Stable Diffusion offre des performances, une qualité d'image et une précision accrues pour la création d'images avec des sujets multiples. Stable Diffusion 3 offrira également une variété de modèles allant de 800 millions à 8 milliards de paramètres. Les utilisateurs pourront ainsi choisir en fonction de leurs besoins spécifiques en termes d'évolutivité et de détails.

Lumiere de Google 

Le 23 janvier 2024, Google a lancé Lumiere, un modèle de diffusion de texte en vidéo. Lumiere utilise une architecture appelée Space-Time-U-Net, ou STUNet en abrégé. Cette architecture permet à Lumiere de comprendre où se trouvent les choses et comment elles se déplacent dans une vidéo. Il peut ainsi générer des vidéos fluides et réalistes.

__wf_reserved_inherit
Fig. 6. Image d'une vidéo générée à partir de l'invite : "Le panda joue du ukulélé à la maison".

Avec la capacité de générer 80 images par vidéo, Lumiere repousse les limites et établit de nouvelles normes de qualité vidéo dans le domaine de l'IA. Voici quelques-unes des caractéristiques de Lumiere :

  • De l'image à la vidéo : A partir d'une image et d'un message, Lumiere peut animer des images en vidéos.
  • Génération stylisée : Lumiere peut créer des vidéos dans des styles spécifiques à partir d'une seule image de référence.
  • Cinémagraphes : Lumiere peut animer des zones spécifiques d'une image pour créer des scènes dynamiques, par exemple un objet particulier qui bouge alors que le reste de la scène reste statique.
  • Inpainting vidéo : Il permet de modifier certaines parties d'une vidéo, par exemple en changeant la tenue des personnes qui s'y trouvent ou en modifiant les détails de l'arrière-plan.

L'avenir semble être là

Le début de l'année 2024 a également donné lieu à de nombreuses innovations en matière d'IA, qui semblent tout droit sorties d'un film de science-fiction. Des choses que nous aurions qualifiées d'impossibles auparavant sont aujourd'hui à l'étude. L'avenir ne semble pas si éloigné avec les découvertes suivantes.

Neuralink d'Elon Musk

Le 29 janvier 2024, la société Neuralink d'Elon Musk a implanté avec succès sa puce cérébrale sans fil dans un être humain. Il s'agit d'un grand pas en avant vers la connexion des cerveaux humains aux ordinateurs. Elon Musk a indiqué que le premier produit de Neuralink, baptisé "Telepathy", était en cours de développement. 

__wf_reserved_inherit
Fig. 7. L'implant Neuralink

L'objectif est de permettre aux utilisateurs, en particulier à ceux qui ont perdu la fonctionnalité d'un membre, de contrôler des appareils sans effort par la pensée. Les applications potentielles vont au-delà de la commodité. Elon Musk imagine un avenir où les personnes paralysées pourront communiquer facilement.

Le sol HoloTile de Disney 

Le 18 janvier 2024, Walt Disney Imagineering a dévoilé l'HoloTile Floor. Il a été surnommé le premier tapis roulant omnidirectionnel pour plusieurs personnes au monde. 

__wf_reserved_inherit
Fig 8. Lanny Smoot, concepteur de Disney, pose sur sa dernière innovation, le sol HoloTile.

Il peut se déplacer sous n'importe quelle personne ou objet, comme par télékinésie, pour une expérience immersive de réalité virtuelle et augmentée. Vous pouvez marcher dans n'importe quelle direction et éviter les collisions lorsque vous êtes dessus. L'HoloTile Floor de Disney peut également être placé sur des scènes de théâtre pour danser et bouger de manière créative.

Vision Pro d'Apple

Le 2 février 2024, le très attendu casque Vision Pro d'Apple arrive sur le marché. Il est doté d'un ensemble de fonctions et d'applications conçues pour redéfinir l'expérience de la réalité virtuelle et augmentée. Le casque Vision Pro s'adresse à un public varié en combinant divertissement, productivité et informatique spatiale. Apple est fière d'annoncer que plus de 600 applications, allant des outils de productivité aux jeux et aux services de divertissement, ont été optimisées pour le Vision Pro lors de son lancement.

Devin de Cognition

Le 12 mars 2024, Cognition a mis sur le marché un assistant en ingénierie logicielle appelé Devin. Devin est la première tentative au monde d'un ingénieur logiciel IA autonome. Contrairement aux assistants de codage traditionnels qui proposent des suggestions ou exécutent des tâches spécifiques, Devin est conçu pour prendre en charge des projets de développement logiciel entiers, du concept initial à l'achèvement. 

Il peut apprendre de nouvelles technologies, créer et déployer des applications complètes, trouver et corriger des bogues, entraîner ses propres modèles, contribuer à des bases de code ouvertes et de production, et même accepter de véritables emplois de développement sur des sites tels qu'Upwork. 

__wf_reserved_inherit
Fig. 9. Comparaison de Devin avec d'autres modèles.

Devin a été évalué sur SWE-bench, un benchmark difficile qui demande aux agents de résoudre des problèmes GitHub réels trouvés dans des projets open-source tels que Django et scikit-learn. Il a résolu correctement 13,86 % des problèmes de bout en bout, contre 1,96 % pour l'état de l'art précédent.

Mentions honorables

Il s'est passé tellement de choses qu'il n'est pas possible de tout évoquer dans cet article. Mais voici quelques autres mentions honorables. 

  • LATTE3D de NVIDIA, annoncé le 21 mars 2024, est un modèle d'IA text-to-3D qui crée instantanément des représentations 3D à partir de textes.
  • Le nouveau générateur de texte-vidéo de Midjourney, annoncé par son PDG David Holz, a commencé la formation en janvier et devrait être lancé prochainement.
  • Pour faire avancer la révolution des PC IA, Lenovo a lancé le ThinkBook 13x avec la technologie E Ink Prism et des ordinateurs portables IA haute performance le 8 janvier 2024.

Restez au courant des tendances en matière d'IA avec nous !

Le début de l'année 2024 a été marqué par des avancées révolutionnaires en matière d'IA et par de nombreuses étapes technologiques majeures. Mais ce n'est que le début de ce que l'IA peut faire. Si vous souhaitez en savoir plus sur les derniers développements en matière d'IA, Ultralytics est là pour vous aider.

Consultez notre dépôt GitHub pour découvrir nos dernières contributions en matière de vision par ordinateur et d'IA. Vous pouvez également consulter nos pages de solutions pour voir comment l'IA est utilisée dans des secteurs tels que la fabrication et les soins de santé

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers