2024 commence avec une vague d'IA générative
Un regard sur les innovations IA passionnantes du premier trimestre 2024. Nous couvrirons des percées comme Sora AI d'OpenAI, la puce cérébrale de Neuralink et les derniers LLM.

La communauté de l'IA semble faire la une des journaux presque quotidiennement. Les premiers mois de 2024 ont été passionnants et riches en nouvelles innovations en IA. Des puissants nouveaux modèles de langage aux implants cérébraux, 2024 s'annonce incroyable.
Nous voyons l'IA transformer les industries, rendre l'information plus accessible et même franchir les premières étapes vers la fusion de nos esprits avec les machines. Revenons sur le premier trimestre de 2024 pour examiner de plus près les progrès réalisés dans le domaine de l'IA en seulement quelques mois.
Link to this sectionLes LLM sont à la mode#
Les modèles de langage (LLM), conçus pour comprendre, générer et manipuler le langage humain à partir de vastes quantités de données textuelles, ont occupé le devant de la scène au premier trimestre 2024. De nombreuses grandes entreprises technologiques ont publié leurs propres modèles LLM, chacun avec des capacités uniques. Le succès incroyable des précédents LLM comme GPT-3 a inspiré cette tendance. Voici quelques-unes des versions de LLM les plus remarquables du début 2024.
Link to this sectionClaude 3 d'Anthropic#
Anthropic a publié Claude 3 le 14 mars 2024. Le modèle Claude 3 se décline en trois versions : Opus, Sonnet et Haiku, chacune répondant à des marchés et des objectifs différents. Haiku, le modèle le plus rapide, est optimisé pour des réponses rapides et basiques. Sonnet équilibre vitesse et intelligence et vise les applications d'entreprise. Opus, la version la plus avancée, offre une intelligence et un raisonnement inégalés, ce qui est idéal pour les tâches complexes et l'atteinte des meilleurs benchmarks.
Claude 3 présente de nombreuses fonctionnalités et améliorations avancées :
- Conversations multilingues améliorées : capacités améliorées dans des langues telles que l'espagnol, le japonais et le français.
- Fonctionnalités de vision avancées : capable de gérer divers formats visuels.
- Refus minimisés : montre une meilleure compréhension avec moins de refus inutiles, ce qui indique une meilleure saisie du contexte.
- Fenêtre de contexte étendue : il offre une fenêtre de contexte de 200 000 jetons, mais est capable de traiter des entrées de plus d'un million de jetons selon les besoins du client.

Fig 1. Claude 3 est plus conscient du contexte que les versions précédentes.
Link to this sectionDBRX de Databricks#
Databricks DBRX est un LLM ouvert et polyvalent publié par Databricks le 27 mars 2024. DBRX obtient d'excellents résultats dans divers benchmarks, notamment la compréhension du langage, la programmation et les mathématiques. Il surpasse d'autres modèles établis tout en étant environ 40 % plus petit que des modèles similaires.

Fig 2. Comparaison de DBRX avec d'autres modèles.
DBRX a été entraîné en utilisant la prédiction du jeton suivant avec une architecture de mélange d'experts (MoE) à granularité fine, et c'est pourquoi nous pouvons constater des améliorations significatives en termes de performances d'entraînement et d'inférence. Son architecture permet au modèle de prédire le mot suivant dans une séquence plus précisément en consultant un ensemble diversifié de sous-modèles spécialisés (les « experts »). Ces sous-modèles sont efficaces pour gérer différents types d'informations ou de tâches.
Link to this sectionGemini 1.5 de Google#
Google a présenté Gemini 1.5, un modèle d'IA multimodal efficace en calcul capable d'analyser de vastes données textuelles, vidéo et audio, le 15 février 2024. Le dernier modèle est plus avancé en termes de performances, d'efficacité et de capacités. Une caractéristique clé de Gemini 1.5 est sa percée dans la compréhension du contexte long. Le modèle est capable de gérer jusqu'à 1 million de jetons de manière cohérente. Les capacités de Gemini 1.5 sont également dues à une nouvelle architecture basée sur MoE.

Fig 3. Comparaison des longueurs de contexte des LLM populaires
Voici quelques-unes des fonctionnalités les plus intéressantes de Gemini 1.5 :
- Gestion des données améliorée : permet le téléchargement direct de fichiers PDF volumineux, de référentiels de code ou de vidéos longues en tant qu'invites. Le modèle peut raisonner entre les modalités et produire du texte.
- Téléchargements et requêtes de fichiers multiples : les développeurs peuvent désormais télécharger plusieurs fichiers et poser des questions.
- Peut être utilisé pour différentes tâches : il est optimisé pour évoluer sur des tâches diverses et montre des améliorations dans des domaines comme les mathématiques, les sciences, le raisonnement, le multilinguisme, la compréhension vidéo et le code.
Link to this sectionVisuels époustouflants de l'IA#
Le premier trimestre 2024 a dévoilé des modèles d'IA générative capables de créer des visuels si réels qu'ils ont suscité des débats sur l'avenir des réseaux sociaux et les progrès de l'IA. Plongeons dans les modèles qui alimentent la conversation.
Link to this sectionSora d'OpenAI#
OpenAI, le créateur de ChatGPT, a annoncé un modèle d'apprentissage profond de texte en vidéo de pointe appelé Sora le 15 février 2024. Sora est un générateur de texte en vidéo capable de générer des vidéos d'une minute avec une qualité visuelle élevée basée sur les invites textuelles de l'utilisateur.
Par exemple, regarde l'invite suivante.
« Un monde en papier magnifiquement rendu représentant un récif corallien, rempli de poissons et de créatures marines colorés. »
Et voici une image de la vidéo produite.

Fig 4. Une image tirée d'une vidéo générée par Sora.
L'architecture de Sora rend cela possible en mélangeant des modèles de diffusion pour la génération de textures et des modèles de Transformer pour la cohérence structurelle. Jusqu'à présent, l'accès à Sora a été accordé à des red teamers et à un groupe restreint d'artistes visuels, de designers et de cinéastes afin de comprendre les risques et d'obtenir des commentaires.
Link to this sectionStable Diffusion 3 de Stability AI#
Stability AI a annoncé l'arrivée de Stable Diffusion 3, un modèle de génération texte-image, le 22 février 2024. Le modèle combine une architecture de Transformer de diffusion et le « flow matching ». Ils n'ont pas encore publié de document technique, mais il y a quelques fonctionnalités clés à surveiller.

Fig 5. L'image de sortie basée sur l'invite : « Illustration animée épique d'un magicien au sommet d'une montagne la nuit lançant un sort cosmique dans le ciel sombre qui dit "Stable Diffusion 3" fait d'énergie colorée » (Source)
Le dernier modèle de Stable Diffusion offre des performances, une qualité d'image et une précision améliorées dans la création d'images avec plusieurs sujets. Stable Diffusion 3 proposera également une variété de modèles allant de 800 millions à 8 milliards de paramètres. Cela permettra aux utilisateurs de choisir en fonction de leurs besoins spécifiques en matière d'évolutivité et de détails.
Link to this sectionLumiere de Google#
Le 23 janvier 2024, Google a lancé Lumiere, un modèle de diffusion texte en vidéo. Lumiere utilise une architecture appelée Space-Time-U-Net, ou STUNet en abrégé. Cela aide Lumiere à comprendre où se trouvent les choses et comment elles se déplacent dans une vidéo. Ce faisant, il peut générer des vidéos fluides et réalistes.

Fig 6. Une image tirée d'une vidéo générée basée sur l'invite : « Panda jouant du ukulélé à la maison. »
Avec la capacité de générer 80 images par vidéo, Lumiere repousse les limites et établit de nouvelles normes pour la qualité vidéo dans l'espace de l'IA. Voici quelques fonctionnalités de Lumiere :
- Image en vidéo : en partant d'une image et d'une invite, Lumiere peut animer des images en vidéos.
- Génération stylisée : Lumiere peut créer des vidéos dans des styles spécifiques en utilisant une seule image de référence.
- Cinémagraphes : Lumiere peut animer des régions spécifiques au sein d'une image pour créer des scènes dynamiques, comme un objet particulier qui bouge tandis que le reste de la scène reste statique.
- Inpainting vidéo : il peut modifier des parties d'une vidéo, comme changer la tenue des personnes présentes ou altérer les détails de l'arrière-plan.
Link to this sectionLe futur semble être là#
Le début de 2024 a également apporté de nombreuses innovations en IA qui ressemblent à quelque chose sorti d'un film de science-fiction. Des choses que nous aurions autrefois qualifiées d'impossibles sont désormais à l'étude. Le futur ne semble pas si lointain avec les découvertes suivantes.
Link to this sectionNeuralink d'Elon Musk#
Le Neuralink d'Elon Musk a implanté avec succès sa puce cérébrale sans fil chez un humain le 29 janvier 2024. Il s'agit d'un pas immense vers la connexion des cerveaux humains aux ordinateurs. Elon Musk a partagé que le premier produit de Neuralink, nommé « Telepathy », est en préparation.

Fig 7. L'implant Neuralink
L'objectif est de permettre aux utilisateurs, en particulier ceux qui ont perdu la fonctionnalité de leurs membres, de contrôler des appareils sans effort grâce à leurs pensées. Les applications potentielles vont au-delà de la commodité. Elon Musk imagine un futur où les personnes atteintes de paralysie pourront communiquer facilement.
Link to this sectionHoloTile Floor de Disney#
Le 18 janvier 2024, Walt Disney Imagineering a dévoilé le HoloTile Floor. Il a été surnommé le premier sol de tapis roulant omnidirectionnel pour plusieurs personnes au monde.

Fig 8. L'Imagineer de Disney Lanny Smoot prend la pose sur sa dernière innovation, le sol HoloTile.
Il peut bouger sous n'importe quelle personne ou objet comme par télékinésie pour une expérience immersive de réalité virtuelle et augmentée. Tu peux marcher dans n'importe quelle direction et éviter les collisions pendant que tu es dessus. Le HoloTile Floor de Disney peut également être installé sur des scènes de théâtre pour danser et bouger de manière créative.
Link to this sectionVision Pro d'Apple#
Le 2 février 2024, le casque Vision Pro tant attendu d'Apple a fait son entrée sur le marché. Il dispose d'un éventail de fonctionnalités et d'applications conçues pour redéfinir l'expérience de réalité virtuelle et augmentée. Le casque Vision Pro s'adresse à un public diversifié en mêlant divertissement, productivité et informatique spatiale. Apple a fièrement annoncé que plus de 600 applications, allant des outils de productivité aux jeux et services de divertissement, étaient optimisées pour le Vision Pro lors de son lancement.
Link to this sectionDevin de Cognition#
Le 12 mars 2024, Cognition a publié un assistant d'ingénierie logicielle appelé Devin. Devin est la première tentative au monde d'un ingénieur logiciel IA autonome. Contrairement aux assistants de codage traditionnels qui offrent des suggestions ou effectuent des tâches spécifiques, Devin est conçu pour gérer des projets de développement logiciel entiers, du concept initial à la réalisation.
Il peut apprendre de nouvelles technologies, construire et déployer des applications complètes, trouver et corriger des bugs, entraîner ses propres modèles, contribuer à des bases de code open-source et de production, et même accepter de vrais emplois de développement sur des sites comme Upwork.

Fig 9. Comparaison de Devin avec d'autres modèles.
Devin a été évalué sur SWE-bench, un benchmark stimulant qui demande aux agents de résoudre des problèmes GitHub du monde réel trouvés dans des projets open-source comme Django et scikit-learn. Il a résolu correctement 13,86 % des problèmes de bout en bout, par rapport au précédent état de l'art de 1,96 %.
Link to this sectionMentions honorables#
Il s'est passé tellement de choses qu'il n'est pas possible de tout couvrir dans cet article. Mais voici quelques mentions honorables supplémentaires.
- LATTE3D de NVIDIA, annoncé le 21 mars 2024, est un modèle d'IA texte en 3D qui crée instantanément des représentations 3D à partir d'invites textuelles.
- Le nouveau générateur texte en vidéo de Midjourney, teasé par le PDG David Holz, a commencé son entraînement en janvier et devrait être lancé prochainement.
- Faisant avancer la révolution de l'IA PC, Lenovo a publié le ThinkBook 13x avec la technologie E Ink Prism et des ordinateurs portables IA haute performance le 8 janvier 2024.
Link to this sectionReste à jour sur les tendances de l'IA avec nous !#
Le début de 2024 a vu des avancées révolutionnaires dans l'IA et de nombreuses étapes technologiques majeures. Mais ce n'est que le début de ce que l'IA peut faire. Si tu veux en savoir plus sur les derniers développements en IA, Ultralytics est là pour toi.
Consulte notre dépôt GitHub pour voir nos dernières contributions en vision par ordinateur et en IA. Tu peux également regarder nos pages de solutions pour voir comment l'IA est utilisée dans des industries comme la fabrication et la santé.






