Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024

2024 commence avec une vague d'IA générative

Abirami Vina

6 min de lecture

12 avril 2024

Un aperçu des innovations passionnantes en matière d'IA du premier trimestre de 2024. Nous aborderons les percées telles que Sora AI d'OpenAI, la puce cérébrale de Neuralink et les derniers LLM.

La communauté de l'IA semble faire la une des journaux presque quotidiennement. Les premiers mois de 2024 ont été passionnants et remplis de nouvelles innovations en matière d'IA. Des nouveaux modèles de langage de grande taille aux implants cérébraux humains, 2024 s'annonce incroyable.

Nous assistons à la transformation des industries par l'IA, qui rend l'information plus accessible et fait même les premiers pas vers la fusion de nos esprits avec les machines. Revenons sur le premier trimestre de 2024 et examinons de plus près les progrès réalisés dans le domaine de l'IA en quelques mois seulement.

Les LLM sont à la mode

Les grands modèles de langage (LLM), conçus pour comprendre, générer et manipuler le langage humain à partir de vastes quantités de données textuelles, ont été au centre de l'attention au premier trimestre de 2024. De nombreuses grandes entreprises technologiques ont publié leurs propres modèles LLM, chacun ayant des capacités uniques. L'incroyable succès des LLM précédents, tels que GPT-3, a inspiré cette tendance. Voici quelques-unes des versions de LLM les plus notables du début de l'année 2024.

Claude 3 d'Anthropic

Anthropic a lancé Claude 3 le 14 mars 2024. Le modèle Claude 3 est disponible en trois versions : Opus, Sonnet et Haiku, chacune servant des marchés et des objectifs différents. Haiku, le modèle le plus rapide, est optimisé pour des réponses rapides et basiques. Sonnet équilibre la vitesse et l'intelligence et est destiné aux applications d'entreprise. Opus, la version la plus avancée, offre une intelligence et un raisonnement inégalés et est idéale pour les tâches complexes et l'atteinte des meilleurs résultats.

Claude 3 possède de nombreuses fonctionnalités et améliorations avancées :

  • Conversations multilingues améliorées : Capacités améliorées dans des langues telles que l'espagnol, le japonais et le français​.
  • Fonctionnalités de vision avancées : Capable de gérer différents formats visuels.
  • Refus minimisés : Fait preuve de plus de compréhension avec moins de refus inutiles, ce qui indique une meilleure compréhension contextuelle​.
  • Fenêtre de contexte étendue : Il offre une fenêtre de contexte de 200 000, mais est capable de traiter des entrées de plus d'un million de tokens en fonction des besoins du client.
__wf_reserved_inherit
Fig 1. Claude 3 est plus conscient du contexte que les versions précédentes.

DBRX de Databricks

Databricks DBRX est un LLM open source à usage général publié par Databricks le 27 mars 2024. DBRX excelle dans divers benchmarks, notamment la compréhension du langage, la programmation et les mathématiques. Il surpasse d'autres modèles établis tout en étant environ 40 % plus petit que des modèles similaires.

__wf_reserved_inherit
Fig 2. Comparaison de DBRX avec d'autres modèles.

DBRX a été entraîné à l'aide de la prédiction du prochain token avec une architecture fine-grained mixture-of-experts (MoE), et c'est pourquoi nous pouvons constater des améliorations significatives en termes de performances d'entraînement et d'inférence. Son architecture permet au modèle de prédire le mot suivant dans une séquence plus précisément en consultant un ensemble diversifié de sous-modèles spécialisés (les « experts »). Ces sous-modèles sont performants dans le traitement de différents types d'informations ou de tâches.

Gemini 1.5 de Google

Google a présenté Gemini 1.5, un modèle d'IA multimodal à calcul efficace capable d'analyser de vastes données textuelles, vidéo et audio, le 15 février 2024. Le dernier modèle est plus avancé en termes de performances, d'efficacité et de capacités. Une caractéristique clé de Gemini 1.5 est sa percée dans la compréhension du contexte long. Le modèle est capable de traiter jusqu'à 1 million de tokens de manière cohérente. Les capacités de Gemini 1.5 sont également dues à une nouvelle architecture basée sur MoE.

__wf_reserved_inherit
Fig 3. Comparaison des longueurs de contexte des LLM populaires

Voici quelques-unes des fonctionnalités les plus intéressantes de Gemini 1.5 :

  • Gestion améliorée des données : Permet le téléchargement direct de fichiers PDF volumineux, de référentiels de code ou de vidéos longues comme invites. Le modèle peut raisonner à travers les modalités et produire du texte.
  • Téléchargements et requêtes de plusieurs fichiers : Les développeurs peuvent désormais télécharger plusieurs fichiers et poser des questions.
  • Peut être utilisé pour différentes tâches : Il est optimisé pour s'adapter à diverses tâches et montre des améliorations dans des domaines tels que les mathématiques, les sciences, le raisonnement, le multilinguisme, la compréhension vidéo et le code.

Des visuels IA époustouflants

Le premier trimestre 2024 a vu l’émergence de modèles d’IA générative capables de créer des visuels si réalistes qu’ils ont suscité des débats sur l’avenir des médias sociaux et les progrès de l’IA. Examinons les modèles qui suscitent la conversation.

Sora d’OpenAI 

OpenAI, le créateur de ChatGPT, a annoncé le 15 février 2024 Sora, un modèle d’apprentissage profond texte-vidéo de pointe. Sora est un générateur texte-vidéo capable de générer des vidéos d’une minute avec une qualité visuelle élevée à partir d’invites textuelles de l’utilisateur. 

Par exemple, jetez un coup d’œil à l’invite suivante. 

« Un monde en papier magnifiquement rendu d’un récif corallien, regorgeant de poissons colorés et de créatures marines. » 

Et voici une image tirée de la vidéo de sortie. 

__wf_reserved_inherit
Fig. 4. Une image tirée d’une vidéo générée par Sora.

L’architecture de Sora rend cela possible en combinant des modèles de diffusion pour la génération de textures et des modèles de transformateur pour la cohérence structurelle. Jusqu’à présent, l’accès à Sora a été accordé à des équipes de test et à un groupe restreint d’artistes visuels, de concepteurs et de cinéastes afin de comprendre les risques et d’obtenir des commentaires. 

Stable Diffusion 3 de Stability AI 

Stability AI a annoncé l’arrivée de Stable Diffusion 3, un modèle de génération de texte à image, le 22 février 2024. Le modèle combine l’architecture de transformateur de diffusion et la correspondance de flux. Ils n’ont pas encore publié de document technique, mais il y a quelques caractéristiques clés à surveiller.

__wf_reserved_inherit
Fig. 5. L’image de sortie basée sur l’invite : « Illustration d’anime épique d’un sorcier au sommet d’une montagne la nuit lançant un sort cosmique dans le ciel sombre qui dit « Stable Diffusion 3 » fait d’énergie colorée »

Le dernier modèle de Stable Diffusion offre des performances, une qualité d’image et une précision améliorées dans la création d’images avec plusieurs sujets. Stable Diffusion 3 offrira également une variété de modèles allant de 800 millions à 8 milliards de paramètres. Il permettra aux utilisateurs de choisir en fonction de leurs besoins spécifiques en matière d’évolutivité et de détails.

Lumiere de Google 

Le 23 janvier 2024, Google a lancé Lumiere, un modèle de diffusion texte-vidéo. Lumiere utilise une architecture appelée Space-Time-U-Net, ou STUNet en abrégé. Il aide Lumiere à comprendre où se trouvent les objets et comment ils se déplacent dans une vidéo. Ce faisant, il peut générer des vidéos fluides et réalistes.

__wf_reserved_inherit
Fig 6. Une image extraite d'une vidéo générée à partir de l'invite : “Panda joue du ukulélé à la maison.”

Avec la capacité de générer 80 images par vidéo, Lumiere repousse les limites et établit de nouvelles normes de qualité vidéo dans le domaine de l'IA. Voici quelques-unes des fonctionnalités de Lumiere :

  • Image-vers-vidéo : À partir d'une image et d'une invite, Lumiere peut animer des images en vidéos.
  • Génération stylisée : Lumiere peut créer des vidéos dans des styles spécifiques en utilisant une seule image de référence.
  • Cinématographes : Lumiere peut animer des régions spécifiques d'une image pour créer des scènes dynamiques, comme un objet particulier qui se déplace tandis que le reste de la scène reste statique.
  • Inpainting vidéo : Il peut modifier des parties d'une vidéo, par exemple en changeant la tenue vestimentaire des personnes qui s'y trouvent ou en modifiant les détails de l'arrière-plan.

L'avenir semble être arrivé

Le début de l'année 2024 a également apporté de nombreuses innovations en matière d'IA qui donnent l'impression de sortir d'un film de science-fiction. Des choses que nous aurions dit impossibles auparavant sont maintenant en cours de réalisation. L'avenir ne semble plus si lointain avec les découvertes suivantes.

Neuralink d'Elon Musk

Neuralink d'Elon Musk a implanté avec succès sa puce cérébrale sans fil chez un humain le 29 janvier 2024. Il s'agit d'une étape importante vers la connexion des cerveaux humains aux ordinateurs. Elon Musk a annoncé que le premier produit de Neuralink, baptisé “Telepathy”, est en préparation. 

__wf_reserved_inherit
Fig 7. L'implant Neuralink

L'objectif est de permettre aux utilisateurs, en particulier ceux qui ont perdu la fonctionnalité d'un membre, de contrôler des appareils sans effort par la pensée. Les applications potentielles vont au-delà de la simple commodité. Elon Musk imagine un avenir où les personnes paralysées pourront communiquer facilement.

Le HoloTile Floor de Disney 

Le 18 janvier 2024, Walt Disney Imagineering a dévoilé le HoloTile Floor. Il a été surnommé le premier tapis roulant multidirectionnel au monde pour plusieurs personnes. 

__wf_reserved_inherit
Fig 8. Lanny Smoot, ingénieur chez Disney Imagineering, pose sur sa dernière innovation, le HoloTile Floor.

Il peut se déplacer sous n'importe quelle personne ou objet comme la télékinésie pour une expérience immersive de réalité virtuelle et augmentée. Vous pouvez marcher dans n'importe quelle direction et éviter les collisions lorsque vous êtes dessus. Le HoloTile Floor de Disney peut également être installé sur des scènes de théâtre pour danser et se déplacer de manière créative.

Le Vision Pro d'Apple

Le 2 février 2024, le très attendu casque Vision Pro d'Apple est arrivé sur le marché. Il dispose d'un éventail de fonctionnalités et d'applications conçues pour redéfinir l'expérience de réalité virtuelle et augmentée. Le casque Vision Pro s'adresse à un public diversifié en combinant divertissement, productivité et informatique spatiale. Apple a fièrement annoncé que plus de 600 applications, allant des outils de productivité aux services de jeux et de divertissement, ont été optimisées pour le Vision Pro lors de son lancement.

Devin de Cognition

Le 12 mars 2024, Cognition a lancé un assistant d'ingénierie logicielle appelé Devin. Devin est la première tentative au monde de créer un ingénieur logiciel autonome basé sur l'IA. Contrairement aux assistants de codage traditionnels qui offrent des suggestions ou effectuent des tâches spécifiques, Devin est conçu pour gérer des projets de développement logiciel entiers, du concept initial à la réalisation. 

Il peut apprendre de nouvelles technologies, créer et déployer des applications complètes, trouver et corriger des bugs, entraîner ses propres modèles, contribuer à des bases de code open source et de production, et même accepter de véritables emplois de développement à partir de sites comme Upwork. 

__wf_reserved_inherit
Fig 9. Comparaison de Devin avec d'autres modèles.

Devin a été évalué sur SWE-bench, un benchmark difficile qui demande aux agents de résoudre des problèmes GitHub réels trouvés dans des projets open source comme Django et scikit-learn. Il a correctement résolu 13,86 % des problèmes de bout en bout, contre 1,96 % pour l'état de l'art précédent.

Mentions honorables

Il s'est passé tellement de choses qu'il est impossible de tout couvrir dans cet article. Voici donc quelques mentions honorables supplémentaires. 

  • LATTE3D de NVIDIA, annoncé le 21 mars 2024, est un modèle d'IA de conversion texte-3D qui crée instantanément des représentations 3D à partir d'invites textuelles.
  • Le nouveau générateur texte-vidéo de Midjourney, annoncé par le PDG David Holz, a commencé sa formation en janvier et devrait être lancé prochainement.
  • Faisant progresser la révolution de l'IA sur PC, Lenovo a lancé le ThinkBook 13x doté de la technologie E Ink Prism et des ordinateurs portables IA haute performance le 8 janvier 2024.

Restez informé des tendances de l'IA avec nous !

Le début de l'année 2024 a été marqué par des avancées révolutionnaires dans le domaine de l'IA et par de nombreuses étapes technologiques majeures. Mais ce n'est que le début de ce que l'IA peut faire. Si vous souhaitez en savoir plus sur les dernières avancées en matière d'IA, Ultralytics est là pour vous.

Consultez notre dépôt GitHub pour découvrir nos dernières contributions dans le domaine de la vision par ordinateur et de l'IA. Vous pouvez également consulter nos pages de solutions pour voir comment l'IA est utilisée dans des secteurs tels que l'industrie manufacturière et les soins de santé

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers