Un regard sur les innovations passionnantes en matière d'IA du premier trimestre 2024. Nous couvrirons des percées telles que Sora AI d'OpenAI, la puce cérébrale de Neuralink et les derniers LLM.

Un regard sur les innovations passionnantes en matière d'IA du premier trimestre 2024. Nous couvrirons des percées telles que Sora AI d'OpenAI, la puce cérébrale de Neuralink et les derniers LLM.
La communauté de l'IA semble faire les gros titres presque quotidiennement. Les premiers mois de 2024 ont été passionnants et riches en innovations dans le domaine de l'IA. Qu'il s'agisse de nouveaux modèles linguistiques puissants ou d'implants cérébraux humains, l'année 2024 s'annonce étonnante.
Nous voyons l'IA transformer les industries, rendre l'information plus accessible et même faire les premiers pas vers la fusion de nos esprits avec les machines. Revenons au premier trimestre 2024 et examinons de plus près les progrès réalisés dans le domaine de l'IA en quelques mois seulement.
Les grands modèles de langage (LLM), conçus pour comprendre, générer et manipuler le langage humain à partir de grandes quantités de données textuelles, ont occupé le devant de la scène au cours du premier trimestre 2024. De nombreuses grandes entreprises technologiques ont lancé leurs propres modèles LLM, chacun doté de capacités uniques. L'incroyable succès des LLM précédents, comme le GPT-3, a inspiré cette tendance. Voici quelques-uns des modèles LLM les plus remarquables du début de l'année 2024.
Anthropic a lancé Claude 3 le 14 mars 2024. Le modèle Claude 3 se décline en trois versions : Opus, Sonnet et Haiku, chacune servant des marchés et des objectifs différents. Haiku, le modèle le plus rapide, est optimisé pour des réponses rapides et basiques. Sonnet, qui équilibre vitesse et intelligence, est destiné aux applications d'entreprise. Opus, la version la plus avancée, offre une intelligence et un raisonnement inégalés et est idéal pour les tâches complexes et pour atteindre les meilleurs résultats.
Claude 3 présente de nombreuses fonctionnalités et améliorations :
Databricks DBRX est un LLM ouvert et généraliste publié par Databricks le 27 mars 2024. DBRX obtient d'excellents résultats dans divers domaines, notamment la compréhension des langues, la programmation et les mathématiques. Il surpasse d'autres modèles établis tout en étant environ 40 % plus petit que des modèles similaires.
DBRX a été formé en utilisant la prédiction du prochain mot avec une architecture de mélange d'experts (MoE) à grain fin, et c'est pourquoi nous pouvons voir des améliorations significatives dans les performances de formation et d'inférence. Cette architecture permet au modèle de prédire plus précisément le mot suivant dans une séquence en consultant un ensemble varié de sous-modèles spécialisés (les "experts"). Ces sous-modèles sont capables de traiter différents types d'informations ou de tâches.
Le 15 février 2024, Google a présenté Gemini 1.5, un modèle d'IA multimodale efficace en termes de calcul et capable d'analyser un grand nombre de données textuelles, vidéo et audio. Le dernier modèle est plus avancé en termes de performances, d'efficacité et de capacités. L'une des principales caractéristiques de Gemini 1.5 est sa percée dans la compréhension des contextes longs. Le modèle est capable de traiter jusqu'à 1 million de jetons de manière cohérente. Les capacités de Gemini 1.5 sont également dues à une nouvelle architecture basée sur le MoE.
Voici quelques-unes des caractéristiques les plus intéressantes de Gemini 1.5 :
Le premier trimestre 2024 a dévoilé des modèles d'IA générative capables de créer des visuels si réels qu'ils ont suscité des débats sur l'avenir des médias sociaux et les progrès de l'IA. Plongeons dans les modèles qui font parler d'eux.
OpenAI, le créateur de ChatGPT, a annoncé le 15 février 2024 un modèle d'apprentissage profond texte-vidéo de pointe appelé Sora. Sora est un générateur de texte-vidéo capable de générer des vidéos d'une minute avec une grande qualité visuelle à partir de messages textuels de l'utilisateur.
Par exemple, regardez l'invite suivante.
"Un monde de papercraft magnifiquement rendu d'un récif corallien, rempli de poissons et de créatures marines colorés.
Et voici une image de la vidéo de sortie.
L'architecture de Sora rend cela possible en combinant des modèles de diffusion pour la génération de textures et des modèles de transformation pour la cohérence structurelle. Jusqu'à présent, l'accès à Sora a été donné aux membres de l'équipe rouge et à un groupe sélectionné d'artistes visuels, de concepteurs et de cinéastes afin de comprendre les risques et d'obtenir un retour d'information.
Stability AI a annoncé l'arrivée de Stable Diffusion 3, un modèle de génération de texte en image, le 22 février 2024. Le modèle mélange l'architecture du transformateur de diffusion et la correspondance des flux. L'entreprise n'a pas encore publié de document technique, mais il y a quelques caractéristiques clés à surveiller.
Le dernier modèle de Stable Diffusion offre des performances, une qualité d'image et une précision accrues pour la création d'images avec des sujets multiples. Stable Diffusion 3 offrira également une variété de modèles allant de 800 millions à 8 milliards de paramètres. Les utilisateurs pourront ainsi choisir en fonction de leurs besoins spécifiques en termes d'évolutivité et de détails.
Le 23 janvier 2024, Google a lancé Lumiere, un modèle de diffusion de texte en vidéo. Lumiere utilise une architecture appelée Space-Time-U-Net, ou STUNet en abrégé. Cette architecture permet à Lumiere de comprendre où se trouvent les choses et comment elles se déplacent dans une vidéo. Il peut ainsi générer des vidéos fluides et réalistes.
Avec la capacité de générer 80 images par vidéo, Lumiere repousse les limites et établit de nouvelles normes de qualité vidéo dans le domaine de l'IA. Voici quelques-unes des caractéristiques de Lumiere :
Le début de l'année 2024 a également donné lieu à de nombreuses innovations en matière d'IA, qui semblent tout droit sorties d'un film de science-fiction. Des choses que nous aurions qualifiées d'impossibles auparavant sont aujourd'hui à l'étude. L'avenir ne semble pas si éloigné avec les découvertes suivantes.
Le 29 janvier 2024, la société Neuralink d'Elon Musk a implanté avec succès sa puce cérébrale sans fil dans un être humain. Il s'agit d'un grand pas en avant vers la connexion des cerveaux humains aux ordinateurs. Elon Musk a indiqué que le premier produit de Neuralink, baptisé "Telepathy", était en cours de développement.
L'objectif est de permettre aux utilisateurs, en particulier à ceux qui ont perdu la fonctionnalité d'un membre, de contrôler des appareils sans effort par la pensée. Les applications potentielles vont au-delà de la commodité. Elon Musk imagine un avenir où les personnes paralysées pourront communiquer facilement.
Le 18 janvier 2024, Walt Disney Imagineering a dévoilé l'HoloTile Floor. Il a été surnommé le premier tapis roulant omnidirectionnel pour plusieurs personnes au monde.
Il peut se déplacer sous n'importe quelle personne ou objet, comme par télékinésie, pour une expérience immersive de réalité virtuelle et augmentée. Vous pouvez marcher dans n'importe quelle direction et éviter les collisions lorsque vous êtes dessus. L'HoloTile Floor de Disney peut également être placé sur des scènes de théâtre pour danser et bouger de manière créative.
Le 2 février 2024, le très attendu casque Vision Pro d'Apple arrive sur le marché. Il est doté d'un ensemble de fonctions et d'applications conçues pour redéfinir l'expérience de la réalité virtuelle et augmentée. Le casque Vision Pro s'adresse à un public varié en combinant divertissement, productivité et informatique spatiale. Apple est fière d'annoncer que plus de 600 applications, allant des outils de productivité aux jeux et aux services de divertissement, ont été optimisées pour le Vision Pro lors de son lancement.
Le 12 mars 2024, Cognition a mis sur le marché un assistant en ingénierie logicielle appelé Devin. Devin est la première tentative au monde d'un ingénieur logiciel IA autonome. Contrairement aux assistants de codage traditionnels qui proposent des suggestions ou exécutent des tâches spécifiques, Devin est conçu pour prendre en charge des projets de développement logiciel entiers, du concept initial à l'achèvement.
Il peut apprendre de nouvelles technologies, créer et déployer des applications complètes, trouver et corriger des bogues, entraîner ses propres modèles, contribuer à des bases de code ouvertes et de production, et même accepter de véritables emplois de développement sur des sites tels qu'Upwork.
Devin a été évalué sur SWE-bench, un benchmark difficile qui demande aux agents de résoudre des problèmes GitHub réels trouvés dans des projets open-source tels que Django et scikit-learn. Il a résolu correctement 13,86 % des problèmes de bout en bout, contre 1,96 % pour l'état de l'art précédent.
Il s'est passé tellement de choses qu'il n'est pas possible de tout évoquer dans cet article. Mais voici quelques autres mentions honorables.
Le début de l'année 2024 a été marqué par des avancées révolutionnaires en matière d'IA et par de nombreuses étapes technologiques majeures. Mais ce n'est que le début de ce que l'IA peut faire. Si vous souhaitez en savoir plus sur les derniers développements en matière d'IA, Ultralytics est là pour vous aider.
Consultez notre dépôt GitHub pour découvrir nos dernières contributions en matière de vision par ordinateur et d'IA. Vous pouvez également consulter nos pages de solutions pour voir comment l'IA est utilisée dans des secteurs tels que la fabrication et les soins de santé.