AI 2024 : Vague d'IA générative

La communauté de l'IA semble faire la une des journaux presque quotidiennement. Les premiers mois de 2024 ont été passionnants et remplis de nouvelles innovations en matière d'IA. Des nouveaux modèles de langage de grande taille aux implants cérébraux humains, 2024 s'annonce incroyable.

Nous assistons à la transformation des industries par l'IA, qui rend l'information plus accessible et fait même les premiers pas vers la fusion de nos esprits avec les machines. Revenons sur le premier trimestre de 2024 et examinons de plus près les progrès réalisés dans le domaine de l'IA en quelques mois seulement.

Les LLM sont à la mode

Les grands modèles de langage (LLM), conçus pour comprendre, générer et manipuler le langage humain à partir de vastes quantités de données textuelles, ont été au centre de l'attention au premier trimestre de 2024. De nombreuses grandes entreprises technologiques ont publié leurs propres modèles LLM, chacun ayant des capacités uniques. L'incroyable succès des LLM précédents, tels que GPT-3, a inspiré cette tendance. Voici quelques-unes des versions de LLM les plus notables du début de l'année 2024.

Claude d'Anthropic 3

Anthropic a lancé Claude 3 le 14 mars 2024. Le modèle Claude 3 se décline en trois versions : Opus, Sonnet et Haiku, chacune servant des marchés et des objectifs différents. Haiku, le modèle le plus rapide, est optimisé pour des réponses rapides et basiques. Sonnet, qui équilibre vitesse et intelligence, est destiné aux applications d'entreprise. Opus, la version la plus avancée, offre une intelligence et un raisonnement inégalés et est idéal pour les tâches complexes et pour atteindre les meilleurs résultats.

Claude 3 possède de nombreuses fonctionnalités et améliorations avancées :

Conversations multilingues améliorées : Capacités améliorées dans des langues telles que l'espagnol, le japonais et le français.
‍
Fonctionnalités de vision avancées : Capable de gérer différents formats visuels.
‍
Refus minimisés : Fait preuve de plus de compréhension avec moins de refus inutiles, ce qui indique une meilleure compréhension contextuelle.
‍
Fenêtre de contexte étendue : Il offre une fenêtre de contexte de 200 000, mais est capable de traiter des entrées de plus d'un million de tokens en fonction des besoins du client.

__wf_reserved_inherit — Fig 1. Claude 3 est plus conscient du contexte que les versions précédentes.

‍

DBRX de Databricks

Databricks DBRX est un LLM open source à usage général publié par Databricks le 27 mars 2024. DBRX excelle dans divers benchmarks, notamment la compréhension du langage, la programmation et les mathématiques. Il surpasse d'autres modèles établis tout en étant environ 40 % plus petit que des modèles similaires.

‍

DBRX a été entraîné à l'aide de la prédiction du prochain token avec une architecture fine-grained mixture-of-experts (MoE), et c'est pourquoi nous pouvons constater des améliorations significatives en termes de performances d'entraînement et d'inférence. Son architecture permet au modèle de prédire le mot suivant dans une séquence plus précisément en consultant un ensemble diversifié de sous-modèles spécialisés (les « experts »). Ces sous-modèles sont performants dans le traitement de différents types d'informations ou de tâches.

Gemini 1.5 de Google

Le 15 février 2024, Google a présenté Gemini 1.5, un modèle d'IA multimodale efficace en termes de calcul et capable d'analyser un grand nombre de données textuelles, vidéo et audio. Le dernier modèle est plus avancé en termes de performances, d'efficacité et de capacités. L'une des principales caractéristiques de Gemini 1.5 est sa percée dans la compréhension des contextes longs. Le modèle est capable de traiter jusqu'à 1 million de jetons de manière cohérente. Les capacités de Gemini 1.5 sont également dues à une nouvelle architecture basée sur le MoE.

‍

Voici quelques-unes des fonctionnalités les plus intéressantes de Gemini 1.5 :

Gestion améliorée des données : Permet le téléchargement direct de fichiers PDF volumineux, de référentiels de code ou de vidéos longues comme invites. Le modèle peut raisonner à travers les modalités et produire du texte.
‍
Téléchargements et requêtes de plusieurs fichiers : Les développeurs peuvent désormais télécharger plusieurs fichiers et poser des questions.
‍
Peut être utilisé pour différentes tâches : Il est optimisé pour s'adapter à diverses tâches et montre des améliorations dans des domaines tels que les mathématiques, les sciences, le raisonnement, le multilinguisme, la compréhension vidéo et le code.

Des visuels IA époustouflants

Le premier trimestre 2024 a vu l’émergence de modèles d’IA générative capables de créer des visuels si réalistes qu’ils ont suscité des débats sur l’avenir des médias sociaux et les progrès de l’IA. Examinons les modèles qui suscitent la conversation.

Sora d’OpenAI

OpenAI, le créateur de ChatGPT, a annoncé le 15 février 2024 un modèle d'apprentissage profond texte-vidéo de pointe appelé Sora. Sora est un générateur de texte-vidéo capable de générer des vidéos d'une minute avec une grande qualité visuelle à partir d'invites textuelles de l'utilisateur.

Par exemple, jetez un coup d’œil à l’invite suivante.

« Un monde en papier magnifiquement rendu d’un récif corallien, regorgeant de poissons colorés et de créatures marines. »

Et voici une image tirée de la vidéo de sortie.

‍

L’architecture de Sora rend cela possible en combinant des modèles de diffusion pour la génération de textures et des modèles de transformateur pour la cohérence structurelle. Jusqu’à présent, l’accès à Sora a été accordé à des équipes de test et à un groupe restreint d’artistes visuels, de concepteurs et de cinéastes afin de comprendre les risques et d’obtenir des commentaires.

Stabilité Diffusion stable de l'Stability AI3

Stability AI a annoncé l'arrivée de Stable Diffusion 3, un modèle de génération de texte en image, le 22 février 2024. Le modèle mélange l'architecture du transformateur de diffusion et la correspondance des flux. L'entreprise n'a pas encore publié de document technique, mais il y a quelques caractéristiques clés à surveiller.

‍

Le dernier modèle de Stable Diffusion offre des performances, une qualité d’image et une précision améliorées dans la création d’images avec plusieurs sujets. Stable Diffusion 3 offrira également une variété de modèles allant de 800 millions à 8 milliards de paramètres. Il permettra aux utilisateurs de choisir en fonction de leurs besoins spécifiques en matière d’évolutivité et de détails.

Lumiere de Google

Le 23 janvier 2024, Google a lancé Lumiere, un modèle de diffusion de texte en vidéo. Lumiere utilise une architecture appelée Space-Time-U-Net, ou STUNet en abrégé. Cette architecture permet à Lumiere de comprendre où se trouvent les choses et comment elles se déplacent dans une vidéo. Il peut ainsi générer des vidéos fluides et réalistes.

‍

Avec la capacité de générer 80 images par vidéo, Lumiere repousse les limites et établit de nouvelles normes de qualité vidéo dans le domaine de l'IA. Voici quelques-unes des fonctionnalités de Lumiere :

Image-vers-vidéo : À partir d'une image et d'une invite, Lumiere peut animer des images en vidéos.
‍
Génération stylisée : Lumiere peut créer des vidéos dans des styles spécifiques en utilisant une seule image de référence.
‍
Cinématographes : Lumiere peut animer des régions spécifiques d'une image pour créer des scènes dynamiques, comme un objet particulier qui se déplace tandis que le reste de la scène reste statique.
‍
Inpainting vidéo : Il peut modifier des parties d'une vidéo, par exemple en changeant la tenue vestimentaire des personnes qui s'y trouvent ou en modifiant les détails de l'arrière-plan.

L'avenir semble être arrivé

Le début de l'année 2024 a également apporté de nombreuses innovations en matière d'IA qui donnent l'impression de sortir d'un film de science-fiction. Des choses que nous aurions dit impossibles auparavant sont maintenant en cours de réalisation. L'avenir ne semble plus si lointain avec les découvertes suivantes.

Neuralink d'Elon Musk

Neuralink d'Elon Musk a implanté avec succès sa puce cérébrale sans fil chez un humain le 29 janvier 2024. Il s'agit d'une étape importante vers la connexion des cerveaux humains aux ordinateurs. Elon Musk a annoncé que le premier produit de Neuralink, baptisé “Telepathy”, est en préparation.

‍

L'objectif est de permettre aux utilisateurs, en particulier ceux qui ont perdu la fonctionnalité d'un membre, de contrôler des appareils sans effort par la pensée. Les applications potentielles vont au-delà de la simple commodité. Elon Musk imagine un avenir où les personnes paralysées pourront communiquer facilement.

Le HoloTile Floor de Disney

Le 18 janvier 2024, Walt Disney Imagineering a dévoilé le HoloTile Floor. Il a été surnommé le premier tapis roulant multidirectionnel au monde pour plusieurs personnes.

‍

Il peut se déplacer sous n'importe quelle personne ou objet comme la télékinésie pour une expérience immersive de réalité virtuelle et augmentée. Vous pouvez marcher dans n'importe quelle direction et éviter les collisions lorsque vous êtes dessus. Le HoloTile Floor de Disney peut également être installé sur des scènes de théâtre pour danser et se déplacer de manière créative.

Le Vision Pro d'Apple

Le 2 février 2024, le très attendu casque Vision Pro d'Apple est arrivé sur le marché. Il dispose d'un éventail de fonctionnalités et d'applications conçues pour redéfinir l'expérience de réalité virtuelle et augmentée. Le casque Vision Pro s'adresse à un public diversifié en combinant divertissement, productivité et informatique spatiale. Apple a fièrement annoncé que plus de 600 applications, allant des outils de productivité aux services de jeux et de divertissement, ont été optimisées pour le Vision Pro lors de son lancement.

Devin de Cognition

Le 12 mars 2024, Cognition a lancé un assistant d'ingénierie logicielle appelé Devin. Devin est la première tentative au monde de créer un ingénieur logiciel autonome basé sur l'IA. Contrairement aux assistants de codage traditionnels qui offrent des suggestions ou effectuent des tâches spécifiques, Devin est conçu pour gérer des projets de développement logiciel entiers, du concept initial à la réalisation.

Il peut apprendre de nouvelles technologies, créer et déployer des applications complètes, trouver et corriger des bugs, entraîner ses propres modèles, contribuer à des bases de code open source et de production, et même accepter de véritables emplois de développement à partir de sites comme Upwork.

‍

Devin a été évalué sur SWE-bench, un benchmark difficile qui demande aux agents de résoudre des problèmes GitHub réels trouvés dans des projets open source comme Django et scikit-learn. Il a correctement résolu 13,86 % des problèmes de bout en bout, contre 1,96 % pour l'état de l'art précédent.

Mentions honorables

Il s'est passé tellement de choses qu'il est impossible de tout couvrir dans cet article. Voici donc quelques mentions honorables supplémentaires.

LATTE3D de NVIDIA, annoncé le 21 mars 2024, est un modèle d'IA text-to-3D qui crée instantanément des représentations 3D à partir de textes.
‍
Le nouveau générateur texte-vidéo de Midjourney, annoncé par le PDG David Holz, a commencé sa formation en janvier et devrait être lancé prochainement.
‍
Faisant progresser la révolution de l'IA sur PC, Lenovo a lancé le ThinkBook 13x doté de la technologie E Ink Prism et des ordinateurs portables IA haute performance le 8 janvier 2024.

Restez informé des tendances de l'IA avec nous !

Le début de l'année 2024 a été marqué par des avancées révolutionnaires en matière d'IA et par de nombreuses étapes technologiques majeures. Mais ce n'est que le début de ce que l'IA peut faire. Si vous souhaitez en savoir plus sur les derniers développements en matière d'IA, Ultralytics est là pour vous aider.

Consultez notre dépôt GitHub pour découvrir nos dernières contributions dans le domaine de la vision par ordinateur et de l'IA. Vous pouvez également consulter nos pages de solutions pour voir comment l'IA est utilisée dans des secteurs tels que l'industrie manufacturière et les soins de santé.

2024 commence avec une vague d'IA générative

Les LLM sont à la mode

Claude d'Anthropic 3

DBRX de Databricks

Gemini 1.5 de Google

Des visuels IA époustouflants

Sora d’OpenAI

Stabilité Diffusion stable de l'Stability AI3

Lumiere de Google

L'avenir semble être arrivé

Neuralink d'Elon Musk

Le HoloTile Floor de Disney

Le Vision Pro d'Apple

Devin de Cognition

Mentions honorables

Restez informé des tendances de l'IA avec nous !

En savoir plus dans cette catégorie

Tendances futures en matière de détection d'objets : 7 éléments clés à surveiller

Marquer des buts plus intelligents grâce à l'IA dans le football

Explorer SAM 3 : le nouveau modèle Segment Anything de Meta AI

Construisons ensemble l'avenir
de l'IA !

2024 commence avec une vague d'IA générative

Les LLM sont à la mode

Claude d'Anthropic 3

DBRX de Databricks

Gemini 1.5 de Google

Des visuels IA époustouflants

Sora d’OpenAI

Stabilité Diffusion stable de l'Stability AI3

Lumiere de Google

L'avenir semble être arrivé

Neuralink d'Elon Musk

Le HoloTile Floor de Disney

Le Vision Pro d'Apple

Devin de Cognition

Mentions honorables

Restez informé des tendances de l'IA avec nous !

En savoir plus dans cette catégorie

Tendances futures en matière de détection d'objets : 7 éléments clés à surveiller

Marquer des buts plus intelligents grâce à l'IA dans le football

Explorer SAM 3 : le nouveau modèle Segment Anything de Meta AI

Construisons ensemble l'avenir de l'IA !

Construisons ensemble l'avenir
de l'IA !