Contrôle vert
Lien copié dans le presse-papiers

Apprendre à connaître le lama de Meta 3

Le Llama 3 de Meta est sorti récemment et a suscité un grand enthousiasme de la part de la communauté de l'IA. Découvrons Llama 3 - la dernière avancée de Meta en matière d'intelligence artificielle.

Lorsque nous avons fait le tour des innovations en matière d'intelligence artificielle (IA) du premier trimestre 2024, nous avons vu que les LLM, ou grands modèles de langage, étaient publiés à droite et à gauche par différentes organisations. Poursuivant cette tendance, le 18 avril 2024, Meta a publié Llama 3, un LLM open-source de nouvelle génération à la pointe de la technologie. 

Tu te dis peut-être : Ce n'est qu'un autre LLM. Pourquoi la communauté de l'intelligence artificielle est-elle si enthousiaste ?

Bien que tu puisses affiner des modèles comme GPT-3 ou Gemini pour obtenir des réponses personnalisées, ils n'offrent pas une transparence totale quant à leur fonctionnement interne, comme leurs données d'entraînement, les paramètres du modèle ou les algorithmes. En revanche, le Llama 3 de Meta est plus transparent, son architecture et ses poids pouvant être téléchargés. Pour la communauté de l'IA, cela signifie une plus grande liberté d'expérimentation.

Dans cet article, nous allons apprendre ce que le Llama 3 peut faire, comment il est né et son impact sur le domaine de l'IA. Entrons dans le vif du sujet !

L'évolution des modèles de lamas de Meta

Avant de nous plonger dans Llama 3, revenons sur ses versions précédentes.

Meta a lancé le Llama 1 en février 2023, qui se décline en quatre variantes avec des paramètres allant de 7 milliards à 64 milliards. Dans l'apprentissage automatique, les "paramètres" désignent les éléments du modèle qui sont appris à partir des données d'entraînement. En raison de son plus petit nombre de paramètres, Llama 1 avait parfois du mal à comprendre les nuances et donnait des réponses incohérentes.

Peu de temps après Llama 1, Meta a lancé Llama 2 en juillet 2023. Il a été entraîné sur 2 000 milliards de jetons. Un jeton représente un morceau de texte, comme un mot ou une partie de mot, utilisé comme unité de base des données à traiter dans le modèle. Le modèle comportait également des améliorations telles qu'une fenêtre contextuelle doublée de 4096 tokens pour comprendre les passages plus longs et plus d'un million d'annotations humaines pour diminuer les erreurs. Malgré ces améliorations, Llama 2 nécessitait encore beaucoup de puissance de calcul, ce que Meta s'est efforcé de corriger avec Lama 3.

Présentation du lama de Meta 3

Llama 3 est livré avec quatre variantes qui ont été formées à partir d'un nombre impressionnant de 15 billions de jetons. Plus de 5 % de ces données d'entraînement (environ 800 millions de tokens) représentaient des données dans 30 langues différentes. Toutes les variantes de Llama 3 peuvent être exécutées sur différents types de matériel grand public et ont une longueur de contexte de 8k tokens. 

Fig 1. Llama 3 contre Llama 2.

Les variantes du modèle se déclinent en deux tailles : 8B et 70B, indiquant respectivement 8 milliards et 70 milliards de paramètres. Il existe également deux versions, base et instruire. "Base" fait référence à la version standard pré-entraînée. "Instruct" est une version affinée et optimisée pour des applications ou des domaines spécifiques grâce à un entraînement supplémentaire sur des données pertinentes.

Il s'agit des variantes du modèle Llama 3 :

  • Meta-Llama-3-8b: Le modèle de base 8B offre des capacités d'IA fondamentales, et est idéal pour les tâches générales telles que le développement de chatbots de service à la clientèle.
  • Meta-Llama-3-8b-instruct: Une version affinée de l'instruct du modèle 8B qui est optimisée pour des tâches spécifiques. Par exemple, il peut être utilisé pour créer des outils pédagogiques qui expliquent des sujets complexes.
  • Meta-Llama-3-70b: Le modèle de base 70B est conçu pour des applications d'intelligence artificielle très performantes. Ce modèle fonctionnerait bien pour des applications telles que le traitement d'une vaste littérature biomédicale pour la découverte de médicaments.
  • Meta-Llama-3-70b-instruct: Cette version est affinée à partir du modèle 70B pour les applications très précises, telles que l'analyse de documents juridiques ou médicaux, où la précision est essentielle.

Architecture du modèle 3 du lama de Meta

Comme pour toutes les autres avancées de Meta AI, des mesures rigoureuses de contrôle de la qualité ont été mises en place pour maintenir l'intégrité des données et minimiser les biais pendant le développement de Llama 3. Le produit final est donc un modèle puissant qui a été créé de manière responsable. 

L'architecture du modèle Llama 3 se distingue par l'importance qu'elle accorde à l'efficacité et à la performance dans les tâches de traitement du langage naturel. Construite à partir d'un cadre basé sur Transformer, elle met l'accent sur l'efficacité des calculs, en particulier lors de la génération de texte, en utilisant une architecture de décodeur uniquement. 

Le modèle génère des sorties en se basant uniquement sur le contexte précédent, sans codeur pour coder les entrées, ce qui le rend beaucoup plus rapide.

Fig 2. Architecture du modèle responsable Llama 3.

Les modèles Llama 3 sont dotés d'un tokenizer avec un vocabulaire de 128K tokens. Un vocabulaire plus étendu signifie que les modèles peuvent mieux comprendre et traiter le texte. De plus, les modèles utilisent maintenant l'attention portée aux requêtes groupées (GQA) pour améliorer l'efficacité de l'inférence. L'AQG est une technique que tu peux considérer comme un projecteur qui aide les modèles à se concentrer sur les parties pertinentes des données d'entrée pour générer des réponses plus rapides et plus précises.

Voici quelques détails supplémentaires intéressants sur l'architecture du modèle de Llama 3 :

  • Traitement des documents tenant compte des limites : Llama 3 maintient la clarté au-delà des limites du document, ce qui est essentiel pour des tâches telles que le résumé.
  • Meilleure compréhension du code : Les données d'entraînement de Llama 3 comprennent quatre fois plus d'échantillons de code, ce qui renforce ses capacités de codage.
  • Contrôle de qualité robuste : Des mesures rigoureuses, notamment des filtres heuristiques et la suppression des NSFW, garantissent l'intégrité des données et minimisent les biais.

Le lama 3 transforme notre approche du dressage de mannequins

Pour entraîner les plus grands modèles de Llama 3, trois types de parallélisation ont été combinés : parallélisation des données, parallélisation des modèles et parallélisation du pipeline. 

La parallélisation des données répartit les données d'apprentissage sur plusieurs GPU, tandis que la parallélisation du modèle partitionne l'architecture du modèle afin d'utiliser la puissance de calcul de chaque GPU. La parallélisation du pipeline divise le processus de formation en étapes séquentielles, optimisant ainsi le calcul et la communication.

L'implémentation la plus efficace a permis une utilisation remarquable des ressources informatiques, dépassant 400 TFLOPS par GPU lors de l'entraînement sur 16 000 GPU simultanément. Ces entraînements ont été effectués sur deux grappes GPU personnalisées, comprenant chacune 24 000 GPU. Cette infrastructure de calcul importante a fourni la puissance nécessaire pour former efficacement les modèles Llama 3 à grande échelle.

Pour maximiser le temps de fonctionnement de GPU , une nouvelle pile de formation avancée a été développée, automatisant la détection, le traitement et la maintenance des erreurs. La fiabilité du matériel et les mécanismes de détection ont été grandement améliorés pour atténuer les risques de corruption silencieuse des données. De plus, de nouveaux systèmes de stockage évolutifs ont été mis au point pour réduire les frais généraux liés aux points de contrôle et aux retours en arrière. 

Ces améliorations ont permis d'obtenir un temps d'entraînement global d'une efficacité supérieure à 95 %. Combinées, elles ont permis de multiplier par trois environ l'efficacité de la formation du Llama 3 par rapport au Llama 2. Cette efficacité n'est pas seulement impressionnante ; elle ouvre de nouvelles possibilités pour les méthodes de formation à l'IA. 

Ouvrir des portes avec le lama 3

Comme Llama 3 est un logiciel libre, les chercheurs et les étudiants peuvent étudier son code, mener des expériences et participer à des discussions sur les préoccupations éthiques et les préjugés. Cependant, Llama 3 n'est pas seulement destiné aux universitaires. Il fait également des vagues dans les applications pratiques. Il est en train de devenir l'épine dorsale de l'interface de discussion Meta AI, en s'intégrant de façon transparente à des plateformes comme Facebook, Instagram, WhatsApp et Messenger. Avec Meta AI, les utilisateurs peuvent engager des conversations en langage naturel, accéder à des recommandations personnalisées, effectuer des tâches et se connecter facilement avec d'autres personnes.

Fig 3. Meta AI : alimenté par Llama 3.

Comparaison de Llama 3 avec d'autres LLM

Llama 3 obtient des résultats exceptionnels sur plusieurs points de repère clés qui évaluent la compréhension d'un langage complexe et les capacités de raisonnement. Voici quelques-uns des critères qui testent divers aspects des capacités de Llama 3 :

  • Massive Multitask Language Understanding (MMLU) - Mesure ses connaissances dans différents domaines. 
  • General Purpose Question Answering (GPQA) - Évalue la capacité du modèle à générer des réponses cohérentes et correctes à un large éventail de questions de connaissances générales.
  • HumanEval - Se concentre sur les tâches de codage et de résolution de problèmes, en testant la capacité du modèle à générer un code de programmation fonctionnel et à résoudre des défis algorithmiques.

Les résultats exceptionnels de Llama 3 dans ces tests le distinguent clairement de ses concurrents tels que Google's Gemma 7B, Mistral's Mistral 7B, et Anthropic's Claude 3 Sonnet. Selon les statistiques publiées, en particulier le modèle 70B, le Llama 3 surpasse ces modèles dans tous les tests de référence ci-dessus.

Fig 4. Comparaison de Llama 3 avec d'autres LLM.

Meta Llama 3 est rendu largement accessible

Meta élargit la portée de Llama 3 en le rendant disponible sur une variété de plateformes pour les utilisateurs généraux et les développeurs. Pour les utilisateurs lambda, Llama 3 est intégré aux plateformes populaires de Meta telles que WhatsApp, Instagram, Facebook et Messenger. Les utilisateurs peuvent accéder à des fonctionnalités avancées comme la recherche en temps réel et la possibilité de générer du contenu créatif directement dans ces applis. 

Le Llama 3 est également intégré à des technologies portables telles que les lunettes intelligentes Ray-Ban Meta et le casque VR Meta Quest pour des expériences interactives.

Llama 3 est disponible sur diverses plateformes pour les développeurs, notamment AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM et Snowflake. Tu peux également accéder à ces modèles directement à partir de Meta. Ce large éventail d'options permet aux développeurs d'intégrer facilement ces capacités de modèles d'IA avancés dans leurs projets, qu'ils préfèrent travailler directement avec Meta ou par le biais d'autres plateformes populaires.

Ce qu'il faut retenir

Les avancées en matière d'apprentissage automatique continuent de transformer la façon dont nous interagissons avec la technologie au quotidien. Le Llama 3 de Meta montre que les LLM ne se contentent plus de générer du texte. Les LLM s'attaquent à des problèmes complexes et gèrent plusieurs langues. Dans l'ensemble, Llama 3 rend l'IA plus adaptable et plus accessible que jamais. À l'avenir, les mises à jour prévues pour Llama 3 promettent encore plus de capacités, comme la gestion de plusieurs modèles et la compréhension de contextes plus larges. 

Consulte notre dépôt GitHub et rejoins notre communauté pour en savoir plus sur l'IA. Visite nos pages de solutions pour voir comment l'IA est appliquée dans des domaines comme la fabrication et l'agriculture.

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.