Modèle de fondation
Découvrez comment les modèles de base révolutionnent l'IA grâce à des architectures évolutives, un préapprentissage étendu et une adaptabilité à diverses applications.
Un modèle de base est un modèle d'intelligence artificielle (IA) à grande échelle pré-entraîné sur de vastes quantités de données non étiquetées, conçu pour être adapté ou affiné pour un large éventail de tâches en aval. Ces modèles, souvent basés sur des architectures telles que le Transformer, apprennent des modèles, des structures et des représentations générales à partir des données, formant ainsi une base polyvalente pour diverses applications spécialisées sans avoir besoin d'une formation spécifique à partir de zéro. Le développement de modèles de base représente un changement de paradigme important dans le domaine de l'apprentissage automatique (Machine Learning, ML), en s'orientant vers la construction de modèles à usage général qui peuvent être efficacement spécialisés.
Caractéristiques principales
Les modèles de fondation sont définis par plusieurs attributs fondamentaux :
- L'échelle : Elles sont généralement très vastes, impliquant des milliards, voire des trillions de paramètres, et entraînées sur des ensembles de données massifs, souvent extraits de l'internet ou d'autres sources étendues(Big Data).
- Pré-entraînement : Ils sont soumis à une phase intensive de préformation, généralement à l'aide de méthodes d'apprentissage auto-supervisé ou non supervisé, où le modèle apprend à partir de la structure inhérente des données elles-mêmes sans étiquettes explicites.
- Adaptabilité : L'un des principaux avantages est leur adaptabilité. Une fois pré-entraînés, ils peuvent être affinés avec des quantités relativement faibles de données étiquetées pour des tâches spécifiques telles que l'analyse des sentiments, la reconnaissance d'images ou la détection d'objets, en tirant parti des connaissances générales acquises lors du pré-entraînement. Ce processus est une forme d'apprentissage par transfert.
- Homogénéisation : Ils tendent à consolider les capacités qui nécessitaient auparavant plusieurs modèles spécialisés dans un cadre unique et adaptable, ce qui peut simplifier les MLOps.
Fonctionnement des modèles de fondation
La création et l'utilisation des modèles de fondation se font généralement en deux étapes :
- Pré-entraînement : Le modèle est entraîné sur un ensemble de données massif et diversifié. Pour les modèles de langage comme le GPT-3, il s'agit de prédire le mot suivant dans une phrase. Pour les modèles de vision, il peut s'agir de reconstruire des parcelles d'images masquées ou d'apprendre des associations entre des images et du texte(CLIP). Cette étape nécessite des ressources informatiques importantes(GPU, TPU).
- Mise au point/adaptation : Le modèle pré-entraîné est ensuite adapté à une tâche spécifique en aval à l'aide d'un ensemble de données étiquetées plus petit et spécifique à la tâche. Des techniques telles que le réglage fin ajustent les poids du modèle, tandis que des méthodes telles que l'ingénierie d'invite guident la sortie du modèle sans modifier ses poids, ce qui est particulièrement pertinent pour les grands modèles de langage (LLM).
Exemples et applications
Les modèles de fondation couvrent différents domaines :
Modèles de fondation et autres modèles
- Modèles spécifiques à une tâche : Contrairement aux modèles de base, la ML traditionnelle implique souvent la formation de modèles à partir de zéro sur des ensembles de données spécifiques pour des tâches uniques (par exemple, la formation d'un modèle Ultralytics YOLO uniquement pour la détection d'objets dans l'imagerie aérienne). Bien qu'efficace, cette méthode nécessite des données étiquetées et des efforts considérables pour chaque nouvelle tâche. Les modèles de base visent à réduire ces efforts grâce à l'apprentissage par transfert.
- Les grands modèles linguistiques (LLM) : Les LLM sont un type important de modèle de base spécifiquement conçu pour les tâches linguistiques. Le terme "modèle de base" est plus large et inclut des modèles pour la vision, l'audio et d'autres modalités.
- Modèles CV : Alors que certains grands modèles de vision comme ViT ou SAM sont considérés comme des modèles de base, de nombreux modèles CV, y compris des versions spécifiques de YOLOv8 ou YOLO11 entraînées pour des applications particulières(IA dans l'agriculture, IA dans l'automobile), sont généralement affinés ou entraînés spécifiquement pour ces tâches de vision plutôt que d'être eux-mêmes des modèles de base à usage général. Cependant, la tendance à utiliser des modèles de base pré-entraînés partage l'idée fondamentale d'exploiter des caractéristiques générales.
Formation et ressources
Le pré-entraînement des modèles de base est coûteux en termes de calcul, nécessitant souvent des grappes massives de GPU ou de TPU et un effort d'ingénierie important, généralement entrepris par de grands laboratoires de recherche ou des entreprises telles que Google, Meta AI et OpenAI. Cependant, une fois pré-entraînés, ces modèles peuvent être adaptés plus efficacement. Des plateformes comme Ultralytics HUB fournissent des outils pour former des modèles personnalisés, gérer des ensembles de données(Ultralytics Datasets) et déployer des solutions(Model Deployment Options), souvent en s'appuyant sur des poids pré-entraînés qui intègrent des connaissances fondamentales. Une adaptation efficace nécessite toujours un réglage minutieux des hyperparamètres et, éventuellement, une augmentation des données.
Importance et avenir
Les modèles de fondation modifient le paysage de l'IA(Roboflow sur les modèles de fondation). Ils accélèrent le développement, permettent de nouvelles applications et soulèvent des questions importantes sur l'éthique de l'IA, les préjugés et l'accès au calcul. Des instituts de recherche comme le Centre de recherche sur les modèles de fondation (CRFM) de Stanford se consacrent à l'étude de leurs capacités et de leur impact sociétal. À l'avenir, des modèles de fondation plus puissants, plus efficaces et potentiellement multimodaux seront probablement à l'origine d'innovations dans les domaines de la science, de l'industrie et de la vie quotidienne(cas d'utilisation de l'IA).