Glossaire

Modèle de fondation

Découvrez comment les modèles de base révolutionnent l'IA grâce à des architectures évolutives, un préapprentissage étendu et une adaptabilité à diverses applications.

Un modèle de base est un modèle d'apprentissage machine (ML) à grande échelle formé sur une vaste quantité de données non étiquetées qui peut être adapté à un large éventail de tâches en aval. Inventé par le Stanford Institute for Human-Centered AI, le concept de base est celui des "propriétés émergentes", où le modèle développe une compréhension étonnamment polyvalente des modèles, de la syntaxe et de la sémantique à partir des données sur lesquelles il a été formé. Cette nature polyvalente lui permet de servir de point de départ puissant, ou de "fondation", pour la création de modèles plus spécialisés grâce à un processus appelé " fine-tuning".

Principales caractéristiques et applications

La caractéristique principale des modèles de base est leur adaptabilité, qui découle du paradigme de l'apprentissage par transfert. Au lieu de former un nouveau modèle à partir de zéro pour chaque problème, les développeurs peuvent prendre un modèle de base pré-entraîné et l'adapter à un ensemble de données beaucoup plus petit et spécifique à une tâche. Cela permet de réduire considérablement les données, les calculs et le temps nécessaires à la création de systèmes d'IA performants.

Des applications concrètes démontrent leur polyvalence :

  1. Chatbots et assistants virtuels avancés : Un grand modèle de langage (LLM) comme le GPT-4 d'OpenAI sert de modèle de base pour le langage. Il est pré-entraîné sur un corpus massif de textes Internet pour comprendre la grammaire, les faits et les capacités de raisonnement. Une entreprise peut ensuite l'affiner à l'aide de ses documents internes et des journaux d'interaction avec ses clients afin de créer un chatbot spécialisé capable de répondre avec une grande précision à des questions spécifiques sur ses produits ou services.
  2. Analyse d'images médicales : Dans le domaine de la vision par ordinateur, un modèle comme le Segment Anything Model (SAM) de Meta AI est un modèle de base pour la segmentation d'images. Il permet d'identifier et de délimiter des objets dans n'importe quelle image sans contexte préalable. Les chercheurs médicaux peuvent ensuite affiner ce modèle sur un ensemble plus restreint d'IRM ou de tomodensitogrammes afin de segmenter avec précision des organes spécifiques ou de détecter des anomalies telles que des tumeurs, accélérant ainsi les diagnostics pour l'analyse d'images médicales.

Modèles de fondation et autres modèles

Il est important de distinguer les modèles de fondation des concepts apparentés :

  • Modèles spécifiques à une tâche : Traditionnellement, la ML implique la formation de modèles à partir de zéro pour un objectif unique, comme la formation d'un modèle Ultralytics YOLO uniquement pour la détection de paquets dans la logistique. Bien qu'efficace, cette approche nécessite une quantité importante de données étiquetées pour chaque nouvelle tâche. Les modèles de base offrent une alternative plus efficace.
  • Les grands modèles de langage (LLM) : Les LLM sont un type important de modèle de base axé sur les tâches linguistiques. Toutefois, le terme "modèle de base" est plus large et englobe les modèles pour la vision, l'audio et d'autres modalités de données, comme l'explique l'article "On the Opportunities and Risks of Foundation Models", qui a fait date.
  • Modèles de vision spécialisés : Si les grands modèles de vision tels que le Vision Transformer (ViT) sont considérés comme des modèles de base, ce n'est pas le cas de nombreux modèles de CV spécialisés. Par exemple, un modèle YOLO11 affiné pour une application spécifique telle que l'IA dans l'automobile est un modèle spécialisé. Cependant, il s'appuie sur une colonne vertébrale pré-entraînée qui intègre des connaissances fondamentales dérivées de grands ensembles de données tels que COCO.

Formation et importance future

Le pré-entraînement des modèles de base est un effort intensif en termes de ressources, qui nécessite souvent des milliers de GPU et des efforts d'ingénierie massifs, généralement entrepris par de grandes organisations telles que Google AI et DeepMind. Cependant, une fois formés, ces modèles sont rendus accessibles pour une utilisation plus large.

Des plateformes comme Ultralytics HUB fournissent des outils pour aider les utilisateurs à adapter ces capacités fondamentales en rationalisant les flux de travail pour former des modèles personnalisés, gérer des ensembles de données et déployer des solutions, souvent avec un réglage minutieux des hyperparamètres.

Les modèles de fondation transforment le paysage de l'IA en démocratisant l'accès à des capacités puissantes. Leur essor suscite également des discussions critiques sur l'éthique de l'IA, la partialité des ensembles de données et la fracture informatique. L'avenir s'oriente vers des modèles plus puissants, efficaces et multimodaux, capables de comprendre et de traiter simultanément des informations provenant de textes, d'images et de sons, ce qui entraînera la prochaine vague de cas d'utilisation de l'IA.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers