Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Modèle de fondation

Découvrez comment les modèles de fondation révolutionnent l'IA grâce à des architectures évolutives, un pré-entraînement étendu et une adaptabilité à diverses applications.

Un modèle de fondation est un modèle d'apprentissage automatique (ML) à grande échelle, entraîné sur une vaste quantité de données non étiquetées, qui peut être adapté à un large éventail de tâches en aval. Inventé par le Stanford Institute for Human-Centered AI, le concept central est celui des « propriétés émergentes », où le modèle développe une compréhension étonnamment polyvalente des modèles, de la syntaxe et de la sémantique à partir des données sur lesquelles il a été entraîné. Cette nature à usage général lui permet de servir de point de départ puissant, ou de « fondation », pour la création de modèles plus spécialisés grâce à un processus appelé fine-tuning.

Principales caractéristiques et applications

La caractéristique déterminante des modèles de fondation est leur adaptabilité, qui découle du paradigme de l'apprentissage par transfert. Au lieu d'entraîner un nouveau modèle à partir de zéro pour chaque problème, les développeurs peuvent prendre un modèle de fondation pré-entraîné et l'adapter avec un ensemble de données beaucoup plus petit et spécifique à la tâche. Cela réduit considérablement les données, le calcul et le temps nécessaires pour construire des systèmes d'IA à haute performance.

Les applications concrètes démontrent leur polyvalence :

  1. Chatbots avancés et assistants virtuels : Un grand modèle de langage (LLM) comme GPT-4 d'OpenAI sert de modèle de base pour le langage. Il est pré-entraîné sur un corpus massif de textes Internet pour comprendre la grammaire, les faits et les compétences de raisonnement. Une entreprise peut ensuite l'affiner avec ses documents internes et ses journaux d'interactions avec les clients pour créer un chatbot spécialisé qui peut répondre à des questions spécifiques sur ses produits ou services avec une grande précision.
  2. Analyse d’images médicales : En vision artificielle, un modèle comme le Segment Anything Model (SAM) de Meta AI est un modèle de base pour la segmentation d’images. Il peut identifier et délimiter les objets dans n’importe quelle image sans contexte préalable. Les chercheurs médicaux peuvent ensuite affiner ce modèle sur un plus petit ensemble d’IRM ou de tomodensitométries pour segmenter avec précision des organes spécifiques ou détecter des anomalies comme des tumeurs, accélérant ainsi le diagnostic pour l’analyse d’images médicales.

Modèles de fondation vs. autres modèles

Il est important de distinguer les modèles de fondation des concepts connexes :

  • Modèles spécifiques à une tâche : Traditionnellement, l'AA impliquait l'entraînement de modèles à partir de zéro pour un seul objectif, comme l'entraînement d'un modèle Ultralytics YOLO uniquement pour la détection de colis dans la logistique. Bien qu'efficace, cette approche nécessite des données étiquetées importantes pour chaque nouvelle tâche. Les modèles de base offrent une alternative plus efficace.
  • Grands modèles linguistiques (LLM) : Les LLM sont un type important de modèle de fondation axé sur les tâches linguistiques. Cependant, le terme "modèle de fondation" est plus large, englobant les modèles pour la vision, l'audio et d'autres modalités de données, comme le détaille l'article de référence "On the Opportunities and Risks of Foundation Models."
  • Modèles de vision spécialisés : Bien que les grands modèles de vision comme le Vision Transformer (ViT) soient considérés comme des modèles de base, de nombreux modèles de VC spécialisés ne le sont pas. Par exemple, un modèle YOLO11 affiné pour une application spécifique comme l'IA dans l'automobile est un modèle spécialisé. Cependant, il exploite un backbone pré-entraîné qui incarne des connaissances fondamentales dérivées de grands ensembles de données comme COCO.

Entraînement et importance future

Le pré-entraînement des modèles de fondation est une entreprise gourmande en ressources, nécessitant souvent des milliers de GPU et d'énormes efforts d'ingénierie, généralement entrepris par de grandes organisations comme Google AI et DeepMind. Cependant, une fois entraînés, ces modèles sont mis à disposition pour une utilisation plus large.

Des plateformes comme Ultralytics HUB fournissent des outils pour aider les utilisateurs à adapter ces capacités fondamentales en rationalisant les flux de travail pour entraîner des modèles personnalisés, gérer les ensembles de données et déployer des solutions, souvent avec un réglage minutieux des hyperparamètres.

Les modèles de fondation transforment le paysage de l'IA en démocratisant l'accès à de puissantes capacités. Leur essor suscite également des discussions essentielles autour de l'éthique de l'IA, des biais des ensembles de données et de la fracture numérique. L'avenir s'oriente vers des modèles multimodaux plus puissants et efficaces, capables de comprendre et de traiter simultanément des informations provenant de textes, d'images et de sons, ce qui stimulera la prochaine vague de cas d'utilisation de l'IA.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers