Glossaire

IA constitutionnelle

Découvrez comment l'IA constitutionnelle garantit des résultats d'IA éthiques, sûrs et impartiaux en alignant les modèles sur des principes prédéfinis et des valeurs humaines.

L'IA constitutionnelle (CAI) est une méthode développée par Anthropic pour entraîner les modèles d'IA, en particulier les grands modèles de langage (LLM), à s'aligner sur un ensemble spécifique de règles ou de principes, connu sous le nom de "constitution". L'objectif principal de l'IAO est de rendre les systèmes d'IA utiles, inoffensifs et plus contrôlables sans nécessiter un retour d'information important de la part de l'homme. Au lieu que les humains étiquettent constamment les résultats nuisibles, l'IA apprend à critiquer et à réviser ses propres réponses sur la base des principes directeurs de sa constitution. Cette approche permet de relever des défis majeurs en matière d'éthique de l'IA, tels que la prévention de la production de contenus toxiques et la réduction des biais algorithmiques.

Comment fonctionne l'IA constitutionnelle

Le processus de formation à l'IPE comporte généralement deux phases principales :

  1. Phase d'apprentissage supervisé : Dans un premier temps, un modèle de fondation est invité à générer des réponses. Ensuite, le même modèle est invité à critiquer ses propres réponses sur la base de la constitution et à les réécrire pour mieux les aligner sur ses principes. Cela crée un nouvel ensemble de données d'exemples améliorés et conformes à la constitution. Ce mécanisme d'autocritique est guidé par une constitution, qui peut être une simple liste de règles ou s'inspirer de sources complexes telles que la Déclaration des droits de l'homme des Nations unies.
  2. Phase d'apprentissage par renforcement : Le modèle est ensuite affiné à l'aide de l'apprentissage par renforcement. À ce stade, l'IA génère des paires de réponses et un modèle de préférence (formé sur les données autocritiquées de la première phase) sélectionne celle qui est la plus conforme à la constitution. Ce processus apprend à l'IA à préférer intrinsèquement les résultats qui sont conformes à ses principes fondamentaux.

Un exemple concret de l'IAO est sa mise en œuvre dans l'assistant d'Anthropic, Claude. Sa constitution lui permet d'éviter de générer des instructions nuisibles, de refuser de s'engager dans des activités illégales et de communiquer de manière non toxique, tout en restant utile. Une autre application est la modération automatisée de contenu, où un modèle piloté par l'IAO pourrait être utilisé pour identifier et signaler les discours haineux ou la désinformation en ligne conformément à un ensemble prédéfini de lignes directrices éthiques.

L'IA constitutionnelle et les concepts connexes

Il est important de distinguer l'IPE de termes similaires :

  • Apprentissage par renforcement à partir de commentaires humains (RLHF): Le RLHF s'appuie sur les humains pour fournir un retour d'information et classer les réponses générées par l'IA, ce qui prend du temps et est difficile à mettre à l'échelle. L'IAO remplace la boucle de rétroaction humaine par une boucle pilotée par l'IA, où la constitution du modèle guide la rétroaction. Le processus d'alignement est ainsi plus évolutif et plus cohérent.
  • Éthique de l'IA: Il s'agit d'un vaste domaine qui s'intéresse aux principes moraux et aux problèmes techniques liés à la création d'une IA responsable. L'IA constitutionnelle peut être considérée comme un cadre pratique pour la mise en œuvre de l' éthique de l'IA en intégrant des règles éthiques explicites directement dans le processus de formation du modèle.

Applications et potentiel futur

Actuellement, l'IA constitutionnelle est principalement appliquée aux LLM pour des tâches telles que la génération de dialogues et le résumé de textes. Cependant, les principes sous-jacents pourraient potentiellement s'étendre à d'autres domaines de l'IA, y compris la vision par ordinateur (VA). Par exemple :

Le développement et le perfectionnement de constitutions efficaces, ainsi que la garantie que l'IA y adhère fidèlement dans divers contextes, restent des domaines de recherche actifs au sein d'organisations telles que Google AI et l'AI Safety Institute. Des outils comme Ultralytics HUB facilitent la formation et le déploiement de divers modèles d'IA, et l'intégration de principes apparentés à l'IA constitutionnelle deviendra de plus en plus importante pour garantir un déploiement responsable des modèles.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers