Glossaire

IA constitutionnelle

Découvre comment l'IA constitutionnelle garantit des sorties d'IA éthiques, sûres et impartiales en alignant les modèles sur des principes prédéfinis et des valeurs humaines.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

L'IA constitutionnelle est une approche conçue pour aligner les modèles d'intelligence artificielle (IA), en particulier les grands modèles de langage (LLM), sur les valeurs humaines et les principes éthiques. Au lieu de s'appuyer uniquement sur les réactions humaines directes pour guider le comportement, cette méthode utilise un ensemble prédéfini de règles ou de principes - une "constitution" - pour aider l'IA à évaluer et à réviser ses propres réponses au cours du processus de formation. L'objectif est de créer des systèmes d'IA utiles, inoffensifs et honnêtes, en réduisant le risque de générer des résultats biaisés, toxiques ou autrement indésirables. Cette technique, mise au point par les chercheurs de Anthropicvise à rendre l'alignement de l'IA plus évolutif et moins dépendant d'une supervision humaine poussée.

Comment fonctionne l'IA constitutionnelle

L'idée centrale de l'IA constitutionnelle implique un processus de formation en deux phases :

  1. Phase d'apprentissage supervisé : Au départ, un modèle de langage standard pré-entraîné est soumis à des scénarios conçus pour susciter des réponses potentiellement nuisibles ou indésirables. Le modèle génère plusieurs réponses. Ces réponses sont ensuite critiquées par un autre modèle d'IA sur la base des principes énoncés dans la constitution. L'IA critique ses propres réponses, en identifiant les raisons pour lesquelles une réponse pourrait violer un principe (par exemple, être non consensuelle ou nuisible). Le modèle est ensuite affiné sur ces réponses autocritiquées, en apprenant à générer des résultats qui s'alignent mieux sur la constitution. Cette phase utilise des techniques d'apprentissage supervisé.
  2. Phase d'apprentissage par renforcement : Après la phase supervisée, le modèle est affiné à l'aide de l'apprentissage par renforcement (RL). Au cours de cette étape, l'IA génère des réponses et un modèle d'IA (formé à l'aide de la constitution) évalue ces réponses, en fournissant un signal de récompense en fonction de leur degré d'adhésion aux principes constitutionnels. Ce processus, souvent appelé apprentissage par renforcement à partir du feedback de l'IA (RLAIF), optimise le modèle pour qu'il produise systématiquement des résultats conformes à la constitution, en apprenant essentiellement à l'IA à préférer un comportement conforme à la constitution.

Ce mécanisme d'autocorrection, guidé par des principes explicites, distingue l'IA constitutionnelle de méthodes telles que l'apprentissage par renforcement à partir de commentaires humains (RLHF), qui s'appuie fortement sur des étiqueteurs humains évaluant les sorties du modèle.

Concepts clés

  • La Constitution : Il ne s'agit pas d'un document juridique littéral, mais d'un ensemble de principes ou de règles éthiques explicites guidant le comportement de l'IA. Ces principes peuvent provenir de diverses sources, telles que des déclarations universelles (comme la Déclaration des droits de l'homme de l'ONU), des conditions de service ou des directives éthiques personnalisées adaptées à des applications spécifiques. L'efficacité repose en grande partie sur la qualité et l'exhaustivité de ces principes.
  • Autocritique et révision de l'IA : Un aspect fondamental où le modèle d'IA apprend à évaluer ses propres résultats par rapport à la constitution et à générer des révisions. Cette boucle de rétroaction interne réduit la nécessité d'une intervention humaine constante.
  • Alignement de l'IA : L'IA constitutionnelle est une technique contribuant au domaine plus large de l'alignement de l'IA, qui cherche à garantir que les objectifs et les comportements des systèmes d'IA s'alignent sur les intentions et les valeurs humaines. Elle répond aux préoccupations concernant la sécurité de l'IA et le risque de conséquences involontaires.
  • Évolutivité : En automatisant le processus de rétroaction à l'aide de l'IA basée sur la constitution, cette méthode vise à être plus évolutive que la RLHF, qui peut nécessiter beaucoup de travail et potentiellement introduire des biais humains(biais algorithmique).

Exemples concrets

  1. Les modèles Claude d'Anthropic: L'exemple le plus marquant est la famille de Claude LLM d'Anthropic. Anthropic a développé l'IA constitutionnelle spécifiquement pour former ces modèles à être "utiles, inoffensifs et honnêtes". La constitution utilisée comprend des principes décourageant la génération de contenu toxique, discriminatoire ou illégal, basés en partie sur la Déclaration des droits de l'homme de l'ONU et d'autres sources éthiques. Pour en savoir plus, consulte leur article sur l'IA constitutionnelle collective.
  2. Systèmes de modération de contenu par l'IA : Les principes constitutionnels de l'IA pourraient être appliqués pour former des modèles pour les plateformes de modération de contenu. Au lieu de s'appuyer uniquement sur des modérateurs humains ou des filtres de mots clés rigides, une IA pourrait utiliser une constitution définissant le contenu nuisible (par exemple, discours de haine, désinformation) pour évaluer le texte ou les images générés par les utilisateurs, ce qui conduirait à une modération plus nuancée et plus cohérente, alignée sur les politiques de la plateforme et les directives éthiques de l'IA.

L'IA constitutionnelle et les termes apparentés

  • Apprentissage par renforcement à partir de commentaires humains (RLHF): Bien que les deux visent à aligner l'IA, le RLHF utilise le retour d'information généré par les humains qui évaluent les résultats du modèle. L'IA constitutionnelle utilise principalement des commentaires générés par l'IA en fonction d'une constitution prédéfinie, ce qui la rend potentiellement plus évolutive et cohérente, bien que la qualité dépende fortement de la constitution elle-même.
  • Éthique de l'IA et IA responsable: L'éthique de l'IA est le vaste domaine qui étudie les implications morales de l'IA. L'IA responsable englobe des principes et des pratiques (comme l'équité, la transparence(XAI), la responsabilité, la confidentialité des données) pour développer et déployer des systèmes d'IA en toute sécurité et dans le respect de l'éthique. L'IA constitutionnelle est une méthode technique spécifique utilisée lors de la formation des modèles pour mettre en œuvre certains principes éthiques et contribuer au développement d'une IA responsable.

Applications et potentiel futur

Actuellement, l'IA constitutionnelle est principalement appliquée aux LLM pour des tâches telles que la génération de dialogues et le résumé de textes. Cependant, les principes sous-jacents pourraient potentiellement s'étendre à d'autres domaines de l'IA, y compris la vision par ordinateur (VA). Par exemple :

Le développement et le perfectionnement de constitutions efficaces, ainsi que l'assurance que l'IA y adhère fidèlement dans divers contextes, restent des domaines de recherche actifs au sein d'organisations telles que Google AI et l'AI Safety Institute. Des outils comme Ultralytics HUB facilitent la formation et le déploiement de divers modèles d'IA, et l'intégration de principes apparentés à l'IA constitutionnelle pourrait devenir de plus en plus importante pour garantir un déploiement responsable.

Tout lire