L'IA constitutionnelle vise à aligner les modèles d'IA sur les valeurs humaines

Abirami Vina

4 min lire

8 avril 2025

Découvrez comment l'IA constitutionnelle aide les modèles à suivre des règles éthiques, à prendre des décisions plus sûres et à favoriser l'équité dans les systèmes de langage et de vision par ordinateur.

L'intelligence artificielle (IA) devient rapidement un élément clé de notre vie quotidienne. Elle est intégrée dans des outils utilisés dans des domaines tels que les soins de santé, le recrutement, la finance et la sécurité publique. À mesure que ces systèmes se développent, des préoccupations concernant leur éthique et leur fiabilité sont également exprimées.

Par exemple, il arrive que des systèmes d'IA construits sans tenir compte de l'équité ou de la sécurité produisent des résultats biaisés ou peu fiables. Cela s'explique par le fait que de nombreux modèles ne disposent pas encore d'un moyen clair de refléter les valeurs humaines et de s'y aligner.

Pour relever ces défis, les chercheurs explorent actuellement une approche connue sous le nom d'IA constitutionnelle. En termes simples, cette approche introduit un ensemble de principes écrits dans le processus de formation du modèle. Ces principes aident le modèle à juger de son propre comportement, à s'appuyer moins sur les commentaires humains et à rendre les réponses plus sûres et plus faciles à comprendre.

Jusqu'à présent, cette approche a surtout été utilisée pour les grands modèles de langage (LLM). Toutefois, la même structure pourrait aider les systèmes de vision artificielle à prendre des décisions éthiques lors de l'analyse des données visuelles. 

Dans cet article, nous allons explorer le fonctionnement de l'IA constitutionnelle, examiner des exemples concrets et discuter de ses applications potentielles dans les systèmes de vision par ordinateur.

__wf_reserved_inherit
Fig. 1. Caractéristiques de l'IA constitutionnelle. Image de l'auteur.

Qu'est-ce que l'IA constitutionnelle ?

L'IA constitutionnelle est une méthode de formation de modèles qui guide le comportement des modèles d'IA en fournissant un ensemble clair de règles éthiques. Ces règles agissent comme un code de conduite. Au lieu de s'appuyer sur le modèle pour déduire ce qui est acceptable, il suit un ensemble de principes écrits qui façonnent ses réponses au cours de la formation.

Ce concept a été introduit par Anthropic, une société de recherche sur la sécurité de l'IA qui a développé la famille Claude LLM comme méthode pour rendre les systèmes d'IA plus auto-supervisés dans leur prise de décision. 

Plutôt que de s'appuyer uniquement sur les réactions humaines, le modèle apprend à critiquer et à affiner ses propres réponses sur la base d'un ensemble de principes prédéfinis. Cette approche est similaire à celle d'un système juridique, dans lequel un juge se réfère à une constitution avant de rendre un jugement.

Dans ce cas, le modèle devient à la fois le juge et l'élève, utilisant le même ensemble de règles pour examiner et affiner son propre comportement. Ce processus renforce l'alignement des modèles d'IA et favorise le développement de systèmes d'IA sûrs et responsables.

Comment fonctionne l'IA constitutionnelle ?

L'objectif de l'IA constitutionnelle est d'enseigner à un modèle d'IA comment prendre des décisions sûres et équitables en suivant un ensemble clair de règles écrites. Voici une description simple du fonctionnement de ce processus :

  • Définir la constitution : Une liste écrite des principes éthiques que le modèle doit respecter est établie. La constitution décrit ce que l'IA doit éviter et les valeurs qu'elle doit refléter.

  • Formation avec supervisée supervisée : Des exemples de réponses conformes à la constitution sont montrés au modèle. Ces exemples aident l'IA à comprendre ce qu'est un comportement acceptable.

  • Reconnaître et appliquer des modèles : Au fil du temps, le modèle commence à reconnaître ces modèles. Il apprend à appliquer les mêmes valeurs lorsqu'il répond à de nouvelles questions ou gère de nouvelles situations.

  • Critiquer et affiner les résultats : Le modèle examine ses propres réponses et les ajuste en fonction de la constitution. Cette phase d'auto-évaluation l'aide à s'améliorer sans dépendre uniquement du retour d'information humain.

  • Produire des réponses alignées et plus sûres : Le modèle apprend à partir de règles cohérentes, ce qui permet de réduire les biais et d'améliorer la fiabilité dans le monde réel. Cette approche le rend plus conforme aux valeurs humaines et plus facile à gouverner.
__wf_reserved_inherit
Fig. 2. Vue d'ensemble de l'utilisation de l'IA constitutionnelle pour former des modèles.

Principes fondamentaux de la conception éthique de l'IA

Pour qu'un modèle d'IA suive des règles éthiques, ces règles doivent d'abord être clairement définies. En ce qui concerne l'IA constitutionnelle, ces règles reposent sur un ensemble de principes fondamentaux. 

Par exemple, voici quatre principes qui constituent le fondement d'une constitution efficace de l'IA :

  • Transparence: Il doit être facile de comprendre comment un modèle est parvenu à une réponse. Si une réponse est basée sur des faits, des estimations ou des modèles, elle sera transparente pour l'utilisateur. Cela renforce la confiance et aide les gens à juger s'ils peuvent se fier aux résultats du modèle.

  • L'égalité : Les réponses doivent rester cohérentes entre les différents utilisateurs. Le modèle ne doit pas modifier ses résultats en fonction du nom, de l'origine ou de la localisation d'une personne. L'égalité permet d'éviter les préjugés et de promouvoir l'égalité de traitement.

  • Responsabilité : Il doit être possible de savoir comment un modèle a été formé et ce qui a influencé son comportement. Lorsque quelque chose ne va pas, les équipes doivent être en mesure d'en identifier la cause et de l'améliorer. Cela favorise la transparence et la responsabilité à long terme.

  • La sécurité : Les modèles doivent éviter de produire des contenus susceptibles de nuire. Si une demande conduit à des résultats risqués ou dangereux, le système doit le reconnaître et s'arrêter. Cela protège à la fois l'utilisateur et l'intégrité du système.

Exemples d'IA constitutionnelle dans les grands modèles linguistiques

L'IA constitutionnelle est passée de la théorie à la pratique et est maintenant lentement utilisée dans de grands modèles qui interagissent avec des millions d'utilisateurs. Deux des exemples les plus courants sont les LLM d'OpenAI et d'Anthropic. 

Si les deux organisations ont adopté des approches différentes pour créer des systèmes d'IA plus éthiques, elles partagent une idée commune : apprendre au modèle à suivre un ensemble de principes directeurs écrits. Examinons ces exemples de plus près.

L'approche constitutionnelle de l'IA d'OpenAI

OpenAI a introduit un document appelé Model Spec dans le cadre du processus de formation de ses modèles ChatGPT. Ce document agit comme une constitution. Il décrit ce que le modèle doit viser dans ses réponses, y compris des valeurs telles que l'utilité, l'honnêteté et la sécurité. Il définit également ce qui est considéré comme un résultat nuisible ou trompeur. 

Ce cadre a été utilisé pour affiner les modèles de l'OpenAI en évaluant les réponses en fonction de leur adéquation avec les règles. Au fil du temps, cela a permis de façonner ChatGPT de manière à ce qu'il produise moins de résultats nuisibles et qu'il corresponde mieux à ce que les utilisateurs souhaitent réellement. 

__wf_reserved_inherit
Fig. 3. Exemple de ChatGPT utilisant le Model Spec d'OpenAI pour répondre.

Les modèles d'IA éthiques d'Anthropic

La constitution que suit Claude, le modèle d'Anthropic, est basée sur des principes éthiques provenant de sources telles que la Déclaration universelle des droits de l'homme, des directives de plateforme telles que les conditions de service d'Apple, et des recherches menées par d'autres laboratoires d'IA. Ces principes permettent de s'assurer que les réponses de Claude sont sûres, justes et conformes aux valeurs humaines les plus importantes.

Claude utilise également l'apprentissage par renforcement à partir du feedback de l'IA (RLAIF), qui lui permet d'examiner et d'ajuster ses propres réponses sur la base de ces directives éthiques, plutôt que de s'appuyer sur le feedback d'un être humain. Ce processus permet à Claude de s'améliorer au fil du temps, ce qui le rend plus évolutif et plus apte à fournir des réponses utiles, éthiques et non blessantes, même dans des situations délicates.

__wf_reserved_inherit
Fig. 4. Comprendre l'approche d'Anthropic en matière d'IA constitutionnelle.

Application de l'IA constitutionnelle à la vision par ordinateur

L'IA constitutionnelle ayant une influence positive sur le comportement des modèles linguistiques, la question se pose naturellement : Une approche similaire pourrait-elle aider les systèmes basés sur la vision à réagir de manière plus équitable et plus sûre ? 

Bien que les modèles de vision par ordinateur travaillent avec des images plutôt qu'avec du texte, le besoin de conseils éthiques est tout aussi important. Par exemple, l'équité et la partialité sont des facteurs clés à prendre en compte, car ces systèmes doivent être formés pour traiter tout le monde de la même manière et éviter les résultats nuisibles ou injustes lors de l'analyse des données visuelles.

__wf_reserved_inherit
Fig. 5. Défis éthiques liés à la vision par ordinateur. Image de l'auteur.

À l'heure actuelle, l'utilisation de méthodes d'IA constitutionnelles dans le domaine de la vision par ordinateur est encore à l'étude et n'en est qu'à ses débuts, la recherche dans ce domaine étant toujours en cours.

Par exemple, Meta a récemment présenté CLUE, un cadre qui applique un raisonnement de type constitutionnel aux tâches de sécurité des images. Il transforme des règles de sécurité générales en étapes précises que l'IA multimodale (systèmes d'IA qui traitent et comprennent plusieurs types de données) peut suivre. Cela permet au système de raisonner plus clairement et de réduire les résultats néfastes. 

En outre, CLUE rend les jugements sur la sécurité des images plus efficaces en simplifiant les règles complexes, ce qui permet aux modèles d'IA d'agir rapidement et avec précision sans nécessiter une intervention humaine importante. En utilisant un ensemble de principes directeurs, CLUE rend les systèmes de modération d'images plus évolutifs tout en garantissant des résultats de haute qualité.

Principaux enseignements

À mesure que les systèmes d'IA assument davantage de responsabilités, l'attention se déplace de ce qu'ils peuvent faire à ce qu'ils devraient faire. Ce changement est essentiel car ces systèmes sont utilisés dans des domaines qui ont un impact direct sur la vie des gens, tels que les soins de santé, l'application de la loi et l'éducation. 

Pour que les systèmes d'IA agissent de manière appropriée et éthique, ils ont besoin d'une base solide et cohérente. Cette base doit donner la priorité à l'équité, à la sécurité et à la confiance. 

Une constitution écrite peut fournir cette base pendant la formation, en guidant le processus de prise de décision du système. Elle peut également fournir aux développeurs un cadre pour revoir et ajuster le comportement du système après son déploiement, en veillant à ce qu'il continue à s'aligner sur les valeurs qu'il a été conçu pour défendre et en facilitant son adaptation à mesure que de nouveaux défis se présentent.

Rejoignez notre communauté grandissante dès aujourd'hui ! Plongez dans l'IA en explorant notre dépôt GitHub. Vous souhaitez créer vos propres projets de vision par ordinateur ? Explorez nos options de licence. Découvrez comment la vision par ordinateur améliore l'efficacité des soins de santé et explorez l'impact de l'IA dans l'industrie manufacturière en visitant nos pages de solutions !

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers