Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

IA constitutionnelle

Découvrez comment l'IA constitutionnelle garantit des résultats d'IA éthiques, sûrs et non biaisés en alignant les modèles sur des principes prédéfinis et des valeurs humaines.

L'IA constitutionnelle (CAI) est une méthodologie de formation conçue pour aligner les systèmes d'intelligence artificielle (IA) sur les besoins de la société. les systèmes d'intelligence artificielle (IA) avec les valeurs humaines en intégrant un ensemble prédéfini de règles, ou une "constitution", directement dans le processus de formation. processus de formation. Contrairement aux approches traditionnelles qui dépendent fortement du retour d'information humain pour chaque résultat spécifique, l'IAO permet à un modèle de critiquer et de réviser ses propres règles. modèle de critiquer et de réviser son propre comportement sur la base de principes tels que la serviabilité, l'honnêteté et l'innocuité. Cette approche Cette approche répond au besoin croissant de sécurité de l'IA en en automatisant le processus d'alignement, ce qui permet de former des assistants capables de respecter les directives éthiques sans nécessiter une quantité ingérable de supervision humaine. En régissant le comportement du modèle par des instructions explicites, les développeurs peuvent réduire les biais algorithmiques et empêcher la génération de contenus contenu toxique ou dangereux.

Comment fonctionne l'IA constitutionnelle

Le flux de travail de l'IA constitutionnelle comprend généralement deux phases distinctes qui vont au-delà de l'apprentissage supervisé standard. l 'apprentissage supervisé standard. Ces phases permettent au modèle Ces phases permettent au modèle d'apprendre à partir de son propre retour d'information, guidé par la constitution, plutôt qu'uniquement à partir d'étiquettes humaines externes.

  1. Apprentissage supervisé avec autocritique : Le modèle génère des réponses à des invites et critique ensuite ses propres résultats en se basant sur les principes de la constitution. sa propre production sur la base des principes de la constitution. Si la réponse enfreint une règle, par exemple en étant impolie ou partiale, le modèle la révise. grossière ou biaisée, le modèle la révise. Cela permet de créer un ensemble de données de haute qualité d'exemples conformes pour l'entraînement du modèle. pour l'entraînement du modèle.
  2. Apprentissage par renforcement à partir du feedback de l'IA (RLAIF) : À ce stade, le modèle ou un modèle de rétroaction distinct évalue les paires de réponses et sélectionne celle qui respecte le mieux la constitution. évalue les paires de réponses et sélectionne celle qui respecte le mieux la constitution. Ces données de préférence sont utilisées pour former un modèle de préférence, qui guide ensuite le modèle principal à l'aide de l'apprentissage par renforcement. l 'apprentissage par renforcement. En fait, cela revient à remplace les étiquettes de préférence humaines par des étiquettes générées par l'IA, ce qui rationalise le processus de mise au point. processus de mise au point.

IA constitutionnelle contre RLHF

Il est essentiel de distinguer l'IPE de l'apprentissage par renforcement à partir du feedback humain (RLHF), car ils représentent des stratégies d'alignement différentes.

  • RLHF : s'appuie sur des annotateurs humains pour évaluer manuellement les résultats des modèles. Bien qu'efficace, ce processus est difficile à mettre à l'échelle et peut exposer les travailleurs humains à des contenus perturbants ou traumatisants lors de l'étiquetage des données. l 'étiquetage des données.
  • IA constitutionnelle : utilise le RLAIF pour automatiser la boucle de rétroaction. En définissant explicitement la explicitement la "constitution", les développeurs obtiennent une transparence du comportement de l 'IA, car les règles les décisions sont écrites en clair plutôt qu'implicitement apprises à partir de milliers d'évaluations humaines individuelles. humaines. Cela améliore l'évolutivité et protège les annotateurs humains.

Applications concrètes

L'IA constitutionnelle est née dans le contexte des grands modèles de langage (LLM) développés par des organisations telles que Anthropicses principes sont de plus en plus adaptés pour des tâches plus larges d'apprentissage automatique, y compris la vision artificielle (CV).

  • Chatbots éthiques : L'IAO est largement utilisée pour former des agents conversationnels qui refusent de produire des discours de haine, des instructions pour des actes illégaux ou des contenus politiquement biaisés. Cela permet de s'assurer que que les outils d'IA générative restent sûrs pour public.
  • Systèmes de vision critiques pour la sécurité : Dans les véhicules autonomes, une approche approche "constitutionnelle" peut définir des règles hiérarchiques pour la prise de décision. Par exemple, une règle stipulant "la sécurité humaine prime sur l'efficacité du trafic" peut guider le modèle lors de l'analyse de scènes routières complexes, de la route, en veillant à ce que les résultats de la détection d'objets soient les résultats de la détection d'objets soient interprétés en donnant la priorité à la sécurité.

Mise en œuvre des contrôles de politique dans l'inférence

Bien que la formation complète à l'IA constitutionnelle implique des boucles de rétroaction complexes, les développeurs peuvent appliquer le concept de "contrôles constitutionnels" au cours de la formation. "contrôles constitutionnels" pendant l'inférence l'inférence pour filtrer les résultats en fonction des de sécurité. L'exemple suivant illustre l'utilisation de YOLO11 pour detect objets et l'application d'une règle de sécurité hypothétique pour filtrer les détections à faible probabilité, garantissant ainsi une grande fiabilité.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

L'avenir de l'alignement de l'IA

Au fur et à mesure que les modèles évoluent vers Artificial General Intelligence (AGI), l'importance de stratégies d'alignement robustes telles que l'IA constitutionnelle s'accroît. Ces méthodes sont essentielles pour pour se conformer aux normes émergentes d'organismes tels que le NIST AI Safety Institute.

Ultralytics étudie activement la manière d'intégrer les caractéristiques de sécurité et d'alignement dans le cycle de vie du modèle. L'architecture YOLO26, actuellement en phase de R&D, vise à intégrer des fonctions d'interprétabilité d'interprétabilité qui s'alignent sur ces objectifs de sécurité, garantissant que que le déploiement des modèles reste sûr et efficace dans tous les secteurs d'activité. En outre, la plateforme unifiée Ultralytics fournira des outils pour gérer la gouvernance des données et surveiller le comportement des modèles, facilitant ainsi la création de systèmes d'IA responsables. surveiller le comportement des modèles, facilitant ainsi la création de systèmes d'IA responsables.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant