用語集

憲法AI

憲法AIが、モデルを事前に定義された原則と人間の価値観に合わせることによって、倫理的で安全かつ偏りのないAI出力をどのように保証するかをご覧ください。

コンスティテューショナルAI（CAI）とは、人工知能（AI）システムを調整するために考案されたトレーニング方法である。人工知能（AI）システム人間の価値観に合致させるために考案されたトレーニング手法である。学習プロセスである。特定の出力ごとに人間のフィードバックに大きく依存する従来のアプローチとは異なり、CAIは、モデルが自己を批評し、修正することを可能にする。 CAIは、有用性、誠実さ、無害性といった原則に基づいて、モデル自身が自らの行動を批評し、修正することを可能にする。このアプローチはこのアプローチはアライメント・プロセスを自動化することで、倫理的ガイドラインを尊重する有能なアシスタントを訓練することが可能になる。管理しきれないほどの人間の監視を必要とすることなく。明示的な指示によってモデルの行動を制御することで開発者はアルゴリズムの偏りを減らしアルゴリズムのバイアスを減らし有害または安全でないコンテンツの生成を防ぐことができます。

憲法AIの仕組み

コンスティテューショナルAIのワークフローは、標準的な教師あり学習を超える、2つの異なるフェーズを含む。教師あり学習これらのフェーズではモデルは、外部の人間のラベルのみからではなく、憲法によって導かれる自身のフィードバックから学習する。

自己批評を伴う教師あり学習：このモデルは、プロンプトに対する応答を生成し、その出力を自己批評する。を行う。その応答がルールに違反している場合、例えば無礼であったり、偏っていたりする場合、モデルはその応答を修正する。モデルはそれを修正する。これにより、モデルのトレーニングのために、準拠した例からなる高品質のデータセットが作成される。モデルのトレーニング
AIフィードバックからの強化学習（RLAIF）：この段階では、モデルまたは別のフィードバックモデルモデルは応答のペアを評価し、より憲法に忠実な方を選択する。この嗜好データこの嗜好データは、嗜好モデルの訓練に使用され、強化学習を使用してメインモデルをガイドする。強化学習。これにより人間の嗜好ラベルをAIが生成したものに置き換え、微調整プロセスを効率化する。微調整プロセスを合理化する。

立憲AI対RLHF

CAIと人間のフィードバックからの強化学習（RLHF）とを区別することは極めて重要である。

RLHF：モデルの出力を手動で評価する人間の注釈者に頼る。効果的ではあるが、このプロセスは規模を拡大することは困難であり、データラベリング中に人間の作業員が不穏な内容やトラウマにさらされる可能性がある。データ・ラベリングの際に、人間の作業員が不穏な内容やトラウマ的な内容にさらされる可能性がある。
憲法AI：RLAIFを使用してフィードバックループを自動化する。憲法」を明確に定義することで「憲法」を明示的に定義することで、開発者はAIの動作の透明性を高めることができる。開発者はAIの動作に透明性を得ることができる。何千もの人間の評価から暗黙のうちに学習されるのではなく、明確なテキストで記述されるからだ。の評価から暗黙のうちに学習されるのではなく、明確なテキストとして記述されるからだ。これにより、スケーラビリティが向上し、人間のアノテーターを保護する。

実際のアプリケーション

コンスティテューショナルAIの起源は大規模言語モデル（LLM）はのような組織 Anthropicその原理はを含む、より広範な機械学習タスクに適応されつつある。コンピュータビジョン（CV）。

倫理的なチャットボットCAIは、ヘイトスピーチや違法行為の指示、政治的に偏ったコンテンツの生成を拒否する会話エージェントを訓練するために広く使用されています。ヘイトスピーチ、違法行為の指示、政治的に偏ったコンテンツの生成を拒否する会話エージェントを訓練するために広く使用されています。これにより生成的なAIツールは、公共の場展開されます。
セーフティ・クリティカル・ビジョン・システム自律走行車では自律走行車では "憲法 "アプローチでは、意思決定のための階層的ルールを定義することができる。例えば「人間の安全が交通効率に優先する」というルールは、複雑な道路シーンを分析する際にモデルを導くことができる、物体検出結果が安全性を優先して解釈されるようにする。安全が優先されるように解釈される。

推論におけるポリシー・チェックの実装

完全な憲法AIのトレーニングは複雑なフィードバックループを伴うが、開発者は「憲法チェック」の概念を応用することができる。「を適用することができる。を適用することができる。ポリシーに基づいて出力をフィルタリングすることができる。以下の例は YOLO11を使って物体をdetect し仮想的な安全ルールを適用して、信頼性の低い検出をフィルタリングし、高い信頼性を確保しています。

from ultralytics import YOLO

# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

AIアライメントの未来

モデルが人工知能（AGI）に向けてモデルが進化するにつれて、Constitutional AIのようなロバストなアライメント戦略の重要性が増している。これらの方法はこのような方法は、NIST AI Safety Instituteのような団体による新たな標準に準拠するために不可欠である。 NIST AIセーフティ・インスティテュート

Ultralytics 、安全性とアライメント機能をモデルのライフサイクルに統合する方法を積極的に研究しています。現在研究開発中の現在研究開発中の次期YOLO26アーキテクチャは、これらの安全目標に沿った高度な解釈可能性機能機能を組み込むことを目指しています。モデルの展開が安全かつ効率的であり続けることを保証します。を確保します。さらに、統一されたUltralytics プラットフォームは、データガバナンスを管理し、モデルの動作を監視するツールを提供します。モデルの動作を監視するツールを提供し、責任あるAIシステムの構築を促進します。

憲法AI

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

憲法AIの仕組み

立憲AI対RLHF

実際のアプリケーション

推論におけるポリシー・チェックの実装

AIアライメントの未来

このカテゴリの関連記事

未来の物体検出トレンド：注目すべき7つのポイント

Ultralytics YOLO モデルによる車両再識別の強化

Ultralytics YOLO モデルによる衝突予測の向上

Ultralytics コミュニティに参加する