Yolo 深圳
深セン
今すぐ参加
用語集

憲法AI

倫理原則を用いて、Constitutional AIがモデルを人間の価値観に整合させる方法を調査する。Ultralytics を用いたコンピュータビジョンにおける安全チェックの実装方法を学ぶ。

憲法AIとは、人工知能システムを人間の価値観に整合させるための手法であり、個々の出力に対する膨大な人間からのフィードバックにのみ依存するのではなく、一連の高次原則——「憲法」——を提供することで実現される。このアプローチは本質的に、AIモデルに「有益であること」「無害であること」「差別を避けること」といった事前定義されたルールセットに基づいて、自らの行動を批判し修正することを教えるものである。これらの倫理的指針をトレーニングプロセスに直接組み込むことで、開発者は人間からの手動フィードバックに依存する強化学習(RLHF)よりも、より安全で透明性が高く、拡張しやすいシステムを構築できる。 差別を避ける」といった事前定義されたルールに基づいて自身の行動を批判し修正するようAIモデルに教えるものである。これらの倫理的指針を訓練プロセスに直接組み込むことで、開発者は手動による人間からのフィードバックに基づく強化学習(RLHF)に依存するシステムよりも、より安全で透明性が高く、拡張しやすいシステムを構築できる。

憲法上のAIの仕組み

憲法AIの中核となる革新性は、モデルの整合を自動化する二段階のトレーニングプロセスにある。従来の教師あり学習では人間が正しい回答を一つ一つラベル付けする必要があるが、憲法AIはモデル自体を用いてトレーニングデータを生成する。

  1. 教師あり学習フェーズ:モデルはプロンプトに対する応答を生成し、憲法原則に基づいて自身の出力を自己評価する。 その後、応答を修正して規則との整合性を高める。この精緻化されたデータセットを用いてモデルを微調整し、 ガイドラインを本質的に順守するよう学習させる。
  2. 強化学習フェーズ:このフェーズは、しばしばAIフィードバックからの強化学習(RLAIF)と呼ばれ、人間のラベラーに取って代わる。AIは応答のペアを生成し、憲法に最も適合する方を選択する。この選好データは報酬モデルを訓練し、標準的な強化学習技術を通じて望ましい行動を強化する。

コンピュータ・ビジョンとの関連性

憲法AIは、 組織によって開発された大規模言語モデル(LLM)の文脈で生まれたものである。 Anthropicなどの組織によって開発された大規模言語モデル(LLM)の文脈で生まれたものの、 その原則はコンピュータビジョン(CV)を含むより広範な機械学習タスクにおいて ますます関連性が高まっている。

  • 倫理的な画像生成: 画像生成用生成AIツールは、 暴力的な、憎悪を煽る、または著作権侵害となる画像を生成するプロンプトを拒否するよう 「本質的に」訓練することが可能です。 これにより、モデル自身の重み付けに 安全制約が組み込まれ、有害な視覚コンテンツの生成が防止されます。
  • 安全上重要なビジョンシステム自律走行車両において、 「憲法的」アプローチは意思決定のための階層的ルールを定義できる。 例えば「人間の安全が交通効率に優先する」というルールは、 複雑な道路状況を分析する際にモデルを導き、 物体検出結果が安全を最優先に解釈されることを保証する。

ビジョンAIにおけるポリシーチェックの実装

完全な憲法AIトレーニングには複雑なフィードバックループが伴うが、開発者は推論時に「憲法チェック」の概念を適用し、安全ポリシーに基づいて出力をフィルタリングできる。以下の例は、YOLO26を用いた detect 安全ルールを適用し、信頼性の低い検出結果をフィルタリングする手法を示しており、信頼性憲法を模倣している。

from ultralytics import YOLO

# Load the YOLO26 model (latest stable Ultralytics release)
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

憲法AI対従来型RLHF

憲法に基づくAIと標準的な 人間からのフィードバックに基づく強化学習(RLHF)を区別することが重要である。

  • スケーラビリティ:RLHFはモデル出力を評価するために膨大な人的労力を必要とし、高コストで時間がかかる。 Constitutional AIはAIエージェントでこれを自動化し、高いスケーラビリティを実現する。
  • 透明性:RLHFでは、モデルは不透明な「報酬信号」(スコア)から学習するため、 なぜ特定の行動が選ばれたのかを把握することが困難である。憲法AIでは、 批判フェーズで用いられる思考プロンプトの連鎖により、 推論が明示化され、特定の文書化された原則に遡及可能となる。
  • 一貫性:人間の評価者は一貫性を欠いたり偏見を持つ可能性がある。文書化された憲法はAI倫理の安定した基盤を提供し、整合プロセスにおける主観性を低減する。

アライメントの未来

モデルが 人工知能(AGI)に向けてモデルが進化するにつれて、Constitutional AIのようなロバストなアライメント戦略の重要性が増している。これらの方法は このような方法は、NIST AI Safety Instituteのような団体による新たな標準に準拠するために不可欠である。 NIST AIセーフティ・インスティテュート

Ultralytics 、データガバナンスとモデル監視を管理するツールを提供し、 責任あるAIシステムの構築を促進します。 データ収集から モデル展開に至るAI開発ライフサイクル全体に倫理的配慮を統合することで、 組織はリスクを軽減し、 自社の技術が社会に積極的に貢献することを保証できます。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加