用語集

憲法AI

コンスティテューショナルAIが、モデルを事前に定義された原則と人間の価値観に合わせることで、倫理的で安全かつ公平なAIの出力を保証する方法をご覧ください。

コンスティテューショナルAI(CAI)は、AIモデル、特にラージ・ランゲージ・モデル(LLM)を、"コンスティテューショナル "と呼ばれる特定のルールや原則に沿うようにトレーニングするために、Anthropic社が開発した手法である。CAIの主な目標は、AIシステムを有用で無害なものにし、人間の大規模なフィードバックを必要とせずに、より制御しやすくすることである。人間が常に有害な出力にレッテルを貼る代わりに、AIはその定款の指導原則に基づいて自らの反応を批評し、修正することを学習する。このアプローチは、有害なコンテンツの生成の防止やアルゴリズムによるバイアスの低減など、AI倫理における重要な課題の解決に役立つ。

憲法AIの仕組み

CAIのトレーニング・プロセスには通常、大きく2つの段階がある:

  1. 教師あり学習段階:最初に、基礎モデルが回答を生成するよう促される。次に、同じモデルに、憲法に基づいて自分の回答を批評し、その原則によりよく沿うように書き換えるよう求める。これにより、改善された、憲法に沿った例の新しいデータセットが作成される。この自己批評の仕組みは、単純なルールのリストであったり、国連人権宣言のような複雑な情報源から得られたりする憲法によって導かれる。
  2. 強化学習フェーズ:その後、強化学習(RL)を用いてモデルを微調整する。この段階では、AIは回答のペアを生成し、(最初の段階で自己批判されたデータで訓練された)選好モデルが、体質に最も忠実なものを選択する。このプロセスにより、AIはその中核となる原則と一致する出力を本質的に好むようになる。

CAIの重要な実例は、Anthropic社のAIアシスタント、クロードに実装されている。CAIは、有害な指示の生成を回避し、違法行為への関与を拒否し、無害な方法でコミュニケーションするよう、その体質を導いている。別の応用例としては、自動化されたコンテンツモデレーションがある。CAI駆動モデルは、事前に定義された倫理的ガイドラインのセットに従って、オンライン上のヘイトスピーチや誤った情報を特定し、フラグを立てるために使用できる。

憲法AIと関連概念

CAIを類似の用語と区別することは重要である:

  • 人間のフィードバックからの強化学習(RLHF)RLHFは、人間がフィードバックを提供し、AIが生成した応答をランク付けすることに依存しており、時間がかかり、スケーリングが困難である。CAIは、人間のフィードバック・ループをAI主導のものに置き換え、モデルの体質がフィードバックを導く。これにより、アライメント・プロセスはよりスケーラブルで一貫したものになる。
  • AI倫理これは、責任あるAIを生み出すための道徳的原則と技術的問題に関わる幅広い分野である。コンスティテューショナルAIは、明示的な倫理ルールをモデルの学習プロセスに直接組み込むことで、AI倫理を実践するための実用的なフレームワークとみなすことができる。

アプリケーションと将来の可能性

現在、コンスティテューショナルAIは、主に対話生成やテキスト要約のようなタスクのためにLLMに適用されている。しかし、その根底にある原理は、コンピュータ・ビジョン(CV)を含む他のAI領域にも拡張できる可能性がある。例えば

グーグルAIや AIセーフティ・インスティテュートのような組織では、効果的な憲法を開発・改良し、AIが多様なコンテクストで憲法を忠実に守ることを保証することが、依然として活発な研究分野となっている。Ultralytics HUBのようなツールは、様々なAIモデルのトレーニングとデプロイメントを容易にし、Constitutional AIに似た原則を取り入れることは、責任あるモデルのデプロイメントを保証するためにますます重要になるだろう。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク