大規模言語モデル(LLM)における幻覚の原因を発見し、AIが生成したコンテンツの不正確さを軽減する効果的な戦略を探る。
幻覚とは、ラージ・ランゲージ・モデル(LLM)が、自信に満ちて首尾一貫しているように見えるにもかかわらず、意味不明、事実誤認、または提供された入力コンテキストとは無関係なテキストを生成する現象を指す。このような出力は、モデルの学習データや外部の現実に基づいているのではなく、モデルの内部プロセスによって、次に出現する可能性の高い単語やトークンを予測しようとする結果なのです。幻覚を理解することは、人工知能(AI)システム、特に情報検索、コンテンツ作成、またはチャットボットや バーチャルアシスタントのようなプラットフォーム内での意思決定に使用されるシステムを責任を持って開発し、展開するために極めて重要である。
LLMは、(「Attention Is All You Need」論文で紹介した)Transformerのようなアーキテクチャ上に構築されることが多いが、基本的には確率的モデルである。LLMは、以下のようなフレームワークを使って、学習中に膨大な量のテキストデータからパターン、文法、事実の関連性を学習する。 PyTorchまたは TensorFlow.しかし、彼らには真の理解や意識、情報を本質的に検証する能力はない。幻覚はいくつかの要因から生じる:
幻覚はさまざまな形で現れる可能性があり、誤った情報を広めたり、有害なコンテンツを生成したり、AIシステムに対するユーザーの信頼を損なうなど、重大なリスクをもたらす。
その影響は単純なエラーにとどまらず、特に検索エンジン(GoogleAI概要のような)やバーチャルアシスタント、コンテンツ作成ツールに組み込まれるようになると、AIシステムの信頼性が問われることになる。この問題に対処することは、AIの倫理と安全性における中核的な課題であり、強固な検証と モニタリング戦略を必要とする。
幻覚を他のタイプのAIエラーと区別することは重要だ:
研究者や開発者は、LLMの幻覚を減らすことに積極的に取り組んでいる:
LLMが言語に焦点を当てているのに対して、コンピュータビジョン(CV)に特化したモデル、例えば以下のようなものがある。 Ultralytics YOLOのような物体検出に特化したモデルでは、動作が異なり、検出精度の確保などの明確な課題に直面する。しかし、言語と視覚を組み合わせたマルチモーダルモデル(CLIPのような)の傾向は、幻覚のような問題を理解することが、ドメインを越えて関連することを意味します。Ultralytics HUBのようなプラットフォームは、様々なAIモデルのトレーニングとデプロイメントをサポートし、異なるモダリティ間での開発を容易にします。