ニューロ・シンボリックAIの新領域：イントロダクション

現在、人工知能（AI）の急速な成長とコンピューティングパワーの利用可能性の増加のおかげで、高度なAIモデルがかつてない速さでリリースされている。実際、AIの領域は多くの業界で有意義なイノベーションを推進している。

例えば、医療分野では、早期診断のための医療画像の解析などの作業を支援するためにAIシステムが利用されている。しかし、他のテクノロジーと同様、AIにも限界がある。

大きな懸念のひとつは透明性である。例えば、物体検出モデルはMRI脳スキャンで腫瘍の位置を正確に特定するかもしれないが、そのモデルがどのようにしてその結論に至ったかを理解することは難しい。このような説明可能性の欠如は、医師や研究者がAIの結果を完全に信頼したり、検証したりすることを難しくする。

それこそが、ニューロシンボリックAIという新たな分野への関心が高まっている理由だ。ニューロシンボリックAIは、ディープラーニングのパターン認識の強みと、シンボリックAIに見られる構造化されたルールベースの推論を組み合わせたものだ。その目標は、正確な予測を行うだけでなく、人間が理解できる方法で推論を説明できるシステムを作ることである。

この記事では、ニューロシンボリック人工知能がどのように機能し、どのように学習と推論を組み合わせ、より透明性の高い、コンテキストを認識したシステムを構築するのかを探っていく。始めよう！

ニューロシンボリックAIの2つの側面：学習と推論

ニューロシンボリックAIに飛び込む前に、ディープラーニングとシンボリックAIという2つのサブフィールドを詳しく見てみよう。

ディープラーニングはデータのパターンを認識することに重点を置き、シンボリックAIはルール、ロジック、または常識を使って問題を推論する。それぞれに強みがあるが、限界もある。これらを組み合わせることで、ニューロシンボリックAIは、データから学習し、その決定をより明確に説明できるシステムを作り出す。

ディープラーニングの概要

ディープラーニングは機械学習の一分野であり、人工ニューラルネットワークを使用する。これらのネットワークは、大量のデータを分析し、パフォーマンスを向上させるために内部の接続を調整することによって学習する。

これにより、画像、音声、テキストのパターンを認識することができる。このため、ディープラーニングは画像認識、音声処理、言語翻訳といった知覚に特化したタスクに非常に効果的だ。

その良い例が、画像中の物体をsegment するように訓練されたコンピュータ・ビジョン・モデルである。十分なラベル付きサンプルがあれば、リアルタイムの交通映像から道路、車両、歩行者を分離することを学習できる。

しかし、ディープラーニング・モデルは、その正確さにもかかわらず、特定の結果に至った経緯を明確に説明するのに苦労することが多い。一般にブラックボックス問題と呼ばれるこの課題は、特に医療や金融のようなデリケートな分野において、ユーザーがモデルの決定を解釈したり検証したりすることを難しくする。責任あるAIには、透明性、信頼、そしてモデルが特定の予測を行った理由を理解する能力が求められるため、この問題は重要である。

記号的AIの探求

シンボリックAIは、知能と意思決定に対してより構造化されたアプローチをとる。シンボルを使って知識を表現し、その知識を扱うために論理的ルールを適用する。推論プロセスの各ステップが定義されているため、シンボリックAIの判断は透明性が高く、説明しやすい。

記号的知識は、計画やスケジューリング、構造化された知識の管理など、明確でよく定義されたルールに従うタスクでは特にうまく機能する。しかし、記号的AIは、構造化されていないデータや、あらかじめ定義されたカテゴリーにきちんと当てはまらない状況では苦戦する。

シンボリック・アプローチの一般的な例は、初期のチェス・プログラムである。彼らは、過去のゲームから学んだり、異なる対戦相手に適応したりするのではなく、手作りのルールと固定された戦略に従っていた。その結果、ゲームプレイは硬直的で予測可能なものになりがちだった。

‍

ニューロシンボリックAIとは何か？

2010年代に入り、ディープラーニングが広く採用されるようになると、研究者たちは単純なパターン認識を超えて、関係性や文脈を理解する方法を模索し始めた。このシフトにより、AIモデルは、猫とマットのようなシーン内のオブジェクトをdetect するだけでなく、猫がマットの上に座っていることを認識するなど、それらのオブジェクトがどのように関連しているかを解釈することが可能になった。

しかしこの進歩は、核となる限界も浮き彫りにした。ディープラーニング・モデルはパターンを非常によく認識できるが、その推論を説明したり、不慣れな状況に対処したりするのに苦労することが多いのだ。この推論への再注目は、研究者たちを1980年代から存在する分野、ニューロシンボリックAIへと導いた。

ニューロシンボリックAIは、ディープラーニングとシンボリックAIを統合したものだ。ディープラーニングと同じように例から学習し、同時に記号AIのように論理と推論を適用することができる。

簡単に言えば、ニューロシンボリックAIは情報を認識し、文脈を理解し、その決定に対してより明確な説明を提供することができる。このアプローチによって、より信頼性が高く、人間のような振る舞いをするAIシステムの開発に近づくことができる。

‍

ニューロシンボリックAIの仕組みの基本

ニューロ・シンボリック・アーキテクチャーは、学習と推論を単一のフレームワークで実現する。一般的には、生のデータを解釈する神経知覚層、論理を適用する記号推論層、そしてこの2つをつなぐ統合層の3つの主要部分が含まれる。次に、各レイヤーを詳しく見ていこう。

神経知覚層

ニューラル知覚コンポーネントは、画像、ビデオ、テキスト、オーディオなどの非構造化データを処理し、システムが扱うことのできる内部表現に変換する。通常、ディープラーニングモデルを使用してパターンをdetect し、入力内のオブジェクトや特徴を識別する。この段階では、システムはデータに何が存在するかを認識するが、意味、関係、コンテキストについてはまだ推論しない。

このレイヤーで使用される一般的なディープラーニング・モデルの種類をいくつか紹介しよう：

畳み込みニューラルネットワーク (CNN）：画像のような格子状のデータを処理するために設計されたニューラルネットワークの一種。CNNは畳み込みフィルターを使って画像を走査し、エッジ、テクスチャー、形状などのパターンをdetect 。これらのパターンを積み重ねることで、車、果物、人などの物体を認識することを学習する。
‍
変圧器：トランスフォーマーは、入力のさまざまな部分が互いにどのように関連しているかを理解するために設計されたモデルである。情報を厳密に順番に読むのではなく、データの複数の部分を同時に見て、どの部分が最も重要かを判断することができる。これは、テキストや画像、あるいはその両方の文脈を理解するのに役立つ。この柔軟性により、トランスフォーマーは最新の言語モデルや多くの視覚言語システムの中核をなすアーキテクチャーとなっている。
‍
リカレント・ニューラル・ネットワーク (RNN）：このタイプのモデルは、音声や時系列信号などのシーケンシャルなデータを分析するために設計されている。RNNは過去の入力を記憶しているため、時間の経過に伴う文脈を考慮して予測を行うことができる。

最終的に、これらのニューラル・モデルは生データから意味のある特徴を抽出し、表現する。この出力は、システムが検出したものを解釈し、理由づける記号的推論層の入力となる。

記号的推論層

記号的推論層は、神経知覚層によって生成された情報を、論理を使って意味づける。単なるパターンから働くのではなく、ルール、知識グラフ、知識ベース、オントロジー（概念とそれらが互いにどのように関連しているかの組織化された記述）といったものに依存する。これらは、異なる要素がどのように組み合わされ、与えられた状況でどのような行動が理にかなっているかをシステムが理解するのに役立つ。

例えば、自動運転車では、ニューラル知覚層がカメラ映像から赤信号を認識する。そして記号的推論層は、次のようなルールを適用することができる：「信号が赤なら、車両は停止しなければならない。推論が明確なルールに基づいているため、システムの判断は説明しやすく、検証しやすい。これは、安全性と説明責任が重要な状況では特に重要である。

統合レイヤー

統合層は神経知覚層と記号的推論層をつなぎ、学習と推論が共に機能するようにする。一方向では、神経モデルからの出力（歩行者の検出など）を、対象物とその属性を記述する記号表現に変換する。

もう一方は、象徴的なルール（例えば「横断歩道に歩行者がいる場合、車両は停止しなければならない」など）を受け取り、それを神経モデルを導く信号に変換する。これには、画像の関連領域を強調したり、注意に影響を与えたり、モデルの意思決定経路を形成したりすることが含まれる。

この双方向のやり取りは、フィードバックループを形成する。ニューラル側は記号的ルールから構造と解釈可能性を獲得し、一方、記号側は実世界のデータに基づいてより効果的に適応することができる。論理ニューラルネットワーク（LNN）などの技術は、論理的制約をニューラルアーキテクチャに直接埋め込むことによって、この相互作用を可能にするのに役立つ。

このように知覚と推論を結びつけることで、ニューロシンボリックAIは、正確で解釈しやすい判断を下すことができる。多くの研究者は、このアプローチは、より信頼性が高く、人間に沿ったAIへの有望な一歩であり、将来的には人工知能（AGI）に向けた進歩の基盤となる可能性があると考えている。

ニューロシンボリックAIの応用

ニューロシンボリックAIとは何か、どのように機能するのかについて理解を深めたところで、実際の使用例を見てみよう。

より安全な運転を：歩行者を見ることから理解することへ

自律走行車が安全に走行するためには、周囲の状況を把握する必要がある。歩行者、車両、車線標識、交通標識などをdetect するために、コンピューター・ビジョンのような技術を使用する。

ディープラーニング・モデルはこれらのオブジェクトを正確に識別することができるが、それらのオブジェクトがコンテキストにおいて何を意味するのか、あるいは実世界の状況において互いにどのように関連しているのかを必ずしも理解しているわけではない。例えば、ニューラル・モデルは横断歩道上の歩行者を認識するかもしれないが、彼らが横断しようとしているのか、それとも立って待っているだけなのかはわからない。

ニューロシンボリックAIは、自動運転車が視覚認識と論理的推論を組み合わせることで、単に物体を識別するだけでなく状況を解釈できるようにすることで、このギャップを埋めようとしている。最近のAI研究では、神経知覚と記号的ルールを組み合わせたシステムが歩行者の行動予測を改善できることが示されている。

これらのシステムでは、神経コンポーネントが歩行者の姿勢、動き、位置などの視覚的手がかりを分析する。次に、シンボリックコンポーネントが論理的ルールを適用し、その人が横断歩道の近くにいるかどうかや、現在の交通信号が何を示しているかといった要素を考慮する。

この2つの視点を組み合わせることで、神経記号システムは単に歩行者をdetect するだけでなく、それ以上のことができるようになる。歩行者が横断する可能性があるかどうかを合理的に予測し、その判断を下した理由を説明することができる。これは自律走行車のより安全で透明性の高い行動につながる。

図3.ニューロシンボリックAIを用いて、観察された歩行者の行動から予測を行う。出典

‍

視覚的質問に対する論理的解釈

ニューロシンボリックAIのもう一つの重要な応用は、視覚的質問応答（VQA）である。VQAシステムは画像に関する質問に答えるように設計されている。

大規模言語モデル（LLM）と視覚モデルを統合し、システムが見たものと理解したものを組み合わせて、マルチモーダル推論を実行する。例えば、VQAシステムが画像を見せられて「コップはテーブルの上にあるか」と尋ねられた場合、オブジェクトを認識するだけでなく、それらの間の関係も理解しなければならない。コップが実際にシーンの中でテーブルの上にあるかどうかを判断する必要がある。

最近の研究では、神経知覚と記号的推論を統合することで、神経記号AIがどのようにVQAを強化できるかが実証された。提案されたシステムでは、まずニューラルネットワークが画像を解析し、オブジェクトとその属性（色、形、大きさなど）を認識する。

次に、記号的推論コンポーネントが論理的ルールを適用して、これらのオブジェクトが互いにどのように関連しているかを解釈し、質問に答える。シーンに灰色の円柱はいくつあるか」と質問された場合、神経部分はすべての円柱とその色を識別し、記号部分は基準に基づいてそれらをフィルタリングし、正しいものを数える。

‍

このような研究は、ニューロシンボリックVQAが単に答えを提供するだけにとどまらないことを示している。このモデルは、結論に到達するまでのステップを示すことができるため、システムが予測を行い、人々が理解できる方法で推論を正当化する、説明可能なAIをサポートする。

ニューロシンボリックAIの長所と短所

ニューロ・シンボリックAIの主な利点は以下の通り：

より強力な推論能力： 純粋なディープラーニングモデルとは異なり、ニューロシンボリックAIは、シンボリックAIが伝統的に得意とする、多段階の推論、計画、ルールフォロー、構造化された知識領域の取り扱いを必要とするタスクを実行することができる。
‍
適応性： これらのシステムは、訓練された以上のことを論理的に推論することができるため、新しいタスクや見たことのないタスクに対して優れたパフォーマンスを発揮する。単にデータを記憶するのではなく、関係やパターンを理解する。
‍
ノイズや曖昧さに対する頑健性： 論理的制約は、データにノイズがあったり、不完全であったり、曖昧であったりする場合に、エラーを防ぐのに役立つ。推論層は、ニューラル予測をガイドまたは修正するルールを強制することができます。

その可能性にもかかわらず、ニューロシンボリックAIはまだ発展途上であり、ある種の実用的な課題を抱えている。以下はその主な限界のいくつかである：

複雑な統合：このハイブリッドフレームワークは強力な解釈可能性を提供するが、知覚と推論を融合するアルゴリズムの設計は依然として難しい。
‍
スケーラビリティ：記号的推論は、大きな知識グラフや複雑なルールセットを扱うとき、遅くなったり計算コストが高くなったりすることがある。これは、自律走行、ビデオ処理、または大規模な知識推論などのリアルタイムアプリケーションを、効率的に展開することを難しくする可能性がある。
‍
推論の頑健性： 記号化されたルールが厳密すぎると、システムは曖昧で予測不可能な実世界のシナリオで苦戦を強いられる可能性がある。柔軟な学習と信頼性の高い推論のバランスをとることは、現在も続く課題である。

主なポイント

ニューロシンボリックAIは、世界を認識するだけでなく、それについて推論し、その決定を説明できるAIシステムを構築するための重要な一歩となる。データから学習したパターンに依存する従来のディープラーニングシステムとは異なり、ニューロシンボリックAIは統計的学習と構造化された論理や知識を組み合わせている。ディープラーニングを置き換えるのではなく、ディープラーニングの上に構築することで、より人間に近い方法で理解し、推論できるAIの開発に少しずつ近づいている。

私たちのコミュニティに参加して、GitHubリポジトリを探索してください。私たちのソリューションページをチェックして、農業におけるAIとヘルスケアにおけるコンピュータビジョンの様々なアプリケーションを発見してください。私たちのライセンスオプションを発見し、あなたのビジョンAIプロジェクトの構築を始めましょう！

ニューロ・シンボリックAIの新分野入門

ニューロシンボリックAIの2つの側面：学習と推論

ディープラーニングの概要

記号的AIの探求

ニューロシンボリックAIとは何か？

ニューロシンボリックAIの仕組みの基本

神経知覚層

記号的推論層

統合レイヤー

ニューロシンボリックAIの応用

より安全な運転を：歩行者を見ることから理解することへ

視覚的質問に対する論理的解釈

ニューロシンボリックAIの長所と短所

主なポイント

このカテゴリの関連記事

テンプレートマッチングとは？簡単ガイド

姿勢推定ツールの究極ガイド

データセット蒸留とは何か？簡単な概要

AIの未来を
共に築きましょう！

ニューロ・シンボリックAIの新分野入門

ニューロシンボリックAIの2つの側面：学習と推論

ディープラーニングの概要

記号的AIの探求

ニューロシンボリックAIとは何か？

ニューロシンボリックAIの仕組みの基本

神経知覚層

記号的推論層

統合レイヤー

ニューロシンボリックAIの応用

より安全な運転を：歩行者を見ることから理解することへ

視覚的質問に対する論理的解釈

ニューロシンボリックAIの長所と短所

主なポイント

このカテゴリの関連記事

テンプレートマッチングとは？ 簡単ガイド

姿勢推定ツールの究極ガイド

データセット蒸留とは何か？ 簡単な概要

AIの未来を共に築きましょう！

テンプレートマッチングとは？簡単ガイド

データセット蒸留とは何か？簡単な概要

AIの未来を
共に築きましょう！