Yolo 深圳
深セン
今すぐ参加
用語集

自然言語理解(NLU)

自然言語理解(NLU)をご覧ください。これは、機械が人間の言語を理解、解釈、応答できるようにするAIのブレークスルーです。

自然言語理解(NLU)は、人工知能(AI)の専門分野である。 人工知能(AI)の専門分野である。 機械による読解に特化した専門分野である。標準的なテキスト処理が単語を数えるのに対し、NLUは人間の言語の背後にある意味、意図、感情を解読することを目的としている。 人間の言葉の背後にある意味、意図、感情を解読することを目的としている。NLUは、ソフトウェアが以下のような構造化されていないテキストを解釈するための「頭脳」である。 電子メール、チャットログ、音声コマンドのような非構造化テキストを解釈し、構造化された実用的なデータに変換する。 データに変換する。この機能は、以下のような直感的なシステムを構築するための基本です。 チャットボットや ユーザーと自然に対話できるバーチャルアシスタント 自然に。

NLUの主な構成要素

言語を効果的に「理解」するために、NLUシステムは入力をいくつかの意味のある層に分解する。この このプロセスは、生のテキストをアルゴリズムが作用できる構造化されたフォーマットに変換する。

  • 意図の認識: これはユーザーの目的を特定するものである。例えば、ユーザーが "I need a flight to Tokyo "とタイプした場合 と入力した場合、その意図は BookFlight.これは、目標指向のAIエージェントにとって極めて重要である。
  • 名前付き固有表現認識(NER) これは、名前、日付、場所、製品コードなどの特定の情報を抽出する。例えば "金曜日にグレンと会う "というフレーズでは、NERは "グレン "を PERSON そして 「金曜日」を DATE.
  • センチメント分析これは 肯定的、否定的、または中立的なテキストの感情的なトーンを評価します。カスタマーサポートで広く使用され ユーザー満足度を自動的に測定する。
  • 文脈推論:大規模言語モデル(LLM)と 大規模言語モデル(LLM)と 個々のセンテンスにとどまらず、参照や曖昧さを理解するために 参照やあいまいさを理解する(例えば、会話の中で "it "が何を指すかを理解する)。

実際のアプリケーション

NLUは、私たちが日常的に使っている多くのテクノロジーを支えるエンジンであり、人間のコミュニケーションと機械のロジックのギャップを埋めている。 ロジックのギャップを埋める。

  1. カスタマーサービス自動化:企業はインテリジェントなサポート・エージェントを動かすためにNLUを利用する。以下のようなプラットフォーム IBMワトソン自然言語理解 のようなプラットフォームは、入力されたサポート・チケットを分析し、意図に基づいて適切な部署にルーティングし、さらに問題の説明に基づいて対応策を提案することができます。 問題の説明に基づいて対応を提案することもできる。
  2. 意味検索:単語を正確にマッチさせるキーワード検索とは異なり、NLU主導の検索エンジンはクエリの意味を理解する。 はクエリの意味を理解する。これにより、ユーザーは "UltralyticsCEOは誰ですか?"のような質問をすることができます。 というような質問をすると、"CEO "という単語を含むリンクのリストではなく、直接的な答えを受け取ることができる。
  3. 音声によるコントロール:デバイスは、音声コマンドを解析するためにNLUに依存している。ユーザーが「リビングの照明を消して」と言うと リビングルームの照明を消して」とユーザーが言うと、システムはNLUを使用して、アクション(「消す」)とターゲットエンティティ(「リビングルームの照明」)を識別する。 エンティティ(「リビングルームの照明」)を識別する。

NLU vs. NLP vs. コンピュータビジョン

NLUを関連するAI分野と区別することは有益である:

  • 自然言語処理(NLP) NLPはすべての言語タスクを包括する分野である。NLUは特に 理解サブセット(Input $to $ Meaning)である。もう1つのサブセットである自然言語生成(NLG)は、テキストの作成(意 テキストを作成する(Meaning $to $ Output)。
  • コンピュータビジョン(CV)一方 NLUがテキストを処理するのに対し、CVは視覚データを解釈する。しかし、最新の マルチモーダルモデルは両方を 両方を組み合わせている。例えば、YOLOようなモデルは、NLUを使ってテキストプロンプト(「青いリュックサック」)を解釈し、次にCVを使って画像内のオブジェクトを見つける。 テキストプロンプト(例えば「青いリュックサック」)を解釈し、CVを使って画像内のオブジェクトを見つける。

視覚AIにおけるNLU:オープン語彙検出

NLUをコンピュータビジョンと統合することで、"Open-Vocabulary Object Detection "が可能になる。固定されたクラスリスト(COCOの80クラスのような クラス(COCO80クラスのような)の固定リストに制限される代わりに、モデルは説明的なテキストに基づいてオブジェクトをdetect することができます。その Ultralytics YOLOWorld このモデルは、オンボードのテキスト・エンコーダを使って、見つけたいクラスを "理解 "することで、これを例証している。 を "理解 "する。

次の例は、NLUによってビジョン・モデルがどのように純粋にテキストによって定義されたカスタム・オブジェクトをdetect できるかを示している:

from ultralytics import YOLOWorld

# Load a YOLO-World model (incorporates NLU for text-based class definition)
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language
# The model's NLU component understands these terms without retraining
model.set_classes(["person reading a book", "red coffee mug"])

# Run inference on an image
results = model.predict("library.jpg")

# Display results
results[0].show()

ツールと今後の動向

NLUの分野は、次のようなグループの研究によって急速に進歩している。 スタンフォードNLPグループや Association for Computational Linguistics (ACL)のようなグループの研究により、NLU分野は急速に発展している。テクノロジーは 単純なキーワードのマッチングから深い文脈理解へと移行している。

開発者にとっては、今後発表されるUltralytics Platform(2026年発表)は、AIモデルのライフサイクルを合理化する。 AIモデルのライフサイクルを合理化し、データセットの管理や、視覚と言語理解の両方を活用した複雑なマルチモーダルシステムの導入を容易にします。 言語理解。現在の最先端の視覚タスクは、以下の方法で処理できる。 YOLO11で処理することができる。 YOLO26の研究開発が続けられており、速度と精度のさらなる緊密な統合を目指している。のようなクラウド・サービスも Google Cloud Natural Languageのようなクラウド・サービスも、アプリケーションに純粋なNLU機能を追加するための堅牢なAPIを提供している。 を提供している。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加