YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

大規模言語モデル(LLM)

大規模言語モデル (LLM) の基礎を探求します。Transformerアーキテクチャ、トークン化、そしてLLMを Ultralytics YOLO26 と組み合わせる方法について学びましょう。

A 大規模言語モデル (LLM)は、膨大なデータセットでトレーニングされ、人間の言語を理解、生成、操作する高度な人工知能 (AI)の一種です。これらのモデルは、数十億のパラメータを持つニューラルネットワークを利用して、複雑な言語パターン、文法、および意味関係を捉えるディープラーニング (DL)における重要な進化を象徴しています。その核心において、ほとんどの現代のLLMは、シーケンスデータを逐次的にではなく並行して処理することを可能にするTransformerアーキテクチャに依存しています。このアーキテクチャは自己注意メカニズムを採用しており、テキスト内の距離に関係なく、文中の異なる単語の相対的な重要性をモデルが評価することを可能にします。

大規模言語モデルの核心的メカニズム

LLMの機能はトークン化から始まる。 これは生テキストをトークン(単語または部分単語)と呼ばれる小さな単位に分解するプロセスである。 モデル訓練段階では、システムはインターネット、書籍、記事からペタバイト規模のテキストを分析する。 非教師あり学習により、シーケンス内の次のトークンを予測し、言語の統計的構造を効果的に学習する。

この初期トレーニングの後、開発者はしばしば 特定のタスク(医療分析やコーディング支援など)向けにモデルを特化させるため 微調整を適用します。この適応性こそが、スタンフォード基礎モデル研究センターのような組織が classify 「基礎モデル」——特定のアプリケーションを構築するための広範な基盤classify 理由です。

実際のアプリケーション

大規模言語モデル(LLM)は、理論的研究の域を超え、様々な産業分野において実用的で影響力の大きい応用へと発展している:

  • インテリジェントなバーチャルアシスタント: 現代の顧客サービスは、LLMを搭載したチャットボットに大きく依存しています。古いルールベースのシステムとは異なり、これらのエージェントは微妙なニュアンスの問い合わせにも対応できます。精度を向上させ、ハルシネーションを減らすために、開発者はRetrieval Augmented Generation (RAG)を統合し、モデルが回答する前に外部の最新の企業ドキュメントを参照できるようにしています。
  • マルチモーダル視覚言語システム: AIの最先端は、テキストと視覚データを結びつけます。 視覚言語モデル(VLM) を使用すると、ユーザーは自然言語で画像をクエリできます。例えば、言語インターフェースとYOLO26のような堅牢な検出器を組み合わせることで、システムは音声コマンドに基づいてリアルタイムのビデオフィード内のオブジェクトを識別し、記述できるようになります。

コードでテキストと視覚をつなぐ

標準的なLLMはテキストを処理しますが、業界はマルチモーダルAIへと移行しています。以下の例は、オープンボキャブラリ検出のためのテキスト記述子を理解するモデルであるYOLO-Worldを使用して、言語プロンプトがコンピュータビジョンタスクをどのように制御できるかを示しています。

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

関連概念の区別

大規模言語モデル(LLM)を、より広範な用語や類似の用語と区別することが重要です:

  • LLM vs. 自然言語処理 (NLP): NLPは、コンピュータと人間言語の相互作用に関わる包括的な学術分野です。LLMは、その分野内で最先端の結果を達成するために使用される特定のツールまたは技術です。
  • LLM vs. 生成AI: 生成AIは、新しいコンテンツを作成できるあらゆるAIを包含するカテゴリです。LLMはこのカテゴリのテキストベースのサブセットであり、Stable Diffusionのようなモデルは画像生成のサブセットに相当します。

課題と今後の展望

その能力にもかかわらず、LLMはAIのバイアスに関する課題に直面している。 なぜなら、トレーニングデータに含まれる偏見を意図せず再現する可能性があるからだ。 さらに、Google モデルを訓練するために必要な膨大な計算能力は、 エネルギー消費に関する懸念を引き起こしている。 現在、研究はモデルの量子化に焦点を当てており、 これらのシステムをエッジハードウェア上で実行するのに十分な効率性を実現しようとしている。

より深い技術的知見については、原論文 「Attention Is All You Need」がトランスフォーマーの基礎理論を提供しています。また、 NVIDIA がこれらの大規模ワークロード向けにハードウェアを最適化している方法もご覧ください。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。