用語集

大規模言語モデル（LLM）

大規模言語モデル（LLM）の基礎を探求しましょう。トランスフォーマーアーキテクチャ、トークン化、Ultralytics 組み合わせる方法について学びます。

大規模言語モデル（LLM）は、人間の言語を理解し、生成し、操作するために膨大なデータセットで訓練された高度な人工知能（AI）の一種である。これらのモデルは深層学習（DL）における重要な進化を表しており、数十億のパラメータを持つニューラルネットワークを活用して複雑な言語パターン、文法、意味的関係を捉える。その中核では、ほとんどの現代的なLLMはトランスフォーマーアーキテクチャを採用しており、これによりデータシーケンスを順次処理するのではなく並列処理が可能となる。このアーキテクチャは自己注意機構を採用しており、文中の異なる単語がテキスト内でどの位置にあろうと、それらが互いに持つ重要度をモデルが評価できるようにする。

大規模言語モデルの核心的メカニズム

LLMの機能はトークン化から始まる。これは生テキストをトークン（単語または部分単語）と呼ばれる小さな単位に分解するプロセスである。モデル訓練段階では、システムはインターネット、書籍、記事からペタバイト規模のテキストを分析する。非教師あり学習により、シーケンス内の次のトークンを予測し、言語の統計的構造を効果的に学習する。

この初期トレーニングの後、開発者はしばしば特定のタスク（医療分析やコーディング支援など）向けにモデルを特化させるため微調整を適用します。この適応性こそが、スタンフォード基礎モデル研究センターのような組織が classify 「基礎モデル」——特定のアプリケーションを構築するための広範な基盤classify 理由です。

実際のアプリケーション

大規模言語モデル（LLM）は、理論的研究の域を超え、様々な産業分野において実用的で影響力の大きい応用へと発展している：

インテリジェント仮想アシスタント：現代のカスタマーサービスは、大規模言語モデル（LLM）で駆動されるチャットボットに大きく依存している。従来のルールベースシステムとは異なり、これらのエージェントはニュアンスのある問い合わせに対応できる。精度向上と幻覚現象の低減のため、開発者は検索拡張生成（RAG）を統合し、モデルが回答前に最新の社外文書を参照できるようにしている。
マルチモーダル視覚言語システム：AIの最先端技術がテキストと視覚データを結びつける。視覚言語モデル（VLMs）は、ユーザーが自然言語で画像に質問することを可能にする。例えば、言語インターフェースとYOLO26のような堅牢な検出器を組み合わせることで、システムは音声コマンドに基づいてリアルタイム動画フィード内の物体を識別し、記述することができる。

コードでテキストと視覚をつなぐ

標準的な大規模言語モデル（LLM）がテキストを処理する一方で、業界はマルチモーダルAIへと移行しつつある。以下の例は、オープンボキャブラリ検出のためのテキスト記述を理解するモデルYOLO、言語プロンプトがコンピュータビジョンタスクを制御する方法を示している。

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

課題と今後の展望

その能力にもかかわらず、LLMはAIのバイアスに関する課題に直面している。なぜなら、トレーニングデータに含まれる偏見を意図せず再現する可能性があるからだ。さらに、Google モデルを訓練するために必要な膨大な計算能力は、エネルギー消費に関する懸念を引き起こしている。現在、研究はモデルの量子化に焦点を当てており、これらのシステムをエッジハードウェア上で実行するのに十分な効率性を実現しようとしている。

より深い技術的知見については、原論文「Attention Is All You Need」がトランスフォーマーの基礎理論を提供しています。また、 NVIDIA がこれらの大規模ワークロード向けにハードウェアを最適化している方法もご覧ください。

大規模言語モデル（LLM）

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

大規模言語モデルの核心的メカニズム

実際のアプリケーション

コードでテキストと視覚をつなぐ

関連概念の区別

課題と今後の展望

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

単眼深度推定とは何か？概要

Ultralytics YOLO を用いたAI脅威検知の活用事例

Ultralytics コミュニティに参加する

大規模言語モデル（LLM）

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

大規模言語モデルの核心的メカニズム

実際のアプリケーション

コードでテキストと視覚をつなぐ

関連概念の区別

課題と今後の展望

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

単眼深度推定とは何か？ 概要

Ultralytics YOLO を用いたAI脅威検知の活用事例

Ultralytics コミュニティに参加する

単眼深度推定とは何か？概要