大規模言語モデル (LLM) の基礎を探求します。Transformerアーキテクチャ、トークン化、そしてLLMを Ultralytics YOLO26 と組み合わせる方法について学びましょう。
A 大規模言語モデル (LLM)は、膨大なデータセットでトレーニングされ、人間の言語を理解、生成、操作する高度な人工知能 (AI)の一種です。これらのモデルは、数十億のパラメータを持つニューラルネットワークを利用して、複雑な言語パターン、文法、および意味関係を捉えるディープラーニング (DL)における重要な進化を象徴しています。その核心において、ほとんどの現代のLLMは、シーケンスデータを逐次的にではなく並行して処理することを可能にするTransformerアーキテクチャに依存しています。このアーキテクチャは自己注意メカニズムを採用しており、テキスト内の距離に関係なく、文中の異なる単語の相対的な重要性をモデルが評価することを可能にします。
LLMの機能はトークン化から始まる。 これは生テキストをトークン(単語または部分単語)と呼ばれる小さな単位に分解するプロセスである。 モデル訓練段階では、システムはインターネット、書籍、記事からペタバイト規模のテキストを分析する。 非教師あり学習により、シーケンス内の次のトークンを予測し、言語の統計的構造を効果的に学習する。
この初期トレーニングの後、開発者はしばしば 特定のタスク(医療分析やコーディング支援など)向けにモデルを特化させるため 微調整を適用します。この適応性こそが、スタンフォード基礎モデル研究センターのような組織が classify 「基礎モデル」——特定のアプリケーションを構築するための広範な基盤classify 理由です。
大規模言語モデル(LLM)は、理論的研究の域を超え、様々な産業分野において実用的で影響力の大きい応用へと発展している:
標準的なLLMはテキストを処理しますが、業界はマルチモーダルAIへと移行しています。以下の例は、オープンボキャブラリ検出のためのテキスト記述子を理解するモデルであるYOLO-Worldを使用して、言語プロンプトがコンピュータビジョンタスクをどのように制御できるかを示しています。
from ultralytics import YOLOWorld
# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])
# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
大規模言語モデル(LLM)を、より広範な用語や類似の用語と区別することが重要です:
その能力にもかかわらず、LLMはAIのバイアスに関する課題に直面している。 なぜなら、トレーニングデータに含まれる偏見を意図せず再現する可能性があるからだ。 さらに、Google モデルを訓練するために必要な膨大な計算能力は、 エネルギー消費に関する懸念を引き起こしている。 現在、研究はモデルの量子化に焦点を当てており、 これらのシステムをエッジハードウェア上で実行するのに十分な効率性を実現しようとしている。
より深い技術的知見については、原論文 「Attention Is All You Need」がトランスフォーマーの基礎理論を提供しています。また、 NVIDIA がこれらの大規模ワークロード向けにハードウェアを最適化している方法もご覧ください。

未来の機械学習で、新たな一歩を踏み出しましょう。