Foundation Model
AIにおける基盤モデルの力を探求します。Ultralytics Platformを使用して、Ultralytics YOLO26のような大規模モデルをカスタムタスクに適応させる方法を学びましょう。
基盤モデルは、人工知能 (AI) 分野における重要なパラダイムシフトを象徴するものです。これは、膨大なデータで学習され、多くの場合数十億のパラメータを含む大規模な機械学習モデルであり、幅広い下流タスクに適応可能です。特定の種類の花を分類するといった単一の目的のために構築される従来の機械学習 (ML) モデルとは異なり、基盤モデルはリソース集約型の事前学習フェーズを通じて、広範なパターン、構造、および関係性を学習します。この広範な知識ベースにより、開発者は転移学習を通じてモデルを新しい問題に適用でき、最先端の結果を得るために必要な時間とデータを大幅に削減できます。
Link to this section中核となるメカニズム:事前学習と適応#
基盤モデルの強みは、事前学習とファインチューニングという2段階の開発プロセスにあります。事前学習中、モデルはインターネットの大部分、多様な画像ライブラリ、広範なコードリポジトリといった膨大なデータセットに触れます。この段階では、自己教師あり学習が活用されることが多く、これはモデルがデータ構造自体から独自のラベルを生成し、手動でのデータアノテーションというボトルネックを取り除く手法です。例えば、言語モデルは文中の次の単語を予測することを学習し、一方ビジョンモデルはエッジ、テクスチャ、およびオブジェクトの恒常性を理解することを学習します。
事前学習が完了すると、モデルは多用途な出発点として機能します。ファインチューニングと呼ばれるプロセスを通じて、開発者はより小規模なドメイン固有のデータセットでモデルの重みを調整できます。この機能はAIの民主化の中核をなすものであり、計算リソースが限られている組織でも強力なアーキテクチャを活用できるようになります。最新のワークフローでは、Ultralytics Platformのようなツールを使用してこの適応プロセスを合理化し、ニューラルネットワークをゼロから構築することなく、カスタムデータセットでの効率的なトレーニングを可能にしています。
Link to this section実社会での応用#
基盤モデルは、さまざまな業界におけるイノベーションのバックボーンとして機能します。その汎用性により、自然言語処理から高度なコンピュータビジョンに至るまで、幅広いタスクに応用可能です。
- ヘルスケアにおけるコンピュータビジョン: 専門化されたビジョン基盤モデルをファインチューニングすることで、医療画像解析を支援できます。一般画像で学習されたモデルは、MRIスキャンの腫瘍検出や、X線写真でのバックル骨折の特定に適応可能です。この応用例は、一般的な視覚的理解がいかにして命を救う診断ツールへと転換されるかを示しています。
- 産業オートメーション: 製造業において、Ultralytics YOLO26のようなビジョンモデルは、物体検出の基盤アーキテクチャとして機能します。工場ではこれらのモデルを使用して品質検査を自動化し、組立ラインの欠陥を高速かつ高精度に検出しています。物体境界に関するモデルの既存知識は、これらのスマートマニュファクチャリングソリューションの展開を加速させます。
Link to this section技術的な実装例#
開発者は基盤モデルを活用して、最小限のコードで複雑なタスクを実行できます。以下の例では、リアルタイムアプリケーション向けに最適化されたビジョン基盤モデルである、事前学習済みのYOLO26モデルをロードし、画像に対して物体検出を実行する方法を示しています。
from ultralytics import YOLO
# Load a pre-trained YOLO26 foundation model
# 'n' stands for nano, the smallest and fastest version
model = YOLO("yolo26n.pt")
# Perform inference on an image to detect objects
# The model uses its pre-trained knowledge to identify common objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()Link to this section主要な用語の区別#
AI環境における関連概念から「基盤モデル」を区別し、それぞれの役割を理解することは有益です。
- 大規模言語モデル (LLM): LLMは、特にテキストを処理および生成するように設計された種類の基盤モデルです。すべてのLLMは基盤モデルですが、すべての基盤モデルがLLMというわけではありません。このカテゴリには、SAM (Segment Anything Model)のようなビジョンモデルやマルチモーダルシステムも含まれます。
- 転移学習: これは、基盤モデルを新しいタスクに適用するために使用される手法です。基盤モデルは成果物(保存されたニューラルネットワーク)であり、転移学習はその成果物の知識を特定のユースケースに合わせて更新するプロセスです。例えば、農業における害虫駆除などが挙げられます。
- 生成AI: これは、新しいコンテンツ(テキスト、画像、コード)を作成できるシステムを指します。多くの基盤モデルが生成AIアプリケーションを強化していますが、これらは厳密には「生成」ではない分類や物体追跡のような識別タスクにも使用できます。
Link to this section将来の方向性と影響#
基盤モデルの進化はマルチモーダルAIに向かって進んでおり、単一のシステムがテキスト、画像、音声、およびセンサーからの情報を同時に処理し関連付けることが可能になります。スタンフォード大学人間中心AI研究所 (HAI)などの機関による研究は、これらのシステムが人間のように世界について推論する可能性を強調しています。これらのモデルがより効率的になるにつれて、エッジコンピューティングデバイスへの展開がますます現実的となり、強力なAI機能がスマートフォン、ドローン、およびIoTセンサーに直接もたらされるようになります。






