YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

基盤モデル

AIにおける基盤モデルの能力を探りましょう。Ultralytics Platformを使用して、Ultralytics YOLO26のような大規模モデルをカスタムタスクに適応させる方法を学びましょう。

基盤モデルは、人工知能 (AI)の分野における重要なパラダイムシフトを意味します。これは、膨大な量のデータ(しばしば何十億ものパラメータを含む)でトレーニングされた大規模な機械学習モデルであり、幅広い下流タスクに適応できます。特定の種類の花を分類するような特定の単一の目的のために構築される従来の機械学習 (ML)モデルとは異なり、基盤モデルはリソース集約型の事前トレーニングフェーズ中に広範なパターン、構造、および関係性を学習します。この広範な知識ベースにより、開発者は転移学習を通じてモデルを新しい問題に適用でき、最先端の結果を達成するために必要な時間とデータを大幅に削減できます。

主要なメカニズム:事前学習と適応

基盤モデルの力は、事前学習とファインチューニングという2段階の開発プロセスにあります。事前学習では、モデルはインターネットの大部分、多様な画像ライブラリ、広範なコードリポジトリなどの大規模なデータセットにさらされます。この段階では、モデルがデータ構造自体から自身のラベルを生成し、手動のデータアノテーションのボトルネックを解消する自己教師あり学習という手法がよく利用されます。例えば、言語モデルは文中の次の単語を予測することを学習し、ビジョンモデルはエッジ、テクスチャ、オブジェクトの永続性を理解することを学習します。

事前学習後、モデルは汎用性の高い出発点として機能します。ファインチューニングと呼ばれるプロセスを通じて、開発者はより小規模なドメイン固有のデータセットでモデルの重みを調整できます。この機能はAIの民主化の中心であり、計算リソースが限られている組織でも強力なアーキテクチャを活用できるようになります。現代のワークフローでは、この適応プロセスを効率化するためにUltralytics Platformのようなツールがよく利用され、ニューラルネットワークをゼロから構築することなく、カスタムデータセットでの効率的なトレーニングを可能にします。

実際のアプリケーション

基盤モデルは、様々な産業におけるイノベーションの基盤として機能します。その汎化能力により、自然言語処理から高度なコンピュータビジョンに至るまで、幅広いタスクに適用可能です。

  • ヘルスケアにおけるコンピュータビジョン: 特殊なビジョン基盤モデルは、医用画像解析を支援するためにファインチューニングできます。一般的な画像でトレーニングされたモデルは、MRIスキャンで腫瘍をdetectしたり、X線でバックル骨折を識別したりするように適応させることができます。このアプリケーションは、一般的な視覚理解がどのように命を救う診断ツールに変換されるかを示しています。
  • 産業オートメーション: 製造業において、Ultralytics YOLO26のようなビジョンモデルは、object detectionの基盤アーキテクチャとして機能します。工場ではこれらのモデルを使用して品質検査を自動化し、組立ライン上の欠陥を高速かつ高精度にdetectします。モデルが持つオブジェクト境界に関する既存の知識は、これらのスマートマニュファクチャリングソリューションの展開を加速させます。

技術的な実装例

開発者は、最小限のコードで複雑なタスクを実行するために基盤モデルを活用できます。以下の例は、事前トレーニング済みのYOLO26モデル—リアルタイムアプリケーション向けに最適化されたビジョン基盤モデル—をロードし、画像上でオブジェクト検出を実行する方法を示しています。

from ultralytics import YOLO

# Load a pre-trained YOLO26 foundation model
# 'n' stands for nano, the smallest and fastest version
model = YOLO("yolo26n.pt")

# Perform inference on an image to detect objects
# The model uses its pre-trained knowledge to identify common objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

主要用語の区別

「ファウンデーションモデル」をAI分野における関連概念と区別することは、それぞれの特定の役割を理解する上で役立ちます。

  • 大規模言語モデル (LLM): LLMは、テキストを処理および生成するために特別に設計された基盤モデルの一種です。すべてのLLMは基盤モデルですが、すべての基盤モデルがLLMであるわけではありません。このカテゴリには、SAM (Segment Anything Model)のようなビジョンモデルやマルチモーダルシステムも含まれます。
  • 転移学習: これは、基盤モデルを新しいタスクに適用するために使用される手法です。基盤モデルはアーティファクト(保存されたニューラルネットワーク)であり、転移学習は、農業における害虫駆除のような特定のユースケースのために、そのアーティファクトの知識を更新するプロセスです。
  • 生成AI: これは、新しいコンテンツ(テキスト、画像、コード)を生成できるシステムを指します。多くの基盤モデルが生成AIアプリケーションを支えていますが、厳密には「生成」ではない分類やobject trackingのような識別タスクにも使用できます。

将来の方向性と影響

基盤モデルの進化はマルチモーダルAIへと向かっており、単一のシステムがテキスト、画像、音声、センサーデータからの情報を同時に処理し、関連付けることができます。スタンフォード大学人間中心AI研究所 (HAI)のような機関からの研究は、これらのシステムが人間により近い形で世界について推論する可能性を強調しています。これらのモデルがより効率的になるにつれて、エッジコンピューティングデバイスへの展開がますます実現可能になり、強力なAI機能がスマートフォン、ドローン、IoTセンサーに直接もたらされます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。