YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

基盤モデル

Foundationモデルが、スケーラブルなアーキテクチャ、広範な事前学習、多様なアプリケーションへの適応性により、AIに革命をもたらす様子をご覧ください。

基盤モデルは、広範な、ラベル付けされていない大量のデータでトレーニングされた大規模な機械学習(ML)モデルであり、幅広いダウンストリームタスクに適応できます。スタンフォード人間中心AI研究所によって作られたこの中核となる概念は、「創発的特性」であり、モデルはトレーニングされたデータからパターン、構文、およびセマンティクスの驚くほど多様な理解を開発します。この汎用性により、ファインチューニングと呼ばれるプロセスを通じて、より特殊なモデルを作成するための強力な出発点、または「基盤」として機能できます。

主な特徴と応用

基盤モデルの決定的な特徴は、転移学習パラダイムに由来する適応性です。開発者は、すべての問題に対して新しいモデルをゼロからトレーニングする代わりに、事前トレーニング済みの基盤モデルを取得し、タスク固有のはるかに小さなデータセットでそれを適合させることができます。これにより、高性能なAIシステムを構築するために必要なデータ、計算、および時間が大幅に削減されます。

現実世界のアプリケーションは、その多様性を示しています。

  1. 高度なチャットボットとバーチャルアシスタント: 大規模言語モデル(LLM)OpenAIのGPT-4など)は、言語の基盤モデルとして機能します。文法、事実、推論スキルを理解するために、大規模なインターネットテキストコーパスで事前トレーニングされています。企業は、社内ドキュメントと顧客インタラクションログを使用して微調整し、製品またはサービスに関する特定の質問に高い精度で回答できる特殊なチャットボットを作成できます。
  2. 医療画像解析: コンピュータビジョンでは、Meta AIのSegment Anything Model(SAM)のようなモデルは、画像セグメンテーションの基盤モデルです。これは、事前のコンテキストなしに、任意の画像内のオブジェクトを識別して概説できます。次に、医療研究者は、このモデルをMRIまたはCTスキャンのより小さなセットで微調整して、特定の臓器を正確にセグメント化したり、腫瘍のような異常を検出したりして、医療画像解析の診断を加速できます。

基盤モデル vs その他のモデル

基盤モデルを関連概念と区別することが重要です。

  • タスク固有のモデル: 従来、MLでは、物流における荷物の検出専用のUltralytics YOLOモデルのトレーニングなど、単一の目的のためにモデルをゼロからトレーニングする必要がありました。効果的ではありますが、このアプローチでは、新しいタスクごとに大量のラベル付きデータが必要です。基盤モデルは、より効率的な代替手段を提供します。
  • 大規模言語モデル(LLM): LLMは、言語タスクに焦点を当てた基盤モデルの一種として注目されています。ただし、「基盤モデル」という用語はより広く、画期的な論文「On the Opportunities and Risks of Foundation Models」で詳述されているように、ビジョン、オーディオ、およびその他のデータモダリティのモデルを包含します。
  • 特殊化されたビジョンモデル: Vision Transformer(ViT)のような大規模なビジョンモデルは基盤モデルと見なされますが、多くの特殊化されたCVモデルはそうではありません。たとえば、自動車におけるAIのような特定のアプリケーション向けに微調整されたYOLO11モデルは、特殊化されたモデルです。ただし、COCOのような大規模なデータセットから派生した基盤的な知識を具現化する、事前トレーニングされたバックボーンを活用します。

トレーニングと将来の重要性

基盤モデルの事前学習はリソース集約的な取り組みであり、多くの場合、数千ものGPUと大規模なエンジニアリング作業を必要とし、通常はGoogle AIDeepMindのような大規模な組織によって行われます。しかし、いったん学習されると、これらのモデルはより広く利用できるようになります。

Ultralytics HUBのようなプラットフォームは、カスタムモデルをトレーニングし、データセットを管理し、多くの場合、慎重なハイパーパラメータ調整を行ってソリューションをデプロイするためのワークフローを効率化することにより、ユーザーがこれらの基本的な機能を適合させるのに役立つツールを提供します。

基盤モデルは、強力な機能へのアクセスを民主化することで、AIの状況を変革しています。その台頭はまた、AI倫理データセットのバイアス、および計算格差に関する重要な議論をもたらします。将来は、テキスト、画像、およびサウンドからの情報を同時に理解して処理できる、より強力で効率的でマルチモーダルモデルに向かっており、AIユースケースの次の波を推進します。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました