用語集

推論エンジン

リアルタイム予測、モデルの最適化、クロスプラットフォーム展開など、推論エンジンがどのようにAIを強化するかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

人工知能(AI)や機械学習(ML)の領域では、推論エンジンは、新しい未知のデータに対して予測を行うために学習済みモデルを実行する重要なソフトウェアまたはハードウェアコンポーネントである。学習段階でモデルがパターンを学習した後、推論エンジンはこの学習済みモデルを実世界の入力に適用する。推論として知られるこのプロセスにより、AIシステムは物体検出画像分類自然言語処理(NLP)などのタスクを実用的に実行できるようになる。推論エンジンは基本的に、学習した知識を実用的な出力に効率的に変換する、配備されたAIモデルの運用の心臓部である。

推論エンジンの仕組み

推論エンジンは、多くの場合、次のようなディープラーニング(DL)フレームワークを使用して開発された、事前に訓練されたモデルを利用する。 PyTorchまたは TensorFlowこれは、特定のタスクに必要な知識をカプセル化したものである。新しいデータ(画像、音声クリップ、テキスト文など)が入力として提供されると、推論エンジンはモデルの計算構造(多くの場合ニューラルネットワーク)を通してそれを処理する。これにより、画像内のバウンディングボックスでオブジェクトを識別したり、音声を書き起こしたり、感情を分類するなどの出力が生成される。 Ultralytics YOLOモデルは、強力なクラウドサーバーからリソースに制約のあるエッジデバイスまで、さまざまなプラットフォームでリアルタイムのオブジェクト検出と セグメンテーションを実現するために、効率的な推論エンジンに依存している。推論エンジンの性能は、アプリケーションの速度と応答性に直接影響し、多くの場合、推論の待ち時間とスループットで測定されます。

最適化と主要機能

最新の推論エンジンの重要な役割は、最適化である。大規模で訓練されたディープラーニングモデルを直接実行することは、計算コストが高く、時間がかかる可能性がある。推論エンジンは、モデルをより高速かつ効率的にし、多様なハードウェアへの展開を可能にするために、様々な技術を採用している。一般的なモデルの最適化戦略には、以下のようなものがある:

  • モデルの量子化モデルの重みの精度を下げ(例えば、32ビット浮動小数点から8ビット整数へ)、モデルのサイズを小さくし、計算を高速化する。
  • モデルの刈り込みニューラルネットワーク内の冗長な接続や重要でない接続(重み)を削除し、より小さく高速なモデルを作成する。
  • グラフの最適化:特定のハードウェア上での実行効率を向上させるために、モデルの計算グラフのレイヤーを融合したり、演算を並べ替えたりすること。
  • ハードウェアアクセラレーション: GPUTPU、またはGoogle EdgeTPU NVIDIA Jetsonのようなデバイスに見られる専用のAIアクセラレータのような特殊なプロセッサを活用する。

多くの推論エンジンは、ONNX (Open Neural Network Exchange)のような標準化されたモデル形式もサポートしています。 PyTorchなど)で学習したモデルを別のエンジンやプラットフォームで実行することができます。一般的な推論エンジン NVIDIA TensorRTIntel OpenVINOTensorFlow Liteなどがあります。Ultralytics モデルは、これらのエンジンと互換性のあるさまざまなフォーマットへのエクスポートをサポートしています

推論エンジンとトレーニングフレームワークの比較

推論エンジンをトレーニングフレームワークと区別することは重要だ。

  • トレーニングフレームワーク(例 PyTorch, TensorFlowKerasなど):これらは、機械学習モデルの構築、トレーニング、検証に使用される包括的なライブラリである。ネットワーク・アーキテクチャの定義、バックプロパゲーションの実装、データセットの管理、損失関数の計算などのツールを提供する。柔軟性と学習プロセスに重点が置かれている。
  • 推論エンジン(例. TensorRT, OpenVINOONNX Runtimeなど):これらは、予測タスク(モデルのデプロイメント)のために事前にトレーニングされたモデルを効率的に実行するように設計された特別なツールです。これらのツールの主な焦点は、速度(低レイテンシ)、低メモリ使用量、およびターゲットハードウェアとの互換性を最適化することである。フレームワークを使用してトレーニングされたモデルを、最適化されたフォーマットに変換することが多い。

実世界での応用

推論エンジンは、AIを実用的なシナリオに導入するために不可欠である:

  1. 自律走行車Waymoが開発したような)自動運転車は、センサーデータ(カメラやLiDAR)をリアルタイムで処理するために、組み込みハードウェア(NVIDIA Jetsonプラットフォームなど)上で動作する効率的な推論エンジンに大きく依存しています。エンジンは、YOLO ような複雑なコンピュータビジョンモデルを最適化し、物体検出(車、歩行者、標識の検出)やセマンティックセグメンテーション(道路レイアウトの理解)といったタスクに、安全にとって極めて重要な遅延を最小限に抑えます。車載ソリューションにおけるAIの詳細をご覧ください。
  2. 医療画像解析推論エンジンは、腫瘍(脳腫瘍データセットを参照)や異常の検出などのタスクのために、医療スキャン(X線、CT、MRI)の分析を加速する。推論エンジンによって最適化されたモデルは、病院のサーバーや特殊な医療機器上で迅速に実行され、より迅速な診断やセカンド・オピニオンを提供することで放射線科医を支援します(放射線学におけるAIを参照)。ヘルスケアソリューションにおけるAIをご覧ください。

要するに、推論エンジンは、訓練されたAIモデルとその実用的な応用との間のギャップを埋めるものであり、Ultralytics HUBのようなプラットフォームを介したモデルの管理を含め、幅広いデバイスやプラットフォームで高度なAI機能を効率的かつ効果的に提供できるようにするものである。

すべて読む