用語集

推論エンジン

リアルタイム予測、モデルの最適化、クロスプラットフォーム展開など、推論エンジンがどのようにAIを強化するかをご覧ください。

推論エンジンは、新しい未知のデータから予測を生成するために、学習済みの機械学習モデルを実行する特殊なソフトウェアコンポーネントである。PyTorchや TensorFlowのようなフレームワークを使ってモデルが学習された後、推論エンジンがそれを本番環境で効率的に実行するために引き継ぐ。このエンジンの主な目標は、スピードとリソース使用量のためにモデルを最適化することであり、強力なクラウドサーバーからリソースに制約のあるエッジデバイスまで、様々なハードウェアプラットフォーム上でリアルタイム推論を実現することが可能になる。

推論エンジンの役割

推論エンジンの中核的な機能は、学習済みモデルと実世界での応用とのギャップを埋めることである。推論エンジンは、精度を大きく損なうことなく、推論の待ち時間を最小化し、スループットを最大化するために、いくつかの重要な最適化を実行します。

主な最適化技術は以下の通り:

  • グラフの最適化:このエンジンはモデルの計算グラフを分析し、計算オーバーヘッドを削減するために複数の逐次処理を1つにまとめる「レイヤー融合」などの最適化を適用する。
  • ハードウェア固有の最適化: CPUや GPU、あるいはグーグルのTPUのような特殊なAIアクセラレーターなど、特定のハードウェア上で動作するようにモデルをコンパイルする。これには、ハードウェアのアーキテクチャに合わせて高度に最適化された計算カーネルを使用することが含まれる。
  • 精度の削減: モデルの重みを32ビットの浮動小数点数から、より効率的な16ビットまたは8ビットの整数に変換するために、モデルの量子化などの技術が使用されます。これによりメモリ使用量が大幅に削減され、計算が高速化されます。これはエッジコンピューティングにおいて特に重要です。
  • モデルの枝刈り:推論エンジンは、モデルの枝刈りによって不要な重みが取り除かれたモデルの実行を容易にし、モデルのサイズと計算量をさらに削減することができる。

人気の推論エンジン

多くの組織が、ディープラーニング・モデルを高速化する高性能推論エンジンを開発している。人気のある選択肢は以下の通り:

  • NVIDIA TensorRT:NVIDIA GPU用の高性能オプティマイザとランタイムで、最先端の推論速度を提供します。Ultralyticsは、YOLOモデルを展開するためにTensorRTとのシームレスな統合を提供します。
  • IntelのOpenVINOCPUや統合GPUを含むIntelハードウェア上でモデルを最適化し、デプロイするためのオープンソースのツールキット。UltralyticsモデルはOpenVINOに簡単にエクスポートできます。
  • ONNXランタイムマイクロソフトが開発したクロスプラットフォームエンジンで、ONNX(Open Neural Network Exchange)フォーマットのモデルをさまざまなハードウェアで実行できる。
  • TensorFlow Lite(TFLite)AndroidやiOSのようなモバイルデバイスや組み込みデバイスにモデルをデプロイするために特別に設計された軽量ソリューションです。
  • Apache TVMオープンソースの機械学習コンパイラーフレームワークで、様々なハードウェアバックエンド向けにモデルを最適化できる。

実世界での応用

推論エンジンは、数え切れないほどのAIアプリケーションの運用を支えている。

  1. 車載ソリューション向けAIでは、推論エンジンが車両のオンボードコンピュータ上で動作し、カメラやセンサーからのデータを処理する。このエンジンは、Ultralytics YOLO11のような物体検出モデルを実行し、歩行者、交通標識、その他の車両をミリ秒単位で識別し、重要な安全機能を実現する。
  2. スマート・マニュファクチャリングでは、工場内の推論エンジンが品質管理用のコンピュータ・ビジョン・システムを駆動する。生産ラインの画像をリアルタイムで解析して欠陥を検出し、製品が品質基準を満たすことを高速かつ確実にします。

推論エンジンと関連概念

推論エンジンをMLOpsの他の関連用語と区別することは有益である。

  • MLフレームワークと推論エンジンの比較: PyTorchのような機械学習フレームワークは、モデルの学習とデプロイの両方を行うための包括的なライブラリである。ニューラルネットワークを構築し、データセットを管理し、トレーニングループを実行するためのツールが含まれている。これに対して推論エンジンは、デプロイの段階だけに特化した専門性の高いツールだ。フレームワークは基本的な推論機能を持つが、専用の推論エンジンは、ハードウェアに特化した積極的な最適化により、優れたパフォーマンスを提供する。

  • モデルサービングと推論エンジンの比較:モデルサービングとは、モデルをネットワーク上で利用可能にするための広範なインフラストラクチャを指し、APIエンドポイント、ロードバランサー、モニタリングツールなどのコンポーネントが含まれる。推論エンジンは、予測リクエストを実行するモデルサービングシステム内のコアコンポーネントです。推論エンジンが全体像にどのようにフィットするかを確認するために、様々なモデルデプロイメントオプションを調べることができます。Ultralytics HUBのようなプラットフォームは、トレーニングから最適化されたデプロイメントまで、このプロセス全体を合理化します。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク