用語集

推論エンジン

推論エンジンが、リアルタイム予測の提供、モデルの最適化、クロスプラットフォーム展開の実現により、AIを強化する様子をご覧ください。

推論エンジンは、トレーニング済みの機械学習モデルを実行して、新しい、未知のデータから予測を生成する特殊なソフトウェアコンポーネントです。PyTorchやTensorFlowなどのフレームワークを使用してモデルをトレーニングした後、推論エンジンが引き継ぎ、本番環境で効率的に実行します。その主な目標は、速度とリソース使用量のためにモデルを最適化し、強力なクラウドサーバーからリソースに制約のあるエッジデバイスまで、さまざまなハードウェアプラットフォームでリアルタイム推論を実現できるようにすることです。

推論エンジンの役割

推論エンジンの主な機能は、学習済みモデルと実際のアプリケーションとの間のギャップを埋めることです。推論レイテンシを最小限に抑え、精度を大幅に損なうことなくスループットを最大化するために、いくつかの重要な最適化を実行します。

主な最適化手法は次のとおりです：

グラフ最適化: エンジンは、モデルの計算グラフを分析し、複数の連続した操作を1つに結合して計算オーバーヘッドを削減する「レイヤー融合」などの最適化を適用します。
ハードウェア固有の最適化： CPU、GPU、またはGoogleのTPUのような特殊なAIアクセラレータなど、特定のハードウェア上で実行するためにモデルをコンパイルします。これには、ハードウェアのアーキテクチャに合わせて高度に最適化されたコンピュートカーネルを使用することが含まれます。
精度削減： モデル量子化などの手法を使用して、モデルの重みを32ビット浮動小数点数から、より効率的な16ビットまたは8ビット整数に変換します。これにより、メモリ使用量が大幅に削減され、計算が高速化されます。これは、特にエッジコンピューティングにとって重要です。
モデルプルーニング: 推論エンジンは、モデルプルーニングによって不要な重みが削除されたモデルの実行を容易にし、モデルのサイズと計算需要をさらに削減できます。

一般的な推論エンジン

多くの組織が、深層学習モデルを高速化するために、高性能な推論エンジンを開発しています。一般的な選択肢は次のとおりです。

NVIDIA TensorRT: NVIDIA GPU向けの高性能オプティマイザおよびランタイムであり、最先端の推論速度を提供します。Ultralyticsは、YOLOモデルをデプロイするためのTensorRTとのシームレスな統合を提供します。
IntelのOpenVINO: CPUや統合GPUなどのIntelハードウェアでモデルを最適化およびデプロイするためのオープンソースツールキット。Ultralyticsモデルは、OpenVINOに簡単にエクスポートできます。
ONNX Runtime: Microsoftによって開発されたクロスプラットフォームエンジンで、ONNX（Open Neural Network Exchange）形式のモデルを幅広いハードウェアで実行できます。
TensorFlow Lite (TFLite): AndroidやiOSなどのモバイルおよび組み込みデバイスでのモデルのデプロイ用に特別に設計された軽量ソリューション。
Apache TVM: さまざまなハードウェアバックエンド向けにモデルを最適化できるオープンソースの機械学習コンパイラフレームワーク。

実際のアプリケーション

推論エンジンは、数え切れないほどのAIアプリケーションの運用上のバックボーンです。

自動車向けAIソリューションでは、推論エンジンが車両のオンボードコンピュータ上で動作し、カメラやセンサーからのデータを処理します。これは、歩行者、交通標識、その他の車両をミリ秒単位で識別するために、物体検出モデル（例えばUltralytics YOLO11）を実行し、重要な安全機能を実現します。
スマートファクトリー向けには、工場フロアの推論エンジンが、品質管理のためのコンピュータビジョンシステムを強化します。これは、生産ラインからの画像をリアルタイムで分析して欠陥を検出し、製品が高速度かつ高信頼性で品質基準を満たしていることを保証します。

推論エンジンと関連概念

推論エンジンをMLOpsの他の関連用語と区別すると理解しやすくなります。

MLフレームワークと推論エンジン: PyTorchのような機械学習フレームワークは、モデルのトレーニングとデプロイの両方のための包括的なライブラリです。これには、データセットの構築、管理、およびトレーニングループの実行のためのツールが含まれています。対照的に、推論エンジンは、デプロイ段階に特化した高度に特殊化されたツールです。フレームワークには基本的な推論機能がありますが、専用の推論エンジンは、積極的なハードウェア固有の最適化を通じて優れたパフォーマンスを提供します。
モデルサービング vs. 推論エンジン: モデルサービングとは、APIエンドポイント、ロードバランサー、監視ツールなどのコンポーネントを含む、ネットワーク上でモデルを利用できるようにするためのより広範なインフラストラクチャを指します。推論エンジンは、予測リクエストを実行するモデルサービングシステム内のコアコンポーネントです。さまざまなモデルデプロイメントオプションを調べて、推論エンジンがより大きな全体像にどのように適合するかを確認できます。Ultralytics HUBのようなプラットフォームは、トレーニングから最適化されたデプロイメントまで、このプロセス全体を効率化します。

推論エンジン

Ultralytics YOLOモデルをトレーニングして、業界全体のワークフローを効率化

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOでAIモデルを数秒でトレーニング

推論エンジンの役割

一般的な推論エンジン

実際のアプリケーション

推論エンジンと関連概念

このカテゴリの関連記事

ビットから量子ビットへ：量子最適化がAIをどう変えるか

初心者のためのAIモデルのトレーニング方法クイックガイド

洞察に満ちたドバイから：GDG MENA-Tサミット2025の要点

Ultralyticsコミュニティに参加しませんか？