リアルタイム予測、モデルの最適化、クロスプラットフォーム展開など、推論エンジンがどのようにAIを強化するかをご覧ください。
人工知能(AI)や機械学習(ML)の領域では、推論エンジンは、新しい未知のデータに対して予測を行うために学習済みモデルを実行する重要なソフトウェアまたはハードウェアコンポーネントである。学習段階でモデルがパターンを学習した後、推論エンジンはこの学習済みモデルを実世界の入力に適用する。推論として知られるこのプロセスにより、AIシステムは物体検出、画像分類、自然言語処理(NLP)などのタスクを実用的に実行できるようになる。推論エンジンは基本的に、学習した知識を実用的な出力に効率的に変換する、配備されたAIモデルの運用の心臓部である。
推論エンジンは、多くの場合、次のようなディープラーニング(DL)フレームワークを使用して開発された、事前に訓練されたモデルを利用する。 PyTorchまたは TensorFlowこれは、特定のタスクに必要な知識をカプセル化したものである。新しいデータ(画像、音声クリップ、テキスト文など)が入力として提供されると、推論エンジンはモデルの計算構造(多くの場合ニューラルネットワーク)を通してそれを処理する。これにより、画像内のバウンディングボックスでオブジェクトを識別したり、音声を書き起こしたり、感情を分類するなどの出力が生成される。 Ultralytics YOLOモデルは、強力なクラウドサーバーからリソースに制約のあるエッジデバイスまで、さまざまなプラットフォームでリアルタイムのオブジェクト検出と セグメンテーションを実現するために、効率的な推論エンジンに依存している。推論エンジンの性能は、アプリケーションの速度と応答性に直接影響し、多くの場合、推論の待ち時間とスループットで測定されます。
最新の推論エンジンの重要な役割は、最適化である。大規模で訓練されたディープラーニングモデルを直接実行することは、計算コストが高く、時間がかかる可能性がある。推論エンジンは、モデルをより高速かつ効率的にし、多様なハードウェアへの展開を可能にするために、様々な技術を採用している。一般的なモデルの最適化戦略には、以下のようなものがある:
多くの推論エンジンは、ONNX (Open Neural Network Exchange)のような標準化されたモデル形式もサポートしています。 PyTorchなど)で学習したモデルを別のエンジンやプラットフォームで実行することができます。一般的な推論エンジン NVIDIA TensorRTやIntel OpenVINO、TensorFlow Liteなどがあります。Ultralytics モデルは、これらのエンジンと互換性のあるさまざまなフォーマットへのエクスポートをサポートしています。
推論エンジンをトレーニングフレームワークと区別することは重要だ。
推論エンジンは、AIを実用的なシナリオに導入するために不可欠である:
要するに、推論エンジンは、訓練されたAIモデルとその実用的な応用との間のギャップを埋めるものであり、Ultralytics HUBのようなプラットフォームを介したモデルの管理を含め、幅広いデバイスやプラットフォームで高度なAI機能を効率的かつ効果的に提供できるようにするものである。