YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

推論エンジン

推論エンジンがUltralytics YOLO26のような機械学習モデルをリアルタイムデプロイメント向けにどのように最適化するかを知りましょう。今すぐエッジAIのパフォーマンスに関するヒントを探りましょう。

推論エンジンは、学習済み機械学習モデルを実行し、新しいデータから予測を生成するために設計された特殊なソフトウェアコンポーネントです。 バックプロパゲーションのような計算集約的なプロセスを通じてパターンを学習するトレーニングフェーズとは異なり、推論エンジンは モデルデプロイメントとして知られる運用フェーズに厳密に最適化されています。その主な目標は、スケーラブルなクラウドサーバーであろうとバッテリー駆動の Edge AIデバイスであろうと、ターゲットハードウェア上で 推論レイテンシを最小限に抑え、スループットを最大化することで、可能な限り効率的に計算を実行することです。トレーニングに必要なオーバーヘッドを取り除くことで、これらのエンジンは複雑な ニューラルネットワークがリアルタイムアプリケーションで機能することを可能にします。

推論エンジンがパフォーマンスを最適化する方法

トレーニング環境から推論エンジンへの移行は、通常、モデルの構造を効率化するためのいくつかの最適化ステップを伴います。モデルが学習する必要がなくなるため、エンジンは勾配更新に必要なデータを破棄し、事実上、モデルの重みを固定します。推論エンジンで一般的に使用される技術には、複数の操作を単一のステップに結合してメモリアクセスを減らすレイヤー融合や、重みを高精度浮動小数点形式から低精度整数(例:INT8)に変換するモデル量子化などがあります。

これらの最適化により、Ultralytics YOLO26のような高度なアーキテクチャは、accuracyを大幅に損なうことなく、信じられないほど高速で実行できます。最大限のパフォーマンスを引き出すために、異なるエンジンは特定のハードウェアエコシステムに合わせて調整されることがよくあります。

  • NVIDIA TensorRT: ハードウェア固有のカーネルを利用し、ネットワークグラフを最適化することで、NVIDIA GPU上で高性能な推論を実現します。
  • Intel OpenVINO: Intelアーキテクチャ(CPUや統合グラフィックスを含む)におけるディープラーニングのパフォーマンスを最適化し、エッジコンピューティングに最適です。
  • ONNX Runtime: ONNX形式のモデルをサポートするクロスプラットフォームアクセラレータであり、異なるフレームワークとハードウェアバックエンド間の橋渡しを提供します。

実際のアプリケーション

推論エンジンは、多くの現代のAIの利便性の背後にある目に見えない原動力であり、コンピュータービジョンシステムが環境に即座に反応することを可能にします。

  1. 自動運転車: 自動運転車では、物体検出モデルが歩行者、交通標識、その他の車両をミリ秒単位で識別する必要があります。車両のハードウェア上でローカルに動作する推論エンジンは、この処理がリアルタイム推論速度で行われることを保証します。クラウド接続に依存すると、危険な遅延が発生するためです。
  2. Smart Manufacturing: 工場では、産業用IoTカメラを利用して組み立てライン上の製品を検査します。推論エンジンはビデオフィードを処理して異常検知を実行し、欠陥を瞬時に検出します。この自動化により、生産速度を落とすことなく、無駄を削減し、厳格な品質管理を保証します。

推論エンジン vs. トレーニングフレームワーク

モデルの作成に使用されるソフトウェアと、それを実行するために使用されるエンジンを区別することは役立ちます。トレーニングフレームワークPyTorchTensorFlowなど)は、アーキテクチャの設計、損失の計算、教師あり学習によるパラメータの更新のためのツールを提供します。これは柔軟性とデバッグ機能を優先します。

対照的に、推論エンジンは、トレーニングフレームワークから完成した成果物を受け取り、実行速度とメモリ効率を優先します。トレーニングフレームワーク内で推論を実行することも可能ですが、特にTensorFlow LiteApple Core MLのようなツールを介して携帯電話や組み込みデバイスにデプロイする場合、専用エンジンを使用するほど効率的であることは稀です。

YOLO26を使用した推論エンジン

について ultralytics パッケージは、推論エンジンの複雑さの多くを抽象化し、ユーザーがシームレスに予測を実行できるようにします。内部では、画像の事前処理とモデルの実行を処理します。スケールアップを検討しているユーザーにとって、この Ultralyticsプラットフォーム 様々な推論エンジンと互換性のある最適化された形式へのモデルのトレーニングとエクスポートのプロセスを簡素化します。

以下の例は、事前学習済みのYOLO26モデルをロードし、画像に対して推論を実行する方法を示しています。

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on an image from a URL
# The 'predict' method acts as the interface to the inference process
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。