Düşük çıkarım gecikmesiyle yapay zeka performansını optimize edin. Gerçek zamanlı yanıtları iyileştirmek için temel faktörleri, gerçek dünya uygulamalarını ve tekniklerini öğrenin.
Çıkarım gecikmesi, bir çıkarım ile bir çıkarım arasında geçen süredir. bir girdi alan makine öğrenimi (ML) modeli ve buna karşılık gelen bir çıktı üretir. Tipik olarak milisaniye (ms) cinsinden ölçülen bu metrik, aşağıdakiler için belirleyici bir faktördür duyarlılığı yapay zeka (AI) sistemleri. Üzerinde çalışan geliştiriciler ve mühendisler için bilgisayarla görme (CV) projeleri, en aza gecikme genellikle doğruluğu en üst düzeye çıkarmak kadar kritiktir, özellikle de insanlarla veya fiziksel makinelerle etkileşime giren uygulamaları dağıtırken. Yüksek gecikme süresi şunlara neden olur Düşük gecikme kesintisiz bir kullanıcı deneyimi yaratır ve anında karar vermeyi sağlarken, yavaş performans modern için temel kavram akıllı sistemler.
Model dağıtımı alanında, hız Bir sistemin verileri işlemesi, belirli görevler için fizibilitesini belirler. Düşük çıkarsama gecikmesi, aşağıdakilerin temel taşıdır gerçek zamanlı çıkarım, tahminlerin eyleme dönüştürülebilir olması için katı bir zaman bütçesi içinde gerçekleşmesi gerekir. Örneğin, birkaç yüz milisaniyelik bir gecikme bir öneri sistemi için kabul edilebilir alışveriş sitesi, ancak güvenlik açısından kritik sistemler için felaket olabilir. Özel durumların anlaşılması Geliştirme döngüsünün başlarında bir projenin gecikme gereksinimleri ekiplerin güvenilirliği sağlamak için uygun model mimarilerini ve donanım konfigürasyonlarını seçmelerine olanak tanır.
Tek bir çıkarım geçişi için gereken toplam süreye çeşitli değişken bileşenler katkıda bulunur:
Çıkarım gecikmesinin pratikteki etkisi en iyi, hızın pazarlık konusu olmadığı somut kullanım durumları aracılığıyla anlaşılabilir.
"Gecikme" ile "iş hacmi "ni birbirinden ayırmak çok önemlidir, çünkü bunlar genellikle birbiriyle ters orantılıdır optimizasyon hedefleri.
Bu gecikme ve verim arasındaki denge geliştiricilerin çıkarım işlem hatlarını dağıtım ortamının özel ihtiyaçlarına göre ayarlamalarını gerektirir.
Ultralytics modellerinin performansını yerleşik kıyaslama modunu kullanarak değerlendirebilirsiniz. Bu araç ayrıntılı bilgi sağlar gibi farklı formatlar arasında çıkarım hızına ilişkin metrikler ONNX veya TorchScript.
from ultralytics import YOLO
# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")
# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")
Mümkün olan en düşük gecikme süresini elde etmek için, geliştiriciler genellikle bir donanımlarına uygun çıkarım motoru. İçin kullanarak bir modeli NVIDIA Jetson cihazına dağıtma TensorRT optimizasyonu, diğer optimizasyonlara kıyasla önemli hız artışları sağlayabilir. ham koşu PyTorch Kod. Benzer şekilde, aşağıdakileri kullanarak Intel OpenVINO üzerinde performansı hızlandırabilir standart CPU mimarileri. Bu araçlar hesaplama grafiğini optimize eder, katmanları birleştirir ve belleği daha fazla yönetir standart eğitim çerçevelerinden daha etkilidir.
