Inference Latency

Yapay zekada çıkarım gecikmesinin önemini keşfet. Daha hızlı ve daha duyarlı uygulamalar için Ultralytics YOLO26 ile gerçek zamanlı performansı nasıl optimize edeceğini öğren.

Çıkarım gecikmesi, bir makine öğrenimi (ML) modelinin bir girdi—örneğin bir görüntü veya metin istemi—alması ile buna karşılık gelen bir çıktı veya tahmin üretmesi arasındaki zaman gecikmesini temsil eder. Yapay zeka (AI) bağlamında, bu metrik genellikle milisaniye (ms) cinsinden ölçülür ve sistem yanıt verebilirliğinin kritik bir göstergesi olarak hizmet eder. Bilgisayarlı görü uygulamaları geliştiren yazılımcılar için gecikmeyi anlamak ve en aza indirmek, özellikle modelleri cep telefonları veya gömülü cihazlar gibi kaynak kısıtlı ortamlara dağıtırken akıcı, etkileşimli kullanıcı deneyimleri oluşturmak için temeldir.

Link to this sectionÇıkarım Gecikmesi Neden Önemlidir#

Çıkarım gecikmesinin önemi, büyük ölçüde belirli kullanım durumuna bağlıdır. Gece sunucu raporunu analiz etmek gibi bir toplu işleme görevi için birkaç saniyelik bir gecikme kabul edilebilir olsa da, etkileşimli uygulamalar için bu durum genellikle kabul edilemez. Düşük gecikme, sistemlerin verileri işlemesi ve anında tepki vermesi gereken gerçek zamanlı çıkarım süreçlerinin temel taşıdır.

Gecikmeyi azaltmak, AI ajanlarının insanlarla doğal bir şekilde etkileşime girmesini ve otomatik sistemlerin güvenli bir şekilde çalışmasını sağlar. Yüksek gecikme; "kasılan" arayüzlere, düşük kullanıcı tutundurma oranlarına veya güvenlik açısından kritik senaryolarda tehlikeli operasyonel hatalara yol açabilir. Mühendisler genellikle doğruluk oranını artırabilen model karmaşıklığı ile yürütme hızı arasındaki dengeyi kurmak zorundadır.

Link to this sectionGecikmeyi Etkileyen Faktörler#

Tek bir çıkarım geçişi için gereken toplam süreye katkıda bulunan çeşitli teknik bileşenler vardır:

Model Mimarisi: Sinir ağının (NN) tasarımı birincil faktördür. Çok katmanlı derin modeller genellikle daha sığ olanlardan daha fazla hesaplama gerektirir. YOLO26 gibi modern mimariler, minimum hesaplama yüküyle yüksek doğruluk sağlamak üzere özel olarak optimize edilmiştir.
Donanım Yetenekleri: İşlem birimi seçimi hızı derinden etkiler. Bir CPU çok yönlü olsa da, GPU (Grafik İşlem Birimi) veya TPU (Tensor İşlem Birimi) gibi özel donanımlar, derin öğrenmenin merkezindeki matris işlemlerini paralelleştirmek için tasarlanmıştır ve gecikmeyi önemli ölçüde azaltır.
Girdi Boyutu: Yüksek çözünürlüklü 4K video karelerini işlemek, standart 640p görüntüleri işlemekten daha uzun sürer. Geliştiriciler, hız ile küçük detayları algılama yeteneği arasında en iyi dengeyi bulmak için veri ön işleme sırasında genellikle girdileri yeniden boyutlandırırlar.
Optimizasyon Teknikleri: Model nicemleme (ağırlıkları daha düşük hassasiyete dönüştürme) ve model budama (gereksiz bağlantıları kaldırma) gibi yöntemler, yürütmeyi hızlandırmanın etkili yollarıdır. NVIDIA TensorRT gibi araçlar, modelleri belirli donanımlar için daha da optimize edebilir.

Link to this sectionGerçek Dünya Uygulamaları#

Çıkarım gecikmesinin etkisi, hızın tartışmaya açık olmadığı pratik örneklerle en iyi şekilde açıklanır.

Otonom Sürüş: Otomotiv alanında yapay zeka alanında, sürücüsüz bir araç çevresini yayalar, diğer araçlar ve trafik işaretleri için sürekli taramalıdır. Eğer nesne algılama sisteminde yüksek gecikme varsa, araç bir engel belirdiğinde zamanında fren yapamayabilir. Otoyol hızlarında 100 milisaniyelik bir gecikme bile birkaç metrelik bir sürüş mesafesine neden olabilir, bu da düşük gecikmeyi kritik bir güvenlik gereksinimi haline getirir.
Yüksek Frekanslı İşlemler: Finansal kuruluşlar, piyasa trendlerini analiz etmek ve işlemleri yürütmek için tahminleyici modelleme kullanır. Bu algoritmalar devasa miktarda veriyi işlemeli ve mikrosaniye cinsinden kararlar vermelidir. Bu alanda daha düşük gecikme doğrudan rekabet avantajına dönüşür ve firmaların, rakipleri tepki veremeden geçici piyasa fırsatlarından yararlanmalarını sağlar.

Link to this sectionPython ile Gecikmeyi Ölçme#

Ultralytics modellerinin çıkarım hızını, kıyaslama modunu kullanarak kolayca ölçebilirsin. Bu, donanım kısıtlamaların için doğru model boyutunu seçmene yardımcı olur.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Benchmark the model on CPU to measure latency
# This provides a breakdown of preprocess, inference, and postprocess time
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

Link to this sectionÇıkarım Gecikmesi vs. İş Hacmi (Throughput)#

Gecikmeyi iş hacminden (throughput) ayırmak önemlidir, çünkü bunlar model dağıtımı sürecinde birbiriyle ilişkili ancak farklı kavramlardır.

Çıkarım Gecikmesi, tek bir tahmin için geçen süreyi ölçer (örneğin, "Bu görüntüyü işlemek 20ms sürdü"). Bu, tek kullanıcılı, gerçek zamanlı uygulamalar için temel metrik budur.
İş Hacmi, zaman içindeki tahmin hacmini ölçer (örneğin, "Sistem saniyede 500 görüntü işledi"). Yüksek iş hacmi genellikle, birçok girdiyi aynı anda işleyen toplu iş boyutu artırılarak elde edilir. Ancak toplu işleme, kuyrukta bekleyen bireysel öğeler için gecikmeyi fiilen artırabilir.

Birini optimize etmek genellikle diğerinin maliyetiyle gerçekleşir. Örneğin, Edge AI uygulamaları anında geri bildirim sağlamak için gecikmeye öncelik verirken, bulut tabanlı veri madenciliği görevleri devasa veri setlerini verimli bir şekilde işlemek için iş hacmine öncelik verebilir.

Link to this sectionOptimizasyon Stratejileri#

Geliştiriciler gecikmeyi en aza indirmek için çeşitli stratejiler uygularlar. Modelleri dışa aktarmak, ONNX veya OpenVINO gibi optimize edilmiş formatlara dönüştürmek, standart CPU'larda önemli hız iyileştirmeleri sağlayabilir. Mobil dağıtımlar için modelleri TFLite veya CoreML formatlarına çevirmek, bunların iOS ve Android cihazlarda verimli bir şekilde çalışmasını sağlar. Ayrıca, MobileNet veya en son Ultralytics YOLO26 gibi hafif mimarileri kullanmak, temel modelin tasarım gereği verimli olmasını sağlar. Kullanıcılar ayrıca, modelleri karmaşık manuel yapılandırmalar olmadan bu optimize edilmiş formatlara sorunsuz bir şekilde dağıtmak için Ultralytics Platform aracından yararlanabilirler.

Explore solutions

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Inference Latency

Link to this sectionÇıkarım Gecikmesi Neden Önemlidir#

Link to this sectionGecikmeyi Etkileyen Faktörler#

Link to this sectionGerçek Dünya Uygulamaları#

Link to this sectionPython ile Gecikmeyi Ölçme#

Link to this sectionÇıkarım Gecikmesi vs. İş Hacmi (Throughput)#

Link to this sectionOptimizasyon Stratejileri#

Explore solutions

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Yapay zekanın geleceğini birlikte inşa edelim!