Model Serving

Model sunumunun (serving), eğitilmiş modeller ile üretim arasındaki boşluğu nasıl kapattığını öğren. Ultralytics Platformunda Ultralytics YOLO26 için dağıtım stratejilerini keşfet.

Model serving, eğitilmiş bir makine öğrenimi modelini barındırma ve işlevselliğini bir ağ arayüzü aracılığıyla yazılım uygulamalarına sunma sürecidir. Bir diskte kayıtlı statik bir model dosyası ile gerçek dünya verilerini işleyen canlı bir sistem arasında köprü görevi görür. Bir model machine learning (ML) eğitim aşamasını tamamladığında, girdi (görüntü, metin veya tablo verisi gibi) alabileceği ve tahmin döndürebileceği bir üretim ortamına entegre edilmelidir. Bu genellikle modelin bir Application Programming Interface (API) içine sarılarak web sunucuları, mobil uygulamalar veya IoT cihazları ile iletişim kurmasını sağlamasıyla gerçekleştirilir.

Link to this sectionYapay Zekada Model Serving'in Rolü#

The primary goal of model serving is to operationalize predictive modeling capabilities effectively. While training focuses on accuracy and loss minimization, serving focuses on performance metrics like latency (how fast a prediction is returned) and throughput (how many requests can be handled per second). Robust serving infrastructure ensures that computer vision (CV) systems remain reliable under heavy loads. It often involves technologies like containerization using tools such as Docker, which packages the model with its dependencies to ensure consistent behavior across different computing environments.

Link to this sectionGerçek Dünya Uygulamaları#

Model serving, veriye dayalı anlık karar vermeyi mümkün kılarak çeşitli endüstrilerdeki yaygın yapay zeka özelliklerine güç sağlar.

Akıllı Üretim: Endüstriyel ortamlarda, AI in manufacturing sistemleri, montaj hatlarını incelemek için sunulan modelleri kullanır. Bileşenlerin yüksek çözünürlüklü görüntüleri yerel bir sunucuya gönderilir; burada bir YOLO26 modeli çizik veya yanlış hizalama gibi kusurları tespit eder ve hatalı ürünlerin ayrıştırılması için anında uyarılar tetikler.
Perakende Otomasyonu: Perakendeciler, müşteri deneyimlerini geliştirmek için AI in retail teknolojilerinden yararlanır. object detection modelleri tarafından sunulan kameralar, ödeme bölgesindeki ürünleri tanımlar ve manuel barkod taramaya gerek kalmadan toplam maliyeti otomatik olarak hesaplar.

Link to this sectionPratik Uygulama#

To serve a model effectively, it is often beneficial to export models to a standardized format like ONNX, which promotes interoperability between different training frameworks and serving engines. The following example demonstrates how to load a model and run inference, simulating the logic that would exist inside a serving endpoint using Python.

from ultralytics import YOLO

# Load the YOLO26 model (this typically happens once when the server starts)
model = YOLO("yolo26n.pt")

# Simulate an incoming API request with an image source URL
image_source = "https://ultralytics.com/images/bus.jpg"

# Run inference to generate predictions for the user
results = model.predict(source=image_source)

# Process results (e.g., simulating a JSON response to a client)
print(f"Detected {len(results[0].boxes)} objects in the image.")

Link to this sectionDoğru Stratejiyi Seçmek#

Sunum stratejisi seçimi, büyük ölçüde özel kullanım durumuna bağlıdır. Online Serving, kullanıcı odaklı web uygulamaları için gerekli olan REST veya gRPC gibi protokoller aracılığıyla anında yanıtlar sağlar. Buna karşılık, Batch Serving, gece raporu oluşturma gibi görevler için uygun olan büyük hacimli verileri çevrimdışı işler. İnternet bağımlılığı olmadan gizlilik veya düşük gecikme süresi gerektiren uygulamalar için Edge AI, sunum sürecini doğrudan cihaza taşır ve kısıtlı donanımda performansı en üst düzeye çıkarmak için TensorRT gibi optimize edilmiş formatlardan yararlanır. Birçok kuruluş, bu modellerin bulut API'leri ve uç cihazlar dahil olmak üzere çeşitli uç noktalara dağıtımını basitleştirmek için Ultralytics Platform'dan yararlanır.

Link to this sectionİlgili Terimlerden Farkı#

Birbiriyle yakından ilişkili olsalar da, "Model Serving", Model Deployment ve Inference'dan farklıdır.

Model Deployment: Bu, bir modeli üretim ortamına bırakmanın daha geniş yaşam döngüsü aşamasını ifade eder. Serving, dağıtılan modeli yürütmek için kullanılan özel mekanizma veya yazılımdır ( NVIDIA Triton Inference Server veya TorchServe gibi).
Inference: This is the mathematical act of calculating a prediction from an input. Model serving provides the infrastructure (networking, scalability, and security) that allows inference to happen reliably for end-users.
Microservices: Serving is often architected as a set of microservices, where the model runs as an independent service that other parts of an application can query, often exchanging data in lightweight formats like JSON.