Model Sunumu
Model sunumunun (model serving) temellerini öğrenin: gerçek zamanlı tahminler, ölçeklenebilirlik ve uygulamalara sorunsuz entegrasyon için yapay zeka modellerini dağıtın.
Model sunumu, eğitilmiş bir makine öğrenimi (ML) modelini, bir üretim ortamında girdi verilerini almak ve tahminler döndürmek için kullanılabilir hale getirme işlemidir. Bir model eğitildikten ve doğrulandıktan sonra, sunum, onu statik bir dosyadan gerçek dünya uygulamalarına güç sağlayabilen aktif, operasyonel bir araca dönüştüren kritik adımdır. Modelin bir sunucuya dağıtılmasını ve diğer yazılım sistemlerinin gerçek zamanlı çıkarım (real-time inference) için onunla iletişim kurmasını sağlayan bir arayüzün, tipik olarak bir API'nin oluşturulmasını içerir.
Yakından ilişkili olsalar da, model sunumu (model serving), daha geniş olan model dağıtımı (model deployment) sürecinde belirli bir bileşendir. Dağıtım, bir modeli üretim ortamına entegre etme iş akışının tamamını, altyapı kurulumu ve izleme dahil olmak üzere kapsar. Model sunumu ise özellikle modeli çalıştırmaktan ve çıkarım (inference) isteklerini verimli bir şekilde ele almaktan sorumlu olan altyapının bir bölümünü ifade eder.
Model Sunumunun Temel Bileşenleri
Güçlü bir model sunum sistemi, hızlı ve güvenilir tahminler sunmak için birlikte çalışan birkaç entegre bileşenden oluşur.
- Model Formatı (Model Format): Sunmadan önce, bir modelin standartlaştırılmış bir formatta paketlenmesi gerekir. ONNX gibi formatlar, farklı çerçeveler arasında birlikte çalışabilirliği sağlar. Maksimum performans için, modeller NVIDIA GPU'lar için TensorRT gibi araçlar kullanılarak optimize edilebilir.
- Sunum Çerçevesi: Modeli yükleyen, GPU'lar gibi donanım kaynaklarını yöneten ve çıkarım isteklerini işleyen özel yazılım. Popüler çerçeveler arasında TensorFlow Serving, PyTorch Serve ve yüksek performanslı NVIDIA Triton Inference Server bulunur ve bunlar Triton entegrasyon kılavuzumuz aracılığıyla Ultralytics modelleriyle kullanılabilir.
- API Uç Noktası: Bu, istemci uygulamalarının veri (görüntü veya metin gibi) göndermesine ve modelin tahminini almasına olanak tanıyan iletişim ağ geçididir. REST ve gRPC, bu amaç için kullanılan yaygın API protokolleridir.
- Altyapı: Modelin çalıştığı fiziksel veya sanal donanım. Bu, şirket içi sunuculardan bulut bilişim platformlarına kadar değişebilir, örneğin Amazon SageMaker ve Google Cloud AI Platform. Düşük gecikme süresi gerektiren uygulamalar için, modeller genellikle uç yapay zeka cihazlarında sunulur. Konteynerleştirme, taşınabilir ve ölçeklenebilir sunum ortamları oluşturmak için Docker gibi araçlarla gereklidir.
- İzleme ve Günlüğe Kaydetme: Model performansının ve sistem sağlığının sürekli takibi. Bu, çıkarım gecikmesi ve verim gibi metriklerin izlenmesinin yanı sıra, zamanla model doğruluğunu azaltabilecek veri kayması gibi sorunlara karşı tetikte olmayı içerir. Model izleme kılavuzumuzda daha fazla bilgi edinebilirsiniz.
Gerçek Dünya Uygulamaları
Model sunumu, sayısız yapay zeka destekli özelliğin arkasındaki motordur.
- Yapay Zeka Destekli Envanter Yönetimi: Bir perakende şirketi, gerçek zamanlı envanter yönetimi için bir Ultralytics YOLO11 modeli kullanır. Model bir ONNX formatında paketlenir ve mağaza içindeki küçük bir uç bilgisayarda sunulur. Bir kamera, raf üzerindeki öğeleri saymak için nesne algılama gerçekleştiren ve stok azaldığında uyarılar gönderen sunum uç noktasına bir video akışı gönderir.
- Bulutta Tıbbi Görüntü Analizi: Bir hastane sistemi, tıbbi görüntü analizi için gelişmiş bir bilgisayarlı görü modeli kullanıma sunar. Büyük model boyutu ve hesaplama ihtiyaçları nedeniyle, birden fazla GPU'ya sahip güçlü bir bulut sunucusunda hizmet verir. Radyologlar, güvenli bir portal aracılığıyla yüksek çözünürlüklü taramalar yükler ve bu da hizmet veren API'yi çağırır. Model, potansiyel anormallikleri belirlemeye yardımcı olan, tanı hızını ve doğruluğunu artıran tahminler döndürür.
MLOps'un Rolü
Model sunumu, Makine Öğrenimi Operasyonlarının (MLOps) temel taşıdır. İyi bir MLOps stratejisi, veri ön işlemeden ve model eğitiminden, sunuma ve izlemeye kadar tüm yaşam döngüsünün otomatikleştirilmesini, güvenilir olmasını ve ölçeklenebilir olmasını sağlar. Ultralytics HUB gibi platformlar, bu iş akışının tamamını basitleştirmek, bilgisayarlı görü modellerini etkili bir şekilde eğitmek, sürümlemek ve sunmak için entegre bir çözüm sağlamak üzere tasarlanmıştır.