Prompt Compression
İstem sıkıştırmanın yapay zeka verimliliğini nasıl optimize ettiğini keşfet. Ultralytics YOLO26 ile LLM token kullanımını azaltmayı, maliyetleri düşürmeyi ve çıkarım hızını artırmayı bugün öğren.
İstem sıkıştırma, Büyük Dil Modellerine (LLM'ler) ve çok modlu modellere sağlanan girdi metninin uzunluğunu ve karmaşıklığını azaltmak için tasarlanmış gelişmiş bir optimizasyon tekniğidir. İstem sıkıştırma, temel anlamsal anlamı korurken gereksiz kelimeleri, ilgisiz bağlamı ve durdurma kelimelerini algoritmik olarak ayıklayarak yapay zeka sistemlerinin bilgiyi daha verimli işlemesini sağlar. Bu yöntem; hesaplama maliyetlerini en aza indirmek, çıkarım gecikmesini azaltmak ve modellerin maksimum bağlam penceresini aşmasını önlemek için giderek daha kritik hale gelmektedir.
Link to this sectionİstem Sıkıştırma Nasıl Çalışır#
Mimari düzeyde istem sıkıştırma, bir istemdeki her bir token'ın önemini değerlendirmek için genellikle daha küçük, özelleşmiş modeller veya bilgi-teorik algoritmalar kullanır. Token birleştirme ve entropi tabanlı budama gibi teknikler, genel anlama çok az katkıda bulunan tokenları tanımlar ve kaldırır. Bu, nihai girdinin yalnızca en yoğun paketlenmiş bilgiyi içermesini sağlar.
Yetkili kuruluşlardan gelen güncel araştırmalar, yüksek oranda sıkıştırılmış istemlerin karmaşık mantık yürütme görevlerinde performansı korurken token tüketimini önemli ölçüde azaltabileceğini vurgulamaktadır. Yapay zekayı ölçeklenebilir uygulamalara entegre eden geliştiriciler için, OpenAI'ın istem optimizasyon kılavuzlarına uymak ve sıkıştırma çerçevelerinden yararlanmak, verimli dağıtım için standart bir en iyi uygulamadır.
Link to this sectionGerçek Dünya Uygulamaları#
İstem sıkıştırma, kapsamlı metin veya görsel verilerin hızlı işlenmesini gerektiren senaryolarda anında değer sağlar:
- RAG (Retrieval-Augmented Generation): Kurumsal arama uygulamalarında, RAG boru hatları genellikle tek bir kullanıcı sorgusunu yanıtlamak için düzinelerce uzun belgeyi alır. İstem sıkıştırma algoritmaları bu alınan belgeleri küçülterek, oluşturma modeline beslemeden önce onları özlü olgusal özetlere dönüştürür. Bu, token taşmasını önler ve gerçek zamanlı çıkarımı hızlandırır.
- Otonom Yapay Zeka Ajanları: Ajanlar ve sohbet botları, kullanıcı etkileşimlerinin uzun vadeli belleğini korumalıdır. Tüm konuşma geçmişini her yeni sorguya aktarmak yerine, sıkıştırma teknikleri eski diyalog turlarını özetleyerek ajanın üstel hesaplama maliyetlerine katlanmadan bağlam farkındalığını korumasını sağlar.
Link to this sectionİstem Sıkıştırma ve İlgili Teknikler#
Sağlam makine öğrenimi operasyonları (MLOps) boru hatları oluşturmak için, istem sıkıştırmayı ilgili kavramlardan ayırmak önemlidir:
- İstem Önbelleğe Alma ile Karşılaştırma: Önbelleğe alma, yeniden hesaplamadan kaçınmak için daha önce işlenmiş metnin dahili hesaplama durumlarını saklar. Diğer yandan sıkıştırma, herhangi bir işlem gerçekleşmeden önce girdi metninin kendisini aktif olarak değiştirir ve kısaltır.
- İstem Mühendisliği ile Karşılaştırma: İstem mühendisliği, etkili talimatlar tasarlamanın insan odaklı zanaatıdır. Sıkıştırma ise bu talimatların otomatik, algoritmik olarak azaltılmasıdır.
- İstem Zenginleştirme ile Karşılaştırma: Zenginleştirme, harici bağlam ekleyerek istemi genişletirken, sıkıştırma onu daraltır. Genellikle birlikte kullanılırlar: bir sistem veritabanı sonuçlarıyla bir istemi zenginleştirebilir ve ardından çıkarımdan önce son yükü sıkıştırabilir.
Link to this sectionBilgisayarlı Görüşte Uygulama#
Bilgisayarlı Görüş (CV) alanında, istem sıkıştırma ilkeleri, nesneleri tanımlamak için metin sorgularını kabul eden açık kelime dağarcıklı modeller kullanılırken geçerlidir. Sınıf tanımlarını kısa tutmak, daha hızlı metinsel kodlama sağlar ve bellek yükünü azaltır.
Hızın en önemli olduğu sabit sınıflı üretim ortamlarında, geliştiriciler genellikle metin istemli modellerden Ultralytics YOLO26 gibi son derece optimize edilmiş, sabit mimarili modellere geçiş yaparlar. Ultralytics Platform kullanarak veri setlerini verimli bir şekilde yönetebilir ve bu en son teknoloji modelleri eğitebilirsin.
from ultralytics import YOLO
# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")
# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)
# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()





