Prompt Compression

İstem sıkıştırmanın AI verimliliğini nasıl optimize ettiğini keşfet. Ultralytics YOLO26 ile bugün LLM jeton kullanımını azaltmayı, maliyetleri düşürmeyi ve çıkarım hızını artırmayı öğren.

İstem sıkıştırma, Büyük Dil Modelleri (LLM) ve çok modlu modellere sağlanan girdi metninin uzunluğunu ve karmaşıklığını azaltmak için tasarlanmış gelişmiş bir optimizasyon tekniğidir. İstem sıkıştırma, temel anlamsal anlamı korurken gereksiz kelimeleri, alakasız bağlamları ve durdurma kelimelerini algoritmik olarak ayıklayarak yapay zeka sistemlerinin bilgiyi daha verimli işlemesini sağlar. Bu yöntem, hesaplama maliyetlerini en aza indirmek, çıkarım gecikmesini azaltmak ve modellerin maksimum bağlam penceresini aşmasını önlemek için giderek daha kritik hale gelmektedir.

Link to this sectionİstem Sıkıştırma Nasıl Çalışır#

Mimari düzeyde istem sıkıştırma, genellikle belirli bir istemdeki her bir token'ın önemini değerlendirmek için daha küçük, uzmanlaşmış modeller veya bilgi teorik algoritmalar kullanır. Token birleştirme ve entropi tabanlı budama gibi teknikler, genel anlama çok az katkıda bulunan token'ları tanımlar ve kaldırır. Bu, nihai girdinin yalnızca en yoğun paketlenmiş bilgiyi içermesini sağlar.

Yetkili kuruluşlardan gelen güncel araştırmalar, oldukça sıkıştırılmış istemlerin karmaşık mantık yürütme görevlerinde performansı korurken token tüketimini önemli ölçüde azaltabileceğini vurgulamaktadır. Yapay zekayı ölçeklenebilir uygulamalara entegre eden geliştiriciler için, OpenAI tarafından sağlanan istem mühendisliği yönergelerine uymak ve sıkıştırma çerçevelerinden yararlanmak, verimli dağıtım için standart bir en iyi uygulamadır.

Link to this sectionGerçek Dünya Uygulamaları#

İstem sıkıştırma, kapsamlı metinsel veya görsel verilerin hızlı bir şekilde işlenmesini gerektiren senaryolarda anında değer sağlar:

Alım Destekli Üretim (RAG): Kurumsal arama uygulamalarında, RAG boru hatları genellikle tek bir kullanıcı sorgusunu yanıtlamak için onlarca uzun belgeyi alır. İstem sıkıştırma algoritmaları, bu alınan belgeleri küçültür ve üretim modeline beslemeden önce onları özlü olgusal özetlere dönüştürür. Bu, token taşmasını önler ve gerçek zamanlı çıkarımı hızlandırır.
Otonom Yapay Zeka Ajanları: Ajanlar ve sohbet robotları, kullanıcı etkileşimlerinin uzun vadeli hafızasını tutmalıdır. Tüm konuşma geçmişini her yeni sorguya aktarmak yerine, sıkıştırma teknikleri eski diyalog turlarını özetleyerek ajanın üstel hesaplama maliyetlerine katlanmadan bağlam farkındalığını korumasını sağlar.

Link to this sectionİstem Sıkıştırma ve İlgili Tekniklerin Karşılaştırılması#

Sağlam makine öğrenimi operasyonları (MLOps) boru hatları oluşturmak için istem sıkıştırmayı ilgili kavramlardan ayırmak önemlidir:

İstem Önbelleğe Alma ile Karşılaştırma: Önbelleğe alma, yeniden hesaplamayı önlemek için daha önce işlenmiş metnin dahili hesaplama durumlarını depolar. Sıkıştırma ise herhangi bir işlem gerçekleşmeden önce girdi metninin kendisini aktif olarak değiştirir ve kısaltır.
İstem Mühendisliği ile Karşılaştırma: İstem mühendisliği, etkili talimatlar tasarlamanın insan odaklı zanaatıdır. Sıkıştırma ise bu talimatların otomatik, algoritmik bir biçimde azaltılmasıdır.
İstem Zenginleştirme ile Karşılaştırma: Zenginleştirme, harici bağlam ekleyerek bir istemi genişletirken, sıkıştırma onu daraltır. Genellikle birlikte kullanılırlar: bir sistem bir istemi veritabanı sonuçlarıyla zenginleştirebilir ve ardından çıkarımdan önce son yükü sıkıştırabilir.

Link to this sectionBilgisayarlı Görüde Uygulama#

Bilgisayarlı Görü (CV) alanında, nesneleri tanımlamak için metin sorgularını kabul eden açık kelime dağarcıklı modeller kullanılırken istem sıkıştırma ilkeleri geçerlidir. Sınıf tanımlarını kısa tutmak, daha hızlı metinsel kodlama sağlar ve bellek yükünü azaltır.

Hızın en önemli olduğu sabit sınıflı üretim ortamları için geliştiriciler, genellikle metin istemli modellerden Ultralytics YOLO26 gibi yüksek düzeyde optimize edilmiş, sabit mimarili modellere geçiş yaparlar. Ultralytics Platformunu kullanarak veri kümelerini verimli bir şekilde yönetebilir ve bu en son teknoloji modelleri eğitebilirsin.

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()

Prompt Compression

Link to this sectionİstem Sıkıştırma Nasıl Çalışır#

Link to this sectionGerçek Dünya Uygulamaları#

Link to this sectionİstem Sıkıştırma ve İlgili Tekniklerin Karşılaştırılması#

Link to this sectionBilgisayarlı Görüde Uygulama#

Explore solutions

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Yapay zekanın geleceğini birlikte inşa edelim!