Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Tokenizasyon

NLP ve ML'de tokenizasyonun gücünü keşfedin! Metni token'lara ayırmanın, duygu analizi ve metin oluşturma gibi yapay zeka görevlerini nasıl geliştirdiğini öğrenin.

Tokenizasyon, metin, kod veya görüntü gibi bir ham veri akışını daha küçük hale dönüştürmenin temel sürecidir, jeton olarak bilinen ayrık birimler. Bu dönüşüm, Türkiye'nin AB'ye katılım sürecinde kritik bir köprü görevi görmektedir. veri ön işleme boru hattı, çeviri yapılandırılmamış insan bilgilerini sayısal bir formata dönüştüren Yapay Zeka (AI) sistemleri şunları yapabilir yorumlayın. Karmaşık verileri yönetilebilir parçalara ayırarak tokenleştirme şunları sağlar örüntüleri tanımlamak için makine öğrenimi modelleri, anlamsal ilişkileri öğrenebilir ve karmaşık çıkarım görevlerini yerine getirebilir. Bu ilk adım olmadan modern teknolojiye güç veren sinir ağları eğitim için gerekli olan geniş veri kümelerini işleyemez.

Tokenizasyon vs. Token

Bu terimler genellikle yakın anlamda kullanılsa da, yöntemi sonuçtan ayırmak önemlidir.

  • Tokenizasyon, verilere uygulanan eylem veya algoritmadır. Belirli kuralları içerir dizeleri bölmek veya görüntüleri segmentlere ayırmak için. spaCy gibi araçlar veya NLTK metin için bu süreci kolaylaştırır.
  • Token, süreç tarafından üretilen çıktı birimidir. Bunların doğası hakkında daha fazla ayrıntı için birimleri, Token için sözlük sayfasına bakın.

Yapay Zeka'da Tokenizasyon Nasıl Çalışır?

Tokenleştirme uygulaması, işlenen veri türüne bağlı olarak önemli ölçüde değişir, ancak gömme-vektöroluşturmanın nihai hedefi veri temsilleri aynı kalır.

NLP'de Metin Tokenizasyonu

İçinde Doğal Dil İşleme (NLP), Süreç, cümleleri kelimelere, alt kelimelere veya karakterlere bölmeyi içerir. İlk yöntemler basitçe metni beyaz boşluk, ancak modern Büyük Dil Modelleri (LLM) kullanımı için Byte Pair Encoding (BPE) gibi gelişmiş algoritmalar nadir kelimeleri verimli bir şekilde ele alır. Bu, aşağıdaki gibi modellere izin verir GPT-4, karmaşık kelimeleri bir uzmana ihtiyaç duymadan işlemek için Sonsuz Sözlük.

Bilgisayarlı Görüde Görsel Simgeleştirme

Geleneksel olarak, Bilgisayarlı Görme (CV) piksel dizileri. Ancak, Avrupa'da Vision Transformer (ViT) Bir görüntüyü sabit boyutlu yamalara (örneğin, 16x16 piksel) bölme kavramı. Bu yamalar düzleştirilir ve görsel belirteçler, modelin aşağıdakileri kullanmasına izin verir farklı konuların önemini tartmak için öz dikkat görüntü bölgeleri, bir cümlenin işlenmesine benzer şekilde.

Gerçek Dünya Uygulamaları

Tokenizasyon sadece teorik bir kavram değil; günlük olarak kullanılan birçok yapay zeka uygulamasına güç veriyor.

  1. Çok Modlu Algılama: Gibi gelişmiş modeller YOLO metin ve görüntü arasındaki boşluğu dolduruyor. Tarafından Kullanıcı girdisini (örneğin, "kırmızı araba") belirteçleştiren ve görsel özelliklerle eşleştiren bu modeller ihtiyaç duymadan açık kelime dağarcığı nesne tespiti yeni sınıflar üzerinde açıkça yeniden eğitilmesi gerekir.
  2. Dil Çevirisi: Gibi hizmetler Google Çeviri, giriş metnini belirteçlere ayırarak çevirmeye dayanır onları bir diziden diziye model ve Çıktı belirteçlerinin hedef dile yeniden birleştirilmesi.
  3. Üretken Sanat: Şunları yapabilen modeller metinden görüntüye oluşturma, örneğin Kararlı Difüzyon, rehberlik etmek için metin istemlerini tokenize edin denoising işlemi, girdi belirteçlerinin anlamsal anlamı ile uyumlu görseller oluşturur.

Örnek: YOLO'de Tokenizasyon

Aşağıdaki örnek nasıl yapılacağını göstermektedir ultralytics içinde örtük tokenizasyon kullanır YOLO modeli iş akışı. İş akışı .set_classes() yöntemi, modelin algılama odağını dinamik olarak yönlendirmek için metin listesini tokenize eder.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Model Performansındaki Önemi

Tokenlaştırma stratejisinin seçimi doğrudan şunları etkiler doğruluk ve hesaplama verimliliği. Verimsiz tokenleştirme, NLP'de "kelime dağarcığı dışı" hatalara veya NLP'de ince ayrıntıların kaybına yol açabilir. görüntü segmentasyonu. Gibi çerçeveler PyTorch ve TensorFlow esneklik sağlamak Bu adımı optimize etmek için araçlar. Mimariler geliştikçe - örneğin en son YOLO11-Etkili veri işleme, modellerin çalışabilmesini sağlar farklı donanımlar üzerinde gerçek zamanlı çıkarım uç cihazlara güçlü bulut GPU'ları.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın