NLP ve ML'de tokenizasyonun gücünü keşfedin! Metni token'lara ayırmanın, duygu analizi ve metin oluşturma gibi yapay zeka görevlerini nasıl geliştirdiğini öğrenin.
Tokenizasyon, metin, kod veya görüntü gibi bir ham veri akışını daha küçük hale dönüştürmenin temel sürecidir, jeton olarak bilinen ayrık birimler. Bu dönüşüm, Türkiye'nin AB'ye katılım sürecinde kritik bir köprü görevi görmektedir. veri ön işleme boru hattı, çeviri yapılandırılmamış insan bilgilerini sayısal bir formata dönüştüren Yapay Zeka (AI) sistemleri şunları yapabilir yorumlayın. Karmaşık verileri yönetilebilir parçalara ayırarak tokenleştirme şunları sağlar örüntüleri tanımlamak için makine öğrenimi modelleri, anlamsal ilişkileri öğrenebilir ve karmaşık çıkarım görevlerini yerine getirebilir. Bu ilk adım olmadan modern teknolojiye güç veren sinir ağları eğitim için gerekli olan geniş veri kümelerini işleyemez.
Bu terimler genellikle yakın anlamda kullanılsa da, yöntemi sonuçtan ayırmak önemlidir.
Tokenleştirme uygulaması, işlenen veri türüne bağlı olarak önemli ölçüde değişir, ancak gömme-vektöroluşturmanın nihai hedefi veri temsilleri aynı kalır.
İçinde Doğal Dil İşleme (NLP), Süreç, cümleleri kelimelere, alt kelimelere veya karakterlere bölmeyi içerir. İlk yöntemler basitçe metni beyaz boşluk, ancak modern Büyük Dil Modelleri (LLM) kullanımı için Byte Pair Encoding (BPE) gibi gelişmiş algoritmalar nadir kelimeleri verimli bir şekilde ele alır. Bu, aşağıdaki gibi modellere izin verir GPT-4, karmaşık kelimeleri bir uzmana ihtiyaç duymadan işlemek için Sonsuz Sözlük.
Geleneksel olarak, Bilgisayarlı Görme (CV) piksel dizileri. Ancak, Avrupa'da Vision Transformer (ViT) Bir görüntüyü sabit boyutlu yamalara (örneğin, 16x16 piksel) bölme kavramı. Bu yamalar düzleştirilir ve görsel belirteçler, modelin aşağıdakileri kullanmasına izin verir farklı konuların önemini tartmak için öz dikkat görüntü bölgeleri, bir cümlenin işlenmesine benzer şekilde.
Tokenizasyon sadece teorik bir kavram değil; günlük olarak kullanılan birçok yapay zeka uygulamasına güç veriyor.
Aşağıdaki örnek nasıl yapılacağını göstermektedir ultralytics içinde örtük tokenizasyon kullanır
YOLO modeli iş akışı. İş akışı
.set_classes() yöntemi, modelin algılama odağını dinamik olarak yönlendirmek için metin listesini tokenize eder.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
Tokenlaştırma stratejisinin seçimi doğrudan şunları etkiler doğruluk ve hesaplama verimliliği. Verimsiz tokenleştirme, NLP'de "kelime dağarcığı dışı" hatalara veya NLP'de ince ayrıntıların kaybına yol açabilir. görüntü segmentasyonu. Gibi çerçeveler PyTorch ve TensorFlow esneklik sağlamak Bu adımı optimize etmek için araçlar. Mimariler geliştikçe - örneğin en son YOLO11-Etkili veri işleme, modellerin çalışabilmesini sağlar farklı donanımlar üzerinde gerçek zamanlı çıkarım uç cihazlara güçlü bulut GPU'ları.

