Tokenization
Tokenizasyonun ham metni ve görüntüleri yapay zekaya hazır verilere nasıl dönüştürdüğünü keşfet. Ultralytics YOLO26 gibi modeller tarafından kullanılan NLP ve bilgisayarlı görü yöntemleri hakkında bilgi edin.
Tokenleştirme; metin, görüntü veya ses gibi ham veri akışlarını token adı verilen daha küçük ve yönetilebilir birimlere ayırma algoritmik sürecidir. Bu dönüşüm, veri ön işleme hattında kritik bir köprü görevi görür ve yapılandırılmamış girdileri yapay zeka (AI) sistemlerinin yorumlayabileceği sayısal bir biçime dönüştürür. Bilgisayarlar insan dilini veya görsel sahneleri doğal olarak anlayamazlar; hesaplama yapabilmek için sayısal temsile ihtiyaç duyarlar. Mühendisler, verileri token'lara bölerek sinir ağlarının, bu birimleri anlamsal anlamı yakalayan vektör temsilleri olan gömümlere eşlemesini sağlarlar. Bu temel adım olmadan, makine öğrenimi modelleri modern eğitim için gereken geniş veri kümelerini işleyemez, bağlamı öğrenemez veya kalıpları tanımlayamazdı.
Link to this sectionTokenleştirme ve Token#
Terimler derin öğrenme tartışmalarında genellikle birlikte duyulsa da, iş akışını anlamak için yöntemi sonuçtan ayırmak faydalıdır.
- Tokenleştirme (eylem) süreçtir. Verileri bölmek için kullanılan belirli kural veya algoritma setini ifade eder. Metin için bu, bir birimin nerede bitip diğerinin nerede başladığını belirlemek adına NLTK veya spaCy gibi kütüphaneleri kullanmayı içerebilir.
- Token (isim) çıktıdır. Süreç tarafından üretilen tek bir kelime, alt kelime, karakter veya piksel yaması gibi bireysel birimdir.
Link to this sectionFarklı Alanlarda Yöntemler#
Tokenleştirme stratejisi, verinin türüne bağlı olarak önemli ölçüde değişir ve bir temel modelin dünyayı nasıl algıladığını etkiler.
Link to this sectionNLP'de Metin Tokenleştirme#
Doğal Dil İşleme (NLP) alanında amaç, anlamı korurken metni bölümlere ayırmaktır. İlk yöntemler, kelimeleri boşluklarla ayırmak veya durak kelimeleri kaldırmak gibi basit tekniklere dayanıyordu. Ancak modern Büyük Dil Modelleri (LLM'ler), Byte Pair Encoding (BPE) veya WordPiece gibi daha karmaşık alt kelime algoritmalarını kullanır. Bu algoritmalar en sık karşılaşılan karakter çiftlerini yinelemeli olarak birleştirir ve modelin nadir kelimeleri tanıdık alt bileşenlere bölerek işlemesini sağlar (örneğin, "smartphones" kelimesi "smart" + "phones" haline gelir). Bu yaklaşım, sözlük boyutu ile karmaşık dilleri temsil etme yeteneği arasında bir denge kurar.
Link to this sectionBilgisayarlı Görüde Görsel Tokenleştirme#
Traditionally, computer vision (CV) models like CNNs processed pixels using sliding windows. The introduction of the Vision Transformer (ViT) changed this paradigm by applying tokenization to images. The image is sliced into fixed-size patches (e.g., 16x16 pixels), which are then flattened and linearly projected. These "visual tokens" allow the model to utilize self-attention mechanisms to learn global relationships across the image, similar to how a Transformer processes a sentence.
Link to this sectionGerçek Dünya Uygulamaları#
Tokenleştirme, günümüzde üretim ortamlarında kullanılan birçok yapay zeka uygulamasının arkasındaki sessiz motordur.
-
Açık Sözlüklü Nesne Tespiti: YOLO-World gibi gelişmiş mimariler, çok modlu bir model yaklaşımı kullanır. Bir kullanıcı "kırmızı şapkalı kişi" gibi bir komut girdiğinde, sistem bu metni token'lara ayırır ve görsel verilerle aynı özellik alanına eşler. Bu, sıfır örnekli öğrenmeyi mümkün kılarak modelin, metin token'larını görsel özelliklerle eşleştirerek daha önce açıkça eğitilmediği nesneleri tespit etmesini sağlar.
-
Üretken Sanat ve Tasarım: Metinden görüntüye üretiminde, kullanıcı komutları difüzyon sürecini yönlendirmek için token'lara ayrılır. Model bu token'ları üretimi koşullandırmak için kullanır ve sonuçta ortaya çıkan görüntünün, tokenlaştırma aşamasında çıkarılan anlamsal kavramlarla (örneğin "gün batımı", "plaj") uyumlu olmasını sağlar.
Link to this sectionPython Örneği: Token Tabanlı Tespit#
Aşağıdaki örnek, ultralytics paketinin YOLO-World iş akışında metin tokenlaştırmasını nasıl örtük olarak kullandığını göstermektedir. Özel sınıflar tanımlanarak, model bu dizeleri dinamik olarak belirli nesneleri aramak için token'lara ayırır.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")
# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()Link to this sectionModel Performansı Üzerindeki Etkisi#
The choice of tokenization strategy directly impacts accuracy and computational efficiency. Inefficient tokenization can lead to "out-of-vocabulary" errors in NLP or the loss of fine-grained details in image analysis. Frameworks like PyTorch and TensorFlow provide flexible tools to optimize this step. As architectures evolve—such as the state-of-the-art YOLO26—efficient data processing ensures that models can run real-time inference on diverse hardware, from powerful cloud GPUs to edge devices. Teams managing these complex data workflows often rely on the Ultralytics Platform to streamline dataset annotation, model training, and deployment.






