Sözlük

Tokenizasyon

NLP ve ML'de tokenizasyonun gücünü keşfedin! Metni token'lara ayırmanın, duygu analizi ve metin oluşturma gibi yapay zeka görevlerini nasıl geliştirdiğini öğrenin.

Belirteçleştirme, ham metin veya bir görüntü gibi bir veri akışını belirteç adı verilen daha küçük, ayrık birimlere ayırma işlemidir. Bu, neredeyse tüm Yapay Zeka (YZ) sistemleri için veri ön işleme hattında kritik bir ilk adımdır. Yapılandırılmamış verileri standartlaştırılmış bir biçime dönüştürerek, belirteçleştirme makine öğrenimi modellerinin kalıpları etkili bir şekilde yorumlamasını, analiz etmesini ve öğrenmesini sağlar. Bu adım olmadan, çoğu model modern yapay zeka uygulamalarını besleyen geniş ve çeşitli verileri işleyemez.

Alaka ve Gerçek Dünya Uygulamaları

Belirteçleştirme çok önemlidir, çünkü çoğu derin öğrenme mimarisi ham metin veya pikseller yerine sayısal girdi gerektirir. Verileri ayrık belirteçlere dönüştürerek, bu belirteçleri daha sonra gömme (embedding) gibi sayısal gösterimlere eşleyebiliriz. Bu sayısal vektörler, semantik anlamı ve ilişkileri yakalar ve PyTorch veya TensorFlow gibi çerçevelerle oluşturulmuş modellerin verilerden öğrenmesini sağlar. Bu temel adım, çok sayıda yapay zeka uygulamasının temelini oluşturur:

Doğal Dil İşleme (NLP): Tokenizasyon, neredeyse tüm NLP görevlerinin merkezinde yer alır.
- Makine Çevirisi: Google Translate gibi hizmetler, kaynak dildeki girdi cümlesini token'lara ayırır, bu token'ları karmaşık modeller (genellikle Transformer mimarisine dayalı) kullanarak işler ve ardından hedef dilde token'lar oluşturur ve bunlar son olarak çevrilmiş cümleye dönüştürülür.
- Sentiment Analysis (Duygu Analizi): Bir müşteri yorumunun olumlu mu yoksa olumsuz mu olduğunu belirlemek için, metin önce tokenleştirilir. Model daha sonra genel duyguyu sınıflandırmak için bu tokenleri analiz eder. Duygu Analizi hakkında daha fazla bilgi edinin. Prompt tuning (İstem ayarı) gibi teknikler de token dizilerini manipüle etmeye dayanır. Geliştiriciler için spaCy ve NLTK gibi kütüphaneler güçlü tokenleştirme araçları sunar.
Bilgisayarla Görü (Computer Vision - CV): Geleneksel olarak NLP ile ilişkilendirilse de, kavram bilgisayarla görmeye kadar uzanır.
- Görüntü İşleme Dönüştürücüleri (ViT): Görüntü İşleme Dönüştürücüleri (ViT) gibi modellerde, görüntüler sabit boyutlu parçalara bölünür. Orijinal ViT araştırma makalesinde açıklandığı gibi, bu parçalar 'görsel belirteçler' olarak kabul edilir ve dizilere düzleştirilir. Bu diziler daha sonra, farklı görüntü parçaları arasındaki ilişkileri anlamak için kendiliğinden dikkat gibi mekanizmaları kullanan bir Dönüştürücü ağına beslenir. Bu, görüntü sınıflandırma ve nesne tespiti gibi görevleri mümkün kılar.
- Çok Modlu Modeller: CLIP ve YOLO-World gibi modeller, sıfır atış nesne tespiti gibi görevleri gerçekleştirmek için hem metin belirteçlerini hem de görsel belirteçleri işleyerek görme ve dil arasında köprü kurar. Benzer şekilde, görüntü segmentasyonu gibi gelişmiş modeller, örneğin Segment Anything Model (SAM) de belirteç benzeri kavramlardan yararlanır.

Yaygın Tokenleştirme Yöntemleri

Verileri belirteçlere ayırmak için her birinin kendi ödünleşimleri olan farklı stratejiler vardır. Yöntem seçimi, model performansını önemli ölçüde etkileyebilir.

Kelime Tabanlı Belirteçleştirme: Bu yöntem, metni boşluklara ve noktalama işaretlerine göre böler. Basit ve sezgisel olmasına rağmen, büyük kelime dağarcıkları ve "kelime dışı" kelimelerle (eğitim sırasında görülmeyen kelimeler) mücadele eder.
Karakter Tabanlı Tokenleştirme: Bu yöntem, metni tek tek karakterlere ayırır. Kelime dağarcığı dışı sorununu çözer, ancak modellerin kelimeler arasındaki ilişkileri öğrenmesini zorlaştıran, üst düzey semantik anlamı kaybeden çok uzun dizilerle sonuçlanabilir.
Alt Kelime Belirteçleştirme (Subword Tokenization): Bu, modern NLP modelleri için standart hale gelmiş karma bir yaklaşımdır. Kelimeleri daha küçük, anlamlı alt birimlere ayırır. Yaygın kelimeler tek belirteç olarak kalırken, nadir kelimeler birden çok alt kelime belirtecine bölünür. Bu yöntem, karmaşık kelimeleri verimli bir şekilde işler ve sözlük dışı sorununu önler. Popüler algoritmalar arasında Byte Pair Encoding (BPE) ve WordPiece bulunur ve bunlar BERT ve GPT gibi modellerde kullanılır.

Tokenizasyon - Tokenlar

'Tokenizasyon' ve bir 'Token' arasındaki ayrımı yapmak önemlidir.

Belirteçleştirme (Tokenization): Verileri daha küçük birimlere ayırma sürecini ifade eder. Dil modellerinin nasıl çalıştığı için temel olan bir ön işleme adımıdır.
Token: Tokenizasyon işleminin sonucunu ifade eder – modelin işlediği bireysel birim (kelime, alt kelime, karakter veya görüntü parçası).

Tokenizasyonu anlamak, yapay zeka modellerinin çeşitli veri türlerini nasıl yorumladığını ve bunlardan nasıl öğrendiğini kavramak için temeldir. Veri kümelerini yönetmek ve modelleri eğitmek genellikle Ultralytics HUB gibi platformları içerir ve bu platformlar veri ön işleme ve model eğitimi iş akışlarını kolaylaştırmaya yardımcı olur. Yapay zeka geliştikçe, tokenizasyon yöntemleri de uyum sağlamaya devam ediyor ve metin oluşturmadan otonom araçlar ve tıbbi görüntü analizi gibi alanlardaki karmaşık görsel anlamaya kadar çeşitli görevler için daha gelişmiş modeller oluşturmada önemli bir rol oynuyor.

Tokenizasyon

Endüstriler genelinde iş akışlarını kolaylaştırmak için Ultralytics YOLO modellerini eğitin

Yeniliklerinizi güçlendirmek için esnek kurumsal lisanslama çözümü

Ultralytics YOLO ile saniyeler içinde yapay zeka modellerini eğitin

Alaka ve Gerçek Dünya Uygulamaları

Yaygın Tokenleştirme Yöntemleri

Tokenizasyon - Tokenlar

Bu kategoride daha fazla okuyun

PyTorch Conference 2025'te Ultralytics'ten öne çıkan başlıklar

Görüntüleri denoise etmek için öz denetimli öğrenmeyi kullanma

Vision AI, sürücü dikkat izleme sistemlerine güç veriyor

Ultralytics topluluğuna katılın