Sözlük

Tokenizasyon

NLP ve ML'de tokenizasyonun gücünü keşfedin! Metni jetonlara ayırmanın duygu analizi ve metin oluşturma gibi yapay zeka görevlerini nasıl geliştirdiğini öğrenin.

Tokenizasyon, ham metin veya görüntü gibi bir veri akışını token adı verilen daha küçük, ayrı birimlere ayırmanın temel sürecidir. Bu, neredeyse tüm Yapay Zeka (AI) sistemleri için veri ön işleme hattında kritik bir ilk adımdır. Yapılandırılmamış verileri standartlaştırılmış bir formata dönüştüren tokenizasyon, makine öğrenimi modellerinin kalıpları etkili bir şekilde yorumlamasını, analiz etmesini ve öğrenmesini sağlar. Bu adım olmadan çoğu model, modern yapay zeka uygulamalarını besleyen geniş ve çeşitli verileri işleyemez.

Uygunluk ve Gerçek Dünya Uygulamaları

Çoğu derin öğrenme mimarisi ham metin veya piksel yerine sayısal girdiye ihtiyaç duyduğundan tokenlaştırma çok önemlidir. Verileri ayrık belirteçlere dönüştürerek, bu belirteçleri gömme gibi sayısal temsillerle eşleştirebiliriz. Bu sayısal vektörler anlamsal anlam ve ilişkileri yakalayarak PyTorch veya TensorFlow gibi çerçevelerle oluşturulan modellerin verilerden öğrenmesini sağlar. Bu temel adım, çok sayıda yapay zeka uygulamasının temelini oluşturmaktadır:

  1. Doğal Dil İşleme (NLP): Tokenizasyon neredeyse tüm NLP görevlerinin merkezinde yer alır.

    • Makine Çevirisi: Google Translate gibi hizmetler girdi cümlesini kaynak dilde belirteçlere ayırır, bu belirteçleri karmaşık modeller kullanarak işler (genellikle Transformer mimarisine dayanır) ve ardından hedef dilde belirteçler oluşturur ve bunlar son olarak çevrilen cümleye birleştirilir.
    • Duygu Analizi: Bir müşteri yorumunun olumlu mu yoksa olumsuz mu olduğunu belirlemek için, metin ilk olarak tokenize edilir. Model daha sonra genel duyarlılığı sınıflandırmak için bu belirteçleri analiz eder. Duygu Analizi hakkında daha fazla bilgi edinin. Hızlı ayarlama gibi teknikler de belirteç dizilerinin manipüle edilmesine dayanır. Geliştiriciler için spaCy ve NLTK gibi kütüphaneler güçlü tokenizasyon araçları sunar.
  2. Bilgisayarla Görme (CV): Geleneksel olarak NLP ile ilişkilendirilse de bu kavram bilgisayarla görmeyi de kapsamaktadır.

Yaygın Tokenizasyon Yöntemleri

Verileri tokenize etmek için her biri kendi ödünleşimlerine sahip farklı stratejiler mevcuttur. Yöntem seçimi model performansını önemli ölçüde etkileyebilir.

  • Kelime Tabanlı Tokenizasyon: Bu yöntem metni boşluklara ve noktalama işaretlerine göre ayırır. Basit ve sezgisel olmakla birlikte, büyük kelime dağarcıkları ve "kelime dağarcığı dışındaki" kelimelerle (eğitim sırasında görülmeyen kelimeler) mücadele eder.
  • Karakter Tabanlı Tokenizasyon: Bu yöntem metni tek tek karakterlere ayırır. Kelime dağarcığının dışında kalma sorununu çözer, ancak üst düzey anlamsal anlamı kaybeden çok uzun dizilerle sonuçlanabilir ve modellerin kelimeler arasındaki ilişkileri öğrenmesini zorlaştırır.
  • Alt Kelime Tokenizasyonu: Bu, modern NLP modelleri için standart haline gelen hibrit bir yaklaşımdır. Kelimeleri daha küçük, anlamlı alt birimlere ayırır. Yaygın kelimeler tek belirteç olarak kalırken, nadir kelimeler birden fazla alt kelime belirtecine bölünür. Bu yöntem karmaşık kelimeleri verimli bir şekilde ele alır ve kelime dağarcığının dışına çıkma sorununu önler. Popüler algoritmalar arasında BERT ve GPT gibi modellerde kullanılan Byte Pair Encoding (BPE) ve WordPiece yer alır.

Tokenizasyon vs. Tokenler

'Tokenizasyon' ile'Token' arasında ayrım yapmak önemlidir.

  • Tokenizasyon: Verileri daha küçük birimlere ayırma işlemini ifade eder. Dil modellerinin çalışması için temel olan bir ön işleme adımıdır.
  • Jeton: Jetonlaştırma işleminin sonucunu ifade eder - modelin işlediği bireysel birim (kelime, alt kelime, karakter veya görüntü yaması).

Tokenleştirmeyi anlamak, yapay zeka modellerinin çeşitli veri türlerini nasıl yorumladığını ve öğrendiğini kavramak için temeldir. Veri kümelerini ve eğitim modellerini yönetmek, genellikle veri ön işleme ve model eğitim iş akışlarını kolaylaştırmaya yardımcı olan Ultralytics HUB gibi platformları içerir. Yapay zeka geliştikçe, otonom araçlar ve tıbbi görüntü analizi gibi alanlarda metin üretiminden karmaşık görsel anlamaya kadar çeşitli görevler için daha sofistike modeller oluşturmada önemli bir rol oynayan tokenizasyon yöntemleri de uyum sağlamaya devam ediyor.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı