Sözlük

Tokenizasyon

NLP ve ML'de tokenizasyonun gücünü keşfedin! Metni jetonlara ayırmanın duygu analizi ve metin oluşturma gibi yapay zeka görevlerini nasıl geliştirdiğini öğrenin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Tokenizasyon, Yapay Zeka (AI) ve Makine Öğreniminde (ML), özellikle Doğal Dil İşleme (NLP) için hayati önem taşıyan temel bir ön işleme adımıdır. Metin veya diğer veri dizilerinin token adı verilen daha küçük, yönetilebilir birimlere ayrılmasını içerir. Bu belirteçler, algoritmaların bilgiyi anlamak ve işlemek için kullandığı temel yapı taşları olarak hizmet eder ve cümleler veya paragraflar gibi ham girdileri makine öğrenimi modelleri tarafından analiz edilmeye uygun bir biçime dönüştürür. Bu süreç çok önemlidir çünkü bilgisayarlar metinleri insanların anladığı şekilde anlamaz; ayrı parçalar halinde yapılandırılmış verilere ihtiyaç duyarlar.

Tokenizasyon Nasıl Çalışır?

Tokenizasyonun arkasındaki temel fikir segmentasyondur. Metin verileri için bu, genellikle cümleleri önceden tanımlanmış kurallara veya öğrenilmiş kalıplara göre kelimelere, alt kelimelere ve hatta tek tek karakterlere bölmek anlamına gelir. Örneğin,Ultralytics YOLO11 güçlüdür" cümlesi tek tek kelimelere ayrılabilir: ["Ultralytics", "YOLO11", "is", "powerful"]. Seçilen spesifik yöntem büyük ölçüde göreve ve kullanılan model mimarisine bağlıdır.

Yaygın teknikler arasında metni boşluklara ve noktalama işaretlerine göre bölmek yer alır. Ancak, özellikle büyük kelime hazinelerini veya eğitim sırasında görülmeyen kelimeleri işlemek için genellikle daha gelişmiş yöntemler gereklidir. Byte Pair Encoding (BPE) veya WordPiece gibi teknikler kelimeleri daha küçük alt kelime birimlerine ayırır. Bunlar BERT ve GPT-4 gibi Büyük Dil Modellerinde (LLM 'ler) kelime boyutunu etkili bir şekilde yönetmek ve bilinmeyen kelimeleri incelikle ele almak için sıklıkla kullanılır. Tokenleştirme stratejisinin seçimi, model performansını ve hesaplama verimliliğini önemli ölçüde etkileyebilir.

Uygunluk ve Gerçek Dünya Uygulamaları

Tokenizasyon çok önemlidir çünkü çoğu makine öğrenimi modeli, özellikle de derin öğrenme mimarileri ham metin yerine sayısal girdiye ihtiyaç duyar. Metni ayrık belirteçlere dönüştürerek, bu belirteçleri gömme gibi sayısal temsillerle eşleştirebiliriz. Bu sayısal vektörler anlamsal anlam ve ilişkileri yakalar ve aşağıdaki gibi çerçevelerle oluşturulmuş modellere izin verir PyTorch veya TensorFlow verilerden örüntüler öğrenmek için. Bu temel adım, çok sayıda yapay zeka uygulamasının temelini oluşturmaktadır:

  1. Doğal Dil İşleme (NLP): Tokenizasyon neredeyse tüm NLP görevlerinin merkezinde yer alır.

    • Makine Çevirisi: Google Translate gibi hizmetler girdi cümlesini kaynak dilde belirteçlere ayırır, bu belirteçleri karmaşık modeller kullanarak işler (genellikle Transformer mimarisine dayanır) ve ardından hedef dilde belirteçler oluşturur ve bunlar son olarak çevrilen cümleye birleştirilir.
    • Duygu Analizi: Bir müşteri yorumunun olumlu mu yoksa olumsuz mu olduğunu belirlemek için, metin ilk olarak tokenize edilir. Model daha sonra genel duyarlılığı sınıflandırmak için bu belirteçleri (ve bunların sayısal gösterimlerini) analiz eder. Duygu Analizi hakkında daha fazla bilgi edinin. Hızlı ayarlama gibi teknikler de belirteç dizilerinin manipüle edilmesine dayanır.
  2. Bilgisayarla Görme (CV): Geleneksel olarak NLP ile ilişkilendirilse de bu kavram Bilgisayarla Görme (CV) alanına da uzanmaktadır.

    • Görüntü Dönüştürücüler (ViT): Vision Transformers (ViT) gibi modellerde görüntüler sabit boyutlu yamalara bölünür. Bu yamalar 'görsel belirteçler' olarak ele alınır ve diziler halinde düzleştirilir. Bu diziler daha sonra, NLP'de metin belirteçlerinin işlenmesine benzer şekilde, farklı görüntü parçaları arasındaki ilişkileri anlamak için öz dikkat gibi mekanizmalar kullanan bir Transformer ağına beslenir. Bu, görüntü sınıflandırma ve nesne algılama gibi görevleri mümkün kılar. Segment Anything Model (SAM) gibi modeller de görüntü segmentasyonu için token benzeri kavramları kullanır.
    • Çok Modlu Modeller: CLIP ve YOLO gibi modeller, metin açıklamalarına dayalı sıfır çekim nesne algılama gibi görevleri gerçekleştirmek için hem metin belirteçlerini hem de görsel belirteçleri (veya görüntü özelliklerini) işleyerek görme ve dil arasında köprü kurar.

Tokenizasyon vs. Tokenler

'Tokenizasyon' ile'Token' arasında ayrım yapmak önemlidir.

  • Tokenizasyon: Verileri daha küçük birimlere ayırma işlemini ifade eder. Bu bir ön işleme adımıdır.
  • Jeton: Jetonlaştırma işleminin sonucunu ifade eder - modelin işlediği bireysel birim (kelime, alt kelime, karakter veya görüntü yaması).

Tokenleştirmeyi anlamak, yapay zeka modellerinin çeşitli veri türlerini nasıl yorumladığını ve bunlardan nasıl öğrendiğini kavramak için temeldir. Veri kümelerini ve eğitim modellerini yönetmek genellikle Ultralytics HUB gibi platformları içerir, bu da veri ön işleme ve model eğitim iş akışlarını kolaylaştırmaya yardımcı olur ve genellikle zımni veya açık olarak tokenize edilmiş verileri içerir. Yapay zeka geliştikçe, otonom araçlar ve tıbbi görüntü analizi gibi alanlarda metin oluşturmadan karmaşık görsel anlamaya kadar çeşitli görevler için daha sofistike modeller oluşturmada önemli bir rol oynayan tokenizasyon yöntemleri de uyum sağlamaya devam ediyor.

Tümünü okuyun