Sözlük

Jeton

Yapay zeka modellerinin yapı taşları olan belirteçlerin NLP'ye, bilgisayarla görmeye ve duygu analizi ve nesne algılama gibi görevlere nasıl güç verdiğini öğrenin.

Yapay zekada token, bir modelin işlediği temel, ayrık veri birimidir. Bir yapay zeka modelinin bir metni veya görüntüyü analiz edebilmesi için ham verilerin bu yönetilebilir parçalara ayrılması gerekir. Bir dil modeli için token bir kelime, bir kelimenin bir parçası (bir alt kelime) veya tek bir karakter olabilir. Bir bilgisayarla görme (CV) modeli için bir belirteç, bir görüntünün küçük, sabit boyutlu bir parçası olabilir. Bu veri parçalama işlemi, karmaşık, yapılandırılmamış verileri sinir ağlarının anlayabileceği yapılandırılmış bir biçime dönüştürdüğü için veri ön işleme hattında kritik bir ilk adımdır.

Token vs. Tokenizasyon

'Token' ile'tokenizasyon' arasında ayrım yapmak çok önemlidir.

  • Jeton: Parçalama işlemi sonucunda ortaya çıkan bireysel birim. Modele beslenen "learn" kelimesi veya 16x16 piksel görüntü yaması gibi gerçek veri parçasıdır.
  • Tokenizasyon: Bu dökümü gerçekleştirme yöntemi veya süreci. Bir metin dizisini veya bir görüntüyü bir belirteçler dizisine dönüştürme eylemidir.

Kısacası, tokenlaştırma bir eylemdir ve bir token da bu eylemin sonucudur.

Jeton Türleri ve Önemleri

Jetonlar, yapay zeka modellerinin verileri nasıl algıladığı ve yorumladığının yapı taşlarıdır. Veriler tokenize edildikten sonra, her bir token tipik olarak gömme adı verilen sayısal bir vektör temsiliyle eşleştirilir. Bu katıştırmalar anlamsal anlamı ve bağlamı yakalayarak PyTorch veya TensorFlow gibi çerçevelerle oluşturulan modellerin karmaşık kalıpları öğrenmesine olanak tanır.

  • Kelime ve Alt Kelime Belirteçleri: Doğal Dil İşlemede (NLP) kelimelerin tamamını belirteç olarak kullanmak çok büyük kelime hazinelerine ve bilinmeyen kelimelerle ilgili sorunlara yol açabilir. Byte Pair Encoding (BPE) veya WordPiece gibi algoritmaları kullanan alt kelime tokenizasyonu yaygın bir çözümdür. Nadir kelimeleri daha küçük, anlamlı parçalara ayırır. Örneğin, "tokenization" kelimesi iki token haline gelebilir: "token" ve "##ization". BERT ve GPT-4 gibi modeller tarafından kullanılan bu yaklaşım, modelin karmaşık kelime dağarcığını ve gramer yapılarını işlemesine yardımcı olur. Hugging Face Tokenizers gibi kütüphanelerdeki modern uygulamaları keşfedebilirsiniz.

  • Görsel Jetonlar: Belirteç kavramı metnin ötesine geçerek bilgisayarla görmeye kadar uzanır. Vision Transformer (ViT) gibi modellerde, bir görüntü bir yama ızgarasına bölünür (örneğin, 16x16 piksel). Her yama düzleştirilir ve bir "görsel belirteç" olarak ele alınır. Bu, kendi dikkatini kullanarak dizileri işleme konusunda mükemmel olan güçlü Transformer mimarilerinin görüntü sınıflandırma ve nesne algılama gibi görevleri yerine getirmesine olanak tanır. Bu belirteç tabanlı yaklaşım, CLIP gibi hem görüntüleri hem de metinleri anlayan çok modlu modeller için de temel oluşturur.

Gerçek Dünya Uygulamaları

Token kullanımı, basit uygulamalardan karmaşık, son teknoloji modellere kadar sayısız yapay zeka sistemi için temeldir.

  1. Makine Çevirisi: Google Translate gibi hizmetler büyük ölçüde belirteçlere dayanır. Bir cümle girdiğinizde, ilk olarak bir dizi metin simgesine ayrılır. Sofistike bir diziden diziye model bu simgeleri işler, ortak anlamlarını anlar ve hedef dilde yeni bir simge dizisi oluşturur. Bu çıktı belirteçleri daha sonra tekrar tutarlı bir çeviri cümlesinde birleştirilir. Bu süreç düzinelerce dilde gerçek zamanlı çeviri yapılmasını sağlar.

  2. Otonom Araçlar: Otonom araçlar alanında, modeller karmaşık görsel sahneleri gerçek zamanlı olarak yorumlamalıdır. Ultralytics YOLO11 gibi bir model, nesne takibi ve örnek segmentasyonu gibi görevleri gerçekleştirmek için kamera beslemelerini işler. YOLO gibi klasik CNN tabanlı modeller, Transformatörlerle aynı şekilde "belirteçleri" açıkça kullanmazken, algılama için tasarlanmış görüntü dönüştürücü varyantları bunu yapar. Yayaları, diğer araçları ve trafik sinyallerini yüksek doğrulukla tanımlamak ve bulmak için görsel girdiyi belirteçlere (yamalara) ayırırlar. Çevrenin bu şekilde anlaşılması güvenli navigasyon için çok önemlidir. Veri toplamadan model dağıtımına kadar tüm iş akışını yönetmek, Ultralytics HUB gibi platformlar kullanılarak kolaylaştırılabilir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı