YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024
Sözlük

Token

Yapay zeka modellerinin yapı taşları olan belirteçlerin (token), NLP, bilgisayarlı görü ve duygu analizi ve nesne tespiti gibi görevleri nasıl desteklediğini öğrenin.

Yapay zekada, belirteç (token), bir modelin işlediği temel, ayrık veri birimidir. Bir yapay zeka modeli bir metni veya görüntüyü analiz etmeden önce, ham verilerin bu yönetilebilir parçalara ayrılması gerekir. Bir dil modeli için, bir belirteç bir kelime, bir kelimenin bir parçası (bir alt kelime) veya tek bir karakter olabilir. Bir bilgisayarlı görü (CV) modeli için, bir belirteç bir görüntünün küçük, sabit boyutlu bir yaması olabilir. Verileri parçalama süreci, karmaşık, yapılandırılmamış verileri sinir ağlarının anlayabileceği yapılandırılmış bir biçime dönüştürdüğü için veri ön işleme ardışık düzeninde kritik bir ilk adımdır.

Belirteç (Token) - Belirteçleştirme (Tokenization)

'Token' ve 'tokenizasyon' arasında ayrım yapmak önemlidir.

  • Belirteç (Token): Ayrıştırma sürecinden kaynaklanan bireysel birim. Modelde kullanılan "öğren" kelimesi veya 16x16 piksellik bir görüntü yaması gibi gerçek veri parçasıdır.
  • Belirteçleştirme (Tokenization): Bu ayrıştırmayı gerçekleştirme yöntemi veya süreci. Bir metin dizisini veya bir görüntüyü bir belirteç dizisine dönüştürme eylemidir.

Kısacası, tokenizasyon eylemdir ve bir token bu eylemin sonucudur.

Token Türleri ve Önemi

Belirteçler, yapay zeka modellerinin verileri nasıl algıladığı ve yorumladığı konusunda yapı taşlarıdır. Veriler belirteçleştirildikten sonra, her belirteç genellikle gömme (embedding) adı verilen sayısal bir vektör gösterimine eşlenir. Bu gömmeler, semantik anlamı ve bağlamı yakalar ve PyTorch veya TensorFlow gibi çerçevelerle oluşturulmuş modellerin karmaşık kalıpları öğrenmesini sağlar.

  • Kelime ve Alt Kelime Belirteçleri: Doğal Dil İşleme'de (NLP), tüm kelimeleri belirteç olarak kullanmak, çok büyük sözlüklere ve bilinmeyen kelimelerle ilgili sorunlara yol açabilir. Bayt Çifti Kodlama (BPE) veya WordPiece gibi algoritmalar kullanan alt kelime belirteçleştirme, yaygın bir çözümdür. Nadir kelimeleri daha küçük, anlamlı parçalara ayırır. Örneğin, "belirteçleştirme" kelimesi iki belirteç haline gelebilir: "belirteç" ve "##leştirme". BERT ve GPT-4 gibi modeller tarafından kullanılan bu yaklaşım, modelin karmaşık kelime dağarcığını ve dilbilgisel yapıları işlemesine yardımcı olur. Hugging Face Tokenizers gibi kitaplıklarda modern uygulamaları keşfedebilirsiniz.

  • Görsel Belirteçler (Visual Tokens): Belirteç kavramı, metnin ötesine bilgisayarlı görüye kadar uzanır. Vision Transformer (ViT) gibi modellerde, bir görüntü bir ızgara parçasına (örneğin, 16x16 piksel) bölünür. Her parça düzleştirilir ve bir "görsel belirteç" olarak kabul edilir. Bu, kendiliğinden dikkat kullanarak dizileri işlemede mükemmel olan güçlü Transformer mimarilerinin görüntü sınıflandırma ve nesne tespiti gibi görevleri gerçekleştirmesini sağlar. Bu belirteç tabanlı yaklaşım, CLIP gibi hem görüntüleri hem de metni anlayan çok modlu modeller için de temel oluşturur.

Gerçek Dünya Uygulamaları

Belirteçlerin kullanımı, basit uygulamalardan karmaşık, son teknoloji modellere kadar sayısız yapay zeka sistemi için temeldir.

  1. Makine Çevirisi: Google Çeviri gibi hizmetler büyük ölçüde belirteçlere (token) dayanır. Bir cümle girdiğinizde, önce bir dizi metin belirtecine ayrılır. Gelişmiş bir diziden diziye model bu belirteçleri işler, kolektif anlamlarını anlar ve hedef dilde yeni bir belirteç dizisi oluşturur. Bu çıktı belirteçleri daha sonra tutarlı bir çevrilmiş cümle halinde yeniden birleştirilir. Bu işlem, düzinelerce dilde gerçek zamanlı çeviriyi mümkün kılar.

  2. Otonom Araçlar: Otonom araçlar alanında, modellerin karmaşık görsel sahneleri gerçek zamanlı olarak yorumlaması gerekir. Ultralytics YOLO11 gibi bir model, nesne izleme ve örnek segmentasyonu gibi görevleri gerçekleştirmek için kamera akışlarını işler. YOLO gibi klasik CNN tabanlı modeller, Transformatörlerle aynı şekilde "belirteçleri" açıkça kullanmasa da, algılama için tasarlanmış vizyon transformatörü varyantları kullanır. Yayaları, diğer araçları ve trafik işaretlerini yüksek doğrulukla tanımlamak ve konumlandırmak için görsel girdiyi belirteçlere (yama) ayırırlar. Çevrenin bu belirteçli anlaşılması, güvenli navigasyon için çok önemlidir. Veri toplamadan model dağıtımına kadar tüm iş akışını yönetmek, Ultralytics HUB gibi platformlar kullanılarak kolaylaştırılabilir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın
Bağlantı panoya kopyalandı