Sözlük

Jeton

Yapay zeka modellerinin yapı taşları olan belirteçlerin NLP'ye, bilgisayarla görmeye ve duygu analizi ve nesne algılama gibi görevlere nasıl güç verdiğini öğrenin.

Yapay Zeka (AI ) ve Makine Öğrenimi (ML) alanında, özellikle Doğal Dil İşleme (NLP) ve giderek artan bir şekilde bilgisayarla görme alanında, bir 'token' bir modelin işlediği en küçük veri birimini temsil eder. Token'ları, ister metin ister görüntü isterse diğer veri biçimleri olsun, yapay zeka modellerinin bilgileri anlamak ve analiz etmek için kullandığı temel yapı taşları olarak düşünün. Ham girdiyi algoritmaların yorumlayabileceği ve öğrenebileceği bir formata dönüştürmek için gereklidirler ve birçok karmaşık yapay zeka görevinin temelini oluştururlar.

Jetonları Anlama

Jetonlar, bir sürecin ayrık çıktılarıdır. belirteçleştirme. NLP'de, örneğin,Ultralytics YOLO hızlı ve doğrudur" gibi bir cümle tek tek kelimelere ayrılabilir: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]. Belirli tokenleştirme stratejisine bağlı olarak, tokenler alt kelime birimleri (örneğin, "Ultra", "lytics") veya hatta tek tek karakterler de olabilir. Bu parçalama, sürekli metinleri veya karmaşık verileri yönetilebilir parçalara dönüştürür.

Jetonların çok önemli olmasının nedeni, birçok modern yapay zeka sisteminde kullanılan Transformers gibi güçlü mimariler de dahil olmak üzere çoğu derin öğrenme modelinin ham, yapılandırılmamış verileri doğrudan işleyememesidir. Yapılandırılmış, genellikle sayısal bir formatta girdiye ihtiyaç duyarlar. Tokenizasyon bu köprüyü sağlar. Veriler tokenize edildikten sonra, her bir token tipik olarak bir kelime dağarcığındaki kimlik gibi sayısal bir temsille veya daha yaygın olarak gömme adı verilen yoğun vektör temsilleriyle eşleştirilir. Bu katıştırmalar, modellerin eğitim sırasında öğrendiği belirteçler arasındaki anlamsal ilişkileri yakalar.

Tokenizasyon Yöntemleri

Verileri belirteçlere ayırmak için farklı yöntemler mevcuttur:

Kelime Tabanlı Tokenizasyon: Metni boşluklara ve noktalama işaretlerine göre böler. Basittir ancak büyük kelime dağarcıkları ve bilinmeyen kelimelerle mücadele eder.
Karakter Tabanlı Tokenizasyon: Tek tek karakterleri belirteç olarak kullanır. Herhangi bir kelimeyi işler ancak çok uzun dizilerle sonuçlanır.
Alt Kelime Tokenizasyonu: Kelime ve karakter yöntemleri arasında bir denge. Byte Pair Encoding (BPE) veya WordPiece gibi teknikler kelimeleri ortak alt birimlere ayırarak büyük kelime hazinelerini ve nadir kelimeleri verimli bir şekilde ele alır. Bunlar Büyük Dil Modellerinde (LLM'ler) yaygın olarak kullanılmaktadır.

Jetonlar ve İlgili Kavramlar

Belirteçleri ilgili terimlerden ayırt etmek önemlidir:

Token vs. Tokenizasyon: Bir token çıktı birimidir (örneğin,Ultralytics', 'image patch'), tokenizasyon ise bu birimleri ham verilerden oluşturma işlemidir.
Token ve Gömme: Belirteç, ayrı bir girdi birimidir. Gömme, tipik olarak belirteci temsil eden ve anlamını modelin anlayabileceği bir şekilde yakalayan yoğun bir sayısal vektördür. Belirteçler modele girilmeden önce genellikle kelime gömülerine veya görsel gömülere dönüştürülür.

Jeton Uygulamaları

Jetonlar çeşitli yapay zeka alanlarında temel öneme sahiptir. İşte iki somut örnek:

Makine Çevirisi: Google Translate gibi hizmetlerde, bir dildeki giriş cümlesi önce tokenize edilir. Bu belirteçler, daha sonra hedef dilde çevrilen cümleyi temsil eden belirteçler üreten bir diziden diziye model (genellikle bir Dönüştürücü) tarafından işlenir. Jetonlama seçimi çevirinin doğruluğunu ve akıcılığını önemli ölçüde etkiler. GPT-4 ve BERT gibi LLM'ler çeviri, metin oluşturma ve duygu analizi gibi görevler için büyük ölçüde token işlemeye dayanır. Komut istemi ayarlama ve komut istemi zincirleme gibi teknikler, model davranışını yönlendirmek için giriş belirteci dizilerini manipüle etmeyi içerir.
Transformatörlerle Bilgisayarla Görme: Geleneksel olarak NLP ile ilişkilendirilse de, belirteçler artık Vision Transformers (ViTs) gibi gelişmiş bilgisayarla görme modellerinin merkezinde yer almaktadır. Bir ViT'de, bir görüntü sabit boyutlu, örtüşmeyen yamalara (örneğin, 16x16 piksel) bölünür. Her yama bir 'görsel belirteç' olarak ele alınır. Bu belirteçler doğrusal olarak gömülür ve görüntünün farklı bölümleri arasındaki ilişkileri analiz etmek için dikkat mekanizmalarını kullanan bir Transformer mimarisine beslenir. Bu yaklaşım görüntü sınıflandırma, nesne algılama ve görüntü segmentasyonu gibi görevler için kullanılır. Segment Anything Model (SAM) gibi modeller bu token tabanlı yaklaşımı kullanır. gibi konvolüsyonel modellerde bile Ultralytics YOLOv8 veya daha yeni Ultralytics YOLO11Algılama için kullanılan ızgara hücre sistemi, mekansal belirtecin örtük bir biçimi olarak görülebilir.

Belirteçleri anlamak, YZ modellerinin bilgiyi nasıl yorumladığını ve işlediğini kavramak için temeldir. YZ geliştikçe, belirteç kavramı ve bunları oluşturma yöntemleri, çeşitli veri türlerini ele almak ve tıbbi görüntü analizinden otonom araçlara kadar çeşitli uygulamalar için daha sofistike modeller oluşturmak için merkezi olmaya devam edecektir. Ultralytics HUB gibi platformlar, veri kümelerini yönetmek ve genellikle örtük veya açık bir şekilde tokenize edilmiş verileri içeren modelleri eğitmek için araçlar sağlar.

Jeton

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

İnovasyonunuza güç katacak esnek kurumsal lisanslama çözümü

Yapay zeka modellerini saniyeler içinde eğitin Ultralytics YOLO

Ultralytics HUB ile YOLO modellerini kolayca eğitin

Jetonları Anlama

Tokenizasyon Yöntemleri

Jetonlar ve İlgili Kavramlar

Jeton Uygulamaları

Daha fazla blog okuyun

Ultralytics topluluğuna katılın

Jeton

YOLO modellerini Ultralytics HUB ile basitçeeğitin

İnovasyonunuza güç katacak esnek kurumsal lisanslama çözümü

Yapay zeka modellerini saniyeler içinde eğitin Ultralytics YOLO

Ultralytics HUB ile YOLO modellerini kolayca eğitin

Jetonları Anlama

Tokenizasyon Yöntemleri

Jetonlar ve İlgili Kavramlar

Jeton Uygulamaları

Daha fazla blog okuyun

Ultralytics topluluğuna katılın

YOLO modellerini Ultralytics HUB ile basitçe
eğitin