Sequence-to-Sequence Modelleri
Diziden diziye modellerin, çeviri, sohbet robotları ve konuşma tanıma gibi yapay zeka görevlerine güç vererek girdiyi çıktı dizilerine nasıl dönüştürdüğünü keşfedin.
Sekanstan Sekansa (Seq2Seq) modelleri, temel bir sınıftır.
dönüşüme uyarlanmış derin öğrenme mimarileri
sabit uzunlukta bir giriş dizisinin, giriş ve çıkış uzunluklarının değişebildiği sabit uzunlukta bir çıkış dizisine dönüştürülmesi
bağımsız olarak. Bu yetenek, onları karmaşık problemleri çözmek için gerekli kılar.
girdi ve çıktı sıralı ve doğrusal değildir. Tek bir girdiyi tek bir etiketle eşleyen standart modellerin aksine,
Seq2Seq modelleri, zaman içinde bağlamı anlama konusunda mükemmeldir ve birçok
Doğal Dil İşleme (NLP)
çeviri hizmetleri ve sesli asistanlar gibi günlük olarak kullanılan uygulamalar.
Kodlayıcı-Kod Çözücü Mimarisi
Bir Seq2Seq modelinin temel çerçevesi, kodlayıcı-kod çözücü yapısına dayanır.
gibi araştırmalar
Sinir Ağları ile Sıradan Sıraya Öğrenme makalesi. Bu
mimarisi görevi iki ayrı aşamaya ayırır: bağlamı kodlama ve sonuçları çözme.
-
Kodlayıcı: Bu bileşen, girdi dizisini öğe öğe işler (örneğin, bir cümledeki kelimeler veya
bir videodaki kareler). Bilgileri bağlam olarak bilinen sabit uzunlukta bir dahili temsile sıkıştırır
Vektör. Geleneksel olarak, kodlayıcılar aşağıdakiler kullanılarak üretilir
Tekrarlayan Sinir Ağları (RNN) veya
gibi özel varyantlar
Uzun Kısa Süreli Bellek (LSTM)
Verilerdeki uzun vadeli bağımlılıkları yakalayabilen ağlar.
-
Kod Çözücü: Giriş kodlandıktan sonra, kod çözücü bağlam vektörünü alır ve
çıktı dizisini her seferinde bir adım. Önceki tahminlere dayanarak dizideki bir sonraki öğeyi tahmin eder ve
bağlam vektörü. Gelişmiş uygulamalar genellikle bir
belirli bir konuya odaklanmak için dikkat mekanizması
Giriş dizisinin bazı kısımlarını dinamik olarak çözerek temel kodlayıcı-kod çözücü çiftlerinde bulunan bilgi darboğazını hafifletir.
Gerçek Dünya Uygulamaları
Seq2Seq modellerinin esnekliği, basit metin analizinin ötesinde çeşitli alanlarda uygulanmalarına olanak tanır.
-
Makine Çevirisi: Belki de
en ünlü uygulama olan Seq2Seq, aşağıdaki gibi güç araçlarını modeller
Google Çeviri. Model, kaynak dildeki bir cümleyi kabul eder
(örn. English) ve hedef dilde (örn. İspanyolca) bir cümle çıktısı verir, dilbilgisi farklılıklarını ve
akıcı cümle yapısı.
-
Metin Özetleme: Bunlar
modeller uzun belgeleri veya makaleleri alabilir ve kısa özetler oluşturabilir. Temel anlamını anlayarak
Giriş metnini çözen kod çözücü, anahtar bilgiyi koruyan daha kısa bir dizi üretir; bu, aşağıdakiler için hayati önem taşıyan bir tekniktir
otomatik haber toplama.
-
Resim Altyazısı: Köprü kurarak
bilgisayarla görme ve NLP, bir Seq2Seq modeli
bir görüntünün içeriğini tanımlar. Bir Evrişimsel Sinir Ağı (CNN), görsel içeriği çıkarmak için kodlayıcı görevi görür.
özellikleri, bir RNN veya Transformatör ise açıklayıcı bir cümle oluşturmak için kod çözücü görevi görür. Bu bir asal
çok modlu bir model örneği.
-
Konuşma Tanıma: Bunlarda
sistemlerinde, giriş bir dizi ses sinyali çerçevesidir ve çıkış bir dizi metin karakteri veya kelimedir.
Bu teknolojinin temelini
Siri ve Alexa gibi sanal asistanlar.
İlgili Kavramlarla Karşılaştırma
Özel faydalarını anlamak için Seq2Seq modellerini diğer mimarilerden ayırmak önemlidir.
-
Vs. Standart Sınıflandırma: Temel sınıflandırmada kullanılanlar gibi standart sınıflandırıcılar
görüntü sınıflandırma, tek bir girdiyi eşleme
(bir görüntü gibi) tek bir sınıf etiketine eşler. Buna karşılık, Seq2Seq modelleri dizileri dizilerle eşleştirerek
değişken çıkış uzunlukları.
-
Vs. Nesne Algılama: Gibi modeller
Ultralytics YOLO11 içinde mekansal algılamaya odaklanmak
tek kare, nesneleri ve konumlarını tanımlar. YOLO görüntüleri yapısal olarak işlerken, Seq2Seq modelleri
verileri zamansal olarak işler. Ancak, aşağıdaki gibi görevlerde etki alanları çakışır
üzerinde nesne yörüngelerinin belirlendiği nesne izleme
video kareleri sıralı veri analizini içerir.
-
Karşı. Transformers: Bu
Transformatör mimarisi, transformatörlerin modern evrimidir.
Seq2Seq. Orijinal Seq2Seq modelleri büyük ölçüde RNN'lere ve
Geçitli Tekrarlayan Birimler (GRU),
Transformatörler, dizileri paralel olarak işlemek için öz dikkatten yararlanarak önemli hız ve doğruluk sunar
iyileştirmeler.
Uygulama Örneği
Çeviri için tam Seq2Seq modelleri karmaşık olsa da, yapı taşlarına aşağıdaki gibi kütüphaneler aracılığıyla erişilebilir
PyTorch. Aşağıdaki örnek nasıl yapılacağını göstermektedir
Seq2Seq modelinin ilk yarısı olarak hizmet edebilecek basit bir LSTM tabanlı kodlayıcıyı başlatın.
import torch
import torch.nn as nn
# Initialize an LSTM layer (The Encoder)
# input_size=10 (feature dimension), hidden_size=20 (context vector size)
encoder = nn.LSTM(input_size=10, hidden_size=20, batch_first=True)
# Create a dummy input sequence: Batch size 1, Sequence length 5, Features 10
input_seq = torch.randn(1, 5, 10)
# Forward pass processing the sequence
output, (hidden_state, cell_state) = encoder(input_seq)
# The hidden_state represents the 'context vector' for the sequence
print(f"Context Vector shape: {hidden_state.shape}")
# Output: torch.Size([1, 1, 20])
Video aracılığıyla nesneleri izlemek gibi bilgisayarla görme alanındaki sıralı görevleri keşfetmekle ilgilenenler için
çerçeveler, Ultralytics izleme modlarını keşfetmek bir
pratik giriş noktası. Altta yatan mekanikler hakkındaki anlayışınızı derinleştirmek için
Stanford CS224n NLP kursu şu konularda kapsamlı materyaller sunmaktadır
dizi modelleme ve derin öğrenme.