Sözlük

Diziden Diziye Modeller

Diziden diziye modellerin girdiyi çıktı dizilerine dönüştürerek çeviri, sohbet robotları ve konuşma tanıma gibi yapay zeka görevlerini nasıl güçlendirdiğini keşfedin.

Diziden Diziye (Seq2Seq) modelleri, bir giriş dizisini, giriş ve çıkış uzunluklarının farklı olabileceği bir çıkış dizisine dönüştürmek için tasarlanmış bir derin öğrenme modelleri sınıfıdır. Bu esneklik, onları Doğal Dil İşleme (NLP) ve ötesinde çok çeşitli görevler için son derece güçlü kılar. Temel fikir, Google ve Yoshua Bengio'nun laboratuvarındaki araştırmacılar tarafından makine çevirisi gibi alanlarda devrim yaratan makalelerde ortaya atılmıştır.

Seq2Seq Modelleri Nasıl Çalışır?

Seq2Seq modelleri bir kodlayıcı-kod çözücü mimarisi üzerine inşa edilmiştir. Bu yapı, modelin değişken uzunluktaki dizileri etkili bir şekilde ele almasını sağlar.

  • Kodlayıcı: Bu bileşen, İngilizce bir cümle gibi tüm girdi dizisini işler. Diziyi her seferinde bir öğe okur (örneğin, kelime kelime) ve bilgiyi bağlam vektörü veya "düşünce vektörü" adı verilen sabit uzunlukta sayısal bir temsile sıkıştırır. Geleneksel olarak, kodlayıcı bir Tekrarlayan Sinir Ağı (RNN) veya sıralı bilgileri yakalamada usta olan Uzun Kısa Süreli Bellek (LSTM) gibi daha gelişmiş bir varyanttır.

  • Kod Çözücü: Bu bileşen ilk girdi olarak kodlayıcıdan bağlam vektörünü alır. Görevi, çıktı dizisini her seferinde bir öğe oluşturmaktır. Örneğin, bir çeviri görevinde, çevrilen cümleyi kelime kelime üretecektir. Her adımdan elde edilen çıktı, bir sonraki adımda kod çözücüye geri beslenerek tutarlı bir dizi oluşturmasını sağlar. Bu süreç, özel bir dizi sonu belirteci üretilinceye kadar devam eder. Seq2Seq performansını önemli ölçüde artıran önemli bir yenilik, kod çözücünün çıktıyı üretirken orijinal girdi dizisinin farklı bölümlerine geri bakmasına olanak tanıyan dikkat mekanizmasıdır.

Seq2Seq Modellerinin Uygulamaları

Değişken uzunluktaki girdileri değişken uzunluktaki çıktılarla eşleme yeteneği, Seq2Seq modellerini çok yönlü hale getirir.

  • Makine Çevirisi: Bu en temel uygulamadır. Bir model bir dildeki bir cümleyi alıp (örneğin, "Nasılsınız?") başka bir dile çevirebilir (örneğin, "Wie geht es Ihnen?"). Google Translate gibi hizmetler bu ilkeleri yoğun bir şekilde kullanmaktadır.
  • Metin Özetleme: Bir Seq2Seq modeli uzun bir makale veya belgeyi (giriş dizisi) okuyabilir ve kısa bir özet (çıkış dizisi) oluşturabilir. Bu, büyük hacimli metinleri sindirilebilir içgörülere yoğunlaştırmak için kullanışlıdır.
  • Sohbet Robotları ve Diyaloğa Dayalı Yapay Zeka: Modeller, bir kullanıcının sorgusuna veya ifadesine (girdi dizisi) ilgili ve bağlamsal bir yanıt (çıktı dizisi) oluşturmak için eğitilebilir.
  • Resim Altyazısı: Bu bilgisayarla görmeyi içermekle birlikte, prensip benzerdir. Bir CNN, bir görüntüyü işlemek ve daha sonra bir kod çözücünün açıklayıcı bir metin dizisi oluşturmak için kullandığı bir bağlam vektörü oluşturmak için kodlayıcı görevi görür. Bu, çok modlu bir model örneğidir.

Seq2Seq ve Diğer Mimariler

RNN'lere dayalı Seq2Seq modelleri çığır açıcı olsa da, alan gelişmiştir:

  • Standart RNN'ler: Tipik olarak dizileri aynı uzunluktaki dizilerle eşleştirir veya tüm dizileri sınıflandırır, değişken çıktı uzunlukları için kodlayıcı-kod çözücü yapısının esnekliğinden yoksundur.
  • Transformatörler: Artık daha önce RNN tabanlı Seq2Seq modelleri tarafından ele alınan birçok NLP görevine hakimdir. Yineleme yerine öz dikkat ve konumsal kodlamalar kullanarak daha iyi paralelleştirmeye ve uzun menzilli bağımlılıkları daha etkili bir şekilde yakalamaya olanak sağlarlar. Bununla birlikte, temel kodlayıcı-kod çözücü kavramı, birçok Transformer tabanlı modelin merkezinde yer almaya devam etmektedir. Ultralytics tarafından desteklenen Baidu'nun RT-DETR'si gibi modeller, nesne algılama için Transformer bileşenlerini içerir.
  • CNN'ler: Öncelikli olarak görüntüler gibi ızgara benzeri veriler için kullanılır (örneğin, algılama ve segmentasyon için Ultralytics YOLO modellerinde), ancak bazen dizi görevleri için uyarlanır.

Seq2Seq genellikle RNN tabanlı kodlayıcı-kod çözücü yapısına atıfta bulunurken, giriş dizilerini bir ara temsil kullanarak çıkış dizilerine eşleme genel ilkesi birçok modern mimarinin merkezinde kalır. PyTorch ve TensorFlow gibi araçlar, hem geleneksel hem de modern dizi modellerini uygulamak için yapı taşları sağlar. Eğitim sürecini yönetmek, tüm model dağıtım boru hattını basitleştiren Ultralytics HUB gibi platformlar kullanılarak kolaylaştırılabilir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı