Long Short-Term Memory (LSTM)
Uzun Kısa Süreli Bellek (LSTM) ağlarını incele. LSTM'lerin zaman serisi, NLP ve video analizi görevlerinde RNN'lerdeki kaybolan gradyan problemini nasıl çözdüğünü öğren.
Uzun Kısa Süreli Bellek (LSTM), dizi tahmin problemlerindeki sıra bağımlılığını öğrenebilen, özelleşmiş bir yinelemeli sinir ağı (RNN) mimarisidir. Standart ileri beslemeli sinir ağlarından farklı olarak LSTM'ler, yalnızca tek veri noktalarını (görüntüler gibi) değil, verilerin tüm dizilerini (konuşma veya video gibi) işlemelerine olanak tanıyan geri bildirim bağlantılarına sahiptir. Bu yetenek, onları erken girdilerden gelen bağlamın mevcut veriyi anlamak için kritik olduğu görevler için benzersiz bir şekilde uygun kılar ve geleneksel RNN'lerin "kısa süreli bellek" sınırlamalarını ele alır.
Link to this sectionStandart RNN'ler ile İlgili Sorun#
LSTM'lerin getirdiği yeniliği anlamak için temel yinelemeli sinir ağlarının karşılaştığı zorluklara bakmak faydalıdır. RNN'ler sıralı bilgileri işlemek için tasarlanmış olsalar da, kaybolan gradyan problemi nedeniyle uzun veri dizileriyle çalışırken zorlanırlar. Ağ zaman içinde geriye doğru yayılım (backpropagation) yaparken, ağın ağırlıklarını güncellemek için kullanılan değerler olan gradyanlar katlanarak küçülebilir ve bu da ağın uzak olaylar arasındaki bağlantıları öğrenmesini etkili bir şekilde engeller. Bu, standart bir RNN'in bir önceki cümledeki bir kelimeyi hatırlayabileceği ancak üç paragraf önce oluşturulan bağlamı unutabileceği anlamına gelir. LSTM'ler, çok daha uzun süreler boyunca bir bağlam penceresini koruyabilen daha karmaşık bir iç yapı sunarak bu sorunu çözmek için özel olarak tasarlanmıştır.
Link to this sectionLSTM'ler Nasıl Çalışır?#
Bir LSTM'nin temel kavramı, genellikle ağın tüm zinciri boyunca uzanan bir taşıma bandı olarak tanımlanan hücre durumudur. Bu durum, bilgilerin üzerinde değişmeden akmasına izin vererek uzun vadeli bağımlılıkları korur. Ağ, geçitler (gates) adı verilen yapıları kullanarak bu hücre durumunda neyin saklanacağına, güncelleneceğine veya atılacağına dair kararlar verir.
- Unutma Geçidi (Forget Gate): Bu mekanizma, hangi bilginin artık alakalı olmadığına ve hücre durumundan çıkarılması gerektiğine karar verir. Örneğin, bir dil modeli yeni bir özneyle karşılaştığında, önceki öznenin cinsiyetini "unutabilir".
- Giriş Geçidi (Input Gate): Bu geçit, hangi yeni bilgilerin hücre durumunda saklanacak kadar önemli olduğunu belirler.
- Çıkış Geçidi (Output Gate): Son olarak bu geçit, iç durumun hangi kısımlarının bir sonraki gizli duruma aktarılması ve anlık tahmin için kullanılması gerektiğini kontrol eder.
Bu bilgi akışını düzenleyerek, LSTM'ler 1.000 adımdan fazla zaman gecikmelerini köprüleyebilir ve zaman serisi analizi gerektiren görevlerde geleneksel RNN'lerden çok daha iyi performans gösterebilir.
Link to this sectionGerçek Dünya Uygulamaları#
LSTM'ler, son on yılda derin öğrenme alanındaki birçok önemli atılımın arkasındaki güç olmuştur. İşte uygulamalarının iki belirgin örneği:
- Çeviride Diziden Diziye (Sequence-to-Sequence) Modelleme: LSTM'ler makine çevirisi sistemlerinin temelini oluşturur. Bu mimaride, bir LSTM (kodlayıcı/encoder) bir dildeki (örneğin İngilizce) bir girdi cümlesini işler ve onu bir bağlam vektörüne sıkıştırır. İkinci bir LSTM (kod çözücü/decoder) daha sonra bu vektörü kullanarak çeviriyi başka bir dilde (örneğin Fransızca) oluşturur. Farklı uzunluklardaki girdi ve çıktı dizilerini işleme yeteneği, doğal dil işleme (NLP) için kritiktir.
- Video Analizi ve Aktivite Tanıma: ResNet-50 gibi Evrişimli Sinir Ağları (CNN'ler) statik görüntülerdeki nesneleri tanımlamada başarılı olsa da, zaman algısından yoksundurlar. CNN'leri LSTM'lerle birleştirerek, yapay zeka sistemleri video akışlarında eylem tanıma gerçekleştirebilir. CNN her kareden özellikleri çıkarır ve LSTM, bir kişinin yürüyüp yürümediğini, koşup koşmadığını veya düşüp düşmediğini belirlemek için bu özelliklerin dizisini analiz eder.
Link to this sectionLSTM'leri Bilgisayarlı Görü ile Entegre Etmek#
Modern bilgisayarlı görü alanında, LSTM'ler genellikle güçlü özellik çıkarıcılarla birlikte kullanılır. Örneğin, tek tek karelerdeki nesneleri tespit etmek için bir YOLO modeli, yörüngelerini izlemek veya gelecekteki hareketlerini tahmin etmek için ise bir LSTM kullanabilirsin.
İşte bir video akışından çıkarılan özellik vektörleri dizisini işleyebilecek basit bir LSTM tanımlamak için torch kullanan kavramsal bir örnek:
import torch
import torch.nn as nn
# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)
# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)
# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)
print(f"Output shape: {output.shape}") # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")Link to this sectionİlgili Kavramlar ve Farklılıklar#
LSTM'leri diğer dizi işleme mimarilerinden ayırmak faydalıdır:
- LSTM vs. GRU: Kapılı Yinelemeli Birim (GRU), LSTM'nin basitleştirilmiş bir çeşididir. GRU'lar, unutma ve giriş geçitlerini tek bir "güncelleme geçidinde" birleştirir ve hücre durumu ile gizli durumu bir araya getirir. Bu, GRU'ları hesaplama açısından daha verimli ve eğitilmeleri daha hızlı hale getirir, ancak LSTM'ler daha büyük ve daha karmaşık veri setlerinde hala daha iyi performans gösterebilir.
- LSTM vs. Transformers: The Transformer architecture, which relies on self-attention mechanisms rather than recurrence, has largely superseded LSTMs in NLP tasks like those performed by GPT-4. Transformers can process entire sequences in parallel rather than sequentially, allowing for much faster training on massive datasets. However, LSTMs remain relevant in scenarios with limited data or specific time-series constraints where the overhead of attention mechanisms is unnecessary.
Link to this sectionEvrim ve Gelecek#
Dikkat mekanizması, üretken yapay zeka alanında merkez sahneye çıksa da, LSTM'ler özellikle hesaplama kaynaklarının kısıtlı olduğu uç yapay zeka (edge AI) ortamlarında daha hafif uygulamalar için sağlam bir tercih olmaya devam etmektedir. Araştırmacılar, LSTM'lerin bellek verimliliğini modern nesne tespiti sistemlerinin temsil gücüyle birleştiren hibrit mimarileri keşfetmeye devam etmektedir.
Dizi modellerini eğitmek veya karmaşık görü görevleri için veri setlerini yönetmek isteyenler için Ultralytics Platformu, etiketleme ve veri seti yönetimi için kapsamlı araçlar sunar. Ayrıca, LSTM'lerin nasıl çalıştığını anlamak, otonom araçlar ve robotikte kullanılan daha gelişmiş zamansal modelleri kavramak için güçlü bir temel sağlar.






