Yolo 비전 선전
선전
지금 참여하기
용어집

장단기 메모리 (LSTM)

LSTM(Long Short-Term Memory) 네트워크가 순차 데이터를 처리하고, RNN의 한계를 극복하며, NLP 및 예측과 같은 AI 작업을 강화하는 데 어떻게 탁월한지 알아보세요.

장단기 메모리(LSTM)는 다음과 같은 광범위한 제품군 내의 특수 아키텍처입니다. 순환 신경망(RNN) 순차적 데이터를 처리하고 장기적인 종속성을 효과적으로 포착하도록 설계되었습니다. 표준 피드포워드와 달리 네트워크와 달리, LSTM은 시간이 지나도 지속되는 내부 '메모리'를 유지합니다, 텍스트, 오디오, 금융 데이터와 같은 순차적인 패턴을 학습할 수 있습니다. 이 기능은 기존 RNN의 중요한 한계로 알려진 사라지는 기울기 문제, 즉 네트워크가 이전의 정보를 유지하기 위해 네트워크가 긴 시퀀스에서 이전 단계의 정보를 유지하기 위해 고군분투하며 모델 훈련. 고유한 게이팅 메커니즘을 활용함으로써 LSTM은 은 정보를 선택적으로 기억하거나 잊어버릴 수 있어 딥 러닝의 역사에서 기초가 되는 딥 러닝(DL).

LSTM 작동 방식

LSTM의 핵심 혁신은 셀 상태이며, 종종 네트워크의 전체 사슬을 통과하는 컨베이어 벨트로 묘사되기도 합니다. 네트워크의 사슬을 통과하는 컨베이어 벨트로 묘사되기도 합니다. 이 구조 덕분에 정보가 컨베이어 벨트를 따라 변경되지 않고 긴 시퀀스 동안 컨텍스트를 보존할 수 있습니다. LSTM은 다음과 같은 세 가지 게이트를 사용하여 이 흐름을 조절합니다. 일반적으로 시그모이드 신경망 레이어로 구성된 게이트와 점 단위 곱셈 연산으로 구성됩니다:

  • 잊어버림 게이트: 이전 셀 상태의 어떤 정보가 더 이상 관련성이 없고 폐기해야 하는 정보를 결정합니다.
  • 입력 게이트: 현재 입력 단계에서 어떤 새 정보가 셀 상태에 저장될 만큼 중요한지 셀 상태에 저장할 만큼 중요한지 결정합니다.
  • 출력 게이트: 셀 상태의 어떤 부분을 다음 숨겨진 상태로 출력할지 제어합니다. 를 사용하여 탄(쌍곡선 탄젠트) 활성화로 스케일 값을 사용합니다.

이 정교한 설계를 통해 LSTM은 관련 정보와 필요한 지점 사이의 간격이 큰 작업을 처리할 수 있습니다. 간격이 큰 작업을 처리할 수 있으며, 이 개념은 크리스토퍼 올라의 유명한 LSTM 이해 가이드에서 시각화된 개념입니다.

실제 애플리케이션

LSTM은 다음을 발전시키는 데 중요한 역할을 해왔습니다. 인공 지능(AI) 기능을 발전시키는 데 중요한 역할을 해왔습니다. 시간적 역학을 이해하는 능력은 다음과 같은 분야에 이상적입니다:

  1. 자연어 처리(NLP): 다음과 같은 작업에서 기계 번역과 같은 작업에서 LSTM은 한 언어로 된 문장을 한 언어의 문장을 수집하고 문장의 앞부분에 나타나는 단어의 문맥을 유지하여 다른 언어로 번역을 생성할 수 있습니다. 문장의 앞부분에 나타나는 단어의 문맥을 유지하여 다른 번역을 생성할 수 있습니다. 마찬가지로 감정 분석에서 모델은 단락의 시작 부분에 있는 수식어(예: "not")가 끝 부분에 있는 단어를 어떻게 부정하는지(예:, "recommended").
  2. 비디오 분석 및 동작 인식: 동안 컴퓨터 비전(CV) 모델은 YOLO11 와 같은 컴퓨터 비전(CV) 모델은 정적 이미지에서 물체를 감지하는 데 탁월하지만, LSTM 은 추출된 이미지 특징의 시퀀스를 처리할 수 있습니다. 컨볼루션 신경망(CNN) 에 의해 추출된 이미지 특징의 시퀀스를 처리하여 "달리기" 또는 "손 흔들기"와 같은 시간 경과에 따른 동작을 인식할 수 있습니다. 이 조합은 공간 감지와 공간 감지와 시간적 동영상 이해 사이의 간극을 메워줍니다.

관련 아키텍처와의 비교

LSTM을 유사한 시퀀스 모델링 기법과 구별하는 것이 도움이 됩니다:

  • RNN 대 LSTM: 표준 RNN은 단순한 반복 구조(일반적으로 단일 계층)를 가지고 있지만 기울기 불안정성으로 인해 장거리 종속성을 학습하지 못합니다. LSTM은 다중 게이트 구조를 도입하여 이 문제를 해결합니다.
  • GRU vs. 게이트 순환 유닛(GRU) 은 잊어버림 게이트와 입력 게이트를 하나의 업데이트 게이트로 병합하는 LSTM의 단순화된 변형입니다. GRU의 장점은 계산 효율이 더 높고 종종 비슷한 성능을 내기 때문에 다음과 같은 경우에 많이 사용됩니다. 컴퓨팅 리소스가 제한되어 있는 경우.
  • 트랜스포머 대 LSTM: 현대적 트랜스포머 아키텍처는 자기 주의 메커니즘에 의존하는 현대 트랜스포머 아키텍처는 대체로 LSTM을 대체했습니다. 트랜스포머는 전체 시퀀스를 순차적으로 처리하는 것이 아니라 병렬로 처리하므로 GPU에서 더 빠른 GPU에 대한 훈련과 더 나은 처리 더 빠르게 훈련할 수 있습니다.

구현 예시

다음 예는 다음을 사용하여 표준 LSTM 레이어를 정의하는 방법을 보여줍니다. PyTorch. 이 코드 조각은 레이어를 초기화하고 순차 데이터의 순차 데이터의 더미 배치를 처리합니다. 워크플로우를 처리합니다.

import torch
import torch.nn as nn

# Define an LSTM layer: input_dim=10, hidden_dim=20, num_layers=2
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, num_layers=2, batch_first=True)

# Create dummy input: (batch_size=5, sequence_length=3, input_dim=10)
input_seq = torch.randn(5, 3, 10)

# Forward pass: Returns output and (hidden_state, cell_state)
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Expected: torch.Size([5, 3, 20])

추가 읽기 및 리소스

LSTM에 대해 더 자세히 알아보시려면 원본 연구 논문을 참조하세요. 에서 개념을 소개했습니다. 실제 구현에 관심이 있는 분들을 위해 공식 PyTorch LSTM 문서와 TensorFlow 케라스 LSTM API에서 제공하는 포괄적인 가이드를 제공합니다. 또한 다음 강좌에서 스탠포드 대학교의 NLP 강좌에서는 시퀀스 모델의 이론적 기초를 시퀀스 모델의 이론적 토대를 심도 있게 다룹니다. 이러한 구성 요소를 이해하는 것은 복잡한 AI 시스템을 마스터하는 데 매우 중요합니다, 단순한 음성-텍스트 엔진부터 고급 자율 에이전트까지 자율 에이전트.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기