YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

장단기 메모리 (LSTM)

LSTM(Long Short-Term Memory) 네트워크가 순차 데이터를 처리하고, RNN의 한계를 극복하며, NLP 및 예측과 같은 AI 작업을 강화하는 데 어떻게 탁월한지 알아보세요.

LSTM(Long Short-Term Memory)은 긴 데이터 시퀀스에 걸쳐 패턴을 학습하고 기억하도록 설계된 특수한 유형의 RNN(Recurrent Neural Network) 아키텍처입니다. 기울기 소실 문제로 인해 장기 종속성에 어려움을 겪는 표준 RNN과 달리 LSTM은 고유한 게이팅 메커니즘을 사용하여 정보 흐름을 조절합니다. 이를 통해 네트워크는 관련 없는 데이터를 버리는 동시에 중요한 정보를 장기간 선택적으로 유지할 수 있으므로 특히 자연어 처리(NLP)에서 현대 딥 러닝의 초석이 됩니다. Hochreiter와 Schmidhuber의 기본 LSTM 논문은 이 강력한 기술의 토대를 마련했습니다.

LSTM 작동 방식

LSTM의 핵심 기능은 "셀 상태"와 여러 "게이트"를 포함하는 내부 구조에 있습니다. 셀 상태는 컨베이어 벨트 역할을 하여 시퀀스를 통해 관련 정보를 전달합니다. 입력, 망각, 출력 게이트는 셀 상태에 정보를 추가, 제거 또는 읽는 것을 제어하는 신경망입니다.

  • 망각 게이트: 이전 셀 상태에서 어떤 정보를 버릴지 결정합니다.
  • 입력 게이트: 현재 입력으로부터 어떤 새로운 정보를 셀 상태에 저장할지 결정합니다.
  • Output Gate: 셀 상태의 어떤 정보가 현재 타임 스텝에 대한 출력을 생성하는 데 사용되는지 제어합니다.

이러한 게이팅 구조를 통해 LSTM은 텍스트 또는 시계열과 같은 순차적 데이터를 이해하는 데 중요한 기능인 여러 시간 단계에 걸쳐 컨텍스트를 유지할 수 있습니다. 자세한 시각화는 이 인기 있는 LSTM 이해 블로그 게시물에서 확인할 수 있습니다.

실제 애플리케이션

LSTM은 순차적 데이터를 포함하는 수많은 도메인에서 성공적으로 적용되었습니다.

  1. 기계 번역: LSTM은 한 언어의 문장을 단어별로 처리하고 내부 표현(이해)을 구축한 다음 다른 언어로 번역을 생성할 수 있습니다. 이를 위해서는 일관된 번역을 생성하기 위해 문장 시작 부분부터 컨텍스트를 기억해야 합니다. Google 번역은 역사적으로 Transformer 아키텍처로 전환하기 전에 이 목적으로 LSTM 기반 모델을 사용했습니다.
  2. 음성 인식: 텍스트 음성 변환 애플리케이션에서 LSTM은 오디오 특징 시퀀스를 처리하여 음성 단어를 변환할 수 있습니다. 모델은 현재 소리를 올바르게 해석하기 위해 이전 소리를 고려해야 하며, 이는 시간적 종속성을 처리하는 능력을 보여줍니다. 많은 최신 가상 비서가 이 기술에 의존해 왔습니다.

다른 시퀀스 모델과의 비교

LSTM은 순차적 데이터를 위한 광범위한 모델 제품군의 일부입니다.

  • GRU(Gated Recurrent Unit): GRU는 LSTM의 단순화된 버전입니다. 삭제 게이트와 입력 게이트를 단일 '업데이트 게이트'로 결합하고 셀 상태와 숨겨진 상태를 병합합니다. 이를 통해 GRU는 계산적으로 더 효율적이고 학습 속도가 더 빠르지만 일부 작업에서는 LSTM보다 표현력이 약간 떨어질 수 있습니다.
  • HMM(Hidden Markov Model): HMM은 LSTM보다 덜 복잡한 확률 모델입니다. 더 간단한 시퀀스 작업에 유용하지만 LSTM 및 기타 신경망이 캡처할 수 있는 복잡한 장거리 종속성을 캡처할 수 없습니다.
  • Transformer: self-attention 메커니즘에 의존하는 Transformer 아키텍처는 많은 NLP 작업에서 LSTMs를 크게 능가했습니다. LSTMs의 순차적 처리와 달리 Transformers는 시퀀스의 모든 요소를 병렬로 처리할 수 있으므로 최신 GPU와 같은 하드웨어에서 매우 효율적이며 전역 종속성을 더 잘 캡처할 수 있습니다.

구현 및 도구

LSTM은 PyTorch(PyTorch LSTM 문서 참조) 및 TensorFlow(TensorFlow LSTM 문서 참조)와 같은 널리 사용되는 딥러닝 프레임워크를 사용하여 쉽게 구현할 수 있습니다. Ultralytics는 주로 객체 감지인스턴스 분할과 같은 작업에 대해 Ultralytics YOLO와 같은 컴퓨터 비전(CV) 모델에 중점을 두지만, 특히 연구에서 비디오 이해 또는 이미지 캡션과 같은 작업에 대해 NLP와 CV를 연결하는 것을 탐구함에 따라 시퀀스 모델을 이해하는 것이 중요합니다. Ultralytics 문서에서 다양한 ML 모델과 개념을 더 자세히 살펴볼 수 있습니다. 다양한 모델의 훈련 및 배포 관리는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다. DeepLearning.AI와 같은 리소스는 LSTM을 포함한 시퀀스 모델을 다루는 과정을 제공합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.