용어집

장단기 메모리(LSTM)

순차적 데이터를 처리하고, RNN의 한계를 극복하고, NLP 및 예측과 같은 AI 작업을 지원하는 데 있어 LSTM(Long Short-Term Memory) 네트워크가 어떻게 탁월한지 알아보세요.

장단기 기억(LSTM)은 긴 데이터 시퀀스에서 패턴을 학습하고 기억하도록 설계된 특수한 유형의 순환신경망(RNN) 아키텍처입니다. 소실 경사 문제로 인해 장기 종속성으로 인해 어려움을 겪는 표준 RNN과 달리, LSTM은 고유한 게이팅 메커니즘을 사용해 정보의 흐름을 조절합니다. 이를 통해 네트워크는 중요한 정보를 선택적으로 장기간 유지하면서 관련 없는 데이터는 버릴 수 있어 특히 자연어 처리(NLP) 분야에서 최신 딥 러닝의 초석이 되고 있습니다. 호크라이터와 슈미드후버의 기초 LSTM 논문은 이 강력한 기술의 토대를 마련했습니다.

LSTM의 작동 원리

LSTM 기능의 핵심은 "셀 상태"와 여러 개의 "게이트"를 포함하는 내부 구조입니다. 셀 상태는 컨베이어 벨트 역할을 하며 시퀀스를 통해 관련 정보를 전달합니다. 입력, 잊기, 출력 등의 게이트는 셀 상태에 어떤 정보를 추가, 제거 또는 읽을지 제어하는 신경망입니다.

  • 잊어버림 게이트: 이전 셀 상태의 어떤 정보를 삭제할지 결정합니다.
  • 입력 게이트: 현재 입력의 새 정보를 셀 상태에 저장할지 여부를 결정합니다.
  • 출력 게이트: 현재 시간 단계의 출력을 생성하는 데 셀 상태의 어떤 정보를 사용할지 제어합니다.

이 게이팅 구조를 통해 LSTM은 여러 시간 단계에 걸쳐 컨텍스트를 유지할 수 있으며, 이는 텍스트나 시계열과 같은 순차적 데이터를 이해하는 데 중요한 기능입니다. 자세한 시각화는 인기 있는 LSTM의 이해 블로그 게시물에서 확인할 수 있습니다.

실제 애플리케이션

LSTM은 순차적 데이터와 관련된 수많은 도메인에 성공적으로 적용되었습니다.

  1. 기계 번역: LSTM은 한 언어의 문장을 단어 단위로 처리하고 내부 표현(이해)을 구축한 다음 다른 언어로 번역을 생성할 수 있습니다. 이를 위해서는 일관된 번역을 생성하기 위해 문장의 시작 부분부터 문맥을 기억해야 합니다. 구글 번역은 트랜스포머 아키텍처로 전환하기 전에는 이러한 목적으로 LSTM 기반 모델을 사용했습니다.
  2. 음성 인식: 음성-텍스트 변환 애플리케이션에서 LSTM은 일련의 오디오 특징을 처리하여 음성 단어를 텍스트로 변환할 수 있습니다. 이 모델은 현재 소리를 올바르게 해석하기 위해 이전 소리를 고려해야 하므로 시간적 종속성을 처리할 수 있는 능력을 보여줍니다. 많은 최신 가상 비서가 이 기술에 의존하고 있습니다.

다른 시퀀스 모델과의 비교

LSTM은 순차적 데이터를 위한 광범위한 모델 제품군에 속합니다.

  • 게이트 리커런트 유닛(GRU): GRU는 LSTM의 단순화된 버전입니다. 이는 망각 게이트와 입력 게이트를 하나의 '업데이트 게이트'로 결합하고 셀 상태와 숨겨진 상태를 병합합니다. 따라서 GRU는 계산 효율이 높고 훈련 속도가 빠르지만, 일부 작업에서는 LSTM보다 표현력이 약간 떨어질 수 있습니다.
  • 숨겨진 마르코프 모델(HMM): HMM은 LSTM보다 덜 복잡한 확률론적 모델입니다. 간단한 시퀀스 작업에는 유용하지만, LSTM 및 기타 신경망처럼 복잡하고 긴 범위의 종속성을 포착할 수는 없습니다.
  • 트랜스포머: 자기 주의 메커니즘에 의존하는 트랜스포머 아키텍처는 많은 NLP 작업에서 LSTM을 능가하는 최첨단 기술로 자리 잡았습니다. LSTM의 순차 처리와 달리 Transformer는 시퀀스의 모든 요소를 병렬로 처리할 수 있어 GPU와 같은 최신 하드웨어에서 매우 효율적이며 글로벌 종속성을 더 잘 포착할 수 있습니다.

구현 및 도구

LSTM은 PyTorch ( PyTorch LSTM 설명서 참조) 및 TensorFlow ( TensorFlow LSTM 설명서 참조) 같은 널리 사용되는 딥 러닝 프레임워크를 사용해 쉽게 구현할 수 있습니다. Ultralytics는 주로 객체 감지인스턴스 분할과 같은 작업을 위해 Ultralytics YOLO와 같은 컴퓨터 비전(CV) 모델에 중점을 두지만, 특히 비디오 이해 또는 이미지 캡션과 같은 작업을 위해 NLP와 CV를 연결하는 연구를 탐구할 때 시퀀스 모델을 이해하는 것이 유용합니다. 다양한 ML 모델과 개념은 Ultralytics 설명서에서 자세히 살펴볼 수 있습니다. 다양한 모델의 훈련 및 배포 관리는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다. DeepLearning.AI와 같은 리소스에서는 LSTM을 포함한 시퀀스 모델을 다루는 과정을 제공합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨