State Space Models (SSM)

상태 공간 모델(SSM)이 어떻게 효율적인 시퀀스 모델링을 제공하는지 확인해 보십시오. Ultralytics YOLO26 및 Ultralytics Platform이 어떻게 고급 AI 워크플로우를 강화하는지 알아보십시오.

상태 공간 모델(SSM)은 시간 경과에 따른 연속적인 데이터 스트림을 처리하도록 설계된 머신러닝의 강력한 시퀀스 모델링 아키텍처 클래스입니다. 본래 전통적인 제어 이론에 뿌리를 두고 있는 SSM의 현대적인 딥러닝 적응형 모델들은 복잡한 시퀀스 작업을 처리하기 위한 매우 효율적인 대안으로 부상했습니다. 새로운 정보가 들어올 때 업데이트되는 내부 '상태(state)'를 유지함으로써, 이 모델들은 입력 시퀀스를 출력 시퀀스로 놀라운 효율성으로 매핑할 수 있으며, 특히 데이터의 장기 의존성을 포착하는 데 뛰어납니다.

Link to this section상태 공간 모델의 작동 원리#

SSM은 핵심적으로 과거 정보를 은닉 상태 벡터로 압축하며, 새로운 입력이 처리될 때마다 이를 지속적으로 업데이트합니다. 메모리 병목 현상으로 어려움을 겪을 수 있는 기존 모델과 달리, 구조화된 상태 공간 모델(S4) 및 매우 대중적인 Mamba 아키텍처와 같은 최근의 발전은 선택적 메커니즘을 도입했습니다. 이를 통해 모델은 관련 없는 데이터를 동적으로 필터링하고 중요한 컨텍스트를 기억하여 이전 아키텍처에서 흔히 나타나는 막대한 메모리 오버헤드 없이 높은 성능을 달성합니다.

많은 현대적인 SSM 구현을 구동하는 PyTorch와 같은 표준 프레임워크를 사용하여 기초적인 시퀀스 작업을 구축할 수 있습니다. 다음은 상태 공간 추적에서 사용되는 연속-이산 투영과 개념적으로 유사하게, 시퀀스 데이터가 PyTorch의 선형 계층을 통해 어떻게 처리될 수 있는지 보여주는 간단하고 실행 가능한 예제입니다:

import torch
import torch.nn as nn

# Simulate a sequence of 10 steps, batch size 2, feature size 16
sequence_data = torch.randn(2, 10, 16)

# A linear projection layer conceptually similar to an SSM state update
state_projection = nn.Linear(16, 32)
hidden_state = state_projection(sequence_data)

print(f"Output shape: {hidden_state.shape}")  # Expected: [2, 10, 32]

Link to this sectionSSM과 관련 아키텍처의 차이점#

SSM을 완전히 이해하기 위해, 다른 일반적인 시퀀스 모델과 구별하는 것이 도움이 됩니다:

Transformer: Transformer는 시퀀스 길이에 따라 이차적으로 확장되는 어텐션 메커니즘에 의존하는 반면, SSM은 선형적으로 확장됩니다. 이로 인해 SSM은 전체 책이나 몇 시간 분량의 오디오와 같은 매우 긴 컨텍스트를 처리할 때 훨씬 더 빠르고 메모리 효율적입니다.
순환 신경망(RNN): RNN은 토큰을 순차적으로 처리하지만, 악명 높은 기울기 소실 문제로 고통받습니다. 현대적인 SSM은 학습 계산을 수학적으로 병렬화하여 이러한 함정을 피하면서 빠른 추론 속도를 유지합니다.
은닉 마르코프 모델(HMM): HMM은 확률 분포에 의해 지배되는 이산 상태의 유한 집합을 가정합니다. 이와 대조적으로, 딥러닝 SSM은 연속 벡터 공간을 활용하여 훨씬 더 복잡하고 고차원적인 데이터를 표현할 수 있게 합니다.

Link to this section실제 응용 분야#

SSM의 효율성은 시퀀스 길이로 인해 계산 병목 현상이 발생하는 다양한 인공지능 분야에서 빠른 채택으로 이어졌습니다.

유전체 및 생물학적 시퀀싱: DNA 및 단백질 시퀀스에는 종종 수백만 개의 염기쌍이 포함되어 있습니다. 스탠퍼드 대학교와 같은 기관의 연구원들은 고급 SSM을 사용하여 이러한 대규모 시퀀스를 모델링하며, 어텐션 기반 네트워크보다 훨씬 빠르게 분자 구조를 예측함으로써 임상 연구 및 신약 개발을 가속화하고 있습니다.
연속 시계열 분석: 산업용 사물인터넷(IoT) 환경에서 센서는 고주파 데이터 스트림을 지속적으로 생성합니다. SSM은 이상 탐지를 위해 이 데이터를 분석하는 데 탁월하며, 제조 장비의 미세한 기계적 결함이 치명적인 고장을 일으키기 전에 이를 식별합니다.

SSM이 시퀀스 및 언어 데이터를 혁신하고 있지만, 컴퓨터 비전 작업은 종종 특화된 공간 아키텍처에 의존합니다. 예를 들어, Ultralytics YOLO26은 종단 간 NMS-free 추론 덕분에 실시간 객체 탐지 및 인스턴스 분할에 널리 채택되고 있습니다. 텍스트용 SSM을 구축하든 YOLO26과 같은 시각적 모델을 배포하든, Ultralytics Platform을 사용하여 데이터셋을 관리하고 솔루션을 학습 및 배포할 수 있으며, 이를 통해 모든 AI 애플리케이션을 위한 효율적인 엣지-클라우드 워크플로우를 구현할 수 있습니다.