용어집

트랜스포머-XL

Transformer-XL이 세그먼트 수준 반복 및 장거리 컨텍스트 처리와 같은 혁신으로 시퀀스 모델링을 혁신하는 방법을 알아보세요.

Transformer-XL(Transformer-Extra Long)은 기존 Transformer 아키텍처보다 크게 발전한 것으로, 주로 순차적 데이터의 장거리 종속성을 보다 효과적으로 처리하기 위해 설계되었습니다. Google AI와 카네기멜론 대학교의 연구원들이 개발한 이 기술은 자연어 처리(NLP) 등의 작업에 중요한 매우 긴 시퀀스를 처리할 때 표준 Transformer에 내재된 문맥 조각화 제한을 해결합니다. 고정 길이 세그먼트를 독립적으로 처리하는 바닐라 트랜스포머와 달리, 트랜스포머-XL은 세그먼트 간에 정보를 재사용하는 메커니즘을 도입하여 모델이 훨씬 긴 컨텍스트에 대해 일관된 이해를 구축할 수 있게 해줍니다.

Transformer-XL의 핵심 개념

트랜스포머-XL은 긴 시퀀스를 처리할 때 표준 트랜스포머의 한계를 극복하기 위해 두 가지 주요 혁신 기술을 도입했습니다:

세그먼트 수준 반복: 표준 트랜스포머는 긴 시퀀스를 고정된 크기의 세그먼트로 분할하여 처리합니다. 그러나 이러한 세그먼트 사이에는 정보가 흐르지 않아 컨텍스트 파편화가 발생합니다. Transformer-XL은 이전 세그먼트에 대해 계산된 숨겨진 상태가 캐시되어 현재 세그먼트를 처리할 때 컨텍스트로 재사용되는 재귀 메커니즘을 도입했습니다. 이를 통해 정보가 세그먼트 간에 전파되어 단일 세그먼트의 길이를 훨씬 뛰어넘는 효과적인 컨텍스트를 생성할 수 있습니다. 이는 순환 신경망(RNN)이 상태를 유지하는 방식과 개념적으로 유사하지만, 트랜스포머의 자기 주의 프레임워크 내에 통합되어 있습니다.
상대 위치 인코딩: 오리지널 트랜스포머는 절대 위치 인코딩을 사용해 시퀀스 내 토큰의 위치를 모델에 알려줍니다. 세그먼트 수준 재귀를 적용할 때 절대 인코딩을 재사용하면 동일한 위치 인덱스가 다른 세그먼트에 표시되어 모호성이 발생하기 때문에 문제가 됩니다. Transformer-XL은 절대 위치가 아닌 토큰 간의 거리를 기준으로 위치를 정의하는 상대 위치 인코딩을 사용합니다. 이를 통해 여러 세그먼트에서 위치 정보가 일관되게 유지되고 추론 중에 모델이 다양한 시퀀스 길이에 더 잘 일반화할 수 있습니다.

Transformer-XL 작동 방식

훈련 및 추론 과정에서 Transformer-XL은 입력 시퀀스를 세그먼트별로 처리합니다. 각각의 새로운 세그먼트에 대해 해당 세그먼트 내의 토큰뿐만 아니라 이전 세그먼트의 캐시된 숨겨진 상태도 사용하여 주의도 점수를 계산합니다. 이 캐시된 정보는 과거 컨텍스트를 제공합니다. 상대 위치 인코딩을 사용하면 관심도 메커니즘이 캐시된 이전 세그먼트의 토큰에 주목할 때에도 토큰의 상대 위치를 올바르게 해석할 수 있습니다. 이 접근 방식은 표준 트랜스포머로 전체 시퀀스를 한 번에 처리할 때와 비교해 계산 효율성을 유지하면서 모델이 캡처할 수 있는 최대 종속성 길이를 크게 늘리고, 종종 세그먼트 길이 자체보다 훨씬 더 크게 늘릴 수 있습니다. 이 방법은 긴 종속성에서 발생하는 소실 그라데이션 문제와 같은 문제를 방지하는 데 도움이 됩니다.