용어집

트랜스포머-XL

Transformer-XL이 세그먼트 수준 반복 및 장거리 컨텍스트 처리와 같은 혁신으로 시퀀스 모델링을 혁신하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

Transformer-XL(Transformer-Extra Long)은 기존 Transformer 아키텍처보다 크게 발전한 것으로, 주로 순차적 데이터의 장거리 종속성을 보다 효과적으로 처리하기 위해 설계되었습니다. Google AI와 카네기멜론 대학교의 연구원들이 개발한 이 기술은 자연어 처리(NLP) 등의 작업에 중요한 매우 긴 시퀀스를 처리할 때 표준 Transformer에 내재된 문맥 조각화 제한을 해결합니다. 고정 길이 세그먼트를 독립적으로 처리하는 바닐라 트랜스포머와 달리, 트랜스포머-XL은 세그먼트 간에 정보를 재사용하는 메커니즘을 도입하여 모델이 훨씬 긴 컨텍스트에 대해 일관된 이해를 구축할 수 있게 해줍니다.

Transformer-XL의 핵심 개념

트랜스포머-XL은 긴 시퀀스를 처리할 때 표준 트랜스포머의 한계를 극복하기 위해 두 가지 주요 혁신 기술을 도입했습니다:

  1. 세그먼트 수준 반복: 표준 트랜스포머는 긴 시퀀스를 고정된 크기의 세그먼트로 분할하여 처리합니다. 그러나 이러한 세그먼트 사이에는 정보가 흐르지 않아 컨텍스트 파편화가 발생합니다. Transformer-XL은 이전 세그먼트에 대해 계산된 숨겨진 상태가 캐시되어 현재 세그먼트를 처리할 때 컨텍스트로 재사용되는 재귀 메커니즘을 도입했습니다. 이를 통해 정보가 세그먼트 간에 전파되어 단일 세그먼트의 길이를 훨씬 뛰어넘는 효과적인 컨텍스트를 생성할 수 있습니다. 이는 순환 신경망(RNN)이 상태를 유지하는 방식과 개념적으로 유사하지만, 트랜스포머의 자기 주의 프레임워크 내에 통합되어 있습니다.
  2. 상대 위치 인코딩: 오리지널 트랜스포머는 절대 위치 인코딩을 사용해 시퀀스 내 토큰의 위치를 모델에 알려줍니다. 세그먼트 수준 재귀를 적용할 때 절대 인코딩을 재사용하면 동일한 위치 인덱스가 다른 세그먼트에 표시되어 모호성이 발생하기 때문에 문제가 됩니다. Transformer-XL은 절대 위치가 아닌 토큰 간의 거리를 기준으로 위치를 정의하는 상대 위치 인코딩을 사용합니다. 이를 통해 여러 세그먼트에서 위치 정보가 일관되게 유지되고 추론 중에 모델이 다양한 시퀀스 길이에 더 잘 일반화할 수 있습니다.

Transformer-XL 작동 방식

훈련 및 추론 과정에서 Transformer-XL은 입력 시퀀스를 세그먼트별로 처리합니다. 각각의 새로운 세그먼트에 대해 해당 세그먼트 내의 토큰뿐만 아니라 이전 세그먼트의 캐시된 숨겨진 상태도 사용하여 주의도 점수를 계산합니다. 이 캐시된 정보는 과거 컨텍스트를 제공합니다. 상대 위치 인코딩을 사용하면 관심도 메커니즘이 캐시된 이전 세그먼트의 토큰에 주목할 때에도 토큰의 상대 위치를 올바르게 해석할 수 있습니다. 이 접근 방식은 표준 트랜스포머로 전체 시퀀스를 한 번에 처리할 때와 비교해 계산 효율성을 유지하면서 모델이 캡처할 수 있는 최대 종속성 길이를 크게 늘리고, 종종 세그먼트 길이 자체보다 훨씬 더 크게 늘릴 수 있습니다. 이 방법은 긴 종속성에서 발생하는 소실 그라데이션 문제와 같은 문제를 방지하는 데 도움이 됩니다.

트랜스포머-XL과 표준 트랜스포머 및 관련 모델 비교

가장 큰 차이점은 시퀀스 길이와 컨텍스트를 처리하는 데 있습니다:

  • 컨텍스트 길이: 표준 트랜스포머는 세그먼트 크기에 따라 최대 컨텍스트 길이가 고정되어 있습니다. Transformer-XL은 리커버리 메커니즘으로 인해 잠재적으로 수천 개의 토큰 길이에 달하는 종속성을 캡처할 수 있습니다.
  • 계산: 이전 세그먼트에 대한 계산이 재사용되므로 긴 시퀀스를 평가하는 동안 Transformer-XL은 표준 Transformer보다 훨씬 빠를 수 있습니다.
  • 메모리: 숨겨진 상태를 캐싱하려면 추가 메모리가 필요하지만 시퀀스의 이전 부분에 대한 표현을 다시 계산하지 않아도 됩니다.
  • 관련 모델: BERTGPT(Generative Pre-trained Transformer )와 같은 모델도 Transformer 아키텍처를 기반으로 하지만, 일반적으로 표준 고정 길이 컨텍스트 접근 방식을 사용합니다. Transformer-XL은 특히 긴 컨텍스트 제한을 타깃으로 합니다. 롱포머나 리포머 같은 다른 모델도 긴 시퀀스를 처리하지만 희소주의 패턴이나 로컬리티에 민감한 해싱과 같은 다른 기법을 사용합니다.

관련성 및 응용 분야

Transformer-XL은 장거리 종속성을 모델링할 수 있어 다양한 순차적 작업에 매우 효과적이며, 특히 NLP에서 매우 유용합니다.

  • 언어 모델링: 이전 모델보다 더 긴 문맥을 캡처하여 enwik8WikiText-103과 같은 문자 수준 및 단어 수준 언어 모델링 벤치마크에서 최첨단 결과를 달성했습니다. 언어 구조에 대한 이러한 향상된 이해는 일관성 있고 문맥에 맞는 텍스트를 생성하는 데 필수적입니다.
  • 긴 문서 처리: 요약(텍스트 요약), 긴 기사에 대한 질문 답변, 전체 책이나 코드베이스 분석 등 긴 문서와 관련된 작업은 Transformer-XL의 확장된 컨텍스트 창을 통해 상당한 이점을 얻을 수 있습니다. 예를 들어, Transformer-XL 모델은 잠재적으로 장편 소설을 생성하거나 광범위한 소프트웨어 모듈을 작성할 수 있습니다(텍스트 생성).
  • 강화 학습: 향상된 메모리 기능은 장기적인 계획이 필요한 강화 학습 작업에도 응용할 수 있습니다.

Transformer-XL은 주로 NLP로 알려져 있지만, 긴 시퀀스를 효율적으로 처리하는 원칙은 머신 러닝(ML) 전반에 걸쳐 적용될 수 있으며, 시계열 분석을 위한 아키텍처나 심지어 비디오 데이터를 다루는 컴퓨터 비전(CV) 의 측면에도 영향을 미칠 수 있습니다. 예를 들어, 트랜스포머는 이미지 분석에 사용되는 비전 트랜스포머(ViT)에 영감을 준 것처럼 아키텍처 혁신은 종종 교차 수분 작용을 합니다. 다음과 같은 플랫폼 Hugging Face 와 같은 플랫폼은 구현과 사전 훈련된 모델을 호스팅하여 연구와 애플리케이션 개발을 용이하게 합니다. 'Transformer-XL' 논문에서 원본 연구를 살펴볼 수 있습니다: 고정 길이 컨텍스트를 넘어서는 세심한 언어 모델" 논문에서 원본 연구를 살펴볼 수 있습니다. 이러한 고급 아키텍처를 이해하면 Ultralytics 허브와 같은 플랫폼을 통해 관리 및 배포되는 모델을 포함해 다양한 도메인에 걸쳐 모델을 개발하고 미세 조정하는 데 도움이 됩니다.

모두 보기