YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

Transformer-XL

Transformer-XL이 세그먼트 수준의 반복 및 장거리 컨텍스트 처리와 같은 혁신을 통해 시퀀스 모델링에 혁명을 일으키는 방법을 알아보세요.

Transformer-Extra Long을 의미하는 Transformer-XL은 원래 Transformer 모델의 주요 제한 사항 중 하나인 매우 긴 데이터 시퀀스를 처리할 수 없는 문제를 극복하도록 설계된 고급 신경망 아키텍처입니다. Google AICarnegie Mellon University의 연구자들이 개발한 Transformer-XL은 모델이 고정 길이 컨텍스트를 넘어 종속성을 학습할 수 있도록 하는 새로운 순환 메커니즘을 도입했습니다. 이를 통해 책이나 기사와 같은 긴 텍스트를 포함하는 작업을 이전 모델보다 훨씬 효과적으로 처리할 수 있으므로 자연어 처리(NLP) 분야에서 중추적인 발전이 이루어졌습니다.

이 아키텍처의 혁신은 표준 Transformer가 데이터를 격리된 세그먼트에서 처리하여 한 세그먼트에서 다음 세그먼트로 모든 컨텍스트 정보를 잃어버리는 컨텍스트 조각화 문제를 해결합니다. Transformer-XL은 이전 세그먼트에 대해 계산된 숨겨진 상태를 캐싱하고 재사용하여 이 문제를 해결하고 세그먼트 간에 순환 연결을 만듭니다. 이를 통해 정보가 세그먼트 간에 흐르도록 하여 모델에 일종의 메모리와 훨씬 더 큰 유효 컨텍스트 창를 제공합니다.

작동 방식

Transformer-XL의 효과는 표준 Transformer에 비해 두 가지 핵심적인 아키텍처 개선에서 비롯됩니다.

  • 세그먼트 수준 순환 메커니즘: Transformer-XL은 텍스트의 각 세그먼트를 독립적으로 처리하는 대신 이전에 처리된 세그먼트의 숨겨진 상태를 현재 세그먼트의 컨텍스트로 재사용합니다. RNN(Recurrent Neural Network)의 메커니즘에서 영감을 얻은 이 기술은 컨텍스트 조각화를 방지하고 모델이 데이터에 대한 훨씬 더 풍부하고 장거리적인 이해를 구축할 수 있도록 합니다. 이는 긴 형식의 텍스트 생성에서 일관성을 유지하는 데 중요합니다.
  • 상대적 위치 임베딩: 원래 Transformer는 절대적 위치 임베딩을 사용하여 단어 순서를 이해하지만 이 접근 방식은 세그먼트에서 숨겨진 상태를 재사용할 때 일관성이 없어집니다. Transformer-XL은 더 정교한 상대적 위치 지정 체계를 도입합니다. 토큰의 절대적 위치를 인코딩하는 대신 주의 메커니즘 내에서 토큰 간의 상대적 거리를 인코딩합니다. 이를 통해 모델은 새로운 더 긴 시퀀스를 처리할 때 더욱 강력하고 일반화될 수 있습니다.

관련성 및 응용 분야

Transformer-XL은 장거리 의존성을 모델링하는 능력이 뛰어나 NLP를 포함한 다양한 순차적 작업에 매우 효과적입니다.

  • 언어 모델링: 이전 모델보다 더 긴 컨텍스트를 캡처하여 enwik8WikiText-103과 같은 문자 수준 및 단어 수준 언어 모델링 벤치마크에서 최첨단 결과를 달성했습니다. 이러한 향상된 언어 구조 이해는 일관성 있고 문맥적으로 관련된 텍스트를 생성하는 데 중요합니다. 예를 들어 Transformer-XL 기반 모델은 첫 번째 장에서 언급된 세부 사항이 마지막 장에서 일관되게 기억되고 참조되는 소설을 쓸 수 있습니다.
  • 긴 문서 처리: 텍스트 요약, 긴 기사에 대한 질의 응답 또는 전체 책 또는 코드베이스 분석과 같이 긴 문서와 관련된 작업은 확장된 컨텍스트 창에서 상당한 이점을 얻습니다. AI 법률 도우미는 이 아키텍처를 사용하여 수백 페이지 분량의 계약서를 읽고 문서에서 아무리 멀리 떨어져 있더라도 상호 연결된 조항에 대한 질문에 정확하게 답변할 수 있습니다.
  • 강화 학습: 개선된 메모리 기능은 장기 계획이 필요한 강화 학습 작업에도 적용되었습니다.

Transformer-XL은 주로 NLP에 사용되지만, 긴 시퀀스를 효율적으로 처리하는 원리는 머신 러닝(ML) 전반에 걸쳐 유효하며, 시계열 분석 또는 비디오 데이터를 다루는 컴퓨터 비전(CV) 아키텍처에도 영향을 줄 수 있습니다. 아키텍처 혁신은 종종 상호 영향을 미칩니다. 예를 들어 Transformer 자체가 이미지 분석에 사용되는 Vision Transformer(ViT)에 영감을 주었습니다. Hugging Face와 같은 플랫폼은 구현체와 사전 훈련된 모델을 호스팅하여 연구 및 애플리케이션 개발을 용이하게 합니다. "Transformer-XL: 고정 길이 컨텍스트를 넘어서는 어텐티브 언어 모델" 논문에서 원본 연구를 살펴볼 수 있습니다. 이러한 고급 아키텍처를 이해하면 Ultralytics HUB와 같은 플랫폼을 통해 관리 및 배포되는 모델을 포함하여 다양한 도메인에서 모델 개발 및 미세 조정에 대한 정보를 얻을 수 있습니다.

관련 용어와의 비교

  • 표준 트랜스포머: 주요 차이점은 컨텍스트 처리 방식입니다. 표준 트랜스포머는 정보를 고정된 격리된 청크로 처리하여 컨텍스트 조각화를 유발합니다. Transformer-XL은 이러한 청크를 연결하는 순환 메커니즘을 도입하여 청크에 걸쳐 있는 종속성을 모델링할 수 있습니다.
  • Longformer: 두 모델 모두 긴 시퀀스를 위해 설계되었지만, Longformer는 효율성을 달성하기 위해 슬라이딩 윈도우와 전역 주의 토큰의 조합인 다른 주의 패턴을 사용합니다. Transformer-XL의 강점은 과거 세그먼트의 컨텍스트가 중요한 자동 회귀 생성에 있는 반면, Longformer는 단일하고 긴 입력에 대한 양방향 컨텍스트가 필요한 작업에 자주 사용됩니다.
  • Reformer: Reformer는 또한 긴 시퀀스를 대상으로 하지만 LSH(Locality-Sensitive Hashing) 어텐션 및 가역 잔차 레이어와 같은 다른 방법을 통해 효율성을 달성합니다. Transformer-XL의 핵심 혁신은 반복을 통해 컨텍스트 조각화를 극복하는 반면, Reformer는 메모리 사용량과 계산 비용을 줄이는 데 중점을 둡니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.