Yolo 비전 선전
선전
지금 참여하기
용어집

Longformer

롱포머 아키텍처를 탐구하여 긴 데이터 시퀀스를 효율적으로 처리하세요. 스파스 어텐션이 자연어 처리(NLP)와 컴퓨터 비전 분야에서 메모리 한계를 어떻게 극복하는지 알아보세요.

롱포머는 긴 시퀀스 데이터를 효율적으로 처리하도록 설계된 딥러닝 아키텍처의 특수한 유형으로, 기존 모델의 한계를 극복합니다. 메모리 제약으로 인해 일반적으로 512 토큰 이상의 시퀀스 처리에서 어려움을 겪는 표준 트랜스포머의 한계를 해결하기 위해 처음 도입된 롱포머는 수정된 어텐션 메커니즘을 활용합니다. 계산 복잡도를 이차에서 선형으로 줄임으로써, 이 아키텍처는 AI 시스템이 입력 데이터를 잘라내지 않고도 단일 패스로 전체 문서, 긴 대본 또는 복잡한 유전자 서열을 분석할 수 있게 합니다.

주의력 병목 현상

롱포머의 중요성을 이해하려면 BERT나초기 GPT-3 모델 같은 선행 모델들의 한계를 살펴보는 것이 필수적이다. 표준 트랜스포머는 "자기 주의(self-attention)" 연산을 사용하는데, 여기서 각 토큰(단어 또는 단어의 일부)은 시퀀스 내 다른 모든 토큰에 주의를 기울인다. 이는 이차적인 계산 비용을 발생시키며, 시퀀스 길이가 두 배가 되면 필요한 메모리도 네 배로 증가한다. GPU. 결과적으로 대부분의 표준 모델은 입력 크기에 엄격한 제한을 두어, 데이터 과학자들이 문서를 더 작고 연결되지 않은 세그먼트로 분할하도록 강요하는 경우가 많으며, 이는 문맥 손실을 초래합니다.

롱포머는 스파스 어텐션(Sparse Attention)을 도입하여 이 문제를 해결합니다. 완전한 전-전 연결 대신, 윈도우화된 국소 어텐션과 전역 어텐션을 조합하여 활용합니다:

  • 슬라이딩 윈도우 어텐션: 각 토큰은 바로 인접한 이웃 토큰들만 고려합니다. 이는 국소적 문맥과 구문 구조를 포착하며, 이는 컨볼루션 신경망(CNN)이 이미지를 처리하는 방식과 유사합니다.
  • 확장 슬라이딩 윈도우: 계산량을 늘리지 않으면서 수용 영역을 확대하기 위해, 윈도우에 간격을 포함시켜 모델이 텍스트에서 "더 멀리"까지 볼 수 있게 한다.
  • 글로벌 어텐션: 특정 사전 선택된 토큰(예: 분류 토큰) [CLS]시퀀스 내의 다른 모든 토큰에 주의를 기울이고, 모든 토큰이 그들에게 주의를 기울입니다. 이는 모델이 다음과 같은 작업에 대해 입력 전체에 대한 고수준 이해를 유지하도록 보장합니다. 텍스트 요약.

실제 애플리케이션

수천 개의 토큰을 동시에 처리할 수 있는 능력은 자연어 처리(NLP) 및 그 이상의 분야에서 새로운 가능성을 열어줍니다.

1. 법률 및 의료 문서 분석

법률 및 의료 분야와 같은 산업에서는 문서가 짧은 경우가 거의 없습니다. 법률 계약서나 환자의 병력은 수십 페이지에 달할 수 있습니다. 기존의 대규모 언어 모델(LLM) 은 이러한 문서를 분할 처리해야 하므로, 1페이지의 조항과 30페이지의 정의 사이의 중요한 의존 관계를 놓칠 수 있습니다. 롱포머는 명명된 엔티티 인식(NER) 과 분류를 문서 전체에 한 번에 수행하여 전반적인 맥락이 특정 용어의 해석에 영향을 미치도록 보장합니다.

2. 장문형 질문 답변(QA)

표준 질문응답 시스템은 질문의 답변을 위해 긴 문서에 분산된 정보를 종합해야 할 때 종종 어려움을 겪습니다. 롱포머 기반 모델은 전체 텍스트를 메모리에 유지함으로써 다중 단계 추론을 수행할 수 있으며, 서로 다른 단락에서 발견된 사실들을 연결하여 포괄적인 답변을 생성합니다. 이는 자동화된 기술 지원 시스템과 학술 연구 도구에서 매우 중요합니다.

주요 용어 차별화

  • 롱포머 대 트랜스포머: 표준 트랜스포머는 완전한 $N^2$ 어텐션을 사용하므로 정확하지만 긴 입력에 대해 계산 비용이 매우 높습니다. 롱포머는 스파스 $N$ 어텐션을 사용해 이론적 용량의 무시할 만한 양을 희생하는 대신 엄청난 효율성 향상을 얻으며, 4,096개 이상의 토큰 입력을 허용합니다.
  • 롱포머 대 트랜스포머-XL: 둘 다 긴 시퀀스를 처리하지만, 트랜스포머-XL은 재귀 메커니즘(이전 상태 캐싱)에 의존하여 과거 세그먼트를 기억합니다. 롱포머는 긴 시퀀스를 원활하게 한 번에 처리하므로, Ultralytics 같은 환경에서 병렬 훈련을 단순화합니다.
  • Longformer 대 BigBird: 이들은 거의 동시에 개발된 매우 유사한 아키텍처입니다. 둘 다 선형 확장을 달성하기 위해 스파스 어텐션 메커니즘을 사용합니다. BigBird는 슬라이딩 윈도우 외에도 특정 랜덤 어텐션 구성 요소를 도입합니다.

구현 개념

롱포머는 특정 기능이 아닌 아키텍처이지만, 장문맥 모델을 위한 데이터 준비 방법을 이해하는 것은 매우 중요합니다. PyTorch에서는 표준 한계를 초과하는 임베딩을 관리하는 작업이 포함됩니다.

다음 예시는 긴 컨텍스트 시나리오를 tensor 모의 입력 tensor 생성하는 방법을 보여줍니다. 이는 YOLO26과 같은 표준 탐지 모델에서 일반적으로 사용되는 크기와의 대비를 보여줍니다.

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

컴퓨터 비전과의 관련성

원래 텍스트를 위해 설계되었지만, 롱포머의 원리는 컴퓨터 비전 분야에도 영향을 미쳤습니다. 주의를 국소 영역으로 제한하는 개념은 시각 작업에서의 국소적 연산과 유사합니다. 비전 트랜스포머(ViT) 역시 고해상도 이미지의 경우 픽셀(또는 패치) 수가 방대해져 유사한 확장성 문제를 겪습니다. 롱포머의 스파스 어텐션에서 파생된 기법들은 이미지 분류객체 탐지 효율성을 향상시키는 데 활용되며, YOLO26과 같은 모델들이 상세한 시각적 데이터를 처리하면서도 높은 속도를 유지할 수 있도록 돕습니다.

건축적 세부 사항에 대한 추가 정보는 AllenAI의 원본 롱포머(Longformer) 논문을 참조하십시오. 해당 논문은 심층적인 벤치마크와 이론적 근거를 제공합니다. 또한, 이러한 대규모 모델의 효율적인 훈련에는 혼합 정밀도(mixed precision ) 및 고급 최적화 알고리즘과 같은 기법이 종종 도움이 됩니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기