용어집

롱포머

긴 시퀀스에 최적화된 트랜스포머 모델로서 NLP, 유전체학 및 비디오 분석에 확장 가능한 효율성을 제공하는 Longformer에 대해 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

롱포머는 매우 긴 텍스트 시퀀스를 효율적으로 처리하기 위해 특별히 고안된 Transformer 모델의 한 유형입니다. 앨런 인공지능 연구소(AI2)에서 개발한 이 모델은 시퀀스 길이에 따라 계산 및 메모리 요구 사항이 4제곱으로 증가하는 BERTGPT와 같은 표준 트랜스포머 모델의 주요 한계를 해결합니다. 따라서 표준 트랜스포머는 전체 문서, 책 또는 긴 대화를 처리하는 것과 같이 수천 개의 토큰을 포함하는 작업에는 비현실적입니다. 롱포머는 이러한 긴 시퀀스를 처리하기 위해 최적화된 주의 메커니즘을 활용하므로 트랜스포머의 성능을 더 광범위한 자연어 처리(NLP) 작업에 적용할 수 있습니다.

롱포머 작동 방식

롱포머의 핵심 혁신은 효율적인 셀프어텐션 패턴에 있습니다. 표준 트랜스포머는 모든 토큰이 시퀀스의 다른 모든 토큰에 주의를 기울이는 '완전한' 자기 주의 메커니즘을 사용합니다. 이는 강력하지만 이차적 복잡성 병목현상을 초래합니다. 롱포머는 이를 주의 패턴의 조합으로 대체합니다:

  1. 슬라이딩 창 주의: 각 토큰은 주변의 인접한 토큰으로 이루어진 고정된 크기의 창에만 참석합니다. 이렇게 하면 로컬 컨텍스트를 효과적으로 캡처하고 시퀀스 길이에 따라 선형적으로 확장할 수 있습니다.
  2. 확장된 슬라이딩 창 주의: 연산을 추가하지 않고 수신 필드를 늘리려면 창을 "확장"하여 보기 내에서 일부 토큰을 건너뛰고 고정된 숫자만 주시하면서 더 멀리 있는 토큰의 정보를 캡처할 수 있습니다.
  3. 글로벌 관심: 미리 선택된 특정 토큰(예: 다음과 같은 특수 토큰) [CLS] 분류 작업에 사용됨)는 전체 시퀀스에 참석할 수 있으며, 전체 시퀀스는 해당 시퀀스에 참석할 수 있습니다. 이를 통해 작업별 정보를 전 세계적으로 통합할 수 있습니다.

이러한 조합을 통해 롱포머는 표준 트랜스포머와 유사하게 로컬 및 글로벌 정보를 모두 통합하는 컨텍스트 표현을 구축할 수 있지만, 계산 복잡도는 시퀀스 길이에 따라 이차적으로 확장되는 것이 아니라 선형적으로 확장됩니다. 따라서 BERT와 같은 모델의 일반적인 512개 또는 1024개 토큰 제한에 비해 수만 개의 토큰 시퀀스를 처리할 수 있습니다. 구현은 Hugging Face 트랜스포머와 같은 라이브러리에서 쉽게 이용할 수 있습니다.

주요 기능 및 이점

  • 효율성: 시퀀스 길이에 따라 계산과 메모리를 선형적으로 확장하여 훨씬 긴 문서를 처리할 수 있습니다.
  • 확장성: 주로 하드웨어 메모리에 의해 제한된 길이까지 시퀀스를 처리할 수 있습니다(예: 4096토큰 이상, 표준 BERT의 경우 512개).
  • 성능: 다양한 NLP 작업에서 강력한 성능을 유지하며, 장거리 종속성이 중요한 경우 짧은 컨텍스트로 제한된 모델보다 뛰어난 성능을 발휘하는 경우가 많습니다.
  • 유연성: 다양한 딥 러닝 아키텍처에서 표준 트랜스포머 레이어를 대체하는 드롭인 방식으로 사용할 수 있습니다.
  • 사전 학습 및 미세 조정: 대규모 텍스트 말뭉치에 대해 사전 학습한 다음 다른 Transformer 모델과 유사하게 특정 다운스트림 작업에 맞게 미세 조정할 수 있습니다.

실제 애플리케이션

긴 시퀀스를 처리하는 롱포머의 능력은 다양한 영역에서 기능을 발휘합니다:

  • 문서 요약: 긴 기사, 연구 논문 또는 보고서에서 중요한 정보가 전체 텍스트에 분산되어 있을 수 있는 부분을 요약합니다. 표준 모델은 잘림으로 인해 문맥을 놓칠 수 있습니다.
  • 긴 문서에 대한 질문 답변: 법률 계약서, 기술 매뉴얼, 책과 같은 긴 문서에 포함된 정보를 바탕으로 문맥을 깨뜨릴 수 있는 작은 덩어리로 문서를 쪼개지 않고도 질문에 답할 수 있습니다. 예를 들어 법률 AI가 100페이지 분량의 계약서에서 관련 조항을 찾기 위해 롱포머를 사용할 수 있습니다.
  • 과학 문헌 분석: 정보 추출 또는 지식 그래프 구성과 같은 작업을 위해 전체 길이의 과학 논문 내의 복잡한 관계와 결과를 처리하고 이해합니다.
  • 대화 시스템: 챗봇이나 가상 비서의 긴 대화 기록을 분석하여 확장된 상호 작용에서 더 나은 컨텍스트와 일관성을 유지합니다.

AI/ML에서의 중요성

롱포머는 딥 러닝 모델이 긴 형식의 텍스트를 이해하고 추론할 수 있도록 하는 데 있어 중요한 진전을 이뤘습니다. 표준 트랜스포머의 복잡성 병목 현상을 극복함으로써 대규모 언어 모델(LLM)이 문서, 책, 확장된 대화와 관련된 작업을 보다 효과적으로 처리할 수 있게 해줍니다. 이 기능은 심층적인 문맥 이해가 필요한 애플리케이션에 필수적이며, 긴 형식의 인간 언어를 처리할 때 인공지능(AI)이 달성할 수 있는 한계를 넓혀줍니다.

다음과 같은 모델은 Ultralytics YOLO11 와 같은 모델은 객체 감지이미지 분할과 같은 컴퓨터 비전(CV) 작업에 탁월하지만, Longformer는 NLP 영역에서 복잡하고 긴 형식의 텍스트 데이터를 처리하는 데에도 이와 유사한 발전된 기능을 제공합니다. Ultralytics HUB와 같은 도구는 다양한 AI 모델의 배포와 관리를 간소화하며, 여기에는 다음과 같은 프레임워크를 사용하여 특정 작업에 맞게 미세 조정된 Longformer와 같은 NLP 모델도 포함될 수 있습니다. PyTorch 또는 TensorFlow.

관련 용어와의 비교

  • 표준 트랜스포머: 롱포머는 표준 트랜스포머 아키텍처를 수정한 것입니다. 주요 차이점은 표준 트랜스포머가 긴 시퀀스를 위해 설계된 효율적인 주의 메커니즘(슬라이딩 윈도우 + 전역 주의)을 사용하는 반면, 롱포머는 긴 입력에 계산 비용이 많이 드는 전체 자체 주의 메커니즘을 사용한다는 점입니다.
  • 리포머: 또 다른 효율적인 트랜스포머 변형인 리포머는 메모리와 계산 비용을 줄이기 위해 지역성에 민감한 해싱(LSH) 주의와 가역적 잔여 레이어와 같은 기술을 사용합니다. 두 가지 모두 긴 시퀀스를 대상으로 하지만 효율성을 달성하기 위해 서로 다른 기술적 접근 방식을 사용합니다.
  • Transformer-XL: Transformer-XL은 자동 회귀 언어 모델링에 특히 유용한 리커버리 및 상대적 위치 임베딩을 도입하여 표준 Transformer보다 긴 컨텍스트를 처리합니다. 롱포머는 특정 주의 패턴을 사용하여 단일 긴 시퀀스 내의 양방향 컨텍스트에 더 중점을 둡니다.
모두 보기