용어집

개혁자

리포머 모델에 대해 알아보세요: LSH 주의와 리버서블 레이어로 긴 시퀀스에 최적화된 획기적인 변압기 아키텍처입니다.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

리포머는 표준 트랜스포머 아키텍처의 효율적인 변형으로, 특히 기존 트랜스포머에서 상당한 계산 및 메모리 문제를 야기하는 매우 긴 시퀀스를 처리하도록 설계되었습니다. Google 리서치 연구원들이 개발한 리포머는 메모리 사용량과 계산 비용을 획기적으로 줄이기 위해 몇 가지 혁신 기술을 통합했습니다. 따라서 많은 딥 러닝(DL) 애플리케이션에서 볼 수 있는 표준 트랜스포머의 일반적인 한계를 훨씬 뛰어넘어 수십만 또는 수백만 개의 요소가 포함된 시퀀스 간 모델을 처리할 수 있게 되었습니다. 이러한 효율성은 전체 책, 픽셀 시퀀스로 처리되는 고해상도 이미지 또는 긴 음악 작품 처리와 같이 광범위한 컨텍스트가 포함된 작업에 트랜스포머와 유사한 모델을 적용할 수 있는 가능성을 열어줍니다.

리포머의 핵심 개념

리포머는 주로 두 가지 핵심 기술을 통해 효율성을 달성합니다:

  • 지역성 민감 해싱(LSH) 주의: 표준 트랜스포머는 모든 요소가 다른 모든 요소에 주의를 기울이는 자체 주의 메커니즘을 사용하므로 시퀀스 길이에 따라 계산 복잡성이 4제곱적으로 증가합니다. 리포머는 이를 LSH 어텐션으로 대체하는데, LSH(Locality-Sensitive Hashing) 를 사용해 유사한 요소(벡터)를 함께 그룹화하는 방식입니다. 그런 다음 이러한 그룹 또는 가까운 그룹 내에서만 주의도를 계산하여 선형 복잡성에 가까운 훨씬 낮은 계산 비용으로 전체 주의도 메커니즘에 근사화합니다.
  • 리버시블 레이어: 트랜스포머는 여러 레이어를 쌓고, 모델 훈련 중에 각 레이어의 활성화는 일반적으로 역전파 중에 사용하기 위해 메모리에 저장됩니다. 이는 특히 심층 모델이나 긴 시퀀스의 경우 많은 양의 메모리를 소모합니다. 리포머는 가역적 잔여 레이어를 사용해 어떤 레이어의 활성화도 저장하지 않고 역전파 중에 다음 레이어의 활성화에서 다시 계산할 수 있습니다. 이렇게 하면 활성화 함수 출력 저장과 관련된 메모리 소비가 크게 줄어들어 주어진 메모리 제약 내에서 더 심층적인 모델이나 더 긴 시퀀스를 만들 수 있습니다.

리포머와 표준 변압기 비교

두 아키텍처 모두 주의 집중 메커니즘을 기반으로 하지만, 리포머는 표준 트랜스포머 기반 모델과 크게 다릅니다:

  • 주의 메커니즘: 표준 트랜스포머는 완전한 자체 주의력을 사용하는 반면, 리포머는 LSH 기반의 대략적인 주의력을 사용합니다.
  • 메모리 사용량: 표준 트랜스포머가 모든 레이어의 활성화를 저장하는 반면, 리포머는 리버서블 레이어를 통해 메모리 사용량을 대폭 줄입니다.
  • 계산 비용: 리포머의 LSH 주의는 특히 매우 긴 시퀀스의 경우 전체 주의의 이차적 복잡성에 비해 계산 부담을 크게 줄여줍니다.
  • 트레이드 오프: 근사치(LSH 주의)는 일부 작업에서 전체 주의에 비해 정확도가 약간 떨어질 수 있지만, 표준 트랜스포머를 사용할 수 없는 매우 긴 시퀀스를 포함하는 애플리케이션의 경우 효율성 이득이 이를 능가하는 경우가 많습니다. 롱포머와 같은 효율적인 대안은 비슷한 목표를 달성하기 위해 서로 다른 희소주의 패턴을 사용합니다. 이러한 절충점을 최적화하려면 신중한 하이퍼파라미터 튜닝이 필요한 경우가 많습니다.

애플리케이션

리포머는 긴 시퀀스를 처리할 수 있어 인공지능(AI)머신러닝(ML)의 다양한 작업, 특히 자연어 처리(NLP) 및 그 이상의 분야에 적합합니다:

  • 긴 문서 분석: 전체 책, 긴 연구 논문 또는 문맥이 수천 또는 수백만 단어에 이르는 법률 문서에 대한 요약 또는 질문에 대한 답변. 예를 들어, 여러 장으로 구성된 기술 보고서의 간결한 요약을 생성하는 데 리포머 모델을 사용할 수 있습니다.
  • 유전체학: 분석 및 패턴 인식을 위해 긴 DNA 또는 단백질 서열을 처리합니다.
  • 긴 형식의 미디어 처리: 음성 인식을 위한 긴 오디오 파일 분석, 확장된 구성을 기반으로 한 음악 생성 또는 장시간에 걸친 비디오 분석. 예를 들어 몇 시간 분량의 회의나 강의를 효율적으로 트랜스크립션하는 것이 가능합니다.
  • 이미지 생성: 일부 접근 방식은 이미지를 픽셀 시퀀스로 취급하며, 특히 고해상도 이미지의 경우 더욱 그렇습니다. 리포머는 텍스트-이미지 생성 같은 작업에서 이러한 매우 긴 시퀀스를 처리할 수 있습니다.
  • 확장된 시계열 분석: 수십 년에 걸친 주식 시장 추세를 예측하거나 장기 기후 데이터를 분석하는 등 매우 긴 시계열 데이터를 모델링합니다.

다음과 같은 모델은 Ultralytics YOLO 와 같은 모델은 이미지에서 효율적인 물체 감지에 초점을 맞추며, 종종 컨볼루션 신경망(CNN) 또는 다음과 같은 하이브리드 아키텍처를 사용합니다. RT-DETR 과 같은 프레임워크로 구축된 PyTorch와 같은 프레임워크에 구축된 RT-DETR과 같은 하이브리드 아키텍처를 사용하는 경우가 많으며, Reformer에서 탐구한 계산 및 메모리 효율성의 원칙은 DL 분야 전반에 걸쳐 관련성이 있습니다. 이러한 발전을 이해하면 대규모 언어 모델(LLM)을 포함해 더 뛰어난 성능과 접근성을 갖춘 AI 모델을 향한 혁신을 촉진하는 데 도움이 됩니다. Ultralytics HUB와 같은 플랫폼은 AI 개발과 모델 배포를 간소화하는 것을 목표로 합니다. YOLO11 YOLOv10과 같은 모델 효율성을 비교하면 성능과 리소스 사용의 균형을 맞추기 위한 지속적인 노력을 알 수 있습니다. 자세한 기술적 세부 사항은 원래의 Reformer 연구 논문을 참조하세요.

모두 보기