용어집

트랜스포머

Transformer 아키텍처가 어떻게 AI를 혁신하여 NLP, 컴퓨터 비전 및 고급 ML 작업의 획기적인 발전을 지원하는지 알아보세요.

트랜스포머는 현대 인공 지능(AI)의 초석이 된 혁신적인 신경망 아키텍처로, 특히 자연어 처리(NLP) 와 최근에는 컴퓨터 비전(CV)에 널리 사용되고 있습니다. Google 연구원들이 2017년 논문 '주의력만 있으면 된다'에서 소개한 핵심 혁신은 모델이 입력 시퀀스의 여러 단어 또는 부분의 중요도를 평가할 수 있는 자기 주의 메커니즘입니다. 이를 통해 이전 아키텍처보다 장거리 종속성과 문맥 관계를 더 효과적으로 포착할 수 있습니다. 또한 이 설계는 대규모 병렬화가 가능하여 대규모 데이터 세트에서 훨씬 더 큰 모델을 훈련할 수 있어 대규모 언어 모델(LLM)의 부상으로 이어집니다.

트랜스포머의 작동 방식

순환 신경망(RNN)과 같은 순차적 모델과 달리 트랜스포머는 전체 데이터 시퀀스를 한 번에 처리합니다. 핵심 아이디어는 모든 요소를 병렬로 처리하는 것으로, GPU와 같은 최신 하드웨어에서 학습 속도를 크게 높여줍니다.

반복 없이 시퀀스 순서를 이해하기 위해 트랜스포머는 위치 인코딩이라는 기술을 사용하여 각 요소(예: 문장의 단어)의 위치에 대한 정보를 임베딩에 추가합니다. 그런 다음 자기 주의 계층이 이러한 임베딩을 처리하여 모든 요소가 시퀀스의 다른 모든 요소를 "보고" 그 의미를 이해하는 데 가장 적합한 요소를 결정할 수 있도록 합니다. 이러한 글로벌 컨텍스트 인식은 복잡한 작업에서 큰 이점이 됩니다. PyTorchTensorFlow와 같은 프레임워크는 Transformer 기반 모델 구축을 위한 광범위한 지원을 제공합니다.

트랜스포머의 애플리케이션

트랜스포머의 영향력은 다양한 영역에 걸쳐 언어와 시각 작업 모두에서 발전을 이끌고 있습니다.

  1. 언어 번역 및 생성: Google 번역과 같은 서비스는 고품질 기계 번역을 위해 Transformer 기반 모델을 사용합니다. 이 모델은 전체 소스 문장을 고려하여 보다 유창하고 정확한 번역을 생성할 수 있습니다. 마찬가지로 GPT-4와 같은 모델은 문맥을 이해하여 일관된 문단을 만들고, 기사를 작성하거나, 고급 챗봇을 구동함으로써 텍스트 생성에 탁월한 능력을 발휘합니다.
  2. 컴퓨터 비전: 비전 트랜스포머(ViT)는 이미지 기반 작업에 맞게 아키텍처를 조정합니다. 이미지를 일련의 패치로 취급하고 자기 주의를 사용하여 패치 간의 관계를 모델링합니다. 이 접근 방식은 특히 복잡한 환경에서 장면의 전체적인 맥락을 이해하면 객체를 더 정확하게 식별하는 데 도움이 되는 객체 감지를 위한 RT-DETR과 같은 모델에 사용됩니다. RT-DETR과 YOLOv8의 비교를 통해 두 모델의 아키텍처적 차이점을 이해할 수 있습니다.

트랜스포머 대 다른 아키텍처

트랜스포머를 다른 일반적인 신경망 아키텍처와 구별하는 것이 도움이 됩니다:

  • 트랜스포머와 RNN 비교: RNN은 데이터를 순차적으로 처리하기 때문에 본질적으로 느리고 소실 그라데이션 문제에 취약하여 긴 시퀀스에서 이전 정보를 잊어버릴 수 있습니다. 트랜스포머는 병렬 처리와 자체 주의를 통해 이 문제를 극복하여 장거리 종속성을 훨씬 더 효과적으로 포착합니다.
  • 트랜스포머와 CNN 비교: 컨볼루션 신경망(CNN)은 픽셀과 같은 격자형 데이터의 로컬 패턴을 식별하기 위해 컨볼루션 필터를 사용하는 비전 작업에 매우 효율적입니다. 이는 Ultralytics YOLO 제품군과 같은 모델의 기반이 됩니다. 반면 트랜스포머는 글로벌 관계를 포착하지만 더 많은 데이터와 컴퓨팅 리소스를 필요로 하는 경우가 많습니다. CNN 백본과 트랜스포머 레이어를 결합한 하이브리드 모델은 두 가지 장점을 모두 활용하는 것을 목표로 합니다.

효율적인 변압기 변형

오리지널 트랜스포머의 전체 자기 주의 계산 비용은 시퀀스 길이에 따라 4제곱으로 증가하기 때문에 매우 긴 시퀀스에는 적용하기 어렵습니다. 이 때문에 보다 효율적인 변형이 개발되었습니다.

  • 롱포머: 특정 토큰에 대한 글로벌 어텐션과 결합된 슬라이딩 윈도우 어텐션 메커니즘을 사용하여 계산 복잡성을 줄입니다.
  • 개혁자: 로컬리티에 민감한 해싱과 같은 기술을 사용하여 전체 관심도에 근접하여 메모리 효율을 높입니다.
  • Transformer-XL: 자동 회귀 언어 모델링에 특히 유용한 고정 길이 이상의 종속성을 모델에서 학습할 수 있는 반복 메커니즘을 도입합니다.

이러한 발전은 트랜스포머의 새로운 문제에 대한 적용 가능성을 계속해서 확장하고 있습니다. Hugging FaceUltralytics HUB와 같은 도구와 플랫폼을 통해 개발자는 이러한 강력한 모델에 더 쉽게 액세스하고 배포할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨