YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

Transformer

Transformer 아키텍처가 AI에 혁명을 일으키고 NLP, 컴퓨터 비전 및 고급 ML 작업에서 획기적인 발전을 가능하게 하는 방법을 알아보세요.

Transformer는 현대 인공지능(AI)의 핵심 기술이 된 혁신적인 신경망 아키텍처로, 특히 자연어 처리(NLP) 분야와 최근에는 컴퓨터 비전(CV) 분야에서 두각을 나타내고 있습니다. 2017년 Google 연구진이 발표한 논문 "Attention Is All You Need"에서 소개된 Transformer의 핵심 혁신은 셀프 어텐션 메커니즘으로, 모델이 입력 시퀀스의 다양한 단어나 부분을 중요도에 따라 가중치를 부여할 수 있도록 합니다. 이를 통해 이전 아키텍처보다 장거리 의존성과 문맥적 관계를 더 효과적으로 파악할 수 있습니다. 또한, Transformer의 설계는 대규모 병렬화를 가능하게 하여 방대한 데이터 세트에서 훨씬 더 큰 모델을 학습할 수 있게 되었고, 이는 대규모 언어 모델(LLM)의 부상으로 이어졌습니다.

Transformer 작동 방식

RNN(순환 신경망)과 같은 순차적 모델과 달리 Transformer는 전체 데이터 시퀀스를 한 번에 처리합니다. 핵심 아이디어는 모든 요소를 병렬로 처리하여 GPU와 같은 최신 하드웨어에서 학습 속도를 크게 높이는 것입니다.

재귀 없이 시퀀스 순서를 이해하기 위해 트랜스포머는 위치 인코딩이라는 기술을 사용합니다. 이는 각 요소(예: 문장의 단어)의 위치에 대한 정보를 해당 임베딩에 추가합니다. 그런 다음 자체 주의 레이어는 이러한 임베딩을 처리하여 모든 요소가 시퀀스의 다른 모든 요소를 "보고" 해당 의미를 이해하는 데 가장 관련성이 높은 요소를 결정할 수 있습니다. 이러한 글로벌 컨텍스트 인식은 복잡한 작업에 큰 이점입니다. PyTorchTensorFlow와 같은 프레임워크는 트랜스포머 기반 모델 구축에 대한 광범위한 지원을 제공합니다.

Transformer의 응용

Transformer의 영향은 다양한 영역에 걸쳐 있으며, 언어 및 시각 작업 모두에서 발전을 주도하고 있습니다.

  1. 언어 번역 및 생성: Google 번역과 같은 서비스는 고품질 기계 번역을 위해 Transformer 기반 모델을 사용합니다. 모델은 전체 소스 문장을 고려하여 더 유창하고 정확한 번역을 생성할 수 있습니다. 마찬가지로 GPT-4와 같은 모델은 컨텍스트를 이해하여 일관된 단락을 만들고, 기사를 작성하거나, 고급 챗봇을 구동하여 텍스트 생성에 탁월합니다.
  2. 컴퓨터 비전: Vision Transformer(ViT)는 이미지 기반 작업을 위해 아키텍처를 조정합니다. 이미지를 패치 시퀀스로 취급하고 자체 주의를 사용하여 패치 간의 관계를 모델링합니다. 이 접근 방식은 객체 탐지를 위해 RT-DETR과 같은 모델에서 사용되며, 여기서 장면의 전체 컨텍스트를 이해하면 특히 복잡한 환경에서 객체를 더 정확하게 식별하는 데 도움이 될 수 있습니다. RT-DETR과 YOLOv8의 아키텍처 차이를 이해하기 위해 RT-DETR과 YOLOv8의 비교를 볼 수 있습니다.

Transformer와 다른 아키텍처 비교

Transformers를 다른 일반적인 신경망 아키텍처와 구별하는 것이 유용합니다.

  • Transformers vs. RNNs: RNN은 데이터를 순차적으로 처리하므로 본질적으로 느리고 gradient 소실 문제에 취약하여 긴 시퀀스에서 이전 정보를 잊게 됩니다. Transformers는 병렬 처리 및 self-attention을 통해 이를 극복하여 장거리 종속성을 훨씬 더 효과적으로 캡처합니다.
  • Transformers vs. CNNs: Convolutional Neural Networks (CNNs)는 convolutional 필터를 사용하여 픽셀과 같은 그리드형 데이터에서 로컬 패턴을 식별하는 비전 작업에 매우 효율적입니다. 이것들은 Ultralytics YOLO 제품군과 같은 모델의 기초입니다. 대조적으로 Transformers는 전역 관계를 캡처하지만 종종 더 많은 데이터와 컴퓨팅 리소스가 필요합니다. CNN backbone과 Transformer 레이어를 결합한 하이브리드 모델은 양쪽의 장점을 모두 얻는 것을 목표로 합니다.

효율적인 트랜스포머 변형

기존 Transformer의 완전한 self-attention 연산 비용은 시퀀스 길이와 함께 이차 함수적으로 증가하므로 매우 긴 시퀀스에 적용하기 어렵습니다. 이로 인해 더 효율적인 변형 모델들이 개발되었습니다.

  • Longformer: 계산 복잡성을 줄이기 위해 특정 토큰에 대한 전역 주의와 결합된 슬라이딩 윈도우 주의 메커니즘을 사용합니다.
  • Reformer: 전체 어텐션을 근사화하기 위해 LSH(Locality-Sensitive Hashing)와 같은 기술을 사용하여 메모리 효율성을 높입니다.
  • Transformer-XL: 모델이 고정된 길이를 넘어 종속성을 학습할 수 있도록 하는 재귀 메커니즘을 도입했으며, 이는 특히 자동 회귀 언어 모델링에 유용합니다.

이러한 발전은 트랜스포머의 적용 가능성을 새로운 문제로 계속 확장하고 있습니다. Hugging FaceUltralytics HUB와 같은 도구 및 플랫폼을 통해 개발자는 이러한 강력한 모델에 더 쉽게 액세스하고 배포할 수 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.