트랜스포머 아키텍처와 자기 주의 메커니즘을 탐구하세요. RT-DETR Ultralytics 같은 AI 모델이 어떻게 이를 활용하여 뛰어난 정확도를 구현하는지 알아보세요.
트랜스포머는 자연어 또는 시각적 특징과 같은 순차적 입력 데이터를 처리하기 위해 셀프 어텐션이라는 메커니즘에 의존하는 딥러닝 아키텍처입니다. Google 획기적인 논문 Attention Is All You Need에서 처음 소개된 트랜스포머는 기존의 재귀 신경망(RNN)이 가졌던 순차적 처리의 한계를 극복함으로써 인공지능(AI) 분야에 혁신을 가져왔습니다. 트랜스포머는 데이터 시퀀스 전체를 동시에 분석함으로써 대규모 병렬 처리가 가능해졌고, GPU 같은 현대 하드웨어에서 훈련 시간을 획기적으로 단축시켰습니다.
트랜스포머의 핵심 혁신은 자기 주의 메커니즘입니다. 이를 통해 모델은 입력 데이터의 서로 다른 부분들이 상대적으로 가지는 중요도를 가중치 부여할 수 있습니다. 예를 들어, 한 문장에서 모델은 주변 문맥을 바탕으로 "은행"이라는 단어가 "강"보다는 "돈"과 더 밀접하게 연관된다는 것을 학습할 수 있습니다.
이 아키텍처는 일반적으로 두 가지 주요 구성 요소로 이루어집니다:
컴퓨터 비전(CV) 분야에서 모델들은 일반적으로 비전 트랜스포머(ViT)라 불리는 변형을 사용합니다. 텍스트 토큰을 처리하는 대신, 이미지를 고정 크기의 패치(예: 16x16 픽셀)로 분할합니다. 이 패치들은 평면화되어 시퀀스로 처리되며, 이를 통해 모델은 표준 컨볼루션 신경망(CNN)보다 "전역적 맥락"—이미지 내 멀리 떨어진 부분들 간의 관계 이해—을 보다 효과적으로 포착할 수 있습니다.
트랜스포머 아키텍처를 관련 용어와 구분하는 것이 중요합니다:
트랜스포머의 다용도성은 다양한 산업 분야에서의 채택으로 이어졌습니다:
CNN이 전통적으로 객체 탐지를 주도해 왔지만, 실시간 탐지 트랜스포머(RT-DETR) 와 같은 트랜스포머 기반 모델이 강력한 대안으로 부상했습니다. RT-DETR CNN 백본의 속도와 트랜스포머 디코딩 헤드의 정밀도를 RT-DETR .
그러나 순수 트랜스포머 모델은 계산량이 많을 수 있습니다. 많은 에지 애플리케이션의 경우, 효율적인 어텐션 메커니즘과 빠른 컨볼루션 처리를 통합한 YOLO26과같은 고도로 최적화된 하이브리드 모델이 속도와 정확도의 탁월한 균형을 제공합니다. 이러한 모델의 훈련 및 배포는 데이터셋 주석 작업부터 모델 내보내기까지 워크플로를 간소화하는 Ultralytics 통해 쉽게 관리할 수 있습니다.
다음 예제는 Transformer 기반 모델을 사용하여 추론을 수행하는 방법을 보여줍니다.
ultralytics 패키지. 이 코드는 사전 훈련된 RT-DETR 로드하고 이미지 내의 객체를 탐지합니다.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()
수학적 기초에 대한 추가 자료로는 PyTorch 트랜스포머PyTorch 기술적 깊이를 제공하며, IBM의 트랜스포머 가이드에서는 비즈니스 관점의 고수준 설명을 제공합니다.