비전 트랜스포머(ViT)의 힘을 탐구하세요. Ultralytics 함께 셀프 어텐션과 패치 토큰화가 CNN을 넘어 컴퓨터 비전을 어떻게 혁신하는지 알아보세요.
비전 트랜스포머(ViT)는 시각적 작업을 해결하기 위해 자연어 처리(NLP)를 위해 원래 설계된 자기 주의 메커니즘을 적용한 딥 러닝 아키텍처입니다. 이미지를 계층적 국소 픽셀 그리드를 통해 처리하는 기존의 컨볼루션 신경망(CNN)과 달리, ViT는 이미지를 이산 패치들의 시퀀스로 취급합니다. 이 접근법은 획기적인 연구 논문 "An Image is Worth 16x16 Words"를 통해 대중화되었으며, 순수 트랜스포머 아키텍처가 컨볼루션 레이어에 의존하지 않고도 컴퓨터 비전(CV) 분야에서 최첨단 성능을 달성할 수 있음을 입증했습니다. 글로벌 어텐션을 활용함으로써 ViT는 첫 번째 레이어부터 이미지 전체에 걸친 장거리 의존성을 포착할 수 있습니다.
ViT의 근본적인 혁신은 입력 데이터를 구조화하는 방식에 있습니다. 이미지를 표준 트랜스포머와 호환되도록 만들기 위해, 이 모델은 시각 정보를 벡터 시퀀스로 분해합니다. 이는 언어 모델이 단어 문장을 처리하는 방식을 모방한 것입니다.
두 아키텍처 모두 시각적 데이터를 이해하는 것을 목표로 하지만, 운영 철학에서는 크게 다릅니다. CNN은 '변환 불변성'으로 알려진 강력한 '귀납적 편향'을 지니고 있습니다. 이는 본질적으로 국소적 특징(가장자리나 질감 등)이 위치와 무관하게 중요하다고 가정함을 의미합니다. 이로 인해 CNN은 데이터 효율성이 매우 높으며 소규모 데이터셋에서도 효과적입니다.
반대로 비전 트랜스포머는 이미지 특이적 편향이 적습니다. 이들은 JFT-300M이나 전체 ImageNet과 같은 방대한 양의 훈련 데이터를 활용하여 공간적 관계를 처음부터 학습해야 합니다. ImageNet 데이터셋과 같은 방대한 양의 훈련 데이터를 사용하여 공간적 관계를 처음부터 학습해야 합니다. 이는 훈련을 더 많은 계산 자원을 필요로 하게 하지만, ViT가 놀라울 정도로 잘 확장될 수 있게 합니다. 충분한 데이터와 컴퓨팅 파워가 있다면, ViT는 국소적 컨볼루션이 놓칠 수 있는 복잡한 전역 구조를 포착함으로써 CNN보다 우수한 성능을 발휘할 수 있습니다.
글로벌 컨텍스트를 이해하는 능력 덕분에 ViT는 복잡하고 중요한 환경에서 특히 유용합니다.
그리고 ultralytics 라이브러리는 트랜스포머 기반 아키텍처를 지원하며, 특히
RT-DETR 실시간 탐지 트랜스포머)주력 YOLO26 에지 디바이스에서 속도와 정확도의 균형을 제공한다는 점에서 선호되지만, RT-DETR 글로벌 컨텍스트를 우선시하는 시나리오에 강력한 대안을 RT-DETR .
다음 Python 예제는 사전 훈련된 트랜스포머 기반 모델을 로드하고 추론을 실행하는 방법을 보여줍니다:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
ViT의 높은 계산 비용을 해결하기 위한 연구가 빠르게 진화하고 있습니다. FlashAttention과 같은 기술은 이러한 모델을 더 빠르고 메모리 효율적으로 만들고 있습니다. 또한 CNN의 효율성과 트랜스포머의 어텐션을 결합한 하이브리드 아키텍처가 보편화되고 있습니다. 이러한 고급 워크플로우를 관리하려는 팀을 위해 Ultralytics 데이터 주석 작업, 클라우드를 통한 복잡한 모델 훈련, 다양한 엔드포인트로의 배포를 위한 통합 환경을 제공합니다.