YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

Vision Transformer (ViT)

컴퓨터 비전에서 ViT(Vision Transformers)의 강력한 기능을 경험해 보세요. 전역 이미지 컨텍스트를 캡처하여 CNN보다 성능이 뛰어난 방법을 알아보세요.

Vision Transformer(ViT)는 원래 자연어 처리(NLP)를 위해 설계된 매우 성공적인 Transformer 모델을 컴퓨터 비전(CV) 작업에 적용하는 신경망 아키텍처 유형입니다. Google 연구원이 발표한 논문 "An Image is Worth 16x16 Words"에서 소개된 ViT는 지배적인 Convolutional Neural Network(CNN) 아키텍처에서 크게 벗어난 것입니다. ViT는 슬라이딩 필터로 이미지를 처리하는 대신 이미지를 패치 시퀀스로 취급하여 셀프 어텐션 메커니즘을 사용하여 이미지의 여러 부분 간의 전역 관계를 캡처할 수 있습니다.

Vision Transformer는 어떻게 작동할까요?

ViT의 핵심 아이디어는 Transformer가 텍스트를 처리하는 방식과 유사하게 이미지를 처리하는 것입니다. 이 과정은 몇 가지 주요 단계를 포함합니다.

  1. 이미지 패칭(Image Patching): 입력 이미지를 먼저 고정 크기의 겹치지 않는 패치 격자로 분할합니다. 예를 들어 224x224 픽셀 이미지를 각각 16x16 픽셀 크기의 196개 패치로 나눌 수 있습니다.
  2. 패치 임베딩: 각 패치는 단일 벡터로 평면화됩니다. 그런 다음 이러한 벡터는 더 낮은 차원의 공간으로 투영되어 "패치 임베딩"을 만듭니다. 공간 정보를 유지하기 위해 학습 가능한 "위치 임베딩"이 각 패치 임베딩에 추가됩니다.
  3. Transformer Encoder: 이 embedding 시퀀스는 표준 Transformer 인코더에 입력됩니다. self-attention 레이어를 통해 모델은 모든 패치 쌍 간의 관계를 학습하여 첫 번째 레이어부터 전체 이미지에서 전역 컨텍스트를 캡처할 수 있습니다.
  4. 분류 헤드: 이미지 분류와 같은 작업의 경우 추가 학습 가능한 임베딩(BERT의 [CLS] 토큰과 유사)이 시퀀스에 추가됩니다. Transformer의 해당 출력이 최종 분류 레이어로 전달되어 예측을 생성합니다.

ViT 대 CNN

ViT와 CNN은 모두 컴퓨터 비전의 기본 아키텍처이지만, 접근 방식에서 큰 차이를 보입니다.

  • 귀납적 편향: CNN은 컨볼루션 및 풀링 레이어를 통해 지역성 및 변환 등가성과 같은 데이터에 대한 강력한 귀납적 편향(가정)을 가지고 있습니다. ViT는 귀납적 편향이 훨씬 약하여 더 유연하지만 데이터에서 직접 패턴을 학습하는 데 더 의존적입니다.
  • 데이터 의존성: ViT는 약한 편향으로 인해 일반적으로 최첨단 CNN보다 성능이 뛰어나려면 대규모 데이터 세트(예: ImageNet-21k) 또는 광범위한 사전 훈련이 필요합니다. 더 작은 데이터 세트에서는 CNN이 더 잘 일반화되는 경우가 많습니다. 이것이 ViT에 전이 학습이 중요한 이유입니다.
  • 전역 vs. 로컬 컨텍스트: CNN은 로컬 패턴에서 전역 패턴으로 계층적 특징을 구축합니다. 대조적으로 ViT는 가장 초기 레이어부터 패치 간의 전역 상호 작용을 모델링할 수 있으므로 특정 작업에 대해 더 넓은 컨텍스트를 보다 효과적으로 캡처할 수 있습니다.
  • 계산 비용: ViT를 훈련하는 데는 계산 집약적일 수 있으며 종종 상당한 GPU 리소스가 필요합니다. PyTorchTensorFlow와 같은 프레임워크는 이러한 모델을 훈련하기 위한 구현을 제공합니다.

애플리케이션 및 하이브리드 모델

ViTs는 다양한 애플리케이션, 특히 전반적인 컨텍스트를 이해하는 것이 중요한 애플리케이션에서 뛰어난 성능을 보여주었습니다.

  • 의료 영상 분석: ViT는 MRI 또는 조직병리학 영상과 같은 의료 영상을 분석하는 데 매우 효과적입니다. 예를 들어, 종양 탐지에서 ViT는 멀리 떨어진 조직 간의 관계를 식별하여 국소 텍스처에만 초점을 맞춘 모델보다 종양을 더 정확하게 분류하는 데 도움이 될 수 있습니다.
  • 자율 주행: 자율 주행 자동차에서 ViT는 객체 감지 및 분할을 위해 복잡한 장면을 분석할 수 있습니다. 전체 장면을 전역적으로 처리함으로써 차량, 보행자 및 인프라 간의 상호 작용을 더 잘 이해할 수 있으며, 이는 여러 자동차 AI 연구에서 자세히 설명되어 있습니다.

ViT의 성공은 하이브리드 아키텍처에도 영향을 미쳤습니다. RT-DETR과 같은 모델은 효율적인 특징 추출을 위해 CNN 백본을 Transformer 기반 인코더-디코더와 결합하여 객체 관계를 모델링합니다. 이 접근 방식은 CNN의 효율성과 Transformer의 전역적인 맥락 인식이라는 장점을 모두 활용하는 것을 목표로 합니다.

특히 리소스가 제한된 엣지 장치에서 많은 실시간 애플리케이션의 경우 Ultralytics YOLO 제품군(예: YOLOv8YOLO11)과 같이 고도로 최적화된 CNN 기반 모델이 속도와 정확도의 균형을 더 잘 제공하는 경우가 많습니다. RT-DETR과 YOLO11 간의 장단점을 이해하려면 자세한 RT-DETR과 YOLO11 비교를 참조하십시오. ViT와 CNN 간의 선택은 궁극적으로 특정 작업, 사용 가능한 데이터 및 계산 예산에 따라 달라집니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.