YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Vision Transformer (ViT)

Vision Transformer(ViT)의 강력함을 탐색합니다. 셀프 어텐션과 패치 토큰화가 Ultralytics와 함께 CNN을 넘어 컴퓨터 비전을 어떻게 혁신하는지 배웁니다.

Vision Transformer(ViT)는 원래 Natural Language Processing (NLP)를 위해 설계된 셀프 어텐션 메커니즘을 시각적 작업을 해결하도록 적용한 딥러닝 아키텍처입니다. 로컬 픽셀 그리드의 계층 구조를 통해 이미지를 처리하는 기존의 Convolutional Neural Network (CNN)과 달리, ViT는 이미지를 개별 패치의 시퀀스로 처리합니다. 이러한 접근 방식은 기념비적인 연구 논문인 "An Image is Worth 16x16 Words"를 통해 대중화되었으며, 이 논문은 순수 Transformer 아키텍처가 합성곱 계층에 의존하지 않고도 computer vision (CV) 분야에서 최첨단 성능을 달성할 수 있음을 입증했습니다. ViT는 글로벌 어텐션을 활용하여 첫 번째 계층부터 전체 이미지에 걸친 장거리 의존성을 포착할 수 있습니다.

Link to this sectionVision Transformer 작동 원리#

ViT의 근본적인 혁신은 입력 데이터를 구조화하는 방식에 있습니다. 이미지를 표준 Transformer와 호환되게 만들기 위해, 이 모델은 시각적 정보를 언어 모델이 단어 시퀀스를 처리하는 방식과 유사하게 벡터 시퀀스로 분해합니다.

  1. 패치 토큰화(Patch Tokenization): 입력 이미지는 일반적으로 16x16 픽셀 크기의 고정된 격자 형태의 정사각형으로 나뉩니다. 각 정사각형은 벡터로 평탄화되어 효과적으로 시각적 token이 됩니다.

  2. 선형 투영(Linear Projection): 평탄화된 이 패치들은 학습 가능한 선형 계층을 통과하여 밀집된 embeddings를 생성합니다. 이 단계는 원시 픽셀 값을 모델이 처리할 수 있는 고차원 공간으로 매핑합니다.

  3. 위치 인코딩(Positional Encoding): 이 아키텍처는 시퀀스를 병렬로 처리하며 순서나 공간에 대한 고유한 이해가 부족하기 때문에, 학습 가능한 positional encodings이 패치 임베딩에 추가됩니다. 이를 통해 모델은 원본 이미지 내 각 패치가 속한 공간적 정보를 유지할 수 있습니다.

  4. 셀프 어텐션 메커니즘(Self-Attention Mechanism): 시퀀스는 Transformer 인코더로 진입하며, 여기서 self-attention을 통해 모든 패치가 다른 모든 패치와 동시에 상호작용하게 됩니다. 이를 통해 네트워크는 왼쪽 상단의 픽셀이 오른쪽 하단의 픽셀과 어떻게 연관되는지 이해하며 글로벌 컨텍스트를 학습할 수 있습니다.

  5. 분류 헤드(Classification Head): image classification과 같은 작업을 위해, 특별한 "클래스 토큰"이 종종 시퀀스 앞에 추가됩니다. 이 토큰의 최종 출력 상태는 이미지의 종합적인 표현 역할을 하며, 이는 multilayer perceptron (MLP)와 같은 분류기로 전달됩니다.

Link to this sectionVision Transformer vs. CNN#

두 아키텍처 모두 시각적 데이터를 이해하는 것을 목표로 하지만, 운영 철학은 크게 다릅니다. CNN은 이동 불변성(translation invariance)이라는 강력한 "귀납적 편향(inductive bias)"을 가지고 있는데, 이는 로컬 특징(에지 및 텍스처 등)이 위치와 관계없이 중요하다는 것을 내재적으로 가정한다는 의미입니다. 덕분에 CNN은 데이터 효율성이 높고 소규모 datasets에서 효과적입니다.

Conversely, Vision Transformers have less image-specific bias. They must learn spatial relationships from scratch using massive amounts of training data, such as the JFT-300M or full ImageNet datasets. While this makes training more computationally intensive, it allows ViTs to scale remarkably well; with sufficient data and compute power, they can outperform CNNs by capturing complex global structures that local convolutions might miss.

Link to this section실제 애플리케이션 사례#

글로벌 컨텍스트를 이해하는 능력은 ViT를 복잡하고 높은 정밀도가 요구되는 환경에서 특히 유용하게 만듭니다.

  • 의료 영상 분석: healthcare AI에서 ViT는 MRI나 조직 병리 슬라이드와 같은 고해상도 스캔을 분석하는 데 사용됩니다. 예를 들어 tumor detection 작업에서, ViT는 조직 내 미세한 텍스처 이상과 슬라이드 전체의 광범위한 구조적 변화를 연관시켜 로컬 처리 방식으로는 간과할 수 있는 악성 패턴을 식별할 수 있습니다.
  • 위성 이미지 및 원격 탐사: ViT는 객체 간의 관계가 먼 거리까지 걸쳐 있는 satellite image analysis 분야에서 뛰어난 성능을 보입니다. 예를 들어, 벌목지 현장과 멀리 떨어진 벌목 도로를 연결하는 작업은 경관의 "큰 그림"을 이해해야 하며, 이는 ViT의 글로벌 어텐션이 표준 CNN의 제한된 수용 영역(receptive field)보다 앞서는 영역입니다.

Link to this sectionUltralytics와 함께하는 Transformer 활용#

ultralytics 라이브러리는 Transformer 기반 아키텍처를 지원하며, 그중에서도 RT-DETR (Real-Time Detection Transformer)가 가장 대표적입니다. 주력 모델인 YOLO26은 엣지 디바이스에서 속도와 정확도의 균형을 위해 자주 선택되지만, RT-DETR은 글로벌 컨텍스트를 우선시하는 시나리오에서 강력한 대안을 제공합니다.

다음 Python 예제는 사전 학습된 Transformer 기반 모델을 로드하고 추론을 실행하는 방법을 보여줍니다.

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Link to this section미래 전망#

ViT의 높은 계산 비용을 해결하기 위한 연구가 빠르게 진행되고 있습니다. FlashAttention과 같은 기술은 이러한 모델을 더 빠르고 메모리 효율적으로 만들고 있습니다. 또한, CNN의 효율성과 Transformer의 어텐션을 결합한 하이브리드 아키텍처도 대중화되고 있습니다. 이러한 고급 워크플로우를 관리하려는 팀을 위해 Ultralytics Platform은 데이터를 주석 처리하고, 클라우드를 통해 복잡한 모델을 학습하며, 다양한 엔드포인트에 배포할 수 있는 통합 환경을 제공합니다.

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.