용어집

Vision Transformer (ViT)

컴퓨터 비전에서 ViT(Vision Transformers)의 강력한 기능을 경험해 보세요. 전역 이미지 컨텍스트를 캡처하여 CNN보다 성능이 뛰어난 방법을 알아보세요.

비전 트랜스포머(ViT)는 딥 러닝 아키텍처로 원리를 이미지 시퀀스에 직접 적용하는 딥 러닝 아키텍처입니다. 원래 도입된 용도는 다음과 같습니다. 자연어 처리(NLP), 트랜스포머는 모델이 입력 데이터의 여러 부분의 중요도를 평가할 수 있는 메커니즘을 사용하여 이 분야에 혁신을 일으켰습니다. 중요도를 평가할 수 있는 메커니즘을 사용해 이 분야에 혁신을 가져왔습니다. ViT는 Google Research에서 다음과 같은 논문에서 제안했습니다. "이미지는 16x16 단어의 가치가 있다"라는 논문을 통해 표준 컨볼루션 신경망(CNN) 의 대안으로 제안되었습니다. 로컬 필터를 사용하여 픽셀을 처리하는 CNN과 달리 ViT는 이미지를 일련의 고정된 크기의 패치로 처리하여 첫 번째 레이어부터 글로벌 컨텍스트와 장거리 종속성을 캡처할 수 있습니다. 첫 번째 레이어부터 글로벌 컨텍스트와 장거리 종속성을 캡처할 수 있습니다.

Vision Transformer는 어떻게 작동할까요?

ViT의 아키텍처는 기계가 시각 정보를 처리하는 방식에 있어 중요한 변화를 의미합니다. 워크플로 는 이미지를 문장의 단어와 유사하게 처리할 수 있는 작은 구성 요소로 분해하는 과정을 포함합니다.

패치 분할: 입력 이미지가 겹치지 않는 패치 그리드(예: 16x16 픽셀). 이 단계에서는 2D 이미지를 일련의 1D 벡터로 변환하여 시각적 데이터를 효과적으로 토큰화합니다.
평평한 패치의 선형 투영: 각 패치를 평평하게 만들어 저차원 공간에 투영하여 저차원 공간에 투영되어 특정 영역의 시각적 특징을 나타내는 특정 영역의 시각적 특징을 나타내는 임베딩을 생성합니다.
위치 임베딩: Transformer 아키텍처는 본질적으로 시퀀스의 순서를 이해하지 못하기 때문에 시퀀스의 순서를 기본적으로 이해하지 못하기 때문에 학습 가능한 위치 임베딩을 패치 임베딩에 추가하여 각 패치가 원본 이미지의 어디에 있는지 공간 정보를 유지합니다. 공간 정보를 유지하기 위해 패치 임베딩에 학습 가능한 위치 임베딩을 추가합니다.
트랜스포머 인코더: 임베딩 시퀀스는 표준 트랜스포머 인코더에 공급됩니다. 여기, 주의 메커니즘을 통해 모델은 이미지에서 서로의 거리에 관계없이 모든 패치와 다른 모든 패치 간의 관계를 학습합니다. 이미지.
분류 헤드: 다음과 같은 작업의 경우 이미지 분류와 같은 작업의 경우, 특수 토큰이 을 시퀀스에 추가하고, 그 최종 상태를 MLP(Multi-Layer Perceptron) 헤드에 입력해 클래스를 예측합니다. 라벨을 예측합니다.

ViT 대 CNN 아키텍처

두 아키텍처 모두 최신 컴퓨터 비전(CV)의 기본이지만 컴퓨터 비전(CV)의 기본이지만, 두 아키텍처는 서로 다른 귀납적 편향에 의존합니다. CNN은 컨볼루션 연산 을 사용하여 로컬 상호 작용과 번역 불변성(위치에 관계없이 객체를 인식)을 우선시합니다. 이 CNN은 더 작은 데이터 세트에서 매우 효율적입니다. 반면, ViT는 이미지별 구조가 적고 방대한 데이터 세트에서 직접 다음과 같은 대규모 데이터 세트에서 직접 패턴을 학습합니다. ImageNet.

ViT는 일반적으로 매우 많은 양의 데이터에 대해 학습할 때 탁월한 성능을 발휘하는데, 이는 복잡한 글로벌 관계를 모델링할 수 있기 때문입니다. 복잡한 글로벌 관계를 모델링할 수 있기 때문입니다. 그러나 이러한 글로벌 범위는 종종 더 높은 계산 요구 사항으로 인해 리소스가 제한된 엣지 디바이스에서는 훈련 및 추론 속도가 느려집니다. 추론 속도가 느려집니다. 다음과 같은 하이브리드 모델 RT-DETR 과 같은 하이브리드 모델은 효율적인 특징 추출을 위한 CNN 백본과 효율적인 특징 추출을 위한 글로벌 컨텍스트를 위한 트랜스포머 인코더를 결합합니다.

실제 애플리케이션

비전 트랜스포머는 씬의 전체적인 맥락을 이해하는 것이 저수준 텍스처 디테일보다 더 중요한 더 중요한 분야에서 성공을 거두었습니다.

의료 이미지 분석: 다음과 같은 분야에서 의료 이미지 분석과 같은 분야에서 ViT는 다음과 같은 용도로 사용됩니다. MRI 스캔이나 엑스레이에서 이상 징후를 detect 데 사용됩니다. 예를 들어 종양 탐지, ViT는 장기의 멀리 떨어진 부분의 특징을 상호 연관시켜 정상으로 보일 수 있는 악성 조직을 식별할 수 있습니다. 분리하여 진단 정확도를 향상시킵니다.
원격 감지 및 위성 이미지: ViT는 위성 이미지를 분석하는 데 효과적으로 사용됩니다. 위성 이미지 분석하는 데 효과적으로 사용됩니다. 글로벌 컨텍스트를 처리하는 능력은 유사한 지형 유형을 구별하는 데 도움이 됩니다. 다양한 지형 유형을 구분하거나 넓은 지역에 걸쳐 도시 확장을 추적하는 등 지역.

Ultralytics 트랜스포머 사용

그리고 ultralytics 패키지는 RT-DETR (실시간 감지 트랜스포머)와 같은 트랜스포머 기반 아키텍처를 지원하며, 다음과 같은 용도로 ViT의 강점을 활용합니다. 물체 감지. CNN 기반 모델과 같은 권장 YOLO11 은 일반적으로 실시간 애플리케이션에 더 빠릅니다. 애플리케이션에 일반적으로 더 빠르지만, 높은 정확도와 글로벌 컨텍스트가 우선시되는 경우 RT-DETR 강력한 대안을 제공합니다.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes
results[0].show()

앞으로는 효율성 혁신이 매우 중요합니다. Ultralytics 현재 개발 중인 YOLO26을 개발하고 있습니다. 높은 정확도를 제공하는 것을 목표로 하고 있습니다. 또한 곧 출시될 Ultralytics 플랫폼은 다양한 환경에서 이러한 고급 모델을 훈련하고 배포하는 이러한 고급 모델을 클라우드 서버부터 엣지 하드웨어에 이르기까지 다양한 환경에서 훈련하고 배포하는 워크플로우를 간소화할 것입니다. 다음과 같은 주요 프레임워크 PyTorch 및 TensorFlow 은 계속해서 지원을 계속 확장하여 이 분야의 연구를 더욱 촉진하고 있습니다.

Vision Transformer (ViT)

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

Vision Transformer는 어떻게 작동할까요?

ViT 대 CNN 아키텍처

실제 애플리케이션

Ultralytics 트랜스포머 사용

이 카테고리에서 더 읽어보기

인간이 개입하는 주석 작업이 핵심인 이유 이해하기

데이터셋 증류란 무엇인가? 간략한 개요

오클리 메타 AI 안경은 비전 AI로 안경의 개념을 재정의하고 있습니다

Ultralytics 커뮤니티 가입