컴퓨터 비전에서 ViT(Vision Transformers)의 강력한 기능을 경험해 보세요. 전역 이미지 컨텍스트를 캡처하여 CNN보다 성능이 뛰어난 방법을 알아보세요.
비전 트랜스포머(ViT)는 딥 러닝 아키텍처로 원리를 이미지 시퀀스에 직접 적용하는 딥 러닝 아키텍처입니다. 원래 도입된 용도는 다음과 같습니다. 자연어 처리(NLP), 트랜스포머는 모델이 입력 데이터의 여러 부분의 중요도를 평가할 수 있는 메커니즘을 사용하여 이 분야에 혁신을 일으켰습니다. 중요도를 평가할 수 있는 메커니즘을 사용해 이 분야에 혁신을 가져왔습니다. ViT는 Google Research에서 다음과 같은 논문에서 제안했습니다. "이미지는 16x16 단어의 가치가 있다"라는 논문을 통해 표준 컨볼루션 신경망(CNN) 의 대안으로 제안되었습니다. 로컬 필터를 사용하여 픽셀을 처리하는 CNN과 달리 ViT는 이미지를 일련의 고정된 크기의 패치로 처리하여 첫 번째 레이어부터 글로벌 컨텍스트와 장거리 종속성을 캡처할 수 있습니다. 첫 번째 레이어부터 글로벌 컨텍스트와 장거리 종속성을 캡처할 수 있습니다.
ViT의 아키텍처는 기계가 시각 정보를 처리하는 방식에 있어 중요한 변화를 의미합니다. 워크플로 는 이미지를 문장의 단어와 유사하게 처리할 수 있는 작은 구성 요소로 분해하는 과정을 포함합니다.
두 아키텍처 모두 최신 컴퓨터 비전(CV)의 기본이지만 컴퓨터 비전(CV)의 기본이지만, 두 아키텍처는 서로 다른 귀납적 편향에 의존합니다. CNN은 컨볼루션 연산 을 사용하여 로컬 상호 작용과 번역 불변성(위치에 관계없이 객체를 인식)을 우선시합니다. 이 CNN은 더 작은 데이터 세트에서 매우 효율적입니다. 반면, ViT는 이미지별 구조가 적고 방대한 데이터 세트에서 직접 다음과 같은 대규모 데이터 세트에서 직접 패턴을 학습합니다. ImageNet.
ViT는 일반적으로 매우 많은 양의 데이터에 대해 학습할 때 탁월한 성능을 발휘하는데, 이는 복잡한 글로벌 관계를 모델링할 수 있기 때문입니다. 복잡한 글로벌 관계를 모델링할 수 있기 때문입니다. 그러나 이러한 글로벌 범위는 종종 더 높은 계산 요구 사항으로 인해 리소스가 제한된 엣지 디바이스에서는 훈련 및 추론 속도가 느려집니다. 추론 속도가 느려집니다. 다음과 같은 하이브리드 모델 RT-DETR 과 같은 하이브리드 모델은 효율적인 특징 추출을 위한 CNN 백본과 효율적인 특징 추출을 위한 글로벌 컨텍스트를 위한 트랜스포머 인코더를 결합합니다.
비전 트랜스포머는 씬의 전체적인 맥락을 이해하는 것이 저수준 텍스처 디테일보다 더 중요한 더 중요한 분야에서 성공을 거두었습니다.
그리고 ultralytics 패키지는 RT-DETR (실시간 감지
트랜스포머)와 같은 트랜스포머 기반 아키텍처를 지원하며, 다음과 같은 용도로 ViT의 강점을 활용합니다.
물체 감지. CNN 기반 모델과 같은
권장 YOLO11 은 일반적으로 실시간 애플리케이션에 더 빠릅니다.
애플리케이션에 일반적으로 더 빠르지만, 높은 정확도와 글로벌 컨텍스트가 우선시되는 경우 RT-DETR 강력한 대안을 제공합니다.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes
results[0].show()
앞으로는 효율성 혁신이 매우 중요합니다. Ultralytics 현재 개발 중인 YOLO26을 개발하고 있습니다. 높은 정확도를 제공하는 것을 목표로 하고 있습니다. 또한 곧 출시될 Ultralytics 플랫폼은 다양한 환경에서 이러한 고급 모델을 훈련하고 배포하는 이러한 고급 모델을 클라우드 서버부터 엣지 하드웨어에 이르기까지 다양한 환경에서 훈련하고 배포하는 워크플로우를 간소화할 것입니다. 다음과 같은 주요 프레임워크 PyTorch 및 TensorFlow 은 계속해서 지원을 계속 확장하여 이 분야의 연구를 더욱 촉진하고 있습니다.

