Yolo 비전 선전
선전
지금 참여하기
용어집

Transformer

Transformer 아키텍처가 AI에 혁명을 일으키고 NLP, 컴퓨터 비전 및 고급 ML 작업에서 획기적인 발전을 가능하게 하는 방법을 알아보세요.

트랜스포머는 자기 주의 메커니즘을 활용하여 입력 데이터를 병렬로 처리하는 획기적인 신경망 아키텍처입니다. 입력 데이터를 병렬로 처리하여 다음과 같은 분야에 큰 혁신을 가져왔습니다. 자연어 처리(NLP)컴퓨터 비전(CV) 분야에 큰 혁신을 가져왔습니다. 처음 소개된 사람 Google 연구원들이 2017년의 중요한 논문 "주의만 있으면 충분하다"라는 논문에서 처음 소개된 트랜스포머는 기존 아키텍처에서 사용되던 기존 아키텍처에서 사용되던 순차적 처리 방식에서 벗어났습니다. 대신, 전체 데이터 시퀀스를 동시에 분석합니다, 전례 없는 효율성으로 장거리 종속성과 컨텍스트 관계를 포착할 수 있습니다. 이 아키텍처는 최신 제너레이티브 AI와 강력한 대규모 언어 모델(LLM)의 기반이 됩니다.

핵심 아키텍처 및 메커니즘

트랜스포머의 가장 두드러진 특징은 바로 주의 메커니즘, 특히 자기 주의력입니다. 다른 순환 신경망(RNN), (예: 단어 단위로 데이터를 단계적으로 처리하는 순환 신경망)과 달리, 트랜스포머는 전체 입력을 한 번에 수집합니다. 데이터의 순서를 이해하기 위해 데이터의 순서를 이해하기 위해 위치 인코딩을 사용하여 입력 임베딩에 추가되어 시퀀스 구조에 대한 시퀀스 구조에 대한 정보를 유지합니다.

아키텍처는 일반적으로 인코더와 디코더 스택으로 구성됩니다:

  • 인코더: 입력 데이터를 처리하여 문맥을 이해하도록 합니다.
  • 디코더: 인코더의 인사이트를 사용하여 번역된 텍스트 또는 예상 이미지 픽셀과 같은 출력을 생성합니다. 이미지 픽셀과 같은 출력을 생성합니다.

이 병렬 구조는 대규모 확장성을 제공하여 연구자들이 다음과 같은 작업을 수행할 수 있도록 지원합니다. 방대한 데이터 세트에서 모델을 훈련할 수 있습니다. GPU를 사용해 모델을 훈련할 수 있습니다.

컴퓨터 비전의 트랜스포머

이 아키텍처는 원래 텍스트용으로 설계되었지만, 시각적 작업에도 성공적으로 적용되었습니다. 비전 트랜스포머(ViT). 이 접근 방식에서는 이미지를 일련의 고정 크기 패치(문장의 단어와 유사)로 분할합니다. 그런 다음 모델은 자기 주의를 통해 서로 다른 패치의 중요도를 평가하고 서로 다른 패치의 중요성을 평가하여 기존의 컨볼루션 신경망(CNN) 이 놓칠 수 있는 글로벌 컨텍스트를 포착합니다.

예를 들어 실시간 감지 트랜스포머(RT-DETR) 는 이 아키텍처를 활용하여 아키텍처를 활용하여 매우 정확한 객체 감지를 수행합니다. 로컬 피처에 의존하는 CNN 기반 모델과 달리 RT-DETR 장면에서 멀리 떨어진 객체 간의 관계를 이해할 수 있습니다. 하지만 트랜스포머는 글로벌 컨텍스트에서 탁월한 성능을 발휘하지만, 다음과 같은 CNN 기반 모델은 Ultralytics YOLO11 와 같은 CNN 기반 모델이 실시간 엣지 애플리케이션에 더 나은 속도 실시간 엣지 애플리케이션에 더 나은 속도와 정확도의 균형을 제공합니다. 다음과 같은 커뮤니티 모델 YOLO12와 같은 커뮤니티 모델은 무거운 주의 계층을 통합하려고 시도했지만 하지만 최적화된 CNN 아키텍처에 비해 훈련이 불안정하고 추론 속도가 느린 경우가 많습니다. 에 비해 훈련이 불안정하고 추론 속도가 느립니다.

실제 애플리케이션

트랜스포머 아키텍처의 다용도성 덕분에 다양한 산업 분야에서 채택되고 있습니다.

  • 의료 영상 분석: 의료 분야에서 트랜스포머는 다음을 지원합니다. 의료 이미지 분석을 지원합니다. 종양과 같은 이상 징후를 detect 위해 고해상도 스캔(예: MRI 또는 CT)의 특징을 상호 연관시킵니다. 글로벌 컨텍스트를 이해하는 능력 미묘한 패턴을 간과하지 않습니다.
  • 자율 주행: 자율 주행 자동차는 트랜스포머 기반 모델을 사용하여 여러 카메라의 비디오 피드를 비디오 피드를 처리합니다. 이는 다음을 지원합니다. 영상 이해 및 궤적 예측 동적 물체(보행자, 다른 차량)가 시간에 따라 상호 작용하는 방식을 추적하여 비디오 이해와 궤적 예측에 도움이 됩니다.
  • 고급 챗봇: 가상 비서와 고객 지원 에이전트는 트랜스포머를 사용하여 긴 대화 중에도 컨텍스트를 유지하여 이전 챗봇에 비해 사용자 경험을 크게 개선합니다. 챗봇.

Ultralytics 트랜스포머 사용

트랜스포머 기반 컴퓨터 비전 모델을 직접 실험해 볼 수 있습니다. ultralytics 패키지를 사용하세요. 다음 예는 객체 감지를 위한 RT-DETR 모델을 로드하는 방법을 보여줍니다.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

트랜스포머와 다른 아키텍처 비교

트랜스포머를 다른 일반적인 딥 러닝(DL) 아키텍처와 구별하는 것이 중요합니다:

  • 트랜스포머와 RNN/LSTM 비교: RNN은 사라지는 기울기 문제로 인해 긴 시퀀스의 초기 정보를 초기 정보를 잊어버리게 됩니다. 트랜스포머는 자기 주의를 통해 이 문제를 해결하여 시퀀스의 전체 시퀀스의 전체 기록에 대한 액세스를 유지합니다.
  • 트랜스포머와 CNN 비교: CNN은 번역 불변적이며 백본을 사용하여 로컬 패턴(가장자리, 텍스처)을 감지하는 데 탁월합니다. (가장자리, 텍스처) 감지하는 데 탁월하여 이미지 작업에 매우 이미지 작업에 효율적입니다. 트랜스포머는 글로벌 관계를 학습하지만 일반적으로 더 많은 데이터와 컴퓨팅 파워가 필요합니다. 더 많은 데이터와 연산 능력이 필요합니다. 최신 접근 방식은 종종 하이브리드 모델을 만들거나 다음과 같은 효율적인 CNN을 사용합니다. YOLO11 같은 효율적인 CNN을 사용하거나 하이브리드 모델을 만들기도 합니다. 성능을 발휘합니다.

향후 전망

트랜스포머의 효율을 개선하기 위한 연구가 계속되고 있습니다. 다음과 같은 혁신으로 플래시어텐션과 같은 혁신으로 컴퓨팅 비용이 절감되고 있습니다, 더 긴 컨텍스트 윈도우를 가능하게 합니다. 또한 멀티모달 AI 시스템은 텍스트, 이미지, 오디오 시뮬레이션을 처리하기 위해 트랜스포머와 다른 아키텍처를 병합하여 텍스트, 이미지, 오디오를 동시에 처리하고 있습니다. 이러한 기술이 발전함에 따라 곧 출시될 Ultralytics 플랫폼은 이러한 정교한 모델을 학습, 배포, 표준 컴퓨터 비전 작업과 함께 이러한 정교한 모델을 훈련, 배포, 모니터링할 수 있는 표준 컴퓨터 비전 작업과 함께

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기