Transformer 아키텍처가 AI에 혁명을 일으키고 NLP, 컴퓨터 비전 및 고급 ML 작업에서 획기적인 발전을 가능하게 하는 방법을 알아보세요.
트랜스포머는 자기 주의 메커니즘을 활용하여 입력 데이터를 병렬로 처리하는 획기적인 신경망 아키텍처입니다. 입력 데이터를 병렬로 처리하여 다음과 같은 분야에 큰 혁신을 가져왔습니다. 자연어 처리(NLP) 및 컴퓨터 비전(CV) 분야에 큰 혁신을 가져왔습니다. 처음 소개된 사람 Google 연구원들이 2017년의 중요한 논문 "주의만 있으면 충분하다"라는 논문에서 처음 소개된 트랜스포머는 기존 아키텍처에서 사용되던 기존 아키텍처에서 사용되던 순차적 처리 방식에서 벗어났습니다. 대신, 전체 데이터 시퀀스를 동시에 분석합니다, 전례 없는 효율성으로 장거리 종속성과 컨텍스트 관계를 포착할 수 있습니다. 이 아키텍처는 최신 제너레이티브 AI와 강력한 대규모 언어 모델(LLM)의 기반이 됩니다.
트랜스포머의 가장 두드러진 특징은 바로 주의 메커니즘, 특히 자기 주의력입니다. 다른 순환 신경망(RNN), (예: 단어 단위로 데이터를 단계적으로 처리하는 순환 신경망)과 달리, 트랜스포머는 전체 입력을 한 번에 수집합니다. 데이터의 순서를 이해하기 위해 데이터의 순서를 이해하기 위해 위치 인코딩을 사용하여 입력 임베딩에 추가되어 시퀀스 구조에 대한 시퀀스 구조에 대한 정보를 유지합니다.
아키텍처는 일반적으로 인코더와 디코더 스택으로 구성됩니다:
이 병렬 구조는 대규모 확장성을 제공하여 연구자들이 다음과 같은 작업을 수행할 수 있도록 지원합니다. 방대한 데이터 세트에서 모델을 훈련할 수 있습니다. GPU를 사용해 모델을 훈련할 수 있습니다.
이 아키텍처는 원래 텍스트용으로 설계되었지만, 시각적 작업에도 성공적으로 적용되었습니다. 비전 트랜스포머(ViT). 이 접근 방식에서는 이미지를 일련의 고정 크기 패치(문장의 단어와 유사)로 분할합니다. 그런 다음 모델은 자기 주의를 통해 서로 다른 패치의 중요도를 평가하고 서로 다른 패치의 중요성을 평가하여 기존의 컨볼루션 신경망(CNN) 이 놓칠 수 있는 글로벌 컨텍스트를 포착합니다.
예를 들어 실시간 감지 트랜스포머(RT-DETR) 는 이 아키텍처를 활용하여 아키텍처를 활용하여 매우 정확한 객체 감지를 수행합니다. 로컬 피처에 의존하는 CNN 기반 모델과 달리 RT-DETR 장면에서 멀리 떨어진 객체 간의 관계를 이해할 수 있습니다. 하지만 트랜스포머는 글로벌 컨텍스트에서 탁월한 성능을 발휘하지만, 다음과 같은 CNN 기반 모델은 Ultralytics YOLO11 와 같은 CNN 기반 모델이 실시간 엣지 애플리케이션에 더 나은 속도 실시간 엣지 애플리케이션에 더 나은 속도와 정확도의 균형을 제공합니다. 다음과 같은 커뮤니티 모델 YOLO12와 같은 커뮤니티 모델은 무거운 주의 계층을 통합하려고 시도했지만 하지만 최적화된 CNN 아키텍처에 비해 훈련이 불안정하고 추론 속도가 느린 경우가 많습니다. 에 비해 훈련이 불안정하고 추론 속도가 느립니다.
트랜스포머 아키텍처의 다용도성 덕분에 다양한 산업 분야에서 채택되고 있습니다.
트랜스포머 기반 컴퓨터 비전 모델을 직접 실험해 볼 수 있습니다. ultralytics 패키지를 사용하세요.
다음 예는 객체 감지를 위한 RT-DETR 모델을 로드하는 방법을 보여줍니다.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
트랜스포머를 다른 일반적인 딥 러닝(DL) 아키텍처와 구별하는 것이 중요합니다:
트랜스포머의 효율을 개선하기 위한 연구가 계속되고 있습니다. 다음과 같은 혁신으로 플래시어텐션과 같은 혁신으로 컴퓨팅 비용이 절감되고 있습니다, 더 긴 컨텍스트 윈도우를 가능하게 합니다. 또한 멀티모달 AI 시스템은 텍스트, 이미지, 오디오 시뮬레이션을 처리하기 위해 트랜스포머와 다른 아키텍처를 병합하여 텍스트, 이미지, 오디오를 동시에 처리하고 있습니다. 이러한 기술이 발전함에 따라 곧 출시될 Ultralytics 플랫폼은 이러한 정교한 모델을 학습, 배포, 표준 컴퓨터 비전 작업과 함께 이러한 정교한 모델을 훈련, 배포, 모니터링할 수 있는 표준 컴퓨터 비전 작업과 함께

