Yolo 비전 선전
선전
지금 참여하기
용어집

Self-Attention

AI에서 self-attention의 강력한 기능을 발견하고, 맥락 인식 정밀도로 NLP, 컴퓨터 비전 및 음성 인식을 혁신하십시오.

자기 주의는 딥러닝 모델 내의 메커니즘으로, 입력 시퀀스에서 서로 다른 요소의 중요도를 평가하여 입력 시퀀스에서 서로 다른 요소의 중요성을 평가할 수 있게 해주는 메커니즘입니다. 데이터를 순차적으로 또는 로컬로 처리하는 기존 아키텍처와는 달리 또는 로컬로 처리하는 기존 아키텍처와 달리, 셀프 어텐션은 모델이 전체 시퀀스를 한 번에 보고 어떤 부분이 현재 요소를 이해하는 데 가장 현재 요소의 이해와 가장 관련이 있는지 판단할 수 있습니다. 이 기능은 트랜스포머 아키텍처의 가장 큰 특징입니다. 트랜스포머 아키텍처의 특징입니다. 다양한 분야에 혁신을 가져온 자연어 처리(NLP) 에서 고급 컴퓨터 비전(CV)에 이르기까지 다양한 분야에 혁신을 가져왔습니다. 계산을 통해 관계를 계산함으로써, 셀프 어텐션은 데이터 세트의 모든 항목 쌍 간의 관계에 대한 전체적인 이해를 제공합니다. 다음과 같은 기존 방법으로는 달성하기 어려운 순환 신경망(RNN).

Self-Attention 작동 방식

개념적으로 자기 주의는 인간이 특정 세부 사항에 집중하면서 관련 없는 소음은 무시하고 무시함으로써 정보를 처리하는 방식을 모방합니다. 문장이나 이미지를 처리할 때 모델은 각 요소에 '주의 점수'를 할당합니다. 요소에 "주의 점수"를 할당합니다. 이 점수에 따라 특정 단어나 픽셀을 인코딩할 때 입력의 다른 부분에 얼마나 집중해야 하는지가 결정됩니다. 단어 또는 픽셀.

이 프로세스에는 일반적으로 각 입력 요소에 대해 쿼리, 키, 값의 세 가지 벡터를 생성하는 작업이 포함됩니다. , 값의 세 가지 벡터를 생성합니다.

  • 쿼리: 관련 정보를 요청하는 현재 항목을 나타냅니다.
  • : 시퀀스의 다른 항목에 대한 식별자 역할을 합니다.
  • : 실제 정보 콘텐츠를 포함합니다.

이 모델은 한 요소의 쿼리를 다른 모든 요소의 키와 비교하여 호환성을 계산합니다. 이러한 호환성 점수는 가중치를 생성하기 위해 소프트맥스 함수를 사용하여 정규화하여 가중치를 생성합니다. 마지막으로, 이 가중치 를 값에 적용하여 컨텍스트를 인식하는 새로운 표현을 생성합니다. 이러한 효율적인 병렬 처리를 통해 대규모 대규모 언어 모델(LLM) 과 최신 GPU를 사용한 강력한 비전 모델을 훈련할 수 있습니다. 보다 심층적인 시각적 분석을 위해 보다 심층적인 시각적 분석을 위해 제이 알라마르의 일러스트레이션 트랜스포머는 다음과 같은 리소스를 제공합니다. 뛰어난 직관력을 제공합니다.

자기 주의력 대 일반 주의력

이 용어는 종종 비슷한 의미로 사용되지만, 자기 주의와 더 넓은 의미의 주의 메커니즘을 구분하는 것이 도움이 됩니다. 주의 메커니즘과 구별하는 것이 도움이 됩니다.

  • 자기 주의: 쿼리, 키, 값은 모두 동일한 입력 시퀀스에서 나옵니다. 목표 은 문장의 단어가 서로 어떻게 연관되는지(예: 문단에서 '그것'이 무엇을 의미하는지를 이해하는 것)와 같은 내부 관계를 학습하는 것입니다. 문단에서 "그것"이 무엇을 가리키는지 이해하는 것과 같은 내부 관계를 학습하는 것입니다.)
  • 교차 주의: 종종 사용되는 시퀀스 간 모델에서 자주 사용되는 쿼리는 디코더와 같은 한 시퀀스에서 나오고 키와 값은 인코더와 같은 다른 시퀀스에서 나옵니다. 이는 기계 번역에서 흔히 볼 수 있는 대상 언어 출력이 소스 언어 입력을 따르는 기계 번역에서 일반적입니다.

실제 애플리케이션

장거리 종속성을 포착하는 기능으로 인해 현대에는 자기 주의가 보편화되었습니다. 인공 지능(AI).

  1. 문맥 텍스트 분석: NLP에서는 스스로 주의를 기울여 모호성을 해결합니다. 다음 단어를 생각해 보세요. "은행." "그는 은행에서 낚시를 했다."라는 문장에서 모델은 자기 주의 기능을 사용하여 "은행"을 "낚시" 및 "강"과 연결하여 금융 기관과 구별합니다. 이 Google 번역 및 챗봇과 같은 도구에 기반한 생성 AI.
  2. 글로벌 이미지 이해: 컴퓨터 비전에서 다음과 같은 모델은 비전 트랜스포머(ViT) 와 같은 모델은 이미지를 분할하여 를 패치로 나누고 자기 주의를 사용하여 장면의 먼 부분을 연결합니다. 이는 다음과 같은 경우에 매우 중요합니다. 물체 감지에 매우 중요합니다. 그리고 Ultralytics RT-DETR (실시간 감지 트랜스포머) 은 이를 활용하여 높은 정확도를 달성합니다. 글로벌 컨텍스트를 효과적으로 관리하여 높은 정확도를 달성합니다. 컨볼루션 신경망(CNN) 과 달리 글로벌 컨텍스트를 효과적으로 관리하여 정확도를 높입니다.

코드 예제

다음 Python 스니펫은 자체 주의에 의존하는 트랜스포머 기반 모델을 로드하고 사용하는 방법을 보여줍니다. 를 사용하여 추론하는 방법을 보여줍니다. ultralytics 패키지입니다.

from ultralytics import RTDETR

# Load the RT-DETR model, which uses self-attention for object detection
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects with global context
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class probabilities
results[0].show()

최신 아키텍처에서의 중요성

자기 주의력은 중요한 논문에서 소개되었습니다. Google 연구원들의 "주의력만 있으면 충분하다"라는 논문에서 소개되었습니다. It 초기 딥 러닝 아키텍처를 괴롭혔던 초기 딥 러닝 아키텍처를 괴롭혔던 사라지는 기울기 문제를 해결하여 기초 모델을 만들 수 있게 되었습니다.

주의 기반 모델은 강력하지만 계산 비용이 많이 들 수 있습니다. 많은 실시간 애플리케이션의 경우 효율적인 CNN 기반 모델인 YOLO11 과 같은 효율적인 CNN 기반 모델은 속도와 낮은 메모리 사용량으로 인해 권장되는 선택입니다. 그러나 하이브리드 접근 방식과 최적화된 트랜스포머 는 계속해서 머신 러닝의 한계를 계속 넓혀가고 있습니다. 앞으로, 곧 출시될 YOLO26과 같은 아키텍처는 두 가지의 장점을 통합하는 것을 목표로 합니다. Ultralytics 플랫폼에서 엔드투엔드 기능을 제공하는 것을 목표로 합니다. 다음과 같은 프레임워크 PyTorchTensorFlow 와 같은 프레임워크는 개발자가 이러한 고급 셀프 어텐션 레이어를 이러한 고급 셀프 어텐션 레이어를 실험할 수 있는 빌딩 블록을 제공합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기