욜로 비전 선전
선전
지금 참여하기
용어집

Self-Attention

AI에서 self-attention의 강력한 기능을 발견하고, 맥락 인식 정밀도로 NLP, 컴퓨터 비전 및 음성 인식을 혁신하십시오.

Self-Attention은 모델이 단일 입력 시퀀스 내에서 다양한 요소의 중요도를 평가할 수 있도록 하는 메커니즘입니다. 입력의 모든 부분을 동일하게 취급하는 대신 모델이 특정 요소를 처리할 때 가장 관련성이 높은 부분에 선택적으로 집중할 수 있도록 합니다. 이 기능은 컨텍스트, 장거리 종속성 및 데이터 내 관계를 이해하는 데 중요하며, 많은 최신 인공 지능(AI) 아키텍처, 특히 Transformer의 기반을 형성합니다. 이는 "Attention Is All You Need"라는 획기적인 논문에서 유명하게 소개되었으며, 이 논문은 자연어 처리(NLP) 분야에 혁명을 일으켰습니다.

Self-Attention 작동 방식

핵심적으로 셀프 어텐션은 현재 처리 중인 요소와 관련된 입력 시퀀스의 다른 모든 요소에 "어텐션 점수"를 할당하여 작동합니다. 이는 각 입력 요소에 대해 쿼리(Q), 키(K) 및 값(V)의 세 가지 벡터를 만들어 달성됩니다.

  1. 쿼리: 컨텍스트를 "찾고 있는" 현재 요소를 나타냅니다.
  2. 키: 쿼리가 관련 정보를 찾기 위해 비교할 수 있는 시퀀스의 모든 요소를 나타냅니다.
  3. 값: 어텐션 점수를 기반으로 집계될 각 요소의 실제 콘텐츠를 나타냅니다.

주어진 쿼리에 대해 메커니즘은 시퀀스의 모든 키와의 유사성을 계산합니다. 그런 다음 이러한 유사성 점수는 가중치(종종 소프트맥스 함수 사용)로 변환되어 각 요소의 값에 얼마나 많은 초점을 맞춰야 하는지 결정합니다. 쿼리에 대한 최종 출력은 모든 값의 가중치 합계이며 전체 시퀀스의 컨텍스트로 풍부해진 해당 요소의 새로운 표현을 만듭니다. 이 프로세스는 대규모 언어 모델(LLM)이 작동하는 방식의 핵심 부분입니다. 이 Q-K-V 프로세스에 대한 훌륭한 시각적 설명은 Jay Alammar의 블로그와 같은 리소스에서 찾을 수 있습니다.

Self-Attention vs. Attention 메커니즘

Self-Attention은 특정 유형의 Attention 메커니즘입니다. 주요 차이점은 Query, Key 및 Value 벡터의 소스입니다.

  • Self-Attention: 세 개의 벡터(Q, K, V)는 모두 동일한 입력 시퀀스에서 파생됩니다. 이를 통해 모델은 단일 문장 또는 이미지 내의 내부 관계를 분석할 수 있습니다.
  • 일반 어텐션(또는 교차 어텐션): 쿼리 벡터는 하나의 시퀀스에서 올 수 있지만 키 및 값 벡터는 다른 시퀀스에서 올 수 있습니다. 이는 기계 번역과 같은 시퀀스-투-시퀀스 작업에서 일반적이며, 여기서 디코더(번역된 텍스트 생성)는 소스 텍스트의 인코더 표현에 주의를 기울입니다.

AI 및 컴퓨터 비전 분야의 애플리케이션

자기 주의(Self-Attention)는 텍스트 요약 및 번역과 같은 작업에 대해 NLP에서 처음 대중화되었지만, 컴퓨터 비전(CV)에서도 매우 효과적인 것으로 입증되었습니다.

  • 자연어 처리: "로봇이 렌치를 집어 들었는데, 그 이유는 렌치가 무거웠기 때문이다."와 같은 문장에서, self-attention은 모델이 "it"을 "로봇"이 아닌 "렌치"와 올바르게 연결할 수 있도록 합니다. 이러한 이해는 BERTGPT-4와 같은 모델에 매우 중요합니다.
  • 컴퓨터 비전: Vision Transformer(ViT) 모델은 이미지 패치에 자체 주의(self-attention)를 적용하여 이미지 분류와 같은 작업을 위해 시각적 장면의 여러 부분 간의 관계를 학습할 수 있습니다. 일부 객체 탐지 모델은 또한 특징 맵을 개선하고 정확도를 향상시키기 위해 주의 기반 모듈을 통합합니다. YOLO12와 같은 일부 모델은 주의를 사용하지만 대부분의 사용 사례에서는 강력하고 효율적인 Ultralytics YOLO11을 권장합니다.

향후 방향

자기 주의(Self-attention) 메커니즘은 더 높은 계산 효율성(FlashAttention 및 희소(sparse) 어텐션 변형과 같은 방법)과 더 넓은 적용 가능성을 목표로 지속적으로 개선되고 있습니다. AI 모델의 복잡성이 증가함에 따라 자기 주의는 로보틱스와 같은 특수 AI 애플리케이션부터 일반 인공 지능(AGI) 추구에 이르기까지 다양한 분야에서 발전을 주도하는 핵심 기술로 남을 것으로 예상됩니다. Ultralytics HUB와 같은 도구 및 플랫폼은 이러한 고급 기술을 통합한 모델의 학습배포를 용이하게 하며, 이러한 모델은 종종 Hugging Face와 같은 저장소를 통해 제공되고 PyTorchTensorFlow와 같은 프레임워크로 개발됩니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.