용어집

플래시 주의

플래시 어텐션이 어떻게 트랜스포머 모델의 기억력을 최적화하고 속도를 높이는지 알아보세요. 컴퓨터 비전을 어떻게 향상시키는지, 그리고 Ultralytics 최고의 선택인 이유를 확인하세요.

플래시 어텐션(Flash Attention)은 메모리 접근을 보다 효율적으로 관리함으로써 트랜스포머 모델의 훈련 및 추론을 가속화하도록 설계된 고도로 최적화된 알고리즘입니다. 현대 딥러닝(DL)에서, 특히 대규모 모델의 경우 주요 병목 현상은 종종 프로세서의 연산 속도가 아니라 메모리 저장소와 연산 장치 간 데이터 이동에 소요되는 시간입니다. 플래시 어텐션은 어텐션 메커니즘이 데이터를 처리하는 방식을 재구성함으로써 이 "메모리 벽"을 해결합니다. 그 결과 정확도를 저하시키지 않으면서 더 빠른 성능과 더 낮은 메모리 사용량을 달성합니다.

플래시 어텐션 작동 방식

플래시 어텐션을 이해하려면 GPU 그래픽 처리 장치)의 아키텍처를 살펴보는 것이 도움이 됩니다. GPU 대용량이지만 속도가 느린 고대역폭 메모리(HBM)와 소용량이지만 매우 빠른 온칩 SRAM을 갖추고 있습니다. 표준 어텐션 구현은 느린 HBM에 큰 행렬을 반복적으로 읽고 쓰는 방식으로 백로그를 생성합니다.

플래시 어텐션은 "타일링"이라는 기법을 사용하여 대형 어텐션 행렬을 빠른 SRAM에 완전히 들어맞는 작은 블록으로 분할합니다. 이러한 블록들을 고속 메모리에 유지하고 결과를 다시 쓰기 전에 더 많은 계산을 수행함으로써, 이 알고리즘은 HBM에 대한 읽기/쓰기 작업 횟수를 크게 줄입니다. 스탠퍼드 대학교 연구진이 도입한 이 혁신은 프로세스를 "IO-aware"하게 만듭니다. 즉, 데이터 이동 비용을 명시적으로 고려한다는 의미입니다. 기술적 세부 사항은 원본 연구 논문에서 확인할 수 있습니다.

컴퓨터 비전 및 YOLO에서의 관련성

원래는 긴 텍스트 시퀀스를 처리하기 위해 자연어 처리(NLP) 분야에서 개발되었지만, 플래시 어텐션은 컴퓨터 비전(CV) 분야에서 핵심적인 역할을 하게 되었습니다. 비전 트랜스포머(ViT)로 처리할 때 고해상도 이미지는 방대한 데이터 시퀀스를 생성합니다.

이 기술은 객체 탐지기의 개발에 영향을 미칩니다. 예를 들어, 커뮤니티 주도형 YOLO12와 같은 일부 실험 모델은 이러한 원리를 활용한 어텐션 레이어를 도입했습니다. 그러나 순수 어텐션 기반 아키텍처는 훈련 불안정성과 느린 CPU 인해 어려움을 겪을 수 있습니다. 대부분의 전문적인 애플리케이션에는 Ultralytics 권장 표준입니다. YOLO26은 엔드투엔드 객체 탐지 및 이미지 분할을 위해 속도와 정확도를 균형 있게 조정한 고도로 최적화된 아키텍처를 활용하여 에지 디바이스에서 무거운 어텐션 레이어와 종종 연관되는 오버헤드를 피합니다.

실제 애플리케이션

플래시 어텐션으로 인한 효율성 향상은 이전에는 실행 비용이 너무 비싸거나 속도가 너무 느려 실행하기 어려웠던 애플리케이션들을 가능하게 합니다.

장문 맥락 생성형 AI: GPT-4와 같은 대규모 언어 모델(LLM) 세계에서 플래시 어텐션은 모델이 방대한 정보를 "기억"할 수 있게 합니다. 이는 거대한 맥락 창을 가능하게 하여 사용자가 전체 책이나 법률 코드베이스를 업로드하여 텍스트 요약 작업을 수행할 수 있게 하며, 모델이 메모리 한계로 인해 중단되는 것을 방지합니다.
고해상도 의료 진단: 의료 영상 분석에서는 세부 사항이 중요합니다. 병리학자들은 조직 샘플의 기가픽셀 스캔을 분석합니다. 플래시 어텐션은 모델이 이러한 방대한 이미지를 원본 해상도로 처리할 수 있게 하여, 이미지를 축소하여 중요한 데이터를 손실시키지 않고도 초기 단계 뇌종양과 같은 미세한 이상을 식별합니다.

코드 예제

플래시 어텐션은 종종 PyTorch과 같은 라이브러리 내에서 내부 최적화 기술로 사용되지만, Ultralytics 사용하면 어텐션 기반 모델을 쉽게 활용할 수 있습니다. 다음 코드 조각은 RT-DETR 모델을 로드하여 이미지에 대한 추론을 수행하는 방법을 보여줍니다.

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model which utilizes transformer attention
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the number of detected objects
print(f"Detected {len(results[0].boxes)} objects.")

개발자는 Ultralytics 같은 도구를 사용하여 복잡한 GPU 수동으로 구현할 필요 없이 이러한 정교한 모델을 훈련하고 배포할 수 있습니다. 플랫폼이 인프라를 처리하므로 팀은 고품질 데이터셋을 선별하고 결과를 해석하는 데 집중할 수 있습니다.

플래시 주의

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

플래시 어텐션 작동 방식

관련 용어와의 구별

컴퓨터 비전 및 YOLO에서의 관련성

실제 애플리케이션

코드 예제

이 카테고리에서 더 읽어보기

컴퓨터 비전으로 구현된 12가지 항공 이미지 활용 사례

단안 깊이 추정이란 무엇인가? 개요

Ultralytics YOLO 활용한 AI 위협 탐지 기술 분석

Ultralytics 커뮤니티 가입