프롬프트 캐싱이 지연 시간과 비용을 줄여 생성형 AI를 최적화하는 방법을 알아보세요. YOLO26과 같은 대규모 언어 모델(LLM) 추론 및 비전 모델의 속도를 높이는 방법을 배워보세요.
프롬프트 캐싱은 주로 생성형 AI에서 사용되는 고급 최적화 전략입니다. 생성형 AI 추론 과정에서 비용을 크게 절감하고 응답 시간을 개선하기 위해 사용되는 고급 최적화 전략입니다. 대규모 언어 모델(LLM)텍스트 처리는 입력을 토큰. 종종 상세한 시스템 지침, 긴 법률 문서 또는 코드베이스와 같은 입력 데이터의 상당 부분이 다양한 사용자 쿼리 전반에 걸쳐 정적 상태로 유지됩니다. 이러한 불변 섹션을 매번 새로 처리하는 대신, 프롬프트 캐싱은 미리 계산된 수학적 상태(흔히 키-값 캐시라고 함)를 메모리에 저장합니다. 이를 통해 추론 엔진이 중복 계산을 건너뛰고 사용자 프롬프트의 새롭고 동적인 부분에만 계산 능력을 집중할 수 있게 합니다.
프롬프트 캐싱의 기본 메커니즘은 트랜스포머의 아키텍처에 기반합니다. 이 아키텍처는 데이터를 순차적으로 처리합니다. 프롬프트의 반복되는 접두사를 식별함으로써 시스템은 해당 주의 메커니즘 상태를 고속 메모리에서 직접 불러올 수 있습니다.
프롬프트 캐싱은 방대한 데이터 컨텍스트에 의존하는 산업들을 변화시키고 있다.
전통적으로 텍스트와 연관되어 왔지만, 캐싱 개념은 다중 모달 컴퓨터 비전(CV)모델에서도 매우 중요합니다. YOLO 사용자가 열린 어휘 텍스트 프롬프트를 사용하여 detect 수 있게 합니다. 사용자가 클래스 목록(예: "사람, 배낭, 자동차")을 정의하면 모델은 해당 클래스에 대한 텍스트 임베딩을 계산합니다. 이러한 임베딩을 캐싱하면 모델이 모든 비디오 프레임마다 텍스트 프롬프트를 재인코딩할 필요가 없어져 고속 실시간 추론을 가능케 합니다.
다음 사항 Python 이 코드 조각은
비전 컨텍스트에서 프롬프트를
캐싱하는 개념을 보여줍니다. ultralytics 패키지. 클래스를
한 번만 설정함으로써 YOLO 모델은 텍스트 임베딩을 계산하여 저장(지속적 저장)함으로써, 텍스트 설명을 재처리하지 않고도 여러 이미지에 대해 효율적으로 예측할 수 있게 합니다.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
데이터셋 관리 및 최적화된 모델 배포를 위해 Ultralytics 는 데이터 주석 작업, YOLO26과 같은 최첨단 모델 훈련, 그리고 다양한 에지 AI 장치 전반에 걸친 배포 성능 모니터링을 위한 포괄적인 환경을 제공합니다.
