Yolo 비전 선전
선전
지금 참여하기
용어집

프롬프트 캐싱

프롬프트 캐싱이 지연 시간과 비용을 줄여 생성형 AI를 최적화하는 방법을 알아보세요. YOLO26과 같은 대규모 언어 모델(LLM) 추론 및 비전 모델의 속도를 높이는 방법을 배워보세요.

프롬프트 캐싱은 주로 생성형 AI에서 사용되는 고급 최적화 전략입니다. 생성형 AI 추론 과정에서 비용을 크게 절감하고 응답 시간을 개선하기 위해 사용되는 고급 최적화 전략입니다. 대규모 언어 모델(LLM)텍스트 처리는 입력을 토큰. 종종 상세한 시스템 지침, 긴 법률 문서 또는 코드베이스와 같은 입력 데이터의 상당 부분이 다양한 사용자 쿼리 전반에 걸쳐 정적 상태로 유지됩니다. 이러한 불변 섹션을 매번 새로 처리하는 대신, 프롬프트 캐싱은 미리 계산된 수학적 상태(흔히 키-값 캐시라고 함)를 메모리에 저장합니다. 이를 통해 추론 엔진이 중복 계산을 건너뛰고 사용자 프롬프트의 새롭고 동적인 부분에만 계산 능력을 집중할 수 있게 합니다.

메커니즘 및 이점

프롬프트 캐싱의 기본 메커니즘은 트랜스포머의 아키텍처에 기반합니다. 이 아키텍처는 데이터를 순차적으로 처리합니다. 프롬프트의 반복되는 접두사를 식별함으로써 시스템은 해당 주의 메커니즘 상태를 고속 메모리에서 직접 불러올 수 있습니다.

  • 지연 시간 감소: 캐싱은 추론 지연 시간을 획기적으로 낮춥니다. 추론 지연 시간, 특히 첫 토큰까지의 시간(TTFT)을 현저히 낮춥니다. 이는 대화형 챗봇과 같은 실시간 애플리케이션이 챗봇과 같은 실시간 애플리케이션이 사용자에게 즉각적으로 느껴지도록 합니다.
  • 비용 효율성: 클라우드 컴퓨팅이 도입된 이후 클라우드 컴퓨팅 제공업체는 일반적으로 컴퓨팅 시간 또는 토큰 처리량 기준으로 과금하므로, 정적 컨텍스트에 대한 중복 작업을 생략함으로써 상당한 비용 절감 효과를 얻을 수 있습니다.
  • 증가된 처리량: GPU 자원을 확보함으로써 서버는 더 많은 동시 요청을 처리할 수 있어 전체 모델 서비스 인프라의 확장성을 높입니다.

실제 애플리케이션

프롬프트 캐싱은 방대한 데이터 컨텍스트에 의존하는 산업들을 변화시키고 있다.

  1. 코딩 어시스턴트: 소프트웨어 개발에서 GitHub Copilot과 같은 도구들은 GitHub Copilot 사용자가 열려 있는 파일과 저장소 구조로부터 방대한 양의 컨텍스트를 활용합니다. 임베딩 모델은 키 입력마다 전체 프로젝트 파일 구조를 재분석하지 않고도 실시간 코드 완성 제안을 제공할 수 있습니다.
  2. 법률 및 의료 분석: 전문가들은 종종 인공지능 에이전트 대량의 정적 문서(예: 판례 기록 보관소 또는 환자 병력 기록)를 대상으로 AI 에이전트에 질의를 합니다. 검색 강화 생성(RAG)을 통해 시스템은 관련 텍스트 조각을 검색합니다. 프롬프트 캐싱은 이러한 검색된 문서의 기초적 맥락이 후속 질문을 위해 재계산될 필요가 없도록 보장하여 질의응답 워크플로를 간소화합니다.

컴퓨터 비전에서의 관련성

전통적으로 텍스트와 연관되어 왔지만, 캐싱 개념은 다중 모달 컴퓨터 비전(CV)모델에서도 매우 중요합니다. YOLO 사용자가 열린 어휘 텍스트 프롬프트를 사용하여 detect 수 있게 합니다. 사용자가 클래스 목록(예: "사람, 배낭, 자동차")을 정의하면 모델은 해당 클래스에 대한 텍스트 임베딩을 계산합니다. 이러한 임베딩을 캐싱하면 모델이 모든 비디오 프레임마다 텍스트 프롬프트를 재인코딩할 필요가 없어져 고속 실시간 추론을 가능케 합니다.

관련 용어 구분하기

  • Vs. 프롬프트 엔지니어링: 프롬프트 엔지니어링은 모델을 안내하기 위한 최적의 텍스트 입력을 설계하는 인간의 노력을 포함합니다. 프롬프트 캐싱은 해당 텍스트에 대한 기계의 처리 결과를 저장하는 백엔드 계산 최적화 기술입니다.
  • Vs. 프롬프트 튜닝: 프롬프트 튜닝은 전이 학습 기법으로 특정 모델 가중치 (소프트 프롬프트)를 업데이트하여 모델을 작업에 적응시키는 기술입니다. 캐싱은 모델의 매개변수를 변경하지 않으며, 실행 중 활성화 상태만을 기억합니다.

코드 예시: 비전에서의 텍스트 임베딩 캐싱

다음 사항 Python 이 코드 조각은 비전 컨텍스트에서 프롬프트를 캐싱하는 개념을 보여줍니다. ultralytics 패키지. 클래스를 한 번만 설정함으로써 YOLO 모델은 텍스트 임베딩을 계산하여 저장(지속적 저장)함으로써, 텍스트 설명을 재처리하지 않고도 여러 이미지에 대해 효율적으로 예측할 수 있게 합니다.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

데이터셋 관리 및 최적화된 모델 배포를 위해 Ultralytics 는 데이터 주석 작업, YOLO26과 같은 최첨단 모델 훈련, 그리고 다양한 에지 AI 장치 전반에 걸친 배포 성능 모니터링을 위한 포괄적인 환경을 제공합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기