YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Prompt Caching

프롬프트 캐싱이 지연 시간과 비용을 줄여 생성 AI를 어떻게 최적화하는지 알아보십시오. LLM 및 Ultralytics YOLO26을 이용한 실시간 컴퓨터 비전에서의 역할을 배우십시오.

프롬프트 캐싱은 주로 **생성형 AI**에서 추론 비용을 대폭 절감하고 응답 속도를 개선하기 위해 사용되는 고급 최적화 전략입니다. 거대 언어 모델 (LLM) 영역에서 텍스트를 처리하려면 입력을 **토큰**이라 불리는 숫자 시퀀스로 변환해야 합니다. 종종 상세한 시스템 지침, 긴 법률 문서 또는 코드베이스와 같이 입력 데이터의 상당 부분이 여러 사용자 쿼리에 걸쳐 정적으로 유지됩니다. 새로운 요청이 있을 때마다 이러한 변경되지 않는 섹션을 다시 처리하는 대신, 프롬프트 캐싱은 사전 계산된 수학적 상태(주로 Key-Value 캐시라고 함)를 메모리에 저장합니다. 이를 통해 **추론 엔진**은 중복 계산을 건너뛰고 사용자의 프롬프트 중 새롭고 동적인 부분에만 컴퓨팅 자원을 집중할 수 있습니다.

Link to this section메커니즘 및 이점#

프롬프트 캐싱의 기본 원리는 데이터를 순차적으로 처리하는 Transformer 아키텍처에 의존합니다. 프롬프트의 반복적인 접두사를 식별함으로써, 시스템은 해당 어텐션 메커니즘 상태를 고속 메모리에서 직접 로드할 수 있습니다.

  • 지연 시간 감소: 캐싱은 추론 지연 시간, 특히 TTFT(Time to First Token)를 획기적으로 낮춥니다. 이를 통해 대화형 **챗봇**과 같은 실시간 애플리케이션에서 사용자에게 즉각적인 응답 경험을 제공합니다.
  • 비용 효율성: 클라우드 컴퓨팅 제공업체는 종종 컴퓨팅 시간이나 토큰 처리량을 기준으로 요금을 청구하므로, 정적 컨텍스트에 대한 무거운 작업을 생략하면 상당한 비용 절감 효과를 얻을 수 있습니다.
  • 처리량 증가: GPU 리소스를 확보함으로써 서버는 더 많은 동시 요청을 처리할 수 있으며, 이는 전체 모델 서빙 인프라의 확장성을 향상시킵니다.

Link to this section실제 애플리케이션 사례#

프롬프트 캐싱은 방대한 데이터 컨텍스트를 활용하는 산업을 변화시키고 있습니다.

  1. 코딩 어시스턴트: 소프트웨어 개발에서 **GitHub Copilot**과 같은 도구는 사용자가 연 파일과 리포지토리 구조로부터 방대한 컨텍스트를 활용합니다. 코드베이스의 **임베딩**을 캐싱함으로써 모델은 키 입력 때마다 전체 프로젝트 파일 구조를 다시 분석하지 않고도 실시간 코드 완성 제안을 제공할 수 있습니다.

  2. 법률 및 의료 분석: 전문가는 종종 판례 기록이나 환자 기록과 같은 거대한 정적 문서를 대상으로 **AI 에이전트**에 질문합니다. **검색 증강 생성(RAG)**을 사용하면 시스템이 관련 텍스트 청크를 검색합니다. 프롬프트 캐싱은 이러한 검색된 문서의 기초 컨텍스트를 후속 질문을 위해 다시 계산할 필요가 없도록 보장하여 질의응답 워크플로를 간소화합니다.

Link to this section컴퓨터 비전에서의 관련성#

캐싱 개념은 전통적으로 텍스트와 연관되어 있지만 멀티모달 **컴퓨터 비전(CV)**에서도 필수적입니다. **YOLO-World**와 같은 모델은 사용자가 오픈 어휘 텍스트 프롬프트를 사용하여 객체를 탐지할 수 있게 합니다. 사용자가 클래스 목록(예: "person, backpack, car")을 정의하면 모델은 해당 클래스에 대한 텍스트 임베딩을 계산합니다. 이러한 임베딩을 캐싱하면 매 비디오 프레임마다 텍스트 프롬프트를 다시 인코딩할 필요가 없어 고속 **실시간 추론**이 가능해집니다.

Link to this section관련 용어 구분#

  • 프롬프트 엔지니어링 대비: 프롬프트 엔지니어링은 모델을 안내하기 위한 최적의 텍스트 입력을 설계하는 인간의 노력을 의미합니다. 프롬프트 캐싱은 해당 텍스트에 대한 기계의 처리 과정을 저장하는 백엔드 컴퓨팅 최적화입니다.
  • 프롬프트 튜닝 대비: 프롬프트 튜닝은 전이 학습 기법의 일종으로, 특정 모델 가중치(소프트 프롬프트)를 업데이트하여 모델을 특정 작업에 적응시킵니다. 캐싱은 모델의 매개변수를 변경하지 않으며, 런타임 중에 활성화 상태만 기억합니다.

Link to this section코드 예시: 비전 컨텍스트에서 텍스트 임베딩 캐싱하기#

다음 Python 코드 조각은 ultralytics 패키지를 사용하여 비전 컨텍스트에서 프롬프트를 "캐싱"하는 개념을 보여줍니다. YOLO-World 모델에서 클래스를 한 번 설정하면 텍스트 임베딩이 계산 및 저장(지속)되어, 모델이 텍스트 설명을 다시 처리하지 않고도 여러 이미지에 대해 효율적으로 예측을 수행할 수 있게 됩니다.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

데이터셋 관리 및 최적화된 모델 배포를 위해 **Ultralytics Platform**은 데이터 어노테이션, **YOLO26**과 같은 최신 모델 학습, 다양한 엣지 AI 기기 전반의 배포 성능 모니터링을 위한 포괄적인 환경을 제공합니다.

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.