용어집

프롬프트 캐싱

프롬프트 캐싱으로 AI 효율성을 높이세요! 이 강력한 기술을 사용하여 대기 시간을 줄이고, 비용을 절감하며, AI 앱을 확장하는 방법을 알아보세요.

프롬프트 캐싱은 다음과 같은 배포에 사용되는 특수 최적화 기술입니다. 대규모 언어 모델(LLM)을 배포하는 데 사용되는 특수 최적화 기법으로 추론 지연 시간을 크게 줄이고 계산 비용을 크게 줄여줍니다. 생성형 AI의 맥락에서 프롬프트를 처리하려면 텍스트를 숫자 표현으로 변환하고 모든 토큰 간의 관계를 계산하는 주의 메커니즘을 사용합니다. 프롬프트의 상당 부분이 프롬프트의 상당 부분(예: 긴 시스템 명령어 또는 예제 집합)이 여러 요청에 걸쳐 정적으로 유지되는 경우, 프롬프트 캐싱을 사용하면 시스템에서 해당 정적 상태의 중간 수학적 상태(특히 키-값 쌍)를 저장할 수 있습니다. 텍스트를 저장할 수 있습니다. 새로운 쿼리마다 이러한 상태를 다시 계산하는 대신, 추론 엔진은 추론 엔진은 메모리에서 해당 상태를 검색합니다, 모델이 입력의 새롭고 동적인 부분에만 처리 능력을 집중할 수 있도록 합니다.

메커니즘 및 이점

프롬프트 캐싱의 핵심 메커니즘은 효율적인 컨텍스트 창을 효율적으로 관리하는 것입니다. LLM이 입력을 처리할 때 입력을 처리할 때, 그 시점까지의 텍스트에 대한 모델의 이해를 나타내는 "KV 캐시"(키-값 캐시)를 생성합니다. 그 시점까지. 프롬프트 캐시는 프롬프트의 초기 segment (접두사)를 재사용 가능한 자산으로 처리합니다.

지연 시간 단축: 캐시된 접두사에 대한 계산을 건너뜀으로써 첫 번째 토큰에 대한 시간(TTFT) 이 획기적으로 단축되어 실시간 추론 시나리오에서 실시간 추론 시나리오에서 더 빠른 응답으로 이어집니다.
비용 효율성: 이후 그래픽 처리 장치(GPU) 가 중복 토큰을 처리하는 데 소요되는 시간이 줄어들기 때문에 요청당 필요한 전체 컴퓨팅 리소스가 감소하여 인공지능(AI) 서비스를 실행하는 데 드는 인공 지능(AI) 서비스 운영 비용을 낮춥니다.
처리량 증가: 시스템에서 더 많은 양의 동시 요청을 처리할 수 있습니다. 각 개별 요청에 대한 계산 부담이 최소화되기 때문입니다.

실제 애플리케이션

프롬프트 캐싱은 개발자가 머신 러닝 애플리케이션을 빌드하고 확장하는 방식을 변화시키고 있습니다. 머신 러닝(ML) 애플리케이션을 구축하는 방식을 특히 텍스트 처리량이 많은 애플리케이션을 구축하는 방식을 변화시키고 있습니다.

컨텍스트 인식 코딩 어시스턴트: 코드 완성 기능을 제공하는 도구에서는 현재 파일과 참조된 라이브러리의 전체 콘텐츠가 현재 파일 및 참조된 라이브러리의 전체 내용이 프롬프트 컨텍스트로 사용되는 경우가 많습니다. 이 "접두사"는 수천 토큰의 길이일 수 있습니다. 프롬프트 캐싱을 사용하면 어시스턴트가 파일 상태를 캐시할 수 있습니다. 개발자가 입력( 새 토큰을 추가)하면 모델은 전체 파일 구조를 다시 읽지 않고 새 문자만 처리하여 1초 미만의 응답 시간을 구현할 수 있습니다. 1초 미만의 응답 시간이 가능합니다.
문서 분석 및 Q&A: 50페이지 분량의 PDF 매뉴얼에 대한 질문에 답변하도록 설계된 시스템을 생각해 보세요. 매뉴얼에 대한 질문에 답변하는 시스템을 생각해 보세요. 사용 검색 증강 생성(RAG)을 사용하면 매뉴얼의 텍스트가 모델에 입력됩니다. 캐싱이 없으면 사용자가 질문을 할 때마다 모델은 다음을 수행해야 합니다. 전체 매뉴얼과 질문을 다시 처리해야 합니다. 프롬프트 캐싱을 사용하면 설명서를 이해하는 데 필요한 무거운 계산 작업이 매뉴얼을 한 번만 처리하고 저장합니다. 후속 질문은 이 캐시된 상태에 추가되므로, 질문과 답변의 질문에 답하는 상호 작용이 유동적이고 효율적입니다.

기술 구현 개념

프롬프트 캐싱은 LLM 추론 서버 내부에 있지만, 데이터 구조를 이해하면 개념을 명확히 이해하는 데 도움이 됩니다. '캐시'는 기본적으로 주의 상태를 나타내는 텐서(다차원 배열)를 저장합니다.

다음 Python 스니펫을 사용하여 torch 는 키-값 캐시 tensor 형태와 개념을 보여줍니다, 즉, 프롬프트 캐싱 중에 저장되고 재사용되는 것입니다:

import torch

# Simulate a KV Cache tensor for a transformer model
# Shape: (Batch_Size, Num_Heads, Sequence_Length, Head_Dim)
batch_size, num_heads, seq_len, head_dim = 1, 32, 1024, 128

# Create a random tensor representing the pre-computed state of a long prompt
kv_cache_state = torch.randn(batch_size, num_heads, seq_len, head_dim)

print(f"Cached state shape: {kv_cache_state.shape}")
print(f"Number of cached parameters: {kv_cache_state.numel()}")
# In practice, this tensor is passed to the model's forward() method
# to skip processing the first 1024 tokens.

프롬프트 캐싱

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

메커니즘 및 이점

실제 애플리케이션

기술 구현 개념

관련 개념 구분하기

이 카테고리에서 더 읽어보기

인간이 개입하는 주석 작업이 핵심인 이유 이해하기

데이터셋 증류란 무엇인가? 간략한 개요

오클리 메타 AI 안경은 비전 AI로 안경의 개념을 재정의하고 있습니다

Ultralytics 커뮤니티 가입