용어집

프롬프트 캐싱

신속한 캐싱으로 AI 효율성을 높이세요! 이 강력한 기술을 사용하여 지연 시간을 줄이고, 비용을 절감하고, AI 앱을 확장하는 방법을 알아보세요.

프롬프트 캐싱은 추론 프로세스를 가속화하기 위해 주로 대규모 언어 모델(LLM) 에 사용되는 최적화 기법입니다. 프롬프트의 초기 부분에 대한 중간 계산 결과, 특히 주의 메커니즘의 키-값(KV) 상태를 저장하는 방식으로 작동합니다. 새 프롬프트가 동일한 시작 부분(접두사)을 공유하는 경우 모델은 이러한 캐시된 상태를 다시 계산하는 대신 재사용하여 응답을 생성하는 데 필요한 지연 시간과 계산 부하를 크게 줄일 수 있습니다. 이는 대화형 AI 또는 반복적인 쿼리와 관련된 애플리케이션에서 특히 효과적입니다.

프롬프트 캐싱의 작동 방식

LLM은 문장이나 단락과 같은 일련의 텍스트를 처리할 때 컨텍스트 창에서토큰에 대한 관심도 점수를 계산합니다. 이 과정은 특히 긴 프롬프트의 경우 계산 비용이 많이 드는 부분입니다. KV 캐싱이라고도 불리는 프롬프트 캐싱의 핵심 아이디어는 중복 작업을 피하는 것입니다. 모델이 이미 "다음 영어 텍스트를 프랑스어로 번역:"이라는 문구를 처리한 경우, 그 결과 내부 상태를 저장합니다. 나중에 "다음 영어 텍스트를 프랑스어로 번역하세요: 'Hello, world!'"라는 프롬프트를 받으면 초기 구문에 대한 캐시된 상태를 로드하고 새 부분인 "'Hello, world!'"에 대해서만 계산을 시작할 수 있습니다. 이렇게 하면 이후의 유사한 요청에 대한 텍스트 생성 프로세스가 훨씬 빨라집니다. vLLM과 같은 시스템은 이 프로세스를 효율적으로 관리하여 전체 처리량을 개선하도록 설계되었습니다.

실제 애플리케이션

프롬프트 캐싱은 많은 실제 AI 시스템에서 중요한 최적화 기능으로, 더 빠른 응답을 제공하여 사용자 경험을 향상시킵니다.

  • 대화형 챗봇과 가상 비서: 챗봇 대화에서 각 턴은 이전 교환을 기반으로 구축됩니다. 대화 기록을 접두사로 캐싱하면 모델이 전체 대화를 재처리하지 않고도 다음 응답을 생성할 수 있으므로 훨씬 더 유동적이고 반응이 빠른 상호 작용이 가능합니다. 이는 최신 가상 어시스턴트 성능의 기본입니다.
  • 코드 생성 및 완성: GitHub Copilot과 같은 AI 기반 코딩 어시스턴트는 캐싱을 자주 사용합니다. 파일에 있는 기존 코드는 긴 프롬프트 역할을 합니다. 이 코드의 KV 상태를 캐싱함으로써 모델은 문자를 입력할 때마다 전체 파일을 다시 분석할 필요 없이 다음 줄에 대한 제안을 빠르게 생성하거나 함수를 완성하여 실시간 추론이 가능합니다.

프롬프트 캐싱과 관련 개념

프롬프트 캐싱을 다른 관련 기술과 구별하는 것이 도움이 됩니다:

  • 프롬프트 엔지니어링: AI 모델에서 원하는 응답을 이끌어내기 위한 효과적인 프롬프트를 설계하는 데 중점을 둡니다. 캐싱은 프롬프트가 얼마나 잘 설계되었는지에 관계없이 이러한 프롬프트의 실행을 최적화합니다.
  • 프롬프트 강화: 사용자 프롬프트가 모델에 전송되기 전에 컨텍스트를 추가하거나 정보를 명확히 하는 작업을 포함합니다. 캐싱은 모델이 (잠재적으로 보강된) 프롬프트를 처리하는 도중 또는 이후에 이루어집니다.
  • 프롬프트 튜닝LoRA: 이는 작은 추가 매개변수 세트를 학습시켜 모델의 동작을 조정하는 매개변수 효율적 미세 조정(PEFT) 방법입니다. 캐싱은 모델 가중치 자체를 변경하지 않는 추론 시간 최적화입니다.
  • 검색 증강 세대(RAG): 외부 지식 기반에서 관련 정보를 검색하여 프롬프트의 컨텍스트에 추가함으로써 프롬프트를 향상시킵니다. RAG가 입력을 수정하는 동안에도 결합된 프롬프트(원래 쿼리 + 검색된 데이터)의 처리에는 캐싱이 계속 적용될 수 있습니다.
  • 표준 출력 캐싱: 기존 웹 캐싱은 요청의 최종 출력을 저장합니다. 프롬프트 캐싱은 모델의 처리 파이프라인 내에 중간 계산 상태를 저장하는 경우가 많으므로 특히 공통 접두사를 공유하지만 끝이 다른 프롬프트의 경우 보다 유연하게 재사용할 수 있습니다.

프롬프트 캐싱은 주로 LLM과 관련이 있지만, 캐싱 계산의 기본 원리는 텍스트 프롬프트가 다른 모달리티와 상호작용하는 복잡한 멀티 모달 모델에도 적용될 수 있습니다. 그러나 Ultralytics YOLO와 같은 모델을 사용하는 객체 감지와 같은 표준 컴퓨터 비전(CV) 작업에서는 덜 일반적입니다. Ultralytics HUB와 같은 플랫폼은 캐싱과 같은 최적화가 프로덕션 환경의 성능에 중요할 수 있는 AI 모델의 배포 및 관리를 간소화합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨