욜로 비전 선전
선전
지금 참여하기
용어집

프롬프트 캐싱

프롬프트 캐싱으로 AI 효율성을 높이세요! 이 강력한 기술을 사용하여 대기 시간을 줄이고, 비용을 절감하며, AI 앱을 확장하는 방법을 알아보세요.

프롬프트 캐싱은 추론 프로세스를 가속화하기 위해 주로 LLM(대규모 언어 모델) 에 사용되는 최적화 기법입니다. 프롬프트의 초기 부분의 중간 계산 결과를 저장하는 방식으로 작동합니다. 새 프롬프트가 접두사라고 하는 동일한 시작 부분을 공유할 경우 모델은 이러한 캐시된 상태를 다시 계산하는 대신 재사용할 수 있습니다. 이 방법은 지연 시간과 응답을 생성하는 데 필요한 계산 부하를 크게 줄여주므로 대화형 AI 또는 반복적인 쿼리와 관련된 애플리케이션에서 특히 효과적입니다. 신속한 캐싱은 중복 계산을 피함으로써 처리량을 개선하고 운영 비용을 낮춥니다.

프롬프트 캐싱 작동 방식

LLM은 일련의 텍스트를 처리할 때 컨텍스트 창 내의 각 토큰에 대한 내부 상태를 계산합니다. 이 과정은 특히 긴 프롬프트의 경우 계산 비용이 많이 드는 부분입니다. 프롬프트 캐싱의 핵심 아이디어는 이러한 내부 상태, 특히 키-값(KV) 쌍을 주의 메커니즘에 저장하는 것입니다. 예를 들어 모델이 "다음 영어 텍스트를 프랑스어로 번역:"이라는 접두사를 처리하면 그 결과 상태를 저장합니다. 나중에 "다음 영어 텍스트를 프랑스어로 번역하세요: 'Hello, world!'"와 같은 전체 프롬프트가 수신되면 초기 구문에 대한 캐시된 상태를 로드하고 새 부분에 대해서만 계산을 시작할 수 있습니다. 이렇게 하면 이후 유사한 요청에 대한 텍스트 생성 프로세스가 훨씬 빨라집니다. 오픈 소스 vLLM 프로젝트와 같은 시스템은 이 프로세스를 효율적으로 관리하여 전반적인 추론 엔진 처리량을 개선하도록 설계되었습니다.

실제 애플리케이션

프롬프트 캐싱은 많은 실제 인공지능(AI) 시스템에서 중요한 최적화 기능으로, 더 빠른 응답을 제공하여 사용자 경험을 향상시킵니다.

  • 대화형 챗봇과 가상 비서: 챗봇 대화에서 각 차례는 이전 교환을 기반으로 구축됩니다. 대화 기록을 접두사로 캐싱하면 모델이 전체 대화 내용을 재처리하지 않고도 다음 응답을 생성할 수 있습니다. 이는 훨씬 더 유연하고 반응이 빠른 상호작용으로 이어지며, 이는 최신 가상 어시스턴트 성능의 기본이 되고 Poe와 같은 플랫폼에서 사용자 경험을 향상시킵니다.
  • 코드 생성 및 완성: GitHub Copilot과 같은 AI 기반 코딩 어시스턴트는 캐싱을 자주 사용합니다. 파일에 있는 기존 코드는 긴 프롬프트 역할을 합니다. 이 코드의 KV 상태를 캐싱함으로써 모델은 문자를 입력할 때마다 전체 파일을 다시 분석할 필요 없이 다음 줄에 대한 제안을 빠르게 생성하거나 함수를 완성하여 실시간 추론을 가능하게 합니다. 이 기술은 AI 코드 어시스턴트 작동 방식의 핵심적인 부분입니다.

프롬프트 캐싱 vs. 관련 개념

머신 러닝(ML)에서 프롬프트 캐싱을 다른 관련 기술과 구별하는 것이 도움이 됩니다:

  • 프롬프트 엔지니어링: AI 모델에서 원하는 응답을 이끌어내기 위한 효과적인 프롬프트를 설계하는 데 중점을 둡니다. 캐싱은 프롬프트가 얼마나 잘 설계되었는지에 관계없이 이러한 프롬프트의 실행을 최적화합니다.
  • 프롬프트 강화: 사용자 프롬프트가 모델에 전송되기 전에 컨텍스트를 추가하거나 정보를 명확히 하는 작업을 포함합니다. 캐싱은 모델이 (잠재적으로 보강된) 프롬프트를 처리하는 동안 발생합니다.
  • 프롬프트 튜닝LoRA: 이는 작은 추가 매개변수 세트를 학습시켜 모델의 동작을 조정하는 매개변수 효율적 미세 조정(PEFT) 방법입니다. 캐싱은 모델 가중치 자체를 변경하지 않는 추론 시간 최적화입니다.
  • 검색 증강 세대(RAG): 외부 지식 기반에서 관련 정보를 검색하여 프롬프트의 컨텍스트에 추가함으로써 프롬프트를 향상시킵니다. RAG가 입력을 수정하는 동안에도 캐싱은 결합된 프롬프트의 처리에 계속 적용될 수 있습니다.
  • 표준 출력 캐싱: CDN(콘텐츠 전송 네트워크)에서 관리하는 기존 웹 캐싱은 요청의 최종 출력을 저장합니다. 프롬프트 캐싱은 모델의 처리 파이프라인 내에 중간 계산 상태를 저장하여 보다 유연하게 재사용할 수 있습니다.

프롬프트 캐싱은 주로 LLM과 관련이 있지만, 캐싱 계산의 기본 원리는 텍스트 프롬프트가 다른 모달리티와 상호작용하는 복잡한 멀티 모달 모델에도 적용될 수 있습니다. 그러나 Ultralytics YOLO11와 같은 모델을 사용하는 객체 감지와 같은 표준 컴퓨터 비전(CV) 작업에서는 덜 일반적입니다. 모델 배포를 위한 플랫폼은 캐싱과 같은 최적화가 프로덕션 환경의 성능에 중요한 역할을 하는 곳으로, AnyscaleNVIDIA와 같은 공급업체의 리소스에 자세히 설명되어 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.