신속한 캐싱으로 AI 효율성을 높이세요! 이 강력한 기술을 사용하여 지연 시간을 줄이고, 비용을 절감하고, AI 앱을 확장하는 방법을 알아보세요.
프롬프트 캐싱은 추론 프로세스를 가속화하기 위해 주로 대규모 언어 모델(LLM) 에 사용되는 최적화 기법입니다. 프롬프트의 초기 부분에 대한 중간 계산 결과, 특히 주의 메커니즘의 키-값(KV) 상태를 저장하는 방식으로 작동합니다. 새 프롬프트가 동일한 시작 부분(접두사)을 공유하는 경우 모델은 이러한 캐시된 상태를 다시 계산하는 대신 재사용하여 응답을 생성하는 데 필요한 지연 시간과 계산 부하를 크게 줄일 수 있습니다. 이는 대화형 AI 또는 반복적인 쿼리와 관련된 애플리케이션에서 특히 효과적입니다.
LLM은 문장이나 단락과 같은 일련의 텍스트를 처리할 때 컨텍스트 창에서 각 토큰에 대한 관심도 점수를 계산합니다. 이 과정은 특히 긴 프롬프트의 경우 계산 비용이 많이 드는 부분입니다. KV 캐싱이라고도 불리는 프롬프트 캐싱의 핵심 아이디어는 중복 작업을 피하는 것입니다. 모델이 이미 "다음 영어 텍스트를 프랑스어로 번역:"이라는 문구를 처리한 경우, 그 결과 내부 상태를 저장합니다. 나중에 "다음 영어 텍스트를 프랑스어로 번역하세요: 'Hello, world!'"라는 프롬프트를 받으면 초기 구문에 대한 캐시된 상태를 로드하고 새 부분인 "'Hello, world!'"에 대해서만 계산을 시작할 수 있습니다. 이렇게 하면 이후의 유사한 요청에 대한 텍스트 생성 프로세스가 훨씬 빨라집니다. vLLM과 같은 시스템은 이 프로세스를 효율적으로 관리하여 전체 처리량을 개선하도록 설계되었습니다.
프롬프트 캐싱은 많은 실제 AI 시스템에서 중요한 최적화 기능으로, 더 빠른 응답을 제공하여 사용자 경험을 향상시킵니다.
프롬프트 캐싱을 다른 관련 기술과 구별하는 것이 도움이 됩니다:
프롬프트 캐싱은 주로 LLM과 관련이 있지만, 캐싱 계산의 기본 원리는 텍스트 프롬프트가 다른 모달리티와 상호작용하는 복잡한 멀티 모달 모델에도 적용될 수 있습니다. 그러나 Ultralytics YOLO와 같은 모델을 사용하는 객체 감지와 같은 표준 컴퓨터 비전(CV) 작업에서는 덜 일반적입니다. Ultralytics HUB와 같은 플랫폼은 캐싱과 같은 최적화가 프로덕션 환경의 성능에 중요할 수 있는 AI 모델의 배포 및 관리를 간소화합니다.