Bảng chú giải thuật ngữ

Bộ nhớ đệm Prompt (Prompt Caching)

Tăng cường hiệu quả AI với bộ nhớ đệm prompt! Tìm hiểu cách giảm độ trễ, cắt giảm chi phí và mở rộng quy mô ứng dụng AI bằng kỹ thuật mạnh mẽ này.

Bộ nhớ đệm nhanh là một kỹ thuật tối ưu hóa được sử dụng chủ yếu với các Mô hình Ngôn ngữ Lớn (LLM) để tăng tốc quá trình suy luận . Kỹ thuật này hoạt động bằng cách lưu trữ các kết quả tính toán trung gian của phần đầu tiên của một dấu nhắc. Khi một dấu nhắc mới có cùng phần đầu, được gọi là tiền tố, mô hình có thể sử dụng lại các trạng thái đã lưu trong bộ nhớ đệm này thay vì tính toán lại chúng. Phương pháp này giảm đáng kể độ trễ và khối lượng tính toán cần thiết để tạo phản hồi, đặc biệt hiệu quả trong các ứng dụng liên quan đến AI đàm thoại hoặc các truy vấn lặp lại. Bằng cách tránh các phép tính dư thừa, bộ nhớ đệm nhanh giúp cải thiện thông lượng và giảm chi phí vận hành.

Cách Bộ Nhớ Đệm Prompt Hoạt Động

Khi một LLM xử lý một chuỗi văn bản, nó sẽ tính toán các trạng thái nội bộ cho mỗi mã thông báo trong cửa sổ ngữ cảnh của nó. Đây là một phần tốn kém về mặt tính toán của quy trình, đặc biệt là đối với các dấu nhắc dài. Ý tưởng cốt lõi đằng sau bộ nhớ đệm dấu nhắc, thường được gọi là bộ nhớ đệm KV, là lưu các trạng thái nội bộ này, cụ thể là các cặp khóa-giá trị (KV) trong cơ chế chú ý . Ví dụ: nếu một mô hình xử lý tiền tố "Dịch văn bản tiếng Anh sau sang tiếng Pháp:", nó sẽ lưu trữ trạng thái kết quả. Khi sau đó nhận được một dấu nhắc đầy đủ như "Dịch văn bản tiếng Anh sau sang tiếng Pháp: 'Xin chào thế giới!'", nó có thể tải trạng thái được lưu trong bộ nhớ đệm cho cụm từ ban đầu và chỉ bắt đầu tính toán cho phần mới. Điều này giúp quá trình tạo văn bản nhanh hơn nhiều cho các yêu cầu tương tự sau đó. Các hệ thống như dự án vLLM nguồn mở được thiết kế để quản lý hiệu quả quy trình này, cải thiện thông lượng tổng thể của công cụ suy luận .

Các Ứng dụng Thực tế

Lưu trữ đệm nhanh chóng là một tối ưu hóa quan trọng cho nhiều hệ thống Trí tuệ nhân tạo (AI) trong thế giới thực, nâng cao trải nghiệm của người dùng bằng cách cung cấp phản hồi nhanh hơn.

Chatbot tương tác và Trợ lý ảo : Trong một cuộc trò chuyện chatbot , mỗi lượt trò chuyện đều được xây dựng dựa trên các trao đổi trước đó. Việc lưu trữ lịch sử trò chuyện dưới dạng tiền tố cho phép mô hình tạo phản hồi tiếp theo mà không cần xử lý lại toàn bộ hộp thoại. Điều này dẫn đến tương tác mượt mà và phản hồi nhanh hơn nhiều, vốn là nền tảng cho hiệu suất của các trợ lý ảo hiện đại và cải thiện trải nghiệm người dùng trên các nền tảng như Poe .
Tạo và Hoàn thiện Mã : Các trợ lý mã hóa hỗ trợ AI, chẳng hạn như GitHub Copilot , thường sử dụng bộ nhớ đệm. Mã hiện có trong tệp đóng vai trò như một dấu nhắc dài. Bằng cách lưu trữ trạng thái KV của mã này, mô hình có thể nhanh chóng tạo ra các gợi ý cho dòng tiếp theo hoặc hoàn thành một hàm mà không cần phải phân tích lại toàn bộ tệp mỗi khi một ký tự được nhập, giúp khả năng suy luận theo thời gian thực trở nên khả thi. Kỹ thuật này là một phần quan trọng trong cách thức hoạt động của trợ lý mã AI .

So sánh Bộ nhớ đệm Prompt với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt bộ nhớ đệm nhanh với các kỹ thuật liên quan khác trong học máy (ML) :

Kỹ thuật Nhắc nhở : Tập trung vào việc thiết kế các lời nhắc hiệu quả để gợi ra phản hồi mong muốn từ mô hình AI. Bộ nhớ đệm tối ưu hóa việc thực thi các lời nhắc này, bất kể chúng được thiết kế tốt đến đâu.
Làm giàu lời nhắc : Bao gồm việc thêm ngữ cảnh hoặc làm rõ thông tin vào lời nhắc của người dùng trước khi gửi đến mô hình. Việc lưu trữ đệm diễn ra trong quá trình mô hình xử lý lời nhắc (có khả năng được làm giàu).
Điều chỉnh nhanh và LoRA : Đây là các phương pháp tinh chỉnh hiệu quả tham số (PEFT) giúp điều chỉnh hành vi của mô hình bằng cách huấn luyện các tập hợp nhỏ các tham số bổ sung. Lưu trữ đệm là một phương pháp tối ưu hóa thời gian suy luận mà không làm thay đổi trọng số của mô hình .
Tạo tăng cường truy xuất (RAG) : Cải thiện lời nhắc bằng cách truy xuất thông tin liên quan từ các cơ sở kiến thức bên ngoài và thêm vào ngữ cảnh của lời nhắc. Trong khi RAG sửa đổi dữ liệu đầu vào, bộ nhớ đệm vẫn có thể được áp dụng để xử lý lời nhắc kết hợp.
Bộ nhớ đệm đầu ra tiêu chuẩn : Bộ nhớ đệm web truyền thống, được quản lý bởi Mạng phân phối nội dung (CDN) , lưu trữ kết quả đầu ra cuối cùng của một yêu cầu. Bộ nhớ đệm nhanh lưu trữ các trạng thái tính toán trung gian trong đường ống xử lý của mô hình, cho phép tái sử dụng linh hoạt hơn.

Mặc dù bộ nhớ đệm nhắc nhở chủ yếu liên quan đến LLM, nguyên tắc cơ bản của tính toán bộ nhớ đệm có thể áp dụng trong các mô hình đa phương thức phức tạp, trong đó các nhắc nhở văn bản tương tác với các phương thức khác. Tuy nhiên, nó ít phổ biến hơn trong các tác vụ thị giác máy tính (CV) tiêu chuẩn như phát hiện đối tượng bằng các mô hình như Ultralytics YOLO11 . Các nền tảng triển khai mô hình là nơi các tối ưu hóa như bộ nhớ đệm trở nên quan trọng đối với hiệu suất trong môi trường sản xuất, như được trình bày chi tiết trong các tài nguyên từ các nhà cung cấp như Anyscale và NVIDIA .

Bộ nhớ đệm Prompt (Prompt Caching)

Huấn luyện các mô hình Ultralytics YOLO để hợp lý hóa quy trình làm việc trong các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Huấn luyện các mô hình AI trong vài giây với Ultralytics YOLO

Cách Bộ Nhớ Đệm Prompt Hoạt Động

Các Ứng dụng Thực tế

So sánh Bộ nhớ đệm Prompt với các khái niệm liên quan

Đọc thêm trong danh mục này

Triển khai các mô hình YOLO của Ultralytics bằng cách sử dụng tích hợp ExecuTorch

Những điểm nổi bật chính từ Ultralytics tại Hội nghị PyTorch 2025

Sử dụng học tập tự giám sát để khử nhiễu hình ảnh

Tham gia cộng đồng Ultralytics