Thuật ngữ

Bộ nhớ đệm nhắc nhở

Tăng hiệu quả AI với bộ nhớ đệm nhanh chóng! Tìm hiểu cách giảm độ trễ, cắt giảm chi phí và mở rộng quy mô ứng dụng AI bằng kỹ thuật mạnh mẽ này.

Bộ nhớ đệm nhắc nhở là một kỹ thuật tối ưu hóa được sử dụng chủ yếu với các Mô hình Ngôn ngữ Lớn (LLM) để tăng tốc quá trình suy luận . Kỹ thuật này hoạt động bằng cách lưu trữ các kết quả tính toán trung gian, cụ thể là các trạng thái khóa-giá trị (KV) trong cơ chế chú ý , của phần đầu tiên của một nhắc nhở. Khi một nhắc nhở mới có cùng phần đầu (tiền tố), mô hình có thể sử dụng lại các trạng thái được lưu trong bộ nhớ đệm này thay vì tính toán lại chúng, giúp giảm đáng kể độ trễ và tải tính toán cần thiết để tạo phản hồi. Điều này đặc biệt hiệu quả trong các ứng dụng liên quan đến AI đàm thoại hoặc các truy vấn lặp lại.

Cách thức hoạt động của bộ nhớ đệm nhanh

Khi một LLM xử lý một chuỗi văn bản, chẳng hạn như một câu hoặc một đoạn văn, nó sẽ tính toán điểm chú ý cho mỗi mã thông báo trong cửa sổ ngữ cảnh của nó. Đây là một phần tốn kém về mặt tính toán của quy trình, đặc biệt là đối với các lời nhắc dài. Ý tưởng cốt lõi đằng sau bộ nhớ đệm lời nhắc, thường được gọi là bộ nhớ đệm KV, là để tránh công việc dư thừa. Nếu mô hình đã xử lý cụm từ "Dịch văn bản tiếng Anh sau sang tiếng Pháp:", nó sẽ lưu trữ trạng thái nội bộ kết quả. Khi sau đó nhận được lời nhắc "Dịch văn bản tiếng Anh sau sang tiếng Pháp: 'Hello, world!'", nó có thể tải trạng thái đã lưu trong bộ nhớ đệm cho cụm từ ban đầu và chỉ bắt đầu tính toán cho phần mới, "'Hello, world!'". Điều này giúp quá trình tạo văn bản nhanh hơn nhiều cho các yêu cầu tương tự sau đó. Các hệ thống như vLLM được thiết kế để quản lý hiệu quả quy trình này, cải thiện thông lượng tổng thể.

Ứng dụng trong thế giới thực

Lưu trữ đệm nhanh là một tối ưu hóa quan trọng cho nhiều hệ thống AI thực tế, nâng cao trải nghiệm của người dùng bằng cách cung cấp phản hồi nhanh hơn.

  • Chatbot tương tác và Trợ lý ảo : Trong một cuộc trò chuyện chatbot , mỗi lượt trò chuyện đều được xây dựng dựa trên các trao đổi trước đó. Việc lưu trữ lịch sử trò chuyện dưới dạng tiền tố cho phép mô hình tạo phản hồi tiếp theo mà không cần xử lý lại toàn bộ cuộc hội thoại, mang lại trải nghiệm tương tác mượt mà và phản hồi nhanh hơn nhiều. Đây là yếu tố cốt lõi cho hiệu suất của các trợ lý ảo hiện đại.
  • Tạo và Hoàn thiện Mã : Các trợ lý mã hóa hỗ trợ AI, chẳng hạn như GitHub Copilot , thường sử dụng bộ nhớ đệm. Mã hiện có trong tệp đóng vai trò như một dấu nhắc dài. Bằng cách lưu trữ trạng thái KV của mã này, mô hình có thể nhanh chóng tạo ra các gợi ý cho dòng tiếp theo hoặc hoàn thành một hàm mà không cần phải phân tích lại toàn bộ tệp mỗi khi nhập một ký tự, giúp có thể suy luận theo thời gian thực .

Bộ nhớ đệm nhắc nhở so với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt bộ nhớ đệm nhanh với các kỹ thuật liên quan khác:

  • Kỹ thuật nhắc nhở : Tập trung vào việc thiết kế các lời nhắc hiệu quả để gợi ra phản hồi mong muốn từ mô hình AI. Bộ nhớ đệm tối ưu hóa việc thực hiện các lời nhắc này, bất kể chúng được thiết kế tốt như thế nào.
  • Làm giàu lời nhắc : Bao gồm việc thêm ngữ cảnh hoặc làm rõ thông tin vào lời nhắc của người dùng trước khi gửi đến mô hình. Lưu trữ đệm diễn ra trong hoặc sau khi mô hình xử lý lời nhắc (có khả năng được làm giàu).
  • Prompt TuningLoRA : Đây là các phương pháp tinh chỉnh hiệu quả tham số (PEFT) giúp điều chỉnh hành vi của mô hình bằng cách huấn luyện các tập hợp nhỏ các tham số bổ sung. Caching là một phương pháp tối ưu hóa thời gian suy luận mà không làm thay đổi trọng số của mô hình .
  • Retrieval-Augmented Generation (RAG) : Tăng cường lời nhắc bằng cách lấy thông tin có liên quan từ các cơ sở kiến thức bên ngoài và thêm vào ngữ cảnh của lời nhắc. Trong khi RAG sửa đổi đầu vào, bộ nhớ đệm vẫn có thể được áp dụng cho quá trình xử lý lời nhắc kết hợp (truy vấn gốc + dữ liệu đã lấy).
  • Bộ nhớ đệm đầu ra tiêu chuẩn : Bộ nhớ đệm web truyền thống lưu trữ đầu ra cuối cùng của một yêu cầu. Bộ nhớ đệm nhắc nhở thường lưu trữ các trạng thái tính toán trung gian trong quy trình xử lý của mô hình, cho phép tái sử dụng linh hoạt hơn, đặc biệt đối với các nhắc nhở có chung tiền tố nhưng có phần kết thúc khác nhau.

Mặc dù bộ nhớ đệm nhắc nhở chủ yếu liên quan đến LLM, nguyên tắc cơ bản của tính toán bộ nhớ đệm có thể áp dụng trong các mô hình đa phương thức phức tạp, nơi các nhắc nhở văn bản tương tác với các phương thức khác. Tuy nhiên, nó ít phổ biến hơn trong các tác vụ thị giác máy tính (CV) tiêu chuẩn như phát hiện đối tượng bằng các mô hình như Ultralytics YOLO . Các nền tảng như Ultralytics HUB hợp lý hóa việc triển khai và quản lý các mô hình AI , nơi các tối ưu hóa như bộ nhớ đệm có thể rất quan trọng đối với hiệu suất trong môi trường sản xuất.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard