Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Bộ nhớ đệm Prompt (Prompt Caching)

Khám phá cách bộ nhớ đệm tức thời tối ưu hóa AI tạo sinh bằng cách giảm độ trễ và chi phí. Tìm hiểu cách tăng tốc suy luận LLM và các mô hình thị giác như YOLO26.

Bộ nhớ đệm lời nhắc là một chiến lược tối ưu hóa tiên tiến được sử dụng chủ yếu trong trí tuệ nhân tạo tạo sinh để giảm đáng kể chi phí và cải thiện thời gian phản hồi trong quá trình suy luận. Trong lĩnh vực Mô hình Ngôn ngữ Lớn (LLM) , xử lý văn bản yêu cầu chuyển đổi đầu vào thành các chuỗi số được gọi là token . Thông thường, một phần lớn dữ liệu đầu vào—chẳng hạn như một hướng dẫn hệ thống chi tiết, một tài liệu pháp lý dài hoặc một cơ sở mã—vẫn không thay đổi trong nhiều truy vấn khác nhau của người dùng. Thay vì xử lý lại các phần không thay đổi này cho mỗi yêu cầu mới, bộ nhớ đệm lời nhắc lưu trữ các trạng thái toán học được tính toán trước (thường được gọi là bộ nhớ đệm Khóa-Giá trị) trong bộ nhớ. Điều này cho phép công cụ suy luận bỏ qua các phép tính dư thừa, chỉ tập trung sức mạnh tính toán vào các phần động, mới của lời nhắc của người dùng.

Cơ chế và lợi ích

Cơ chế hoạt động cơ bản của bộ nhớ đệm nhắc nhở dựa trên kiến ​​trúc của Transformer , xử lý dữ liệu theo trình tự. Bằng cách xác định tiền tố lặp lại của một nhắc nhở, hệ thống có thể tải trực tiếp các trạng thái cơ chế chú ý tương ứng từ bộ nhớ tốc độ cao.

  • Giảm độ trễ: Bộ nhớ đệm giúp giảm đáng kể độ trễ suy luận , đặc biệt là Thời gian đến Token đầu tiên (TTFT). Điều này đảm bảo các ứng dụng thời gian thực, chẳng hạn như chatbot tương tác, mang lại trải nghiệm tức thì cho người dùng.
  • Hiệu quả về chi phí: Vì các nhà cung cấp dịch vụ điện toán đám mây thường tính phí dựa trên thời gian tính toán hoặc xử lý mã thông báo, việc bỏ qua các tác vụ nặng nhọc cho ngữ cảnh tĩnh sẽ giúp tiết kiệm đáng kể chi phí.
  • Tăng hiệu suất: Bằng cách giải phóng tài nguyên GPU , máy chủ có thể xử lý khối lượng yêu cầu đồng thời lớn hơn, giúp toàn bộ cơ sở hạ tầng phục vụ mô hình có khả năng mở rộng tốt hơn.

Các Ứng dụng Thực tế

Việc lưu trữ dữ liệu tức thời đang làm thay đổi các ngành công nghiệp phụ thuộc nhiều vào ngữ cảnh dữ liệu.

  1. Trợ lý lập trình: Trong phát triển phần mềm, các công cụ như GitHub Copilot sử dụng lượng lớn ngữ cảnh từ các tệp đang mở và cấu trúc kho lưu trữ của người dùng. Bằng cách lưu trữ các phần nhúng của mã nguồn, mô hình có thể cung cấp các đề xuất hoàn thành mã theo thời gian thực mà không cần phân tích lại toàn bộ cấu trúc tệp dự án cho mỗi lần gõ phím.
  2. Phân tích pháp lý và y tế: Các chuyên gia thường truy vấn các tác nhân AI dựa trên các tài liệu tĩnh khổng lồ, chẳng hạn như kho lưu trữ án lệ hoặc hồ sơ bệnh án. Sử dụng phương pháp tạo nội dung tăng cường bằng truy xuất (RAG) , hệ thống sẽ truy xuất các đoạn văn bản có liên quan. Bộ nhớ đệm nhanh đảm bảo rằng ngữ cảnh cơ bản của các tài liệu được truy xuất không cần phải được tính toán lại cho các câu hỏi tiếp theo, giúp tối ưu hóa quy trình trả lời câu hỏi .

Mức độ Liên quan trong Thị giác Máy tính

Mặc dù theo truyền thống, khái niệm bộ nhớ đệm thường gắn liền với văn bản, nhưng nó lại rất quan trọng trong Thị giác máy tính đa phương thức (CV) . Các mô hình như YOLO -World cho phép người dùng detect Mô hình nhận diện các đối tượng bằng cách sử dụng các lời nhắc văn bản từ vựng mở. Khi người dùng định nghĩa một danh sách các lớp (ví dụ: "người, ba lô, ô tô"), mô hình sẽ tính toán các embedding văn bản cho các lớp này. Việc lưu trữ các embedding này giúp mô hình không cần phải mã hóa lại các lời nhắc văn bản cho mỗi khung hình video, cho phép suy luận thời gian thực tốc độ cao.

Phân biệt các thuật ngữ liên quan

  • So với Kỹ thuật Nhập liệu Nhanh : Kỹ thuật nhập liệu nhanh liên quan đến nỗ lực của con người trong việc thiết kế văn bản đầu vào tối ưu để hướng dẫn mô hình. Bộ nhớ đệm nhập liệu nhanh là một tối ưu hóa tính toán ở phía máy chủ, lưu trữ quá trình xử lý văn bản đó của máy.
  • So với Điều chỉnh bằng lời nhắc (Prompt Tuning) : Điều chỉnh bằng lời nhắc là một kỹ thuật Học chuyển giao (Transfer Learning ) cập nhật các Trọng số Mô hình cụ thể (lời nhắc mềm) để điều chỉnh mô hình cho phù hợp với nhiệm vụ. Bộ nhớ đệm không thay đổi các tham số của mô hình; nó chỉ ghi nhớ trạng thái kích hoạt trong quá trình chạy.

Ví dụ mã: Lưu trữ dữ liệu nhúng văn bản trong Vision

Sau đây là Python Đoạn mã này minh họa khái niệm "lưu trữ tạm thời" một lời nhắc trong ngữ cảnh thị giác bằng cách sử dụng... ultralytics gói. Bằng cách thiết lập các lớp một lần trong một YOLO -Thế giới Trong mô hình này, các embedding văn bản được tính toán và lưu trữ (lưu giữ), cho phép mô hình dự đoán hiệu quả trên nhiều hình ảnh mà không cần xử lý lại mô tả văn bản.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")

# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])

# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")

Để quản lý các tập dữ liệu và triển khai các mô hình được tối ưu hóa này, Nền tảng Ultralytics cung cấp một môi trường toàn diện để chú thích dữ liệu, huấn luyện các mô hình tiên tiến như YOLO26 và giám sát hiệu suất triển khai trên nhiều thiết bị AI biên khác nhau.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay