Khám phá cách bộ nhớ đệm tức thời tối ưu hóa AI tạo sinh bằng cách giảm độ trễ và chi phí. Tìm hiểu cách tăng tốc suy luận LLM và các mô hình thị giác như YOLO26.
Bộ nhớ đệm lời nhắc là một chiến lược tối ưu hóa tiên tiến được sử dụng chủ yếu trong trí tuệ nhân tạo tạo sinh để giảm đáng kể chi phí và cải thiện thời gian phản hồi trong quá trình suy luận. Trong lĩnh vực Mô hình Ngôn ngữ Lớn (LLM) , xử lý văn bản yêu cầu chuyển đổi đầu vào thành các chuỗi số được gọi là token . Thông thường, một phần lớn dữ liệu đầu vào—chẳng hạn như một hướng dẫn hệ thống chi tiết, một tài liệu pháp lý dài hoặc một cơ sở mã—vẫn không thay đổi trong nhiều truy vấn khác nhau của người dùng. Thay vì xử lý lại các phần không thay đổi này cho mỗi yêu cầu mới, bộ nhớ đệm lời nhắc lưu trữ các trạng thái toán học được tính toán trước (thường được gọi là bộ nhớ đệm Khóa-Giá trị) trong bộ nhớ. Điều này cho phép công cụ suy luận bỏ qua các phép tính dư thừa, chỉ tập trung sức mạnh tính toán vào các phần động, mới của lời nhắc của người dùng.
Cơ chế hoạt động cơ bản của bộ nhớ đệm nhắc nhở dựa trên kiến trúc của Transformer , xử lý dữ liệu theo trình tự. Bằng cách xác định tiền tố lặp lại của một nhắc nhở, hệ thống có thể tải trực tiếp các trạng thái cơ chế chú ý tương ứng từ bộ nhớ tốc độ cao.
Việc lưu trữ dữ liệu tức thời đang làm thay đổi các ngành công nghiệp phụ thuộc nhiều vào ngữ cảnh dữ liệu.
Mặc dù theo truyền thống, khái niệm bộ nhớ đệm thường gắn liền với văn bản, nhưng nó lại rất quan trọng trong Thị giác máy tính đa phương thức (CV) . Các mô hình như YOLO -World cho phép người dùng detect Mô hình nhận diện các đối tượng bằng cách sử dụng các lời nhắc văn bản từ vựng mở. Khi người dùng định nghĩa một danh sách các lớp (ví dụ: "người, ba lô, ô tô"), mô hình sẽ tính toán các embedding văn bản cho các lớp này. Việc lưu trữ các embedding này giúp mô hình không cần phải mã hóa lại các lời nhắc văn bản cho mỗi khung hình video, cho phép suy luận thời gian thực tốc độ cao.
Sau đây là Python Đoạn mã này minh họa khái niệm "lưu trữ tạm thời" một lời nhắc trong ngữ cảnh thị giác bằng cách sử dụng... ultralytics gói. Bằng cách thiết lập các lớp một lần trong một YOLO -Thế giới Trong mô hình này, các embedding văn bản được tính toán và lưu trữ (lưu giữ), cho phép mô hình dự đoán hiệu quả trên nhiều hình ảnh mà không cần xử lý lại mô tả văn bản.
from ultralytics import YOLOWorld
# Load a YOLO-World model capable of open-vocabulary detection
model = YOLOWorld("yolov8s-world.pt")
# "Cache" the prompt: Define classes once.
# The model computes and stores text embeddings for these specific terms.
model.set_classes(["helmet", "reflective vest", "gloves"])
# Run inference repeatedly. The text prompt is not re-computed for each call.
# This mimics the efficiency gains of prompt caching in LLMs.
results_1 = model.predict("construction_site_1.jpg")
results_2 = model.predict("construction_site_2.jpg")
Để quản lý các tập dữ liệu và triển khai các mô hình được tối ưu hóa này, Nền tảng Ultralytics cung cấp một môi trường toàn diện để chú thích dữ liệu, huấn luyện các mô hình tiên tiến như YOLO26 và giám sát hiệu suất triển khai trên nhiều thiết bị AI biên khác nhau.