Prompt Compression

Khám phá cách nén prompt giúp tối ưu hóa hiệu suất AI. Tìm hiểu cách giảm việc sử dụng token cho LLM, cắt giảm chi phí và tăng tốc độ suy luận với Ultralytics YOLO26 ngay hôm nay.

Nén prompt là một kỹ thuật tối ưu hóa nâng cao được thiết kế để giảm độ dài và độ phức tạp của văn bản đầu vào cung cấp cho Large Language Models (LLMs) và các multi-modal models. Bằng cách lược bỏ các từ dư thừa, ngữ cảnh không liên quan và từ dừng (stop words) theo thuật toán trong khi vẫn bảo toàn ý nghĩa ngữ nghĩa cốt lõi, việc nén prompt cho phép các hệ thống AI xử lý thông tin hiệu quả hơn. Phương pháp này ngày càng trở nên quan trọng trong việc giảm thiểu chi phí tính toán, giảm inference latency và ngăn các mô hình vượt quá context window tối đa của chúng.

Link to this sectionNén Prompt Hoạt động Như thế nào#

Ở cấp độ kiến trúc, nén prompt thường sử dụng các mô hình chuyên biệt nhỏ hơn hoặc các thuật toán lý thuyết thông tin để đánh giá tầm quan trọng của từng token trong một prompt nhất định. Các kỹ thuật như token merging and entropy-based pruning xác định và loại bỏ các token đóng góp ít vào ý nghĩa tổng thể. Điều này đảm bảo rằng đầu vào cuối cùng chỉ chứa thông tin được nén chặt chẽ nhất.

Các nghiên cứu gần đây từ các tổ chức có thẩm quyền nhấn mạnh rằng các prompt được nén cao có thể duy trì hiệu suất trong các tác vụ suy luận phức tạp trong khi giảm đáng kể mức tiêu thụ token. Đối với các nhà phát triển tích hợp AI vào các ứng dụng có khả năng mở rộng, việc tuân thủ prompt optimization guidelines by OpenAI và tận dụng các framework nén là một phương pháp thực hành tốt nhất tiêu chuẩn cho việc triển khai hiệu quả.

Link to this sectionCác ứng dụng thực tế#

Nén prompt mang lại giá trị tức thời trong các tình huống yêu cầu xử lý nhanh chóng dữ liệu văn bản hoặc hình ảnh khổng lồ:

Retrieval-Augmented Generation (RAG): Trong các ứng dụng tìm kiếm doanh nghiệp, các pipeline RAG thường truy xuất hàng chục tài liệu dài để trả lời một truy vấn duy nhất của người dùng. Các thuật toán nén prompt thu gọn các tài liệu được truy xuất này, cô đọng chúng thành các bản tóm tắt thực tế súc tích trước khi đưa vào mô hình tạo văn bản. Điều này ngăn chặn tình trạng tràn token và tăng tốc real-time inference.
Autonomous AI Agents: Các tác nhân và chatbots phải duy trì bộ nhớ dài hạn về các tương tác của người dùng. Thay vì đưa toàn bộ lịch sử hội thoại vào mỗi truy vấn mới, các kỹ thuật nén sẽ tóm tắt các lượt hội thoại cũ hơn, đảm bảo tác nhân vẫn nhận biết được ngữ cảnh mà không phải chịu chi phí tính toán tăng theo cấp số nhân.

Link to this sectionNén Prompt so với các Kỹ thuật Liên quan#

Để xây dựng các pipeline machine learning operations (MLOps) mạnh mẽ, điều quan trọng là phải phân biệt được nén prompt với các khái niệm liên quan:

So với Prompt Caching: Caching lưu trữ các trạng thái tính toán nội bộ của văn bản đã được xử lý trước đó để tránh việc tính toán lại. Ngược lại, nén prompt chủ động thay đổi và rút ngắn chính văn bản đầu vào trước khi quá trình xử lý diễn ra.
So với Prompt Engineering: Prompt engineering là kỹ năng do con người thực hiện nhằm thiết kế các hướng dẫn hiệu quả. Nén là quá trình giảm bớt các hướng dẫn đó một cách tự động bằng thuật toán.
So với Prompt Enrichment: Enrichment mở rộng một prompt bằng cách thêm vào các ngữ cảnh bên ngoài, trong khi nén lại rút gọn nó. Chúng thường được sử dụng cùng nhau: một hệ thống có thể làm giàu (enrich) một prompt với kết quả từ cơ sở dữ liệu và sau đó nén payload cuối cùng trước khi suy luận.

Link to this sectionTriển khai trong Thị giác Máy tính#

Trong Computer Vision (CV), các nguyên tắc nén prompt được áp dụng khi sử dụng các mô hình từ vựng mở (open-vocabulary models) chấp nhận các truy vấn văn bản để xác định đối tượng. Việc giữ cho các mô tả lớp (class description) súc tích đảm bảo mã hóa văn bản nhanh hơn và giảm chi phí bộ nhớ.

Đối với các môi trường sản xuất có lớp cố định nơi tốc độ là ưu tiên hàng đầu, các nhà phát triển thường chuyển từ các mô hình yêu cầu prompt văn bản sang các mô hình kiến trúc cố định được tối ưu hóa cao như Ultralytics YOLO26. Bạn có thể quản lý tập dữ liệu và huấn luyện các mô hình tiên tiến này một cách hiệu quả bằng cách sử dụng Ultralytics Platform.

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()

Prompt Compression

Link to this sectionNén Prompt Hoạt động Như thế nào#

Link to this sectionCác ứng dụng thực tế#

Link to this sectionNén Prompt so với các Kỹ thuật Liên quan#

Link to this sectionTriển khai trong Thị giác Máy tính#

Explore solutions

AI trong Nông nghiệp

AI trong ngành ô tô

AI trong chăm sóc sức khỏe

AI trong Bán lẻ

AI trong ngành Robot

AI trong Sản xuất

AI trong Logistics

AI trong Nông nghiệp

AI trong ngành ô tô

AI trong chăm sóc sức khỏe

AI trong Bán lẻ

AI trong ngành Robot

AI trong Sản xuất

AI trong Logistics

AI trong Nông nghiệp

AI trong ngành ô tô

AI trong chăm sóc sức khỏe

AI trong Bán lẻ

AI trong ngành Robot

AI trong Sản xuất

AI trong Logistics

Hãy cùng nhau xây dựng tương lai của AI!