YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Nén tức thời

Khám phá cách nén dữ liệu nhanh chóng tối ưu hóa hiệu quả của AI. Tìm hiểu cách giảm mức sử dụng token LLM, giảm chi phí và tăng tốc độ suy luận với Ultralytics Hôm nay là YOLO26.

Nén thông tin nhắc nhở là một kỹ thuật tối ưu hóa tiên tiến được thiết kế để giảm độ dài và độ phức tạp của văn bản đầu vào được cung cấp cho các Mô hình Ngôn ngữ Lớn (LLM)các mô hình đa phương thức . Bằng cách loại bỏ các từ dư thừa, ngữ cảnh không liên quan và các từ dừng bằng thuật toán trong khi vẫn giữ nguyên ý nghĩa ngữ nghĩa cốt lõi, nén thông tin nhắc nhở cho phép các hệ thống AI xử lý thông tin hiệu quả hơn. Phương pháp này ngày càng trở nên quan trọng để giảm thiểu chi phí tính toán, giảm độ trễ suy luận và ngăn các mô hình vượt quá cửa sổ ngữ cảnh tối đa của chúng.

Cách thức hoạt động của tính năng nén tức thời

Ở cấp độ kiến ​​trúc, việc nén thông tin nhắc nhở thường sử dụng các mô hình nhỏ hơn, chuyên biệt hoặc các thuật toán lý thuyết thông tin để đánh giá tầm quan trọng của mỗi từ trong một thông điệp nhắc nhở nhất định. Các kỹ thuật như hợp nhất từ ​​và cắt tỉa dựa trên entropy xác định và loại bỏ các từ đóng góp rất ít vào ý nghĩa tổng thể. Điều này đảm bảo rằng đầu vào cuối cùng chỉ chứa thông tin được đóng gói dày đặc nhất.

Nghiên cứu gần đây từ các tổ chức uy tín nhấn mạnh rằng các lời nhắc được nén cao có thể duy trì hiệu suất trên các tác vụ suy luận phức tạp trong khi giảm đáng kể mức tiêu thụ token. Đối với các nhà phát triển tích hợp AI vào các ứng dụng có khả năng mở rộng, việc tuân thủ các hướng dẫn tối ưu hóa lời nhắc của OpenAI và tận dụng các khung nén là một thực tiễn tốt nhất để triển khai hiệu quả.

Các Ứng dụng Thực tế

Nén dữ liệu tức thì mang lại giá trị ngay lập tức trong các trường hợp yêu cầu xử lý nhanh chóng lượng lớn dữ liệu văn bản hoặc hình ảnh:

  • Tạo nội dung được tăng cường bằng truy xuất (RAG) : Trong các ứng dụng tìm kiếm doanh nghiệp, các quy trình RAG thường truy xuất hàng chục tài liệu dài để trả lời một truy vấn duy nhất của người dùng. Các thuật toán nén nhanh chóng thu nhỏ các tài liệu được truy xuất này, chắt lọc chúng thành các bản tóm tắt ngắn gọn, chính xác trước khi đưa vào mô hình tạo nội dung. Điều này ngăn chặn tình trạng tràn token và tăng tốc quá trình suy luận thời gian thực .
  • Các tác nhân AI tự động : Các tác nhân và chatbot phải duy trì bộ nhớ dài hạn về tương tác của người dùng. Thay vì truyền toàn bộ lịch sử hội thoại vào mỗi truy vấn mới, các kỹ thuật nén tóm tắt các lượt hội thoại cũ hơn, đảm bảo tác nhân vẫn nhận biết được ngữ cảnh mà không phát sinh chi phí tính toán theo cấp số nhân.

Nén tín hiệu tức thời so với các kỹ thuật liên quan

Để xây dựng các quy trình vận hành máy học (MLOps) mạnh mẽ, điều quan trọng là phải phân biệt nén tức thời với các khái niệm liên quan:

  • So với bộ nhớ đệm tức thời : Bộ nhớ đệm lưu trữ trạng thái tính toán nội bộ của văn bản đã được xử lý trước đó để tránh phải tính toán lại. Mặt khác, nén chủ động thay đổi và rút ngắn văn bản đầu vào trước khi bất kỳ quá trình xử lý nào diễn ra.
  • So với Kỹ thuật thiết kế nhanh : Kỹ thuật thiết kế nhanh là kỹ năng do con người thực hiện trong việc thiết kế các chỉ thị hiệu quả. Nén là quá trình giảm bớt các chỉ thị đó một cách tự động, dựa trên thuật toán.
  • So với việc làm giàu thông tin trong lời nhắc : Làm giàu thông tin mở rộng lời nhắc bằng cách thêm ngữ cảnh bên ngoài, trong khi nén thông tin làm giảm nó. Chúng thường được sử dụng cùng nhau: một hệ thống có thể làm giàu thông tin trong lời nhắc bằng kết quả từ cơ sở dữ liệu và sau đó nén dữ liệu cuối cùng trước khi suy luận.

Ứng dụng trong Thị giác máy tính

Trong Thị giác máy tính (CV) , các nguyên tắc nén thông tin được áp dụng khi sử dụng các mô hình từ vựng mở chấp nhận truy vấn văn bản để xác định đối tượng. Việc giữ cho mô tả lớp ngắn gọn đảm bảo mã hóa văn bản nhanh hơn và giảm chi phí bộ nhớ.

Đối với môi trường sản xuất có lớp cố định, nơi tốc độ là yếu tố tối quan trọng, các nhà phát triển thường chuyển từ các mô hình được nhắc bằng văn bản sang các mô hình kiến ​​trúc cố định được tối ưu hóa cao như Ultralytics YOLO26 . Bạn có thể quản lý tập dữ liệu một cách hiệu quả và huấn luyện các mô hình tiên tiến này bằng cách sử dụng Nền tảng Ultralytics .

from ultralytics import YOLO

# Load an open-vocabulary YOLO-World model
model = YOLO("yolov8s-world.pt")

# Principle of prompt compression: Use concise, distilled class names
# instead of lengthy, complex descriptions for faster text encoding
compressed_prompts = ["helmet", "vest", "forklift"]
model.set_classes(compressed_prompts)

# Run inference with the optimized class list
results = model.predict("https://ultralytics.com/images/bus.jpg")
results[0].show()

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy