Prompt Tuning
Khám phá điều chỉnh prompt (prompt tuning) để thích ứng hiệu quả với các model nền tảng mà không cần huấn luyện lại toàn bộ. Tìm hiểu cách các soft prompt giảm độ trễ và lưu trữ cho các tác vụ AI như YOLO26.
Prompt tuning là một kỹ thuật hiệu quả về tài nguyên được sử dụng để điều chỉnh các foundation models đã được huấn luyện sẵn cho các tác vụ hạ nguồn cụ thể mà không tốn chi phí tính toán khi huấn luyện lại toàn bộ mạng. Không giống như fine-tuning truyền thống, phương pháp cập nhật tất cả hoặc hầu hết các tham số của model, prompt tuning đóng băng model weights đã được huấn luyện sẵn và chỉ tối ưu hóa một tập hợp nhỏ các vectơ có thể học được—được gọi là "soft prompts"—vốn được thêm vào trước dữ liệu đầu vào. Cách tiếp cận này cho phép một backbone khổng lồ duy nhất phục vụ nhiều ứng dụng chuyên biệt cùng lúc, giúp giảm đáng kể yêu cầu về lưu trữ và chi phí chuyển đổi inference latency.
Link to this sectionCơ chế của Prompt Tuning#
Trong các quy trình machine learning (ML) tiêu chuẩn, các đầu vào như văn bản hoặc hình ảnh được chuyển đổi thành các biểu diễn số được gọi là embeddings. Prompt tuning chèn thêm các vectơ embedding có thể huấn luyện vào chuỗi đầu vào này. Trong giai đoạn huấn luyện, hệ thống sử dụng backpropagation để tính toán gradient, nhưng thuật toán tối ưu hóa chỉ cập nhật các giá trị của soft prompt, để cấu trúc model khổng lồ không bị thay đổi.
Phương pháp này là một dạng của Parameter-Efficient Fine-Tuning (PEFT). Bằng cách học các vectơ liên tục này, model được "điều hướng" đến kết quả đầu ra mong muốn. Mặc dù khái niệm này bắt nguồn từ Natural Language Processing (NLP), nó đã được áp dụng thành công cho các tác vụ Computer Vision (CV), thường được gọi là Visual Prompt Tuning (VPT).
Link to this sectionPhân biệt các khái niệm liên quan#
Để hiểu tính hữu dụng của prompt tuning, điều cần thiết là phải phân biệt nó với các thuật ngữ tương tự trong bối cảnh AI:
- Prompt Engineering: Điều này liên quan đến việc tạo thủ công các hướng dẫn văn bản mà con người có thể đọc được (hard prompts) để hướng dẫn một model generative AI. Nó không yêu cầu mã hóa hoặc huấn luyện. Ngược lại, prompt tuning sử dụng supervised learning tự động để tìm các embedding số tối ưu mà có thể không tương ứng với các từ trong ngôn ngữ tự nhiên.
- Full Fine-Tuning: Các phương pháp truyền thống cập nhật toàn bộ mạng thần kinh, điều này thường dẫn đến "quên thảm họa" (catastrophic forgetting) quá trình huấn luyện ban đầu. Prompt tuning bảo toàn các khả năng ban đầu của model, giúp dễ dàng tận dụng transfer learning trên các tác vụ rời rạc.
- Few-Shot Learning: Điều này thường đề cập đến việc cung cấp một vài ví dụ trong ngữ cảnh của LLM. Prompt tuning khác biệt ở chỗ nó học vĩnh viễn các tham số được lưu và tái sử dụng, thay vì chỉ cung cấp ngữ cảnh tạm thời.
Link to this sectionCác ứng dụng trong thực tế#
Prompt tuning cho phép triển khai AI có khả năng mở rộng trong các môi trường hạn chế tài nguyên, một triết lý cốt lõi được chia sẻ bởi Ultralytics Platform để quản lý model.
-
Hỗ trợ khách hàng đa ngôn ngữ: Một doanh nghiệp toàn cầu có thể sử dụng một ngôn ngữ model trung tâm, đã được đóng băng. Bằng cách huấn luyện các soft prompt gọn nhẹ cho tiếng Tây Ban Nha, tiếng Nhật và tiếng Đức, hệ thống có thể chuyển đổi ngôn ngữ ngay lập tức. Điều này tránh được chi phí khổng lồ khi lưu trữ ba model riêng biệt có kích thước gigabyte, thay vào đó dựa vào các tệp prompt kích thước kilobyte.
-
AI in Healthcare: Hình ảnh y tế thường gặp khó khăn do sự khan hiếm dữ liệu. Các nhà nghiên cứu có thể lấy một vision backbone đa năng (như Vision Transformer) và sử dụng prompt tuning để điều chỉnh nó nhằm phát hiện các bất thường cụ thể, chẳng hạn như các bệnh về võng mạc hoặc khối u. Điều này duy trì quyền riêng tư dữ liệu bệnh nhân và cho phép điều chỉnh nhanh chóng với thiết bị y tế mới mà không cần huấn luyện lại toàn bộ model.
Link to this sectionVí dụ về triển khai#
Ví dụ PyTorch sau đây minh họa khái niệm cơ học cốt lõi: đóng băng các lớp chính của model và tạo ra một tham số riêng biệt, có thể huấn luyện (soft prompt) được tối ưu hóa để ảnh hưởng đến kết quả đầu ra.
import torch
import torch.nn as nn
# 1. Define a dummy backbone (e.g., a pre-trained layer)
backbone = nn.Linear(10, 5)
# 2. Freeze the backbone weights (crucial for prompt tuning)
for param in backbone.parameters():
param.requires_grad = False
# 3. Create a 'soft prompt' vector that IS trainable
# This represents the learnable embeddings prepended to inputs
soft_prompt = nn.Parameter(torch.randn(1, 10), requires_grad=True)
# 4. Initialize an optimizer that targets ONLY the soft prompt
optimizer = torch.optim.SGD([soft_prompt], lr=0.1)
# Verify that only the prompt is being trained
trainable_params = sum(p.numel() for p in [soft_prompt] if p.requires_grad)
print(f"Optimizing {trainable_params} parameters (Soft Prompt only)")Link to this sectionSự liên quan đến Edge AI hiện đại#
Khi các model ngày càng lớn hơn, khả năng thích ứng chúng với chi phí thấp trở nên quan trọng. Trong khi các kiến trúc như YOLO26 đã được tối ưu hóa cao cho hiệu suất, các nguyên tắc đóng băng backbone và thích ứng hiệu quả là nền tảng cho tương lai của Edge AI. Các kỹ thuật tương tự như prompt tuning cho phép các thiết bị có bộ nhớ hạn chế thực hiện các tác vụ đa dạng—từ object detection đến phân đoạn—bằng cách chỉ cần hoán đổi các tệp cấu hình nhỏ thay vì tải lại các mạng thần kinh khổng lồ.
Đối với các nhà phát triển đang tìm cách huấn luyện và triển khai hiệu quả, việc sử dụng các công cụ như Ultralytics Platform đảm bảo rằng các model được tối ưu hóa cho các mục tiêu phần cứng cụ thể của họ, tận dụng các phương pháp hay nhất của MLOps hiện đại.






