Khám phá cách tinh chỉnh lời nhắc để thích ứng hiệu quả các mô hình nền tảng mà không cần huấn luyện lại toàn bộ. Tìm hiểu cách các lời nhắc mềm giúp giảm độ trễ và dung lượng lưu trữ cho các tác vụ AI như YOLO26.
Điều chỉnh nhanh (prompt tuning) là một kỹ thuật tiết kiệm tài nguyên được sử dụng để điều chỉnh các mô hình nền tảng đã được huấn luyện trước cho các tác vụ cụ thể tiếp theo mà không cần tốn chi phí tính toán để huấn luyện lại toàn bộ mạng. Không giống như điều chỉnh tinh truyền thống, vốn cập nhật tất cả hoặc hầu hết các tham số của mô hình, điều chỉnh nhanh đóng băng trọng số của mô hình đã được huấn luyện trước và chỉ tối ưu hóa một tập hợp nhỏ các vectơ có thể học được—được gọi là "soft prompts"—được thêm vào trước dữ liệu đầu vào. Cách tiếp cận này cho phép một hệ thống xương sống khổng lồ duy nhất phục vụ nhiều ứng dụng chuyên biệt cùng một lúc, giảm đáng kể yêu cầu lưu trữ và chi phí chuyển đổi độ trễ suy luận .
Trong các quy trình học máy (ML) tiêu chuẩn, các đầu vào như văn bản hoặc hình ảnh được chuyển đổi thành các biểu diễn số được gọi là embedding . Điều chỉnh lời nhắc (prompt tuning) chèn thêm các vectơ embedding có thể huấn luyện được vào chuỗi đầu vào này. Trong giai đoạn huấn luyện, hệ thống sử dụng lan truyền ngược (backpropagation) để tính toán gradient, nhưng thuật toán tối ưu hóa chỉ cập nhật giá trị của các lời nhắc mềm (soft prompts), giữ nguyên cấu trúc mô hình khổng lồ.
Phương pháp này là một dạng Tinh chỉnh tham số hiệu quả (Parameter-Efficient Fine-Tuning - PEFT) . Bằng cách học các vectơ liên tục này, mô hình được "điều khiển" hướng tới đầu ra mong muốn. Mặc dù khái niệm này bắt nguồn từ Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) , nhưng nó đã được áp dụng thành công cho các tác vụ Thị giác máy tính (Computer Vision - CV) , thường được gọi là Tinh chỉnh gợi ý trực quan (Visual Prompt Tuning - VPT).
Để hiểu được lợi ích của việc điều chỉnh lời nhắc, điều cần thiết là phải phân biệt nó với các thuật ngữ tương tự trong lĩnh vực trí tuệ nhân tạo:
Việc tinh chỉnh kịp thời cho phép triển khai AI một cách hiệu quả trong môi trường hạn chế tài nguyên, một triết lý cốt lõi được chia sẻ bởi Nền tảng Ultralytics trong quản lý mô hình.
Ví dụ PyTorch sau đây minh họa khái niệm cơ học cốt lõi: đóng băng các lớp chính của mô hình và tạo ra một tham số riêng biệt, có thể huấn luyện được (gọi là "soft prompt") được tối ưu hóa để ảnh hưởng đến đầu ra.
import torch
import torch.nn as nn
# 1. Define a dummy backbone (e.g., a pre-trained layer)
backbone = nn.Linear(10, 5)
# 2. Freeze the backbone weights (crucial for prompt tuning)
for param in backbone.parameters():
param.requires_grad = False
# 3. Create a 'soft prompt' vector that IS trainable
# This represents the learnable embeddings prepended to inputs
soft_prompt = nn.Parameter(torch.randn(1, 10), requires_grad=True)
# 4. Initialize an optimizer that targets ONLY the soft prompt
optimizer = torch.optim.SGD([soft_prompt], lr=0.1)
# Verify that only the prompt is being trained
trainable_params = sum(p.numel() for p in [soft_prompt] if p.requires_grad)
print(f"Optimizing {trainable_params} parameters (Soft Prompt only)")
Khi các mô hình ngày càng lớn hơn, khả năng thích ứng chúng một cách tiết kiệm chi phí trở nên vô cùng quan trọng. Mặc dù các kiến trúc như YOLO26 đã được tối ưu hóa cao về hiệu quả, nhưng các nguyên tắc về việc đóng băng cấu trúc xương sống và thích ứng hiệu quả là nền tảng cho tương lai của Trí tuệ nhân tạo biên (Edge AI) . Các kỹ thuật tương tự như điều chỉnh nhanh cho phép các thiết bị có bộ nhớ hạn chế thực hiện nhiều tác vụ khác nhau—từ phát hiện đối tượng đến phân đoạn—bằng cách đơn giản là thay đổi các tệp cấu hình nhỏ thay vì tải lại các mạng nơ-ron khổng lồ.
Đối với các nhà phát triển muốn đào tạo và triển khai hiệu quả, việc sử dụng các công cụ như Nền tảng Ultralytics đảm bảo rằng các mô hình được tối ưu hóa cho các mục tiêu phần cứng cụ thể của chúng, tận dụng các phương pháp tốt nhất của MLOps hiện đại.