Optimice los modelos de lenguaje grandes de manera eficiente con Prompt Tuning: reduzca los costos, ahorre recursos y logre una adaptabilidad específica para cada tarea sin esfuerzo.
El ajuste rápido es una estrategia para adaptar modelos de base pre-entrenados a tareas específicas sin el gasto computacional que supone volver a entrenar toda la red. Como forma de ajuste fino eficiente de parámetros (PEFT), esta técnica congela los parámetros masivos del modelo original y optimiza sólo un pequeño conjunto de vectores aprendibles conocidos como "indicaciones suaves". vectores aprendibles conocidos como "indicaciones suaves". A diferencia del texto legible por humanos utilizado en ingeniería de indicaciones, las indicaciones suaves son numéricos que se añaden a los datos de entrada. Estos vectores aprendidos en Estos vectores aprendidos guían al modelo congelado para generar la salida deseada, reduciendo significativamente los requisitos de almacenamiento y memoria en comparación con el entrenamiento completo del modelo. en comparación con el entrenamiento completo del modelo. Este enfoque permite realizar muchas tareas especializadas diferentes utilizando un único modelo central compartido.
El mecanismo que subyace al ajuste rápido se basa en el concepto de modificar la entrada en lugar de la arquitectura del modelo. En un flujo de trabajo típico de aprendizaje automático con modelos de lenguaje amplio (LLM) o modelos de lenguaje de Vision Language Models, el texto o la imagen de entrada se convierte en una secuencia de vectores numéricos. En la sintonización de avisos, los vectores vectores entrenables adicionales (el prompt blando) se insertan al principio de esta secuencia.
Durante la fase de retropropagación del entrenamiento, el algoritmo de algoritmo de descenso de gradiente actualiza vectores, dejando los miles de millones de pesos del modelo en el columna vertebral. Este método fue destacado en una investigación de Google AI, que demostró que, a medida que los modelos crecen, el ajuste rápido puede igualar el rendimiento del ajuste fino completo.
El ajuste rápido está transformando las industrias al hacer que la Inteligencia Artificial (IA) accesible y escalable.
Es crucial distinguir el ajuste rápido de otras técnicas de adaptación similares:
Aunque el ajuste rápido es más famoso en Procesamiento del Lenguaje Natural (PLN), el concepto mecánico subyacente -congelar una columna vertebral grande y optimizar un tensoruniversal en aprendizaje profundo (AD). Lo siguiente PyTorch demuestra la lógica fundamental de congelación de los parámetros del modelo y la creación de un parámetro rápido aprendible.
import torch
import torch.nn as nn
# Initialize a hypothetical pre-trained layer (the frozen backbone)
backbone = nn.Linear(768, 10)
# Freeze the backbone parameters so they don't update during training
for param in backbone.parameters():
param.requires_grad = False
# Create a 'soft prompt' embedding that IS trainable
# This represents the learnable vectors prepended to inputs
soft_prompt = nn.Parameter(torch.randn(1, 768), requires_grad=True)
# Setup an optimizer that only targets the soft prompt
optimizer = torch.optim.Adam([soft_prompt], lr=0.001)
Este código ilustra cómo los desarrolladores pueden controlar qué partes de un sistema aprenden, un aspecto clave de la optimización de las redes neuronales. redes neuronales. Para tareas estándar de visión modelos eficientes como Ultralytics YOLO11 son suelen entrenarse mediante un ajuste fino estándar en conjuntos de datos personalizados, pero los principios de eficiencia impulsan el desarrollo de arquitecturas futuras como YOLO26.
El ajuste rápido es cada vez más importante en Visión por Computador (CV) con el auge de modelos multimodales como CLIP. Los investigadores están explorando el "ajuste visual de indicaciones", en el que se añaden a las imágenes de entrada parches o fichas de píxeles que se pueden aprender para adaptar transformadores de visión a nuevas tareas de detección de objetos sin necesidad de volver a entrenar los extractores de características. Esto refleja el aumento de eficiencia observado en los modelos lingüísticos y se alinea con la tendencia del sector hacia la IA ecológica minimizando el consumo de energía durante el entrenamiento.