Descubra el ajuste fino (fine-tuning) con eficiencia de parámetros (PEFT) para adaptar grandes modelos de IA con recursos mínimos. ¡Ahorre costes, evite el sobreajuste y optimice la implementación!
Parameter-Efficient Fine-Tuning (PEFT) es una sofisticada estrategia de aprendizaje automático (AM) diseñada para adaptar grandes preentrenados a tareas posteriores específicas sin la carga computacional que supone volver a entrenar toda la red. En modelos básicos en ámbitos como el procesamiento procesamiento del lenguaje natural y la visión por ordenador (CV) miles de millones de parámetros, el ajuste de parámetros, el ajuste tradicional -queactualiza cada peso del modelo- se ha resulta prohibitivo para muchos usuarios. PEFT soluciona este problema congelando la mayoría de los pesos del modelo del modelo preentrenado y actualizando sólo un pequeño o añadiendo unas pocas capas nuevas entrenables. Este planteamiento reduce significativamente la barrera del hardware, permitiendo a de hardware, lo que permite a los investigadores e ingenieros personalizar modelos GPU de consumo con un rendimiento comparable al entrenamiento completo.
El concepto básico del PEFT es aprendizaje por transferencia, en el que un modelo aprovecha conocimientos adquiridos a partir de un conjunto de datos masivo (como ImageNet o Common Crawl) para resolver nuevos problemas con datos limitados. A diferencia del ajuste fino completo, PEFT modifica la arquitectura del modelo o el proceso de entrenamiento para ser "eficiente en parámetros". parámetros". De este modo, el modelo adaptado ocupa poco espacio, a menudo unos pocos megabytes, frente a los gigabytes necesarios para una copia completa del modelo. Esta eficiencia es crucial para evitar el olvido catastrófico, un fenómeno en el que un modelo pierde sus capacidades generales originales al aprender nueva información.
Entre las técnicas más comunes en el marco del PEFT se incluyen:
PEFT contribuye a democratizar el acceso a potentes herramientas de IA en diversos sectores.
En el contexto de los modelos Ultralytics , la eficiencia de los parámetros se consigue a menudo "congelando" las capas troncales de la red durante el entrenamiento. de la red durante el entrenamiento. De este modo, las capas de extracción de características permanecen inalteradas y sólo se actualiza la (la parte del modelo responsable de realizar las predicciones finales).
El siguiente ejemplo muestra cómo implementar una forma sencilla de entrenamiento con parámetros eficientes con Ultralytics YOLO congelando las 10 primeras capas del modelo.
from ultralytics import YOLO
# Load the YOLO11 model (latest stable version)
model = YOLO("yolo11n.pt")
# Train the model on a specific dataset
# The 'freeze=10' argument freezes the first 10 layers (the backbone)
# This reduces the number of trainable parameters significantly
results = model.train(data="coco8.yaml", epochs=5, freeze=10)
Entender la distinción entre PEFT y términos similares es vital para seleccionar la estrategia adecuada:
Al minimizar el coste computacional de la adaptación, PEFT permite crear modelos altamente especializados para tareas que van desde la percepción de vehículos autónomos hasta el análisis de imágenes de satélite, haciendo accesible la IA avanzada a una comunidad más amplia de desarrolladores.