Découvrez comment LoRA affine efficacement les grands modèles d'IA tels que YOLO , en réduisant les coûts et en permettant un déploiement en périphérie avec des ressources minimales.
LoRA, ou Low-Rank Adaptation, est une technique révolutionnaire dans le domaine de l'apprentissage automatique (ML). dans le domaine de l'apprentissage automatique (ML). modèles pré-entraînés de grande taille avec une efficacité exceptionnelle. La taille des modèles de base modernes modernes a explosé - contenant souvent des milliards de milliards de paramètres, leur réentraînement pour des tâches spécifiques est devenu prohibitif sur le plan informatique pour de nombreux chercheurs et développeurs. et développeurs. LoRA résout ce problème en gelant les poids du modèle et en injectant dans le modèle des matrices de faible rang de faible rang dans l'architecture. Cette approche réduit considérablement le nombre de paramètres entraînables, de mémoire et permet une adaptation efficace du modèle sur du matériel grand public tel qu'un GPU (Graphics Processing Unit) standard. GPU (unité de traitement graphique).
L'innovation principale de LoRA réside dans sa capacité à contourner la nécessité d'un recyclage complet du modèle. Dans le cadre d'un traditionnel, chaque poids d'un réseau neuronal est mis à jour pendant la est mis à jour au cours de la rétropropagation, ce qui nécessite le stockage d'un grand nombre d'états de l'optimiseur. LoRA, en revanche, maintient le modèle pré-entraîné modèle pré-entraîné. Il introduit des paires de matrices de décomposition des rangs dans des couches spécifiques, généralement au sein du mécanisme d'attention. mécanisme d'attention des architectures architectures de transformateurs.
Au cours du processus de formation, seules ces petites matrices d'adaptation sont mises à jour. Comme ces matrices sont de "faible rang", c'est-à-dire qu'elles ont beaucoup moins de dimensions que les couches du modèle complet, la charge de calcul est minime. que les couches du modèle complet, la charge de calcul est minime. Ce concept s'inspire des principes de réduction de la dimensionnalité principes de réduction de la dimensionnalité, en supposant que l'adaptation à une nouvelle tâche repose sur un sous-espace de faible dimension des paramètres du modèle. C'est ce qui fait de LoRA une pierre angulaire du Parameter-Efficient Fine-Tuning (PEFT), permettant la création de modèles spécifiques à une tâche qui ne représentent qu'une fraction de la taille du point de contrôle original.
L'extrait Python suivant montre comment lancer un entraînement standard à l'aide de la commande
ultralytics paquet. Bien que cette commande effectue une formation complète par défaut, les configurations avancées peuvent
peuvent s'appuyer sur des techniques PEFT telles que LoRA afin d'optimiser le processus pour des
ensembles de données personnalisés.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on a specific dataset
# LoRA strategies can be applied to freeze the backbone and train adapters
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
L'efficacité de la LoRA a ouvert de nouvelles possibilités dans divers domaines de l'intelligence artificielle (IA). l 'intelligence artificielle (IA).
Pour bien comprendre la LoRA, il est utile de la distinguer des autres stratégies d'adaptation :
En démocratisant l'accès à la personnalisation des modèles, LoRA permet aux développeurs de créer des outils spécialisés pour l'analyse d'images médicales, la conservation de la faune et de la flore, et véhicules autonomes sans avoir besoin de l'infrastructure l'infrastructure d'un géant de la technologie. Alors que l'industrie s'oriente vers des plateformes polyvalentes - comme la future plateforme Ultralytics les techniques qui découplent la taille du modèle du coût de la formation resteront essentielles pour une innovation évolutive en matière d'IA.