Glossaire

Taux d'apprentissage

Maîtrisez l'art de définir des taux d'apprentissage optimaux en IA ! Découvrez comment cet hyperparamètre crucial influe sur l'entraînement et les performances du modèle.

Le taux d'apprentissage est un hyperparamètreconfigurable utilisé dans la formation desréseaux neuronaux qui qui contrôle le degré de modification du modèle en réponse à l'erreur estimée chaque fois queles poids du modèle sont misà jour. sont mis à jour. Il détermine essentiellement la taille du pas à chaque itération tout en se rapprochant d'un minimum d'une fonction de perte. Si l'on imagine le processus de formation comme la descente d'une montagne brumeuse pour atteindre une vallée (l'état optimal), le taux d'apprentissage dicte la durée de chaque itération. le taux d'apprentissage dicte la longueur de chaque pas que vous faites. Il s'agit de l'un des paramètres les plus importants à régler, car il car il influence directement la vitesse de convergence et la capacité du modèle à trouver une solution optimale.

L'impact du taux d'apprentissage sur la formation

Le choix du bon taux d'apprentissage est souvent un exercice d'équilibre. La valeur choisie affecte de manière significative la d'apprentissage :

Trop élevé : Si le taux d'apprentissage est trop élevé, le modèle peut prendre des mesures trop importantes, dépassant continuellement les poids optimaux. Cela peut conduire à un apprentissage instable où la perte oscille ou même diverge (augmente), empêchant le modèle de converger. diverge (augmente), empêchant le modèle de converger.
Trop faible : à l'inverse, un taux d'apprentissage trop faible se traduira par des mises à jour extrêmement réduites. Bien que Si cela garantit que le modèle ne manque pas le minimum, cela rend leprocessus d'apprentissage douloureusement lent. douloureusement lent. En outre, il augmente le risque de rester bloqué dans des minima locaux - des vallées sous-optimales dans le paysage des pertes - ce qui conduit à un mauvais ajustement. de perte, ce qui conduit à un ajustement plus poussé.

La plupart des flux de formation modernes utilisent desprogrammateurs de taux d'apprentissage, qui ajustent dynamiquement le taux pendant la formation. Une stratégie courante consiste à prévoir des périodes d'"échauffement" au cours desquelles le où le taux commence à un niveau bas et augmente, suivies de phases de "décroissance" où il diminue progressivement pour permettre des ajustements de poids plus fins lorsque le modèle approche de la convergence. des ajustements de poids précis à mesure que le modèle se rapproche de la convergence.

Définir le taux d'apprentissage dans Ultralytics

Dans le cadre d'Ultralytics , vous pouvez facilement configurer le taux d'apprentissage initial (lr0) et le taux d'apprentissage final d'apprentissage (lrf) comme arguments lors de l'apprentissage d'un modèle. Cette flexibilité vous permet d'expérimenter différentes valeurs pour s'adapter à votre jeu de données spécifique.

from ultralytics import YOLO

# Load the recommended YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 with a custom initial learning rate
# 'lr0' sets the initial learning rate (default is usually 0.01)
results = model.train(data="coco8.yaml", epochs=100, lr0=0.01)

Applications concrètes

Le choix du taux d'apprentissage est essentiel pour déployer des solutions d'IA robustes dans tous les secteurs d'activité :

Analyse d'images médicales domaines à fort enjeu comme l'IAdans le domaine de la santé, les modèles sont entraînés à détecter des anomalies telles que les tumeurs dans les examens IRM. sont formés pour detect anomalies telles que des tumeurs dans les IRM. Ici, un taux d'apprentissage soigneusement ajusté est essentiel pour d'apprentissage est essentiel pour s'assurer que le modèle apprend des modèles complexes sans s'adapter excessivement au bruit. Par exemple, lors de l'entraînement d'un modèleYOLO11 pour la détection des tumeurs, les chercheurs utilisent souvent un taux d'apprentissage plus faible avec un planificateur pour maximiserla précision et la fiabilité, comme le montrent diverses études de recherche en radiologie. et la fiabilité, comme le montrent diversesétudes de recherche en radiologie.
Véhicules autonomes:Pour détection d'objets dans les voitures autonomes, les modèles doivent reconnaître les piétons, les panneaux et les autres véhicules dans divers environnements. L'entraînement sur des ensembles de données massifs tels que leWaymoOpen Dataset nécessite un taux d'apprentissage optimisé pour gérer la grande variabilité des données. Un taux d'apprentissage adaptatif aide le converger plus rapidement au cours des phases initiales et d'affiner ses prédictions deboîte de dans les phases ultérieures, contribuant ainsi à rendre l'IA plus sûredans les systèmes automobiles. dans l'automobile.