Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Fine-tuning efficiente in termini di parametri (PEFT)

Scopri il Parameter-Efficient Fine-Tuning (PEFT) per adattare modelli di IA di grandi dimensioni con risorse minime. Risparmia sui costi, previeni l'overfitting e ottimizza la distribuzione!

Il Parameter-Efficient Fine-Tuning (PEFT) è una sofisticata strategia di apprendimento automatico (ML) progettata per adattare grandi modelli pre-addestrati a compiti specifici a valle senza l'onere computazionale di riqualificare l'intera rete. Come modelli di base in domini come l'elaborazione del linguaggio e la computer vision (CV) sono diventati miliardi di parametri, il tradizionale di regolazione fine, cheaggiorna tutti i pesi del modello, è diventato proibitivo per molti utenti. è diventato proibitivo per molti utenti. PEFT risolve questo problema congelando la maggior parte dei pesi del modello pre-allenato modello pre-addestrato e aggiornando solo un piccolo sottoinsieme di parametri o aggiungendo alcuni nuovi strati addestrabili. Questo approccio riduce in modo significativo la barriera hardware, permettendo a ricercatori e ingegneri di ricercatori e ingegneri di personalizzare i modelli più avanzati utilizzando GPU di fascia consumer, mantenendo prestazioni prestazioni paragonabili a quelle di un addestramento completo.

La meccanica del PEFT

Il concetto centrale del PEFT è l'apprendimento per trasferimento, in cui un modello sfrutta conoscenza acquisita da un insieme di dati massicci (come ImageNet o Common Crawl) per risolvere nuovi problemi con dati limitati. A differenza della messa a punto completa, il PEFT modifica l'architettura del modello o il processo di addestramento per essere "efficiente nei parametri". efficiente". Questo crea un ingombro ridotto per il modello adattato, spesso di pochi megabyte, rispetto ai gigabyte necessari per un modello completo. gigabyte necessari per una copia completa del modello. Questa efficienza è fondamentale per evitare l'oblio catastrofico, un fenomeno in cui un modello modello perde le sue capacità generali originali durante l'apprendimento di nuove informazioni.

Le tecniche più comuni nell'ambito del PEFT includono:

  • LoRA (Low-Rank Adaptation): Questo metodo popolare inietta piccole matrici di decomposizione di rango addestrabili negli strati del modello, congelando i pesi originali. pesi originali. È ampiamente citato nelle ricerche di Microsoft per il suo Microsoft per il suo equilibrio tra velocità e precisione.
  • Adattatori: Questo comporta l'inserimento di piccoli moduli di rete neurale tra gli strati esistenti della rete preaddestrata.
  • Messa a punto del prompt: Utilizzato principalmente con modelli linguistici, aggiunge alla sequenza di input "soft prompt" addestrabili alla sequenza di input, guidando il comportamento del modello congelato. modello congelato.

Applicazioni nel mondo reale

PEFT è fondamentale per democratizzare l'accesso a potenti strumenti di intelligenza artificiale in diversi settori.

  • Agricoltura di precisione: Gli agricoltori e le aziende agroalimentari utilizzano il PEFT per adattare i modelli di rilevamento degli oggetti modelli di rilevamento degli oggetti come YOLO11 per identificare malattie specifiche delle colture o parassiti locali. Utilizzando l'intelligenza artificiale in agricoltura, un modello addestrato su oggetti generici può essere messo a punto su un piccolo set di dati personalizzati di immagini immagini di foglie per detect peronospora localizzata con un'elevata accuratezza, funzionando in modo efficiente su dispositivi periferici sul campo.
  • Diagnostica medica: Nell'IA sanitaria, la privacy e la scarsità di dati AI in campo sanitario, la privacy e la scarsità di dati sono sfide principali. Gli ospedali possono utilizzare la PEFT per adattare i modelli di visione per l'analisi delle immagini mediche, come ad esempio analisi di immagini mediche, come il rilevamento di fratture fratture nelle radiografie. Poiché il modello di base rimane congelato, l'addestramento richiede un minor numero di immagini di pazienti per convergere, ridurre il rischio di overfitting e di preservare la capacità del modello di riconoscere caratteristiche visive generali.

Attuazione pratica

Nel contesto dei modelli Ultralytics , l'efficienza dei parametri è spesso ottenuta "congelando" gli strati dorsali della rete durante l'addestramento. della rete durante l'addestramento. In questo modo si garantisce che gli strati di estrazione delle caratteristiche rimangano invariati e che solo la testa (la parte del modello responsabile delle previsioni finali) venga aggiornata. testa (la parte del modello responsabile delle previsioni finali) viene aggiornata.

L'esempio seguente mostra come implementare una semplice forma di addestramento efficiente dal punto di vista dei parametri con Ultralytics YOLO congelando i primi 10 livelli del modello.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable version)
model = YOLO("yolo11n.pt")

# Train the model on a specific dataset
# The 'freeze=10' argument freezes the first 10 layers (the backbone)
# This reduces the number of trainable parameters significantly
results = model.train(data="coco8.yaml", epochs=5, freeze=10)

PEFT vs. Concetti correlati

Comprendere la distinzione tra PEFT e termini simili è fondamentale per selezionare la strategia giusta:

  • Messa a punto completa: Aggiorna tutti i parametri della rete. Offre la massima plasticità, ma richiede enormi risorse di calcolo e di memoria per ogni nuova versione del modello. Si veda questa guida sulla sintonizzazione fine per le migliori pratiche quando quando le risorse non sono un vincolo.
  • Ingegneria dei Prompt: Si tratta di creare l'input di testo (prompt) per guidare il modello senza consiste nell'elaborare l'input di testo (prompt) per guidare il modello senza modificare i pesi. PEFT, al contrario, aggiorna in modo permanente un piccolo insieme di parametri o pesi per modificare il modo in cui il modello elabora i dati.
  • Apprendimento per trasferimento: Questo è il concetto concetto più ampio di riutilizzo delle conoscenze. Il PEFT è un'implementazione specifica ed efficiente dell'apprendimento per trasferimento. È possibile esplorare definizioni più approfondite di questi concetti su piattaforme quali le pagine di IBM dedicate all'istruzione sull'intelligenza artificiale.

Riducendo al minimo il costo computazionale dell'adattamento, PEFT consente la creazione di modelli altamente specializzati per compiti che vanno dalla percezione di veicoli autonomi all'analisi delle immagini satellitari, rendendo l'intelligenza artificiale avanzata accessibile a una più ampia comunità di sviluppatori.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora