Scopri come la funzione di attivazione GELU migliora i modelli transformer come GPT-4, potenziando il flusso del gradiente, la stabilità e l'efficienza.
GELU (Gaussian Error Linear Unit) è una funzione di attivazione ad alte prestazioni che è diventata uno standard nelle architetture di reti neurali all'avanguardia, in particolare nei modelli Transformer. È nota per la sua curva liscia e non monotona, che aiuta i modelli ad apprendere schemi complessi in modo più efficace rispetto alle funzioni più datate. Introdotta nel paper "Gaussian Error Linear Units (GELUs)", combina proprietà di altre funzioni come dropout e ReLU per migliorare la stabilità dell'addestramento e le prestazioni del modello.
A differenza di ReLU, che taglia bruscamente tutti i valori negativi, GELU pondera i suoi input in base alla loro grandezza. Determina probabilisticamente se attivare un neurone moltiplicando l'input per la funzione di distribuzione cumulativa (CDF) della distribuzione gaussiana standard. Ciò significa che gli input hanno maggiori probabilità di essere "eliminati" (impostati a zero) quanto più sono negativi, ma la transizione è graduale piuttosto che brusca. Questa proprietà di regolarizzazione stocastica aiuta a prevenire problemi come il problema del gradiente evanescente e consente una rappresentazione più ricca dei dati, il che è fondamentale per i moderni modelli di deep learning.
GELU offre diversi vantaggi rispetto ad altre funzioni di attivazione popolari, portando alla sua diffusa adozione.
GELU è un componente chiave in molti dei modelli di IA più potenti sviluppati fino ad oggi.
GELU è facilmente disponibile in tutti i principali framework di deep learning, rendendo facile l'integrazione in modelli personalizzati.
torch.nn.GELU
, con informazioni dettagliate nel documentazione ufficiale PyTorch GELU.tf.keras.activations.gelu
, che è documentato nel Documentazione dell'API TensorFlow.Gli sviluppatori possono costruire, effettuare il training e distribuire modelli utilizzando GELU con piattaforme come Ultralytics HUB, che semplifica l'intero ciclo di vita MLOps dall'data augmentation al deployment finale del modello.