Glosario

GELU (Unidad Lineal de Error Gaussiano)

Descubra cómo la función de activación GELU mejora los modelos de transformadores como GPT-4, impulsando el flujo de gradiente, la estabilidad y la eficiencia.

GELU (Gaussian Error Linear Unit) es una función de activación de alto rendimiento que se ha convertido en un estándar en las arquitecturas de redes neuronales de última generación, especialmente en los modelos Transformer. Es conocida por su curva suave y no monotónica, que ayuda a los modelos a aprender patrones complejos de manera más efectiva que las funciones más antiguas. Introducida en el artículo "Gaussian Error Linear Units (GELUs)", combina propiedades de otras funciones como dropout y ReLU para mejorar la estabilidad del entrenamiento y el rendimiento del modelo.

Cómo funciona GELU

A diferencia de ReLU, que corta bruscamente todos los valores negativos, GELU pondera sus entradas en función de su magnitud. Determina probabilísticamente si se debe activar una neurona multiplicando la entrada por la función de distribución acumulativa (CDF) de la distribución gaussiana estándar. Esto significa que es más probable que las entradas se "descarten" (se establezcan en cero) cuanto más negativas sean, pero la transición es suave en lugar de abrupta. Esta propiedad de regularización estocástica ayuda a prevenir problemas como el problema del gradiente que se desvanece y permite una representación más rica de los datos, lo cual es crucial para los modelos modernos de aprendizaje profundo.

GELU vs. Otras Funciones de Activación

GELU ofrece varias ventajas sobre otras funciones de activación populares, lo que ha llevado a su adopción generalizada.

GELU vs. ReLU: La principal diferencia es la suavidad de GELU. Si bien ReLU es computacionalmente simple, su esquina pronunciada en cero a veces puede llevar al problema de la "ReLU muerta", donde las neuronas se vuelven permanentemente inactivas. La curva suave de GELU evita este problema, facilitando un descenso de gradiente más estable y, a menudo, conduciendo a una mejor precisión final.
GELU vs. ReLU con fugas: ReLU con fugas intenta solucionar el problema de la ReLU "moribunda" permitiendo una pequeña pendiente negativa para las entradas negativas. Sin embargo, la naturaleza no lineal y curva de GELU proporciona un rango de activación más dinámico que ha demostrado superar a la ReLU con fugas en muchas tareas de aprendizaje profundo.
GELU vs. SiLU (Swish): La Unidad Lineal Sigmoide (SiLU), también conocida como Swish, es muy similar a GELU. Ambas son funciones suaves, no monótonas, que han demostrado un excelente rendimiento. La elección entre ellas a menudo se reduce a pruebas empíricas para una arquitectura y un conjunto de datos específicos, aunque algunas investigaciones sugieren que SiLU puede ser ligeramente más eficiente en ciertos modelos de visión artificial. Modelos como Ultralytics YOLO a menudo utilizan SiLU por su equilibrio entre rendimiento y eficiencia.

Aplicaciones en IA y Deep Learning

GELU es un componente clave en muchos de los modelos de IA más potentes desarrollados hasta la fecha.

Procesamiento del Lenguaje Natural (PNL): GELU es la función de activación estándar en las redes feed-forward de las arquitecturas Transformer. Esto incluye modelos seminales como BERT y la serie GPT, que son la base de casi todos los Modelos de Lenguaje Grandes (LLMs) modernos. Su capacidad para manejar patrones lingüísticos complejos la hace ideal para tareas como la traducción automática y el resumen de texto. Puede leer más sobre estos modelos en recursos de organizaciones como Hugging Face.
Visión Artificial (CV): Tras su éxito en el PNL, GELU se adoptó en los modelos de Vision Transformer (ViT). Estos modelos aplican la arquitectura Transformer a parches de imagen para tareas como la clasificación de imágenes y la detección de objetos. El rendimiento de los ViT ha demostrado la eficacia de GELU en el procesamiento de información visual, desafiando el dominio de las Redes Neuronales Convolucionales (CNN) tradicionales.

Implementación y uso

GELU está disponible en los principales frameworks de deep learning, lo que facilita su incorporación en modelos personalizados.

PyTorch: Implementado como torch.nn.GELU, con información detallada en el documentación oficial de PyTorch GELU.
TensorFlow: Disponible como tf.keras.activations.gelu, que está documentado en el Documentación de la API de TensorFlow.

Los desarrolladores pueden construir, entrenar e implementar modelos utilizando GELU con plataformas como Ultralytics HUB, que agiliza todo el ciclo de vida de MLOps desde el aumento de datos hasta la implementación final del modelo.

GELU (Unidad Lineal de Error Gaussiano)

Entrena modelos Ultralytics YOLO para optimizar los flujos de trabajo en todas las industrias

Solución de licencias empresariales flexible para impulsar su innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Cómo funciona GELU

GELU vs. Otras Funciones de Activación

Aplicaciones en IA y Deep Learning

Implementación y uso

Leer más en esta categoría

De los bits a los qubits: Cómo la optimización cuántica está cambiando la IA

Guía rápida para principiantes sobre cómo entrenar un modelo de IA

Desde Dubai con ideas: Principales conclusiones de la Cumbre GDG MENA-T 2025

Únete a la comunidad de Ultralytics