Glosario

Transformador

Descubra cómo las arquitecturas Transformer revolucionan la IA, impulsando avances en PNL, visión por ordenador y tareas avanzadas de ML.

Los transformadores representan una arquitectura de red neuronal fundamental que ha hecho avanzar significativamente los campos de la inteligencia artificial (IA) y el aprendizaje automático (AM), especialmente en el procesamiento del lenguaje natural (PLN) y, cada vez más, en la visión por ordenador (VC). Presentadas en el influyente artículo"Attention Is All You Need", procesan datos secuenciales, como texto o series temporales, mediante un mecanismo denominado autoatención. Esto permite al modelo sopesar dinámicamente la importancia de las distintas partes de la entrada, superando así las principales limitaciones de arquitecturas más antiguas, como las redes neuronales recurrentes (RNN).

Cómo funcionan los transformadores

La principal innovación de Transformers es el mecanismo de autoatención. A diferencia de las RNN, que procesan la entrada secuencialmente (un elemento tras otro) y pueden tener problemas con secuencias largas debido a problemas como la desaparición de gradientes, Transformers puede considerar todas las partes de la secuencia de entrada simultáneamente. Esta capacidad de procesamiento paralelo acelera considerablemente el entrenamiento en hardware moderno como las GPU de empresas como NVIDIA.

Mientras que las redes neuronales convolucionales (CNN) típicas se centran en características locales a través de filtros de tamaño fijo que realizan la convolución, el mecanismo de atención permite a los Transformers captar dependencias de largo alcance y relaciones contextuales en toda la entrada. Esta capacidad de comprender el contexto global es crucial para las tareas que implican relaciones complejas, ya sea en texto o en parches de imagen utilizados en los Transformadores de Visión (ViT).

Relevancia e impacto

Los transformadores se han convertido en la base de muchos modelos de IA de última generación debido a su eficacia para captar el contexto y manejar secuencias largas. Su naturaleza paralelizable ha permitido el entrenamiento de modelos masivos con miles de millones de parámetros, como GPT-3 y GPT-4 desarrollados por OpenAI, lo que ha dado lugar a grandes avances en la IA generativa. Esta escalabilidad y rendimiento han convertido a Transformers en un elemento fundamental para el progreso en diversas tareas de IA, impulsando la innovación en la investigación y la industria. Muchos modelos Transformer populares, como BERT, están disponibles a través de plataformas como Hugging Face y se implementan utilizando marcos como PyTorch y TensorFlow, a menudo integrados en plataformas MLOps como Ultralytics HUB.

Aplicaciones en IA y ML

Los transformadores son muy versátiles y alimentan numerosas aplicaciones de IA:

Transformer frente a otras arquitecturas

Es útil distinguir los Transformers de otras arquitecturas de redes neuronales comunes:

  • Transformadores frente a RNN: Las RNN procesan los datos secuencialmente, lo que las hace adecuadas para datos de series temporales, pero propensas a olvidar información anterior en secuencias largas(problema del gradiente evanescente). Los transformadores procesan secuencias en paralelo utilizando la autoatención, capturando las dependencias de largo alcance con mayor eficacia y entrenándose más rápido en hardware paralelo(GPU).
  • Transformadores frente a CNN: Las CNN destacan en la identificación de patrones locales en datos de tipo cuadriculado (por ejemplo, píxeles de una imagen) mediante filtros convolucionales. Son muy eficaces para muchas tareas de visión, como las que abordan los modelos YOLO de Ultralytics. Los transformadores, en particular los ViT, dividen las imágenes en parches y utilizan la autoatención para modelar las relaciones entre ellos, capturando el contexto global potencialmente mejor pero requiriendo a menudo más datos y recursos computacionales, especialmente durante el entrenamiento del modelo. Las arquitecturas híbridas, que combinan características de CNN con capas de Transformer, pretenden aprovechar los puntos fuertes de ambas, como se observa en algunas variantes de RT-DETR. La elección depende a menudo de la tarea específica, el tamaño del conjunto de datos y los recursos informáticos disponibles.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles