¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Longformer

Descubra Longformer, el modelo transformer optimizado para secuencias largas, que ofrece una eficiencia escalable para el PNL, la genómica y el análisis de vídeo.

Longformer es un modelo avanzado basado en Transformers diseñado para procesar eficientemente documentos muy largos. Desarrollado por investigadores del Allen Institute for AI, su principal innovación es un mecanismo de atención que escala linealmente con la longitud de la secuencia, a diferencia del escalado cuadrático de los modelos Transformer estándar como BERT. Esta eficiencia hace posible realizar tareas complejas de procesamiento del lenguaje natural (PNL) en textos que contienen miles o incluso decenas de miles de tokens, lo cual es computacionalmente prohibitivo para arquitecturas anteriores.

¿Cómo funciona Longformer?

La clave de la eficiencia de Longformer reside en su patrón de atención único, que reemplaza el mecanismo de autoatención completo de un Transformer estándar. En lugar de que cada token atienda a todos los demás tokens, Longformer combina dos tipos de atención:

  • Atención de ventana deslizante (local): La mayoría de los tokens solo prestan atención a un número fijo de tokens vecinos a cada lado. Esto captura el contexto local, de forma similar a como un lector humano entiende las palabras basándose en las palabras que las rodean inmediatamente. Este enfoque está inspirado en el éxito de las redes neuronales convolucionales (CNN) en el aprovechamiento de patrones locales.
  • Atención Global: Un pequeño número de tokens preseleccionados están designados para tener atención global, lo que significa que pueden atender a todos los demás tokens en toda la secuencia. Estos tokens "globales" actúan como recolectores de información de alto nivel de todo el documento. Para tareas específicas ajuste fino, estos tokens globales a menudo se eligen estratégicamente, como el [CLS] token para tareas de clasificación.

Esta combinación proporciona un equilibrio entre la eficiencia computacional y la captura de las dependencias de largo alcance necesarias para comprender documentos complejos. La investigación original se detalla en el artículo "Longformer: The Long-Document Transformer".

Aplicaciones en IA y Machine Learning

La capacidad de Longformer para manejar secuencias largas abre posibilidades para muchas aplicaciones que antes eran poco prácticas.

  • Análisis de documentos largos: Puede realizar tareas como el resumen de texto o el question answering en libros enteros, extensos trabajos de investigación o documentos legales complejos. Por ejemplo, una empresa de tecnología legal podría utilizar un modelo basado en Longformer para escanear automáticamente miles de páginas de documentos de descubrimiento para encontrar pruebas relevantes.
  • Sistemas de diálogo y chatbots: En un contexto de chatbot o asistente virtual, Longformer puede mantener un historial de conversación mucho más extenso, lo que permite interacciones más coherentes y conscientes del contexto durante períodos prolongados.
  • Genómica y Bioinformática: Su arquitectura es adecuada para analizar secuencias largas de ADN o proteínas, lo que ayuda a los investigadores a identificar patrones y funciones dentro de vastos conjuntos de datos genéticos. Un laboratorio de investigación podría aplicarlo para encontrar secuencias de genes específicas dentro de un cromosoma completo.

Los modelos Longformer preentrenados están ampliamente disponibles en plataformas como Hugging Face, lo que permite a los desarrolladores adaptarlos para diversas tareas.

Comparación con términos relacionados

Longformer es uno de los varios modelos diseñados para superar las limitaciones de los Transformers estándar para secuencias largas.

  • Transformer estándar: La diferencia clave es el mecanismo de atención. El patrón de atención eficiente de Longformer está diseñado para secuencias largas, mientras que la autoatención completa en los Transformers estándar consume demasiada memoria y capacidad de cálculo para entradas largas.
  • Reformer: Otro Transformer eficiente, Reformer utiliza técnicas como el hashing sensible a la localidad (LSH) y capas reversibles para reducir el uso de recursos. Si bien ambos están dirigidos a secuencias largas, emplean diferentes estrategias técnicas para lograr la eficiencia.
  • Transformer-XL: Este modelo introduce recurrencia e incrustaciones posicionales relativas para gestionar contextos más largos, lo que lo hace particularmente eficaz para tareas auto-regresivas como la generación de texto. Longformer, por el contrario, está diseñado para procesar un único documento largo con un contexto bidireccional en una sola pasada.

Si bien estos modelos de PNL difieren de los modelos de visión artificial (CV) como Ultralytics YOLO, que destacan en tareas como la detección de objetos, el impulso por la eficiencia computacional es un tema común. Las innovaciones que reducen la complejidad, como las de Longformer, son cruciales para hacer que los potentes modelos de deep learning sean prácticos para la inferencia en tiempo real y la implementación de modelos en diversos hardwares. La gestión de estos modelos avanzados puede optimizarse utilizando plataformas como Ultralytics HUB.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles