Glosario

Longformer

Descubre Longformer, el modelo de transformador optimizado para secuencias largas, que ofrece una eficacia escalable para PNL, genómica y análisis de vídeo.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Longformer es un tipo de modelo Transformer diseñado específicamente para procesar con eficacia secuencias de texto muy largas. Desarrollado por el Instituto Allen para la IA (AI2), aborda una limitación clave de los modelos Transformer estándar como BERT y GPT, cuyos requisitos computacionales y de memoria crecen cuadráticamente con la longitud de la secuencia. Esto hace que los Transformadores estándar sean poco prácticos para tareas que implican miles de tokens, como el procesamiento de documentos enteros, libros o conversaciones largas. Longformer utiliza un mecanismo de atención optimizado para manejar estas largas secuencias, lo que hace factible aplicar la potencia de los Transformadores a una gama más amplia de tareas de Procesamiento del Lenguaje Natural (PLN).

Cómo funciona Longformer

La principal innovación de Longformer reside en su eficiente patrón de autoatención. Los Transformadores estándar utilizan un mecanismo de autoatención "completo" en el que cada ficha atiende a todas las demás fichas de la secuencia. Aunque potente, esto conduce al cuello de botella de la complejidad cuadrática. Longformer lo sustituye por una combinación de patrones de atención:

  1. Atención de Ventana Deslizante: Cada ficha atiende sólo a una ventana de tamaño fijo de fichas vecinas a su alrededor. Esto capta eficazmente el contexto local y se escala linealmente con la longitud de la secuencia.
  2. Atención de Ventana Deslizante Dilatada: Para aumentar el campo receptivo sin añadir cálculo, la ventana puede "dilatarse", lo que significa que se salta algunas fichas dentro de su vista, permitiéndole captar información de fichas más lejanas mientras sigue atendiendo sólo a un número fijo.
  3. Atención Global: Algunos tokens preseleccionados (por ejemplo, tokens especiales como [CLS] utilizados para las tareas de clasificación) pueden atender a toda la secuencia, y toda la secuencia puede atenderlos a ellos. Esto garantiza que la información específica de la tarea pueda integrarse globalmente.

Esta combinación permite a Longformer construir representaciones contextuales que incorporan información tanto local como global, de forma similar a los Transformadores estándar, pero con una complejidad computacional que escala linealmente, no cuadráticamente, con la longitud de la secuencia. Esto hace posible procesar secuencias de decenas de miles de tokens, en comparación con los límites típicos de 512 o 1024 tokens de modelos como BERT. Las implementaciones están fácilmente disponibles en bibliotecas como Hugging Face Transformers.

Características y ventajas principales

  • Eficacia: Escalado lineal del cálculo y la memoria con la longitud de la secuencia, lo que permite procesar documentos mucho más largos.
  • Escalabilidad: Puede manejar secuencias hasta longitudes limitadas principalmente por la memoria del hardware (por ejemplo, 4096 fichas o más, frente a las 512 del BERT estándar).
  • Rendimiento: Mantiene un gran rendimiento en diversas tareas de PNL, superando a menudo a los modelos limitados a contextos más breves cuando las dependencias de largo alcance son importantes.
  • Flexibilidad: Puede utilizarse como sustituto de las capas Transformadoras estándar en muchas arquitecturas de aprendizaje profundo.
  • Preentrenamiento y ajuste: Puede preentrenarse en grandes corpus de texto y luego ajustarse para tareas posteriores específicas, de forma similar a otros modelos Transformer.

Aplicaciones en el mundo real

La capacidad de Longformer para manejar secuencias largas desbloquea capacidades en varios dominios:

  • Resumir documentos: Resumir artículos largos, trabajos de investigación o informes en los que la información crucial puede estar repartida por todo el texto. Los modelos estándar pueden pasar por alto el contexto debido al truncamiento.
  • Respuesta a preguntas sobre documentos largos: Responder a preguntas basadas en la información contenida en documentos largos, como contratos legales, manuales técnicos o libros, sin necesidad de dividir el documento en trozos más pequeños que puedan romper el contexto. Por ejemplo, una IA jurídica podría utilizar Longformer para encontrar cláusulas relevantes en un contrato de 100 páginas.
  • Análisis de la Literatura Científica: Procesamiento y comprensión de relaciones y hallazgos complejos en artículos científicos completos para tareas como la extracción de información o la construcción de grafos de conocimiento.
  • Sistemas de diálogo: Analizar largos historiales de conversación en chatbots o asistentes virtuales para mantener mejor el contexto y la coherencia en interacciones prolongadas.

Importancia en IA/ML

Longformer representa un importante paso adelante para que los modelos de aprendizaje profundo puedan comprender y razonar sobre textos largos. Al superar el cuello de botella de complejidad cuadrática de los Transformadores estándar, permite que los Modelos de Lenguaje Extenso (LLM ) aborden con mayor eficacia tareas relacionadas con documentos, libros y diálogos extensos. Esta capacidad es esencial para las aplicaciones que requieren una comprensión contextual profunda, ampliando los límites de lo que la inteligencia artificial (IA) puede lograr en el procesamiento del lenguaje humano que se encuentra en formatos largos.

Mientras que modelos como Ultralytics YOLO11 destacan en tareas de visión por ordenador (VC ) como la detección de objetos y la segmentación de imágenes, Longformer proporciona avances análogos para manejar datos textuales complejos y largos en el ámbito de la PLN. Herramientas como Ultralytics HUB agilizan el despliegue y la gestión de varios modelos de IA, incluyendo potencialmente modelos de PLN como Longformer, que se han ajustado para tareas específicas utilizando marcos como PyTorch o TensorFlow.

Comparación con términos afines

  • Transformador estándar: Longformer es una modificación de la arquitectura Transformer estándar. La diferencia clave es el eficiente mecanismo de atención de Longformer (ventana deslizante + atención global) diseñado para secuencias largas, mientras que los Transformadores estándar utilizan la autoatención completa, que es computacionalmente costosa para entradas largas.
  • Reformador: Otra variante eficiente de Transformer, Reformer, utiliza técnicas como la atención al hashing sensible a la localidad (LSH) y las capas residuales reversibles para reducir la memoria y los costes computacionales. Aunque ambos se dirigen a secuencias largas, utilizan enfoques técnicos diferentes para lograr la eficiencia.
  • Transformador-XL: Transformer-XL introduce la recurrencia y las incrustaciones posicionales relativas para manejar contextos más largos que los Transformadores estándar, especialmente útiles en el modelado autorregresivo del lenguaje. Longformer se centra más en los contextos bidireccionales dentro de una única secuencia larga utilizando su patrón de atención específico.
Leer todo