Glosario

Longformer

Descubra Longformer, el modelo transformer optimizado para secuencias largas, que ofrece una eficiencia escalable para el PNL, la genómica y el análisis de vídeo.

Longformer es una arquitectura Transformer modificada diseñada para procesar secuencias largas de datos de forma eficiente, superando las limitaciones de longitud de entrada de los modelos tradicionales como BERT. Aunque los Transformers estándar son potentes, su uso de memoria aumenta cuadráticamente con la longitud de la secuencia, lo que los hace computacionalmente caros para documentos de más de unos cientos de palabras. de la secuencia, lo que los convierte en costosos para documentos de más de unos cientos de palabras. Longformer soluciona este problema empleando un mecanismo de mecanismo de atención dispersa linealmente, lo que le permite manejar documentos de miles de tokens. Esta capacidad lo convierte en una tecnología piedra angular del procesamiento del lenguaje natural (PLN) de textos extensos, como el análisis de contratos legales, el resumen de libros o el tratamiento de datos genómicos.

La arquitectura: Atención dispersa

La innovación clave detrás de Longformer es su desviación de la autoatención completa utilizada en los modelos estándar de Deep Learning (DL). modelos estándar de aprendizaje profundo. En una configuración tradicional, cada ficha atiende a todas las demás, creando una densa red de conexiones que agota la memoria rápidamente. Longformer Longformer sustituye esto por un enfoque más eficiente y disperso que mantiene un alto rendimiento al tiempo que reduce la complejidad computacional. la complejidad computacional.

Atención a la ventana corredera: Inspirado en la conectividad local de una Convolutional Neural Network (CNN), Longformer utiliza una ventana deslizante en la que cada ficha sólo atiende a sus vecinas inmediatas. Esto capta el contexto local esencial para comprender la sintaxis y la estructura de las frases.
Atención global: Para comprender el contexto más amplio de un documento, se designan fichas específicas para atender a toda la secuencia. Esto permite al modelo realizar tareas como responder a preguntas o clasificar agregando información de toda la entrada, salvando la distancia entre los detalles locales y la comprensión global. global.

Este mecanismo híbrido permite a los investigadores procesar secuencias de hasta 4.096 fichas o más en hardware estándar, ampliando significativamente la ventana contextual disponible para el análisis.

Aplicaciones en el mundo real

La capacidad de analizar secuencias largas sin truncarlas ha abierto nuevas posibilidades en diversos campos en los que la continuidad de los datos es fundamental. la continuidad de los datos.

Resumen jurídico y financiero: Los profesionales a menudo necesitan extraer información de largos acuerdos o informes anuales. Longformer ofrece herramientas herramientas de resumen de texto que pueden documento entero de una sola vez, asegurando que las cláusulas críticas cerca del final de un contrato se consideren junto con la introducción. la introducción.
Investigación genómica: En el campo de la bioinformática, los científicos analizan secuencias de ADN que funcionan como cadenas extremadamente largas de texto biológico. Longformer ayuda a identificar las funciones de los genes y a predecir las estructuras de las proteínas modelando las dependencias de largo alcance inherentes a los códigos genéticos. proteínas modelando las dependencias de largo alcance inherentes a los códigos genéticos. los modelos estándar de lenguaje amplio (LLM).

Distinción entre longformer y conceptos afines

Resulta útil comparar Longformer con otras arquitecturas para elegir la herramienta adecuada para determinados proyectos de Inteligencia Artificial (IA).

Transformer: La arquitectura original original ofrece conectividad total ($O(n^2)$) y es ideal para frases cortas, pero se vuelve prohibitiva para entradas largas. Longformer se aproxima a esta complejidad con $O(n)$.
Reformador: Al igual que Longformer, Reformer persigue la eficiencia, pero lo consigue utilizando Locality-Sensitive Hashing (LSH) para agrupar tokens similares y capas residuales reversibles. Longformer suele preferirse para tareas que requieren contextos locales estrictamente definidos (palabras vecinas), mientras que Reformer es útil cuando la memoria es el cuello de botella absoluto.
Transformer-XL: Este modelo maneja la longitud a través de la recurrencia, manteniendo la memoria de los segmentos pasados. Longformer procesa toda la secuencia larga simultáneamente, lo que puede ser ventajoso para tareas no autorregresivas como la clasificación de documentos.

Ejemplo de inferencia eficiente

Del mismo modo que Longformer optimiza el procesamiento de textos en función de la velocidad y la memoria, los modernos modelos de visión optimizan el procesamiento de imágenes. El siguiente ejemplo utiliza Ultralytics YOLO11 para demostrar una inferencia eficaz. Esto es paralelo al concepto de utilizar arquitecturas optimizadas para manejar entradas de datos complejas sin sobrecargar los recursos de hardware. sin sobrecargar los recursos de hardware.

from ultralytics import YOLO

# Load a YOLO11 model, optimized for efficiency similar to Longformer's design goals
model = YOLO("yolo11n.pt")

# Perform inference on an image URL
# The model processes the input effectively in a single pass
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Output the detection summary
for result in results:
    print(f"Detected {len(result.boxes)} objects.")

Al reducir la huella de memoria necesaria para procesar grandes entradas, Longformer permite a los desarrolladores crear agentes de IA más sofisticados. agentes de IA y herramientas analíticas más sofisticados. Este cambio hacia la escalabilidad lineal es esencial para el futuro del despliegue de modelos, garantizando que la potente siga siendo accesible y eficiente.

Longformer

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

La arquitectura: Atención dispersa

Aplicaciones en el mundo real

Distinción entre longformer y conceptos afines

Ejemplo de inferencia eficiente

Leer más en esta categoría

Aprendizaje autodirigido para la eliminación de ruido: un análisis paso a paso

Tendencias futuras en la detección de objetos: 7 aspectos clave a tener en cuenta

Mejora de la reidentificación de vehículos con los modelosYOLO Ultralytics

Únase a la comunidad Ultralytics