Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Transformer

Descubra cómo las arquitecturas Transformer revolucionan la IA, impulsando avances en el PLN, la visión artificial y las tareas avanzadas de ML.

A Transformer es una innovadora arquitectura de red neuronal que utiliza un mecanismo de autoatención para procesar en paralelo los datos de entrada. procesar datos de entrada en paralelo, lo que revoluciona significativamente procesamiento del lenguaje natural (PLN) y la visión por ordenador (CV). Presentada por primera vez por investigadores Google en el artículo seminal de 2017 "Attention Is All You Need" (La atención es todo lo que necesitas), el Transformer se aleja del el procesamiento secuencial utilizado por arquitecturas más antiguas. En su lugar, analiza secuencias enteras de datos simultáneamente, lo que le permite capturar dependencias de largo alcance y relaciones contextuales con una eficiencia sin precedentes. Esta arquitectura arquitectura sirve de base para la moderna IA generativa y los potentes grandes modelos lingüísticos (LLM ) como GPT-4.

Arquitectura y mecanismos básicos

La característica que define a un Transformer es su dependencia del mecanismo de atención, concretamente la autoatención. A diferencia de redes neuronales recurrentes (RNN), que procesan los datos paso a paso (por ejemplo, palabra por palabra), los Transformadores ingieren toda la información de una sola vez. Para comprender el orden de los datos, emplean codificaciones posicionales, que se añaden a las incrustaciones de entrada para retener información sobre la estructura secuencial.

La arquitectura suele consistir en pilas de codificadores y descodificadores:

  • Codificador: Procesa los datos de entrada para crear una comprensión contextual.
  • Decodificador: Utiliza los conocimientos del codificador para generar resultados, como texto traducido o píxeles de imagen píxeles de la imagen.

Esta estructura paralela permite una escalabilidad masiva, permitiendo a los investigadores entrenar modelos en grandes conjuntos de datos utilizando GPU de alto rendimiento.

Transformadores en visión por ordenador

Aunque originalmente se diseñó para texto, la arquitectura se ha adaptado con éxito a tareas visuales mediante el Transformador de Visión (ViT). En este enfoque una imagen se divide en una secuencia de parches de tamaño fijo (similares a las palabras de una frase). A continuación, el modelo utiliza autoatención para ponderar la importancia de parches entre sí, captando un contexto global que las redes neuronales redes neuronales convolucionales (CNN) tradicionales.

Por ejemplo, el Transformador de Detección en Tiempo Real (RT-DETR) utiliza esta arquitectura para realizar una detección detección de objetos. A diferencia de los modelos basados en CNN se basan en características locales, el RT-DETR puede comprender la relación entre objetos distantes en una escena. Sin embargo Sin embargo, cabe señalar que, mientras que los Transformers destacan en el contexto global, los modelos basados en CNN como Ultralytics YOLO11 suelen ofrecer un mejor equilibrio entre velocidad y precisión para las aplicaciones de borde en tiempo real. Los modelos comunitarios como YOLO12 han intentado integrar capas de atención pesadas pero a menudo sufren de inestabilidad en el entrenamiento y velocidades de inferencia lentas en comparación con la arquitectura CNN optimizada de YOLO11. optimizada de YOLO11.

Aplicaciones en el mundo real

La versatilidad de la arquitectura Transformer ha propiciado su adopción en diversos sectores.

  • Análisis de imágenes médicas: En sanidad, los Transformers ayudan en análisis de imágenes médicas correlacionando de alta resolución (por ejemplo, resonancias magnéticas o tomografías computarizadas) para detect anomalías como tumores. Su capacidad para comprender contexto global garantiza que no se pasen por alto patrones sutiles.
  • Navegación autónoma: Los coches autónomos utilizan modelos basados en Transformer para procesar señales de vídeo de múltiples cámaras. Esto ayuda a la comprensión del vídeo y la predicción de trayectorias mediante el seguimiento de la interacción de objetos dinámicos (peatones, otros vehículos) a lo largo del tiempo.
  • Chatbots avanzados: Los asistentes virtuales y los agentes de atención al cliente se basan en Transformers para mantener contexto en conversaciones largas, lo que mejora significativamente la experiencia del usuario en comparación con los chatbots más antiguos. chatbots.

Utilización de transformadores con Ultralytics

Puede experimentar con modelos de visión por ordenador basados en Transformer directamente utilizando la herramienta ultralytics paquete. El siguiente ejemplo muestra cómo cargar el modelo RT-DETR para la detección de objetos.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Transformers frente a otras arquitecturas

Es importante distinguir Transformers de otras arquitecturas de arquitecturas de aprendizaje profundo (AD):

  • Transformadores frente a RNNs/LSTMs: Las RNN sufren el problema del gradiente evanescente, que les hace olvidar información inicial en secuencias largas. Los transformadores lo solucionan mediante la autoatención, manteniendo acceso a toda la historia de la secuencia. historia de la secuencia.
  • Transformadores frente a CNN: Las CNN son invariantes de la traslación y excelentes para detectar patrones locales (bordes, texturas) utilizando una espina dorsal, lo que las hace altamente eficientes para tareas de imagen. Los transformadores aprenden relaciones globales, pero suelen necesitar más datos y potencia de cálculo para converger. Los enfoques modernos suelen crear modelos híbridos o utilizar CNN eficientes como YOLO11 que superan a los Transformadores puros en entornos limitados.

Perspectivas de futuro

La investigación mejora continuamente la eficacia de los transformadores. Innovaciones como FlashAttention están reduciendo el coste computacional lo que permite ventanas contextuales más largas. Además, sistemas de IA multimodal están fusionando Transformers con otras arquitecturas para procesar simultáneamente texto, imágenes y audio. A medida que estas tecnologías maduren, la próxima PlataformaUltralytics proporcionará un entorno unificado para entrenar, desplegar y supervisar estos sofisticados modelos junto con las tareas tareas estándar de visión por ordenador.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora