Descubra cómo las arquitecturas Transformer revolucionan la IA, impulsando avances en el PLN, la visión artificial y las tareas avanzadas de ML.
A Transformer es una innovadora arquitectura de red neuronal que utiliza un mecanismo de autoatención para procesar en paralelo los datos de entrada. procesar datos de entrada en paralelo, lo que revoluciona significativamente procesamiento del lenguaje natural (PLN) y la visión por ordenador (CV). Presentada por primera vez por investigadores Google en el artículo seminal de 2017 "Attention Is All You Need" (La atención es todo lo que necesitas), el Transformer se aleja del el procesamiento secuencial utilizado por arquitecturas más antiguas. En su lugar, analiza secuencias enteras de datos simultáneamente, lo que le permite capturar dependencias de largo alcance y relaciones contextuales con una eficiencia sin precedentes. Esta arquitectura arquitectura sirve de base para la moderna IA generativa y los potentes grandes modelos lingüísticos (LLM ) como GPT-4.
La característica que define a un Transformer es su dependencia del mecanismo de atención, concretamente la autoatención. A diferencia de redes neuronales recurrentes (RNN), que procesan los datos paso a paso (por ejemplo, palabra por palabra), los Transformadores ingieren toda la información de una sola vez. Para comprender el orden de los datos, emplean codificaciones posicionales, que se añaden a las incrustaciones de entrada para retener información sobre la estructura secuencial.
La arquitectura suele consistir en pilas de codificadores y descodificadores:
Esta estructura paralela permite una escalabilidad masiva, permitiendo a los investigadores entrenar modelos en grandes conjuntos de datos utilizando GPU de alto rendimiento.
Aunque originalmente se diseñó para texto, la arquitectura se ha adaptado con éxito a tareas visuales mediante el Transformador de Visión (ViT). En este enfoque una imagen se divide en una secuencia de parches de tamaño fijo (similares a las palabras de una frase). A continuación, el modelo utiliza autoatención para ponderar la importancia de parches entre sí, captando un contexto global que las redes neuronales redes neuronales convolucionales (CNN) tradicionales.
Por ejemplo, el Transformador de Detección en Tiempo Real (RT-DETR) utiliza esta arquitectura para realizar una detección detección de objetos. A diferencia de los modelos basados en CNN se basan en características locales, el RT-DETR puede comprender la relación entre objetos distantes en una escena. Sin embargo Sin embargo, cabe señalar que, mientras que los Transformers destacan en el contexto global, los modelos basados en CNN como Ultralytics YOLO11 suelen ofrecer un mejor equilibrio entre velocidad y precisión para las aplicaciones de borde en tiempo real. Los modelos comunitarios como YOLO12 han intentado integrar capas de atención pesadas pero a menudo sufren de inestabilidad en el entrenamiento y velocidades de inferencia lentas en comparación con la arquitectura CNN optimizada de YOLO11. optimizada de YOLO11.
La versatilidad de la arquitectura Transformer ha propiciado su adopción en diversos sectores.
Puede experimentar con modelos de visión por ordenador basados en Transformer directamente utilizando la herramienta ultralytics paquete.
El siguiente ejemplo muestra cómo cargar el modelo RT-DETR para la detección de objetos.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Es importante distinguir Transformers de otras arquitecturas de arquitecturas de aprendizaje profundo (AD):
La investigación mejora continuamente la eficacia de los transformadores. Innovaciones como FlashAttention están reduciendo el coste computacional lo que permite ventanas contextuales más largas. Además, sistemas de IA multimodal están fusionando Transformers con otras arquitecturas para procesar simultáneamente texto, imágenes y audio. A medida que estas tecnologías maduren, la próxima PlataformaUltralytics proporcionará un entorno unificado para entrenar, desplegar y supervisar estos sofisticados modelos junto con las tareas tareas estándar de visión por ordenador.