Descubra el poder de los Vision Transformers (ViTs) en la visión artificial. Aprenda cómo superan a las CNN al capturar el contexto global de la imagen.
Un Transformador de Visión (ViT) es una arquitectura de aprendizaje profundo que aplica principios del modelo Transformer original directamente a secuencias de imágenes. Introducido originalmente para el Procesamiento del Lenguaje Natural (PLN), Transformers revolucionó el campo al utilizar mecanismos que permiten al modelo sopesar la importancia de diferentes partes de los datos de entrada. El ViT fue propuesto por Google Research en el documento "An Image is Worth 16x16 Words" como alternativa al método estándar red neuronal convolucional (CNN) para tareas visuales. A diferencia de las CNN, que procesan los píxeles mediante filtros locales, las ViT tratan una imagen como una secuencia de de parches de tamaño fijo, lo que les permite captar el contexto global y las dependencias de largo alcance desde la primera capa. mediante la autoatención.
La arquitectura de un ViT representa un cambio significativo en la forma en que las máquinas procesan la información visual. El flujo de trabajo consiste en descomponer una imagen en componentes más pequeños que puedan procesarse de forma similar a las palabras de una frase.
Aunque ambas arquitecturas son fundamentales para la visión por ordenador (CV), se basan en diferentes sesgos inductivos. Las CNN utilizan operaciones de convolución que dan prioridad a las interacciones locales y a la invariancia de traslación (reconocer un objeto independientemente de su posición). Este Esto hace que las CNN sean muy eficientes con conjuntos de datos pequeños. Por el contrario, los ViT tienen una estructura menos específica de la imagen y se basan en el aprendizaje de patrones directamente a partir de conjuntos de datos masivos. directamente de conjuntos de datos masivos como ImageNet.
Los ViT suelen destacar cuando se entrenan con grandes cantidades de datos, ya que pueden modelar relaciones globales complejas que las CNN podrían pasar por alto. que las CNN podrían pasar por alto. Sin embargo, este alcance global suele tener como contrapartida mayores requisitos informáticos para el entrenamiento y velocidades de inferencia más lentas en entornos con recursos limitados. entrenamiento y velocidades de inferencia más lentas en dispositivos recursos limitados. Los modelos híbridos como RT-DETR intentan salvar esta distancia combinando una CNN para la extracción eficaz de características con un Transformer para el contexto global.
Los Transformadores de Visión han tenido éxito en ámbitos en los que comprender el contexto holístico de una escena es más importante que los detalles de textura de bajo nivel. que los detalles de textura de bajo nivel.
En ultralytics admite arquitecturas basadas en Transformer, como RT-DETR (Real-Time Detection
Transformer), que aprovecha los puntos fuertes de ViTs para
detección de objetos. Mientras que los modelos basados en CNN como el
recomendado YOLO11 suelen ser más rápidas para las aplicaciones en tiempo real
RT-DETR ofrece una alternativa robusta cuando se prioriza la alta precisión y el contexto global.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes
results[0].show()
De cara al futuro, las innovaciones en eficiencia son cruciales. Ultralytics está desarrollando YOLO26, cuyo objetivo es ofrecer la gran precisión de los con los transformadores, manteniendo al mismo tiempo la velocidad de las CNN. Además, la próxima Ultralytics Platform agilizará el flujo de trabajo para entrenar e implantar estos modelos avanzados en diversos entornos, desde servidores en la nube hasta hardware periférico. Grandes marcos como PyTorch y TensorFlow siguen ampliando su compatibilidad con las variantes ViT, impulsando la investigación en este campo.