Glosario

Vision Transformer (ViT)

Descubra el poder de los Vision Transformers (ViTs) en la visión artificial. Aprenda cómo superan a las CNN al capturar el contexto global de la imagen.

Un Transformador de Visión (ViT) es una arquitectura de aprendizaje profundo que aplica principios del modelo Transformer original directamente a secuencias de imágenes. Introducido originalmente para el Procesamiento del Lenguaje Natural (PLN), Transformers revolucionó el campo al utilizar mecanismos que permiten al modelo sopesar la importancia de diferentes partes de los datos de entrada. El ViT fue propuesto por Google Research en el documento "An Image is Worth 16x16 Words" como alternativa al método estándar red neuronal convolucional (CNN) para tareas visuales. A diferencia de las CNN, que procesan los píxeles mediante filtros locales, las ViT tratan una imagen como una secuencia de de parches de tamaño fijo, lo que les permite captar el contexto global y las dependencias de largo alcance desde la primera capa. mediante la autoatención.

¿Cómo funcionan los Vision Transformers?

La arquitectura de un ViT representa un cambio significativo en la forma en que las máquinas procesan la información visual. El flujo de trabajo consiste en descomponer una imagen en componentes más pequeños que puedan procesarse de forma similar a las palabras de una frase.

Partición de parches: La imagen de entrada se divide en una cuadrícula de parches no superpuestos (por ejemplo, 16x16 píxeles). Este paso transforma la imagen 2D en una secuencia de vectores 1D, convirtiendo los datos visuales en fichas.
Proyección lineal de parches aplanados: Cada parche se aplana y proyecta en un espacio espacio de menor dimensión, creando incrustaciones que representan las características visuales de esa zona específica.
Incrustaciones posicionales: Dado que la arquitectura Transformer no comprende intrínsecamente el orden de la secuencia, se añaden incrustaciones posicionales aprendibles a las incrustaciones de parches para conservar la información espacial espacial sobre la ubicación de cada parche en la imagen original.
Codificador Transformer: La secuencia de incrustaciones se introduce en un codificador Transformer estándar. Aquí, el mecanismo de atención permite al modelo aprender las relaciones entre cada parche y cada parche, independientemente de su distancia en la imagen. imagen.
Cabezal de clasificación: Para tareas como clasificación de imágenes, se añade un a la secuencia, y su estado final se introduce en una cabeza de Perceptrón Multicapa (MLP) para predecir la etiqueta de clase. clase.

Arquitecturas ViT vs. CNN

Aunque ambas arquitecturas son fundamentales para la visión por ordenador (CV), se basan en diferentes sesgos inductivos. Las CNN utilizan operaciones de convolución que dan prioridad a las interacciones locales y a la invariancia de traslación (reconocer un objeto independientemente de su posición). Este Esto hace que las CNN sean muy eficientes con conjuntos de datos pequeños. Por el contrario, los ViT tienen una estructura menos específica de la imagen y se basan en el aprendizaje de patrones directamente a partir de conjuntos de datos masivos. directamente de conjuntos de datos masivos como ImageNet.

Los ViT suelen destacar cuando se entrenan con grandes cantidades de datos, ya que pueden modelar relaciones globales complejas que las CNN podrían pasar por alto. que las CNN podrían pasar por alto. Sin embargo, este alcance global suele tener como contrapartida mayores requisitos informáticos para el entrenamiento y velocidades de inferencia más lentas en entornos con recursos limitados. entrenamiento y velocidades de inferencia más lentas en dispositivos recursos limitados. Los modelos híbridos como RT-DETR intentan salvar esta distancia combinando una CNN para la extracción eficaz de características con un Transformer para el contexto global.

Aplicaciones en el mundo real

Los Transformadores de Visión han tenido éxito en ámbitos en los que comprender el contexto holístico de una escena es más importante que los detalles de textura de bajo nivel. que los detalles de textura de bajo nivel.

Análisis de imágenes médicas: En campos como análisis de imágenes médicas, los ViT se utilizan para detect anomalías en resonancias magnéticas o radiografías. Por ejemplo, en detección de tumores, un ViT puede correlacionar características de partes distantes de un órgano para identificar tejidos malignos que podrían parecer normales aisladamente, mejorando la precisión del diagnóstico. aislados, lo que mejora la precisión del diagnóstico.
Teledetección e imágenes por satélite: Los ViT se utilizan eficazmente para analizar imágenes de satélite para la vigilancia del medio ambiente. Su capacidad para procesar el contexto global ayuda a distinguir entre tipos de terreno similares. tipos de terreno similares, como la diferenciación entre diversos campos de cultivo o el seguimiento de la expansión urbana en grandes áreas geográficas. zonas geográficas.

Utilización de transformadores con Ultralytics

En ultralytics admite arquitecturas basadas en Transformer, como RT-DETR (Real-Time Detection Transformer), que aprovecha los puntos fuertes de ViTs para detección de objetos. Mientras que los modelos basados en CNN como el recomendado YOLO11 suelen ser más rápidas para las aplicaciones en tiempo real RT-DETR ofrece una alternativa robusta cuando se prioriza la alta precisión y el contexto global.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes
results[0].show()

De cara al futuro, las innovaciones en eficiencia son cruciales. Ultralytics está desarrollando YOLO26, cuyo objetivo es ofrecer la gran precisión de los con los transformadores, manteniendo al mismo tiempo la velocidad de las CNN. Además, la próxima Ultralytics Platform agilizará el flujo de trabajo para entrenar e implantar estos modelos avanzados en diversos entornos, desde servidores en la nube hasta hardware periférico. Grandes marcos como PyTorch y TensorFlow siguen ampliando su compatibilidad con las variantes ViT, impulsando la investigación en este campo.

Vision Transformer (ViT)

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

¿Cómo funcionan los Vision Transformers?

Arquitecturas ViT vs. CNN

Aplicaciones en el mundo real

Utilización de transformadores con Ultralytics

Leer más en esta categoría

Tendencias futuras en la detección de objetos: 7 aspectos clave a tener en cuenta

Mejora de la reidentificación de vehículos con los modelosYOLO Ultralytics

Mejora de la predicción de colisiones con los modelosYOLO Ultralytics

Únase a la comunidad Ultralytics