FastVLM: Apple presenta su nuevo modelo de lenguaje de visión rápida

Abirami Vina

4 min leer

8 de agosto de 2025

Apple presenta FastVLM en CVPR 2025. Este modelo de lenguaje de visión de código abierto incorpora el codificador FastViTHD, que ofrece un tiempo hasta el primer token hasta 85 veces más rápido.

En la conferencia CVPR 2025, Apple presentó un nuevo modelo de IA de código abierto llamado FastVLM. Está diseñado para comprender tanto imágenes como lenguaje y funciona en dispositivos Apple como iPhones, iPads y Macs. Esto significa que puede ofrecer resultados inteligentes rápidamente, sin necesidad de enviar los datos a la nube.

Lo que hace especialmente interesante a FastVLM es su rapidez y eficacia. Apple ha desarrollado un nuevo codificador de visión llamado FastViTHD, que ayuda al modelo a interpretar imágenes de alta calidad utilizando menos memoria y energía. Todo el procesamiento se lleva a cabo localmente en el dispositivo, lo que se traduce en tiempos de respuesta más rápidos al tiempo que se preserva la privacidad del usuario.

En este artículo, exploraremos cómo funciona FastVLM, qué lo diferencia y por qué este lanzamiento de Apple podría suponer un importante paso adelante para las aplicaciones cotidianas de IA en tus dispositivos.

Comprender los modelos de lenguaje visual (VLM)

Antes de entrar de lleno en lo que hace especial a FastVLM, veamos qué significa "VLM" en su nombre. Se trata de un modelo de visión-idioma diseñado para comprender y conectar el contenido visual con el lenguaje.

Los VLM aúnan comprensión visual y lenguaje, lo que les permite realizar tareas como describir una foto, responder a preguntas sobre una captura de pantalla o extraer texto de un documento. Los modelos de visión-lenguaje suelen funcionar en dos partes: una procesa la imagen y la convierte en datos, mientras que la otra interpreta esos datos para generar una respuesta que se pueda leer u oír.

Es posible que ya haya utilizado este tipo de innovación de IA sin darse cuenta. Las aplicaciones que escanean recibos, leen documentos de identidad, generan leyendas de imágenes o ayudan a las personas con baja visión a interactuar con sus pantallas a menudo se basan en modelos de lenguaje visual que se ejecutan silenciosamente en segundo plano.

¿Qué es FastVLM?

Apple construyó FastVLM para realizar las mismas tareas que otros modelos de visión-lenguaje, pero con mayor velocidad, mayor privacidad y un rendimiento optimizado en sus propios dispositivos. Puede entender el contenido de una imagen y responder con texto, pero a diferencia de muchos modelos que dependen de servidores en la nube, FastVLM puede ejecutarse íntegramente en tu iPhone, iPad o Mac.

Por lo general, los VLM funcionan mejor con imágenes de alta resolución. Por ejemplo, como se muestra a continuación, FastVLM sólo pudo identificar correctamente una señal de calle como "No entrar" cuando se le dio una versión de alta resolución de la imagen. Sin embargo, las entradas de alta resolución suelen ralentizar los modelos. Aquí es donde FastViTHD marca la diferencia.

Fig. 1. Rendimiento de FastVLM en imágenes de baja y alta resolución.(Fuente)

El nuevo codificador de visión de Apple, FastViTHD, ayuda a FastVLM a procesar imágenes de alta calidad de forma más eficiente, utilizando menos memoria y energía. En concreto, FastViTHD es lo bastante ligero como para funcionar sin problemas incluso en dispositivos pequeños.

Además, FastVLM está disponible públicamente en el repositorio GitHub de FastVLM, donde los desarrolladores pueden acceder al código fuente, realizar cambios y utilizarlo en sus propias aplicaciones de acuerdo con los términos de licencia de Apple.

Comparación de FastVLM con otros modelos VLM

En comparación con otros modelos de lenguaje de visión, FastVLM está optimizado para funcionar en dispositivos de uso cotidiano como teléfonos inteligentes y ordenadores portátiles. En las pruebas de rendimiento, FastVLM generó su primera palabra o salida hasta 85 veces más rápido que modelos como LLaVA-OneVision-0.5B. 

Fig. 2. Comparación del rendimiento de FastVLM con otros modelos.(Fuente)

He aquí algunos de los puntos de referencia estándar en los que se ha evaluado FastVLM:

  • DocVQA (Document Visual Question Answering): Este parámetro evalúa la capacidad del modelo para leer y comprender información textual en documentos, como formularios o páginas escaneadas.
  • TextVQA (Text-based Visual Question Answering): Evalúa la capacidad del modelo para interpretar imágenes que contienen texto incrustado y responder con precisión a preguntas relacionadas.
  • GQA (respuesta a preguntas gráficas): Esta tarea pone a prueba la capacidad de razonamiento del modelo exigiéndole que comprenda las relaciones entre objetos y escenas dentro de una imagen.
  • MMMU (Comprensión Multimodal Multidisciplinar Masiva): Mide el rendimiento del modelo en una amplia gama de materias y formatos académicos, combinando la comprensión visual y textual.
  • SeedBench (Evaluación estándar de datos mejorados para la evaluación comparativa): Esta evaluación comparativa explora las capacidades generales del modelo en comprensión visual y razonamiento en múltiples dominios.

En estas pruebas, FastVLM logró resultados competitivos con un menor consumo de recursos. Aporta una IA visual práctica a dispositivos cotidianos como teléfonos, tabletas y portátiles.

El eficaz codificador de visión de FastVLM: FastViTHD

A continuación, echemos un vistazo más de cerca a FastViTHD, el codificador de visión que desempeña un papel crucial en el rendimiento del procesamiento de imágenes de FastVLM.

La mayoría de los modelos lingüísticos de visión dividen una imagen en miles de pequeños fragmentos llamados tokens. Cuantos más tokens, más tiempo y energía necesita el modelo para comprender la imagen. Esto puede ralentizar las cosas, sobre todo en teléfonos u ordenadores portátiles.

Fig. 3. Cómo procesa una imagen un codificador de visión.(Fuente)

FastViTHD evita la ralentización que se produce al procesar demasiados tokens utilizando un número menor de ellos, sin dejar de comprender la imagen completa. Combina dos enfoques: los transformadores, que son buenos modelando patrones y relaciones, y las capas convolucionales, que son eficientes procesando datos visuales. El resultado es un sistema que funciona más rápido y utiliza menos memoria.

Según Apple, FastViTHD es hasta 3,4 veces más pequeño que algunos codificadores de visión tradicionales, manteniendo al mismo tiempo una gran precisión. En lugar de recurrir a técnicas de optimización de modelos como la poda de tokens (eliminación de los parches de imagen menos importantes para acelerar el procesamiento), logra la eficiencia mediante una arquitectura más sencilla y racionalizada.

Variantes del modelo FastVLM y proceso de formación

Apple ha lanzado FastVLM en tres tamaños diferentes: 0,5B, 1,5B y 7B parámetros (donde "B" significa mil millones, refiriéndose al número de pesos entrenables en el modelo). Cada versión está diseñada para adaptarse a distintos tipos de dispositivos. Los modelos más pequeños pueden funcionar en teléfonos y tabletas, mientras que el modelo más grande de 7B es más adecuado para ordenadores de sobremesa o tareas más exigentes.

Esto ofrece a los desarrolladores la flexibilidad de elegir lo que mejor se adapte a sus aplicaciones. Pueden crear algo rápido y ligero para móviles o algo más complejo para sistemas más grandes, todo ello utilizando la misma arquitectura de modelo subyacente.

Apple entrenó las variantes del modelo FastVLM utilizando el pipeline LLaVA-1.5, un marco para alinear modelos de visión y lenguaje. Para el componente lingüístico, evaluaron FastVLM con modelos de código abierto como Qwen y Vicuna, conocidos por generar textos naturales y coherentes. Esta configuración permite a FastVLM procesar imágenes simples y complejas y producir respuestas legibles y pertinentes.

La importancia de FastVLM: la eficiente apuesta de Apple por la IA

Quizá se pregunte por qué es importante el eficaz procesamiento de imágenes de FastVLM. Todo se reduce a la fluidez con la que las aplicaciones pueden trabajar en tiempo real sin depender de la nube. FastVLM es capaz de procesar imágenes de alta resolución, de hasta 1152 por 1152 píxeles, con la rapidez y ligereza suficientes para ejecutarse directamente en el dispositivo.

Esto significa que las aplicaciones pueden describir lo que ve la cámara, escanear recibos a medida que se capturan o responder a cambios en la pantalla, todo ello manteniendo la localización. Resulta especialmente útil en ámbitos como la educación, la accesibilidad, la productividad y la fotografía.

Como FastViTHD es eficiente incluso cuando se trata de imágenes de gran tamaño, ayuda a mantener los dispositivos ágiles y frescos. Funciona con todos los tamaños de modelo, incluido el más pequeño, que se ejecuta en iPhones de gama básica. Eso significa que las mismas funciones de IA pueden funcionar en teléfonos, tabletas y Mac.

Aplicaciones de FastVLM

FastVLM puede impulsar una amplia gama de aplicaciones, gracias a sus ventajas clave como la velocidad, la eficiencia y la privacidad en el dispositivo. Estas son algunas de sus aplicaciones:

  • Lectura de documentos: Puede escanear recibos, formularios o carnés de identidad y extraer sólo la información relevante. Puede centrarse en áreas específicas de una imagen, lo que resulta útil para aplicaciones que necesitan una extracción de texto rápida y precisa.
  • Pies de foto: Al analizar una foto, puede generar una descripción clara de lo que hay en la imagen. Esto es compatible con funciones de aplicaciones de cámara, galerías de fotos o cualquier herramienta que se beneficie de la comprensión visual en tiempo real.
  • Accesibilidad: FastVLM puede describir contenidos en pantalla para usuarios ciegos o con baja visión, facilitando la navegación y el uso de botones, menús y elementos de diseño.

Asistentes de IA en el dispositivo: FastVLM puede funcionar bien con asistentes de IA que necesitan comprender rápidamente lo que hay en la pantalla. Como se ejecuta directamente en el dispositivo y mantiene la privacidad de los datos, puede ayudar con tareas como leer texto, identificar botones o iconos y guiar a los usuarios en tiempo real sin necesidad de enviar información a la nube.

Fig. 4. FastVLM puede utilizarse para el reconocimiento de texto y la respuesta visual a preguntas.(Fuente)

Principales conclusiones

FastVLM lleva la IA en lenguaje de visión a los dispositivos Apple, combinando velocidad, privacidad y eficiencia. Con su diseño ligero y su versión de código abierto, permite comprender imágenes en tiempo real en aplicaciones móviles y de escritorio. 

Esto ayuda a que la IA sea más práctica y accesible para el uso cotidiano, y ofrece a los desarrolladores una base sólida para crear aplicaciones útiles y centradas en la privacidad. De cara al futuro, es probable que los modelos de visión-lenguaje desempeñen un papel importante en la forma en que interactuamos con la tecnología, haciendo que la IA sea más receptiva, consciente del contexto y útil en situaciones cotidianas.

Explore nuestro repositorio de GitHub para obtener más información sobre la IA. Únase a nuestra activa comunidad y descubra innovaciones en sectores como la IA en la industria del automóvil y la IA de visión en la fabricación. Para empezar hoy mismo con la visión por computador, consulte nuestras opciones de licencia.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles