FastVLM: Apple presenta su nuevo modelo rápido de lenguaje y visión
Apple presenta FastVLM en CVPR 2025. Este modelo de lenguaje y visión de código abierto cuenta con el codificador FastViTHD, que ofrece un tiempo hasta el primer token hasta 85 veces más rápido.

En la conferencia CVPR 2025, Apple presentó un nuevo modelo de IA de código abierto llamado FastVLM. Está diseñado para comprender tanto imágenes como lenguaje, y funciona en dispositivos Apple como iPhones, iPads y Macs. Esto significa que puede ofrecer resultados inteligentes rápidamente, sin enviar tus datos a la nube.
Lo que hace que FastVLM sea particularmente interesante es lo rápido y eficiente que es. Apple desarrolló un nuevo codificador de visión llamado FastViTHD, que ayuda al modelo a interpretar imágenes de alta calidad utilizando menos memoria y energía. Todo el procesamiento se realiza localmente en el dispositivo, lo que resulta en tiempos de respuesta más rápidos mientras se preserva la privacidad del usuario.
En este artículo, exploraremos cómo funciona FastVLM, qué lo diferencia y por qué este lanzamiento de Apple podría ser un paso significativo para las aplicaciones de IA cotidianas en tus dispositivos.
Link to this sectionComprender los modelos de lenguaje visual (VLM)#
Antes de profundizar en lo que hace especial a FastVLM, expliquemos qué significan las siglas "VLM". Se refiere a un modelo de lenguaje visual, diseñado para comprender y conectar contenido visual con lenguaje.
Los VLM combinan la comprensión visual y el lenguaje, permitiéndoles realizar tareas como describir una foto, responder preguntas sobre una captura de pantalla o extraer texto de un documento. Los modelos de lenguaje visual suelen trabajar en dos partes: una procesa la imagen y la convierte en datos, mientras que la otra interpreta esos datos para generar una respuesta que puedes leer o escuchar.
Es posible que ya hayas usado este tipo de innovación en IA sin darte cuenta. Las aplicaciones que escanean recibos, leen tarjetas de identificación, generan subtítulos para imágenes o ayudan a personas con baja visión a interactuar con sus pantallas a menudo dependen de modelos de lenguaje visual que funcionan silenciosamente en segundo plano.
Link to this section¿Qué es FastVLM?#
Apple creó FastVLM para realizar las mismas tareas que otros modelos de lenguaje visual, pero con mayor velocidad, una privacidad más sólida y un rendimiento optimizado en sus propios dispositivos. Puede comprender el contenido de una imagen y responder con texto, pero a diferencia de muchos modelos que dependen de servidores en la nube, FastVLM puede ejecutarse completamente en tu iPhone, iPad o Mac.
Los VLM generalmente funcionan mejor con imágenes de alta resolución. Por ejemplo, como se muestra a continuación, FastVLM solo pudo identificar correctamente una señal de tráfico como “Dirección prohibida” cuando se le proporcionó una versión de alta resolución de la imagen. Sin embargo, las entradas de alta resolución suelen ralentizar los modelos. Aquí es donde FastViTHD marca la diferencia.

Fig 1. Rendimiento de FastVLM en imágenes de baja frente a alta resolución. (Fuente)
El nuevo codificador de visión de Apple, FastViTHD, ayuda a FastVLM a procesar imágenes de alta calidad de forma más eficiente, utilizando menos memoria y energía. Específicamente, FastViTHD es lo suficientemente ligero como para ejecutarse sin problemas incluso en dispositivos más pequeños.
Además, FastVLM está disponible públicamente en el repositorio de GitHub de FastVLM, donde los desarrolladores pueden acceder al código fuente, realizar cambios y utilizarlo en sus propias aplicaciones de acuerdo con los términos de la licencia de Apple.
Link to this sectionComparación de FastVLM con otros modelos VLM#
En comparación con otros modelos de lenguaje visual, FastVLM está optimizado para ejecutarse en dispositivos cotidianos como teléfonos inteligentes y portátiles. En pruebas de rendimiento, FastVLM generó su primera palabra o salida hasta 85 veces más rápido que modelos como LLaVA-OneVision-0.5B.

Fig 2. Comparación del rendimiento de FastVLM con otros modelos. (Fuente)
Aquí tienes un vistazo a algunos de los puntos de referencia estándar en los que se ha evaluado FastVLM:
- DocVQA (Document Visual Question Answering): Este benchmark evalúa qué tan bien puede el modelo leer y comprender información textual en documentos, como formularios o páginas escaneadas.
- TextVQA (Text-based Visual Question Answering): Evalúa la capacidad del modelo para interpretar imágenes que contienen texto incrustado y responder preguntas relacionadas con precisión.
- GQA (Graph Question Answering): Esta tarea pone a prueba las habilidades de razonamiento del modelo al exigirle comprender las relaciones entre objetos y escenas dentro de una imagen.
- MMMU (Massive Multi-discipline Multimodal Understanding): Mide el rendimiento del modelo en una amplia gama de temas académicos y formatos, combinando la comprensión visual y textual.
- SeedBench (Standard Evaluation of Enhanced Data for Benchmarking): Este benchmark explora las capacidades generales del modelo en la comprensión visual y el razonamiento en múltiples dominios.
En estos benchmarks, FastVLM logró resultados competitivos utilizando menos recursos. Trae la IA visual práctica a dispositivos cotidianos como teléfonos, tabletas y portátiles.
Link to this sectionEl codificador de visión eficiente de FastVLM: FastViTHD#
A continuación, veamos más de cerca FastViTHD, el codificador de visión que desempeña un papel crucial en el rendimiento del procesamiento de imágenes de FastVLM.
La mayoría de los modelos de lenguaje visual dividen una imagen en miles de pequeños parches llamados tokens. Cuantos más tokens, más tiempo y energía necesita el modelo para comprender la imagen. Esto puede ralentizar las cosas, especialmente en teléfonos o portátiles.

Fig 3. Cómo procesa una imagen un codificador de visión. (Fuente)
FastViTHD evita la ralentización que conlleva procesar demasiados tokens al usar menos de ellos, sin dejar de entender la imagen completa. Combina dos enfoques: transformers, que son buenos para modelar patrones y relaciones, y capas convolucionales, que son eficientes en el procesamiento de datos visuales. El resultado es un sistema que funciona más rápido y utiliza menos memoria.
Según Apple, FastViTHD es hasta 3,4 veces más pequeño que algunos codificadores de visión tradicionales, manteniendo una alta precisión. En lugar de depender de técnicas de optimización de modelos como la poda de tokens (eliminar parches de imagen menos importantes para acelerar el procesamiento), logra la eficiencia a través de una arquitectura más simple y optimizada.
Link to this sectionVariantes del modelo FastVLM y pipeline de entrenamiento#
Apple ha lanzado FastVLM en tres tamaños diferentes: 0.5B, 1.5B y 7B parámetros (donde "B" significa mil millones, refiriéndose al número de pesos entrenables en el modelo). Cada versión está diseñada para adaptarse a diferentes tipos de dispositivos. Los modelos más pequeños pueden ejecutarse en teléfonos y tabletas, mientras que el modelo 7B más grande es más adecuado para equipos de escritorio o tareas más exigentes.
Esto brinda a los desarrolladores la flexibilidad de elegir lo que mejor funcione para sus aplicaciones. Pueden crear algo rápido y ligero para móviles o algo más complejo para sistemas más grandes, todo ello utilizando la misma arquitectura de modelo subyacente.
Apple entrenó las variantes del modelo FastVLM utilizando el pipeline LLaVA‑1.5, un marco para alinear modelos de visión y lenguaje. Para el componente de lenguaje, evaluaron FastVLM utilizando modelos de código abierto existentes como Qwen y Vicuna, que son conocidos por generar texto natural y coherente. Esta configuración permite a FastVLM procesar imágenes simples y complejas y producir respuestas legibles y relevantes.
Link to this sectionLa importancia de FastVLM: la apuesta eficiente de Apple por la IA#
Quizás te preguntes, ¿por qué es importante el procesamiento eficiente de imágenes de FastVLM? Se reduce a lo fluido que pueden trabajar las aplicaciones en tiempo real sin depender de la nube. FastVLM puede manejar imágenes de alta resolución, de hasta 1152 por 1152 píxeles, manteniéndose lo suficientemente rápido y ligero para ejecutarse directamente en tu dispositivo.
Esto significa que las aplicaciones pueden describir lo que ve la cámara, escanear recibos a medida que se capturan o responder a cambios en la pantalla, todo mientras se mantiene todo localmente. Es especialmente útil para áreas como la educación, la accesibilidad, la productividad y la fotografía.
Dado que FastViTHD es eficiente incluso con imágenes grandes, ayuda a mantener los dispositivos receptivos y frescos. Funciona con todos los tamaños de modelo, incluido el más pequeño, que se ejecuta en iPhones de gama de entrada. Eso significa que las mismas funciones de IA pueden funcionar en teléfonos, tabletas y Macs.
Link to this sectionAplicaciones de FastVLM#
FastVLM puede potenciar una amplia gama de aplicaciones, gracias a sus beneficios clave como la velocidad, la eficiencia y la privacidad en el dispositivo. Aquí tienes algunas formas en las que se puede utilizar:
-
Lectura de documentos: Puede escanear recibos, formularios o tarjetas de identificación y extraer solo la información relevante. Puede enfocarse en áreas específicas de una imagen, lo cual es útil para aplicaciones que necesitan una extracción de texto rápida y precisa.
-
Subtítulos de imágenes: Al analizar una foto, puede generar una descripción clara de lo que hay en la imagen. Esto respalda funciones en aplicaciones de cámara, galerías de fotos o cualquier herramienta que se beneficie de la comprensión visual en tiempo real.
-
Soporte de accesibilidad: FastVLM puede describir contenido en pantalla para usuarios ciegos o con baja visión, haciendo que los botones, menús y elementos de diseño sean más fáciles de navegar y usar.
-
Asistentes de IA en el dispositivo: FastVLM puede funcionar bien con asistentes de IA que necesitan comprender rápidamente lo que hay en la pantalla. Dado que se ejecuta directamente en el dispositivo y mantiene los datos privados, puede ayudar con tareas como leer texto, identificar botones o iconos y guiar a los usuarios en tiempo real sin necesidad de enviar información a la nube.

Fig 4. FastVLM se puede utilizar para el reconocimiento de texto y la respuesta visual a preguntas. (Fuente)
Link to this sectionConclusiones clave#
FastVLM lleva la IA de lenguaje visual al dispositivo a los dispositivos Apple, combinando velocidad, privacidad y eficiencia. Con su diseño ligero y su lanzamiento de código abierto, permite la comprensión de imágenes en tiempo real en aplicaciones móviles y de escritorio.
Esto ayuda a hacer que la IA sea más práctica y accesible para el uso diario, y brinda a los desarrolladores una base sólida para crear aplicaciones útiles centradas en la privacidad. Mirando hacia el futuro, es probable que los modelos de lenguaje visual desempeñen un papel importante en cómo interactuamos con la tecnología, haciendo que la IA sea más receptiva, consciente del contexto y útil en situaciones cotidianas.
Explora nuestro repositorio de GitHub para aprender más sobre IA. Únete a nuestra comunidad activa y descubre innovaciones en sectores como la IA en la industria automotriz y la IA de visión en la fabricación. Para comenzar con la visión artificial hoy mismo, consulta nuestras opciones de licencia.






