Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Apple presenta FastVLM en CVPR 2025. Este modelo de visión-lenguaje de código abierto presenta el codificador FastViTHD, que ofrece un tiempo hasta el primer token hasta 85 × más rápido.
En la conferencia CVPR 2025, Apple presentó un nuevo modelo de IA de código abierto llamado FastVLM. Está construido para comprender tanto imágenes como lenguaje, y se ejecuta en dispositivos Apple como iPhones, iPads y Macs. Esto significa que puede ofrecer resultados inteligentes rápidamente, sin enviar sus datos a la nube.
Lo que hace que FastVLM sea particularmente interesante es su rapidez y eficiencia. Apple desarrolló un nuevo codificador de visión llamado FastViTHD, que ayuda al modelo a interpretar imágenes de alta calidad utilizando menos memoria y energía. Todo el procesamiento se realiza localmente en el dispositivo, lo que resulta en tiempos de respuesta más rápidos al tiempo que se preserva la privacidad del usuario.
En este artículo, exploraremos cómo funciona FastVLM, qué lo distingue y por qué este lanzamiento de Apple podría ser un importante paso adelante para las aplicaciones de IA cotidianas en sus dispositivos.
Entendiendo los modelos de lenguaje de visión (VLM)
Antes de profundizar en lo que hace que FastVLM sea especial, repasemos lo que significa el "VLM" en su nombre. Se refiere a un modelo de visión-lenguaje, que está diseñado para comprender y conectar el contenido visual con el lenguaje.
Los VLM combinan la comprensión visual y el lenguaje, lo que les permite realizar tareas como describir una foto, responder preguntas sobre una captura de pantalla o extraer texto de un documento. Los modelos de visión-lenguaje suelen funcionar en dos partes: una procesa la imagen y la convierte en datos, mientras que la otra interpreta esos datos para generar una respuesta que se puede leer o escuchar.
Es posible que ya haya utilizado este tipo de innovación de IA sin siquiera darse cuenta. Las aplicaciones que escanean recibos, leen tarjetas de identificación, generan subtítulos de imágenes o ayudan a las personas con baja visión a interactuar con sus pantallas a menudo se basan en modelos de visión-lenguaje que se ejecutan silenciosamente en segundo plano.
¿Qué es FastVLM?
Apple construyó FastVLM para realizar las mismas tareas que otros modelos de visión-lenguaje, pero con mayor velocidad, mayor privacidad y un rendimiento optimizado en sus propios dispositivos. Puede entender el contenido de una imagen y responder con texto, pero a diferencia de muchos modelos que dependen de servidores en la nube, FastVLM puede ejecutarse completamente en tu iPhone, iPad o Mac.
Los VLM generalmente funcionan mejor con imágenes de alta resolución. Por ejemplo, como se muestra a continuación, FastVLM solo pudo identificar correctamente una señal de tráfico como “Do Not Enter” cuando se le proporcionó una versión de alta resolución de la imagen. Sin embargo, las entradas de alta resolución generalmente ralentizan los modelos. Aquí es donde FastViTHD marca la diferencia.
Fig. 1. Rendimiento de FastVLM en imágenes de baja vs. alta resolución. (Fuente)
El nuevo codificador de visión de Apple, FastViTHD, ayuda a FastVLM a procesar imágenes de alta calidad de forma más eficiente, utilizando menos memoria y energía. Específicamente, FastViTHD es lo suficientemente ligero como para funcionar sin problemas incluso en dispositivos más pequeños.
Además, FastVLM está disponible públicamente en el repositorio de FastVLM en GitHub, donde los desarrolladores pueden acceder al código fuente, realizar cambios y utilizarlo en sus propias aplicaciones de acuerdo con los términos de la licencia de Apple.
Comparación de FastVLM con otros modelos VLM
En comparación con otros modelos de visión-lenguaje, FastVLM está optimizado para funcionar en dispositivos cotidianos como smartphones y ordenadores portátiles. En las pruebas de rendimiento, FastVLM generó su primera palabra o salida hasta 85 veces más rápido que modelos como LLaVA-OneVision-0.5B.
Fig. 2. Comparación del rendimiento de FastVLM con otros modelos. (Fuente)
Aquí tienes un vistazo de algunos de los benchmarks estándar en los que se ha evaluado FastVLM:
DocVQA (Document Visual Question Answering): Este benchmark evalúa qué tan bien el modelo puede leer y comprender la información textual en documentos, como formularios o páginas escaneadas.
TextVQA (Respuesta a preguntas visuales basadas en texto): Evalúa la capacidad del modelo para interpretar imágenes que contienen texto incrustado y responder con precisión a las preguntas relacionadas.
GQA (Graph Question Answering): Esta tarea pone a prueba las habilidades de razonamiento del modelo al requerirle que comprenda las relaciones entre los objetos y las escenas dentro de una imagen.
MMMU (Comprensión Multimodal Masiva y Multidisciplinaria): Mide el rendimiento del modelo en una amplia gama de materias y formatos académicos, combinando la comprensión visual y textual.
SeedBench (Evaluación Estándar de Datos Mejorados para la Evaluación Comparativa): Este benchmark explora las capacidades generales del modelo en la comprensión visual y el razonamiento en múltiples dominios.
En estas pruebas comparativas, FastVLM logró resultados competitivos utilizando menos recursos. Aporta IA visual práctica a dispositivos cotidianos como teléfonos, tabletas y ordenadores portátiles.
Codificador de visión eficiente de FastVLM: FastViTHD
A continuación, analicemos más de cerca FastViTHD, el codificador de visión que desempeña un papel crucial en el rendimiento del procesamiento de imágenes de FastVLM.
La mayoría de los modelos de lenguaje visual dividen una imagen en miles de pequeños parches llamados tokens. Cuantos más tokens, más tiempo y potencia necesita el modelo para comprender la imagen. Esto puede ralentizar las cosas, especialmente en teléfonos o computadoras portátiles.
Fig. 3. Cómo un codificador de visión procesa una imagen. (Fuente)
FastViTHD evita la ralentización que se produce al procesar demasiados tokens utilizando menos, sin dejar de comprender la imagen completa. Combina dos enfoques: transformers, que son buenos para modelar patrones y relaciones, y capas convolucionales, que son eficientes para procesar datos visuales. El resultado es un sistema que funciona más rápido y utiliza menos memoria.
Según Apple, FastViTHD es hasta 3,4 veces más pequeño que algunos codificadores de visión tradicionales, manteniendo a la vez una alta precisión. En lugar de depender de técnicas de optimización de modelos como la poda de tokens (eliminar parches de imagen menos importantes para acelerar el procesamiento), logra eficiencia a través de una arquitectura más simple y optimizada.
Variantes de modelo y pipeline de entrenamiento de FastVLM
Apple ha lanzado FastVLM en tres tamaños diferentes: 0.5B, 1.5B y 7B parámetros (donde "B" significa mil millones, refiriéndose al número de pesos entrenables en el modelo). Cada versión está diseñada para adaptarse a diferentes tipos de dispositivos. Los modelos más pequeños pueden ejecutarse en teléfonos y tabletas, mientras que el modelo más grande de 7B es más adecuado para ordenadores de escritorio o tareas más exigentes.
Esto les da a los desarrolladores la flexibilidad de elegir lo que mejor se adapte a sus aplicaciones. Pueden construir algo rápido y ligero para móviles o algo más complejo para sistemas más grandes, todo ello utilizando la misma arquitectura de modelo subyacente.
Apple entrenó las variantes del modelo FastVLM utilizando el pipeline LLaVA-1.5, un marco para alinear la visión y los modelos de lenguaje. Para el componente de lenguaje, evaluaron FastVLM utilizando modelos de código abierto existentes como Qwen y Vicuna, que son conocidos por generar texto natural y coherente. Esta configuración permite a FastVLM procesar imágenes tanto simples como complejas y producir respuestas legibles y relevantes.
La importancia de FastVLM: la eficiente propuesta de Apple sobre la IA
Quizás se pregunte, ¿por qué es importante el procesamiento eficiente de imágenes de FastVLM? Se reduce a la fluidez con la que las aplicaciones pueden funcionar en tiempo real sin depender de la nube. FastVLM puede manejar imágenes de alta resolución, de hasta 1152 por 1152 píxeles, sin dejar de ser lo suficientemente rápido y ligero como para ejecutarse directamente en su dispositivo.
Esto significa que las aplicaciones pueden describir lo que ve la cámara, escanear recibos a medida que se capturan o responder a los cambios en la pantalla, todo ello manteniendo todo localmente. Es especialmente útil para áreas como la educación, la accesibilidad, la productividad y la fotografía.
Dado que FastViTHD es eficiente incluso cuando se trata de imágenes grandes, ayuda a mantener los dispositivos receptivos y fríos. Funciona con todos los tamaños de modelo, incluido el más pequeño, que se ejecuta en iPhones de nivel básico. Esto significa que las mismas funciones de IA pueden funcionar en teléfonos, tabletas y Macs.
Aplicaciones de FastVLM
FastVLM puede impulsar una amplia gama de aplicaciones, gracias a sus beneficios clave como la velocidad, la eficiencia y la privacidad en el dispositivo. Aquí hay algunas formas en que se puede utilizar:
Lectura de documentos: Puede escanear recibos, formularios o tarjetas de identificación y extraer solo la información relevante. Puede centrarse en áreas específicas de una imagen, lo que es útil para las aplicaciones que necesitan una extracción de texto rápida y precisa.
Subtítulos de imágenes: Al analizar una foto, puede generar una descripción clara de lo que hay en la imagen. Esto es compatible con funciones en aplicaciones de cámara, galerías de fotos o cualquier herramienta que se beneficie de la comprensión visual en tiempo real.
Soporte de accesibilidad: FastVLM puede describir el contenido en pantalla para usuarios ciegos o con baja visión, lo que facilita la navegación y el uso de botones, menús y elementos de diseño.
Asistentes de IA en el dispositivo: FastVLM puede funcionar bien con asistentes de IA que necesitan comprender rápidamente lo que hay en la pantalla. Dado que se ejecuta directamente en el dispositivo y mantiene la privacidad de los datos, puede ayudar con tareas como leer texto, identificar botones o iconos y guiar a los usuarios en tiempo real sin necesidad de enviar información a la nube.
Fig. 4. FastVLM se puede utilizar para el reconocimiento de texto y el "visual question answering". (Fuente)
Conclusiones clave
FastVLM lleva la IA de visión-lenguaje en el dispositivo a los dispositivos Apple, combinando velocidad, privacidad y eficiencia. Con su diseño ligero y su lanzamiento de código abierto, permite la comprensión de imágenes en tiempo real en aplicaciones móviles y de escritorio.
Esto ayuda a que la IA sea más práctica y accesible para el uso diario, y brinda a los desarrolladores una base sólida para construir aplicaciones útiles y centradas en la privacidad. De cara al futuro, es probable que los modelos de visión-lenguaje desempeñen un papel importante en la forma en que interactuamos con la tecnología, haciendo que la IA sea más receptiva, consciente del contexto y útil en situaciones cotidianas.