Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
A Apple apresenta o FastVLM na CVPR 2025. Este modelo de linguagem de visão de código aberto inclui o codificador FastViTHD, que proporciona um tempo até 85 × mais rápido para o primeiro token.
Na conferência CVPR 2025, a Apple apresentou um novo modelo de IA de código aberto chamado FastVLM. Foi concebido para compreender imagens e linguagem e funciona em dispositivos Apple, como iPhones, iPads e Macs. Isto significa que pode fornecer resultados inteligentes rapidamente, sem enviar os seus dados para a nuvem.
O que torna o FastVLM particularmente interessante é o facto de ser rápido e eficiente. A Apple desenvolveu um novo codificador de visão chamado FastViTHD, que ajuda o modelo a interpretar imagens de alta qualidade, utilizando menos memória e energia. Todo o processamento é efectuado localmente no dispositivo, o que resulta em tempos de resposta mais rápidos, preservando a privacidade do utilizador.
Neste artigo, vamos explorar como funciona o FastVLM, o que o distingue e porque é que este lançamento da Apple pode ser um passo significativo para as aplicações de IA quotidianas nos seus dispositivos.
Compreender os modelos de visão linguística (VLMs)
Antes de nos debruçarmos sobre o que torna o FastVLM especial, vamos explicar o que significa o "VLM" no seu nome. Refere-se a um modelo de visão-linguagem, que foi concebido para compreender e ligar o conteúdo visual à linguagem.
Os VLMs reúnem a compreensão visual e a linguagem, permitindo-lhes realizar tarefas como descrever uma fotografia, responder a perguntas sobre uma captura de ecrã ou extrair texto de um documento. Os modelos de visão-linguagem funcionam normalmente em duas partes: uma processa a imagem e converte-a em dados, enquanto a outra interpreta esses dados para gerar uma resposta que pode ser lida ou ouvida.
É possível que já tenha utilizado este tipo de inovação da IA sem sequer se aperceber. As aplicações que digitalizam recibos, lêem cartões de identificação, geram legendas de imagens ou ajudam as pessoas com baixa visão a interagir com os seus ecrãs dependem frequentemente de modelos de linguagem visual que funcionam silenciosamente em segundo plano.
O que é FastVLM?
A Apple criou o FastVLM para executar as mesmas tarefas que outros modelos de linguagem visual, mas com maior velocidade, maior privacidade e desempenho optimizado nos seus próprios dispositivos. Consegue compreender o conteúdo de uma imagem e responder com texto, mas ao contrário de muitos modelos que dependem de servidores na nuvem, o FastVLM pode ser executado inteiramente no iPhone, iPad ou Mac.
Os VLMs têm geralmente um melhor desempenho com imagens de alta resolução. Por exemplo, como se mostra abaixo, o FastVLM só conseguiu identificar corretamente um sinal de rua como "Não entrar" quando lhe foi dada uma versão de alta resolução da imagem. No entanto, as entradas de alta resolução normalmente tornam os modelos mais lentos. É aqui que o FastViTHD faz a diferença.
Fig. 1. Desempenho do FastVLM em imagens de baixa vs. alta resolução.(Fonte)
O novo codificador de visão da Apple, FastViTHD, ajuda o FastVLM a processar imagens de alta qualidade de forma mais eficiente, utilizando menos memória e energia. Especificamente, o FastViTHD é suficientemente leve para funcionar sem problemas mesmo em dispositivos mais pequenos.
Além disso, o FastVLM está disponível publicamente no repositório FastVLM GitHub, onde os programadores podem aceder ao código-fonte, efetuar alterações e utilizá-lo nas suas próprias aplicações, de acordo com os termos de licença da Apple.
Comparação do FastVLM com outros modelos VLM
Em comparação com outros modelos de linguagem de visão, o FastVLM está optimizado para funcionar em dispositivos do dia a dia, como smartphones e computadores portáteis. Nos testes de desempenho, o FastVLM gerou a sua primeira palavra ou saída até 85 vezes mais rápido do que modelos como o LLaVA-OneVision-0.5B.
Figura 2. Comparação do desempenho do FastVLM com outros modelos.(Fonte)
Aqui está um vislumbre de alguns dos benchmarks padrão em que o FastVLM foi avaliado:
DocVQA (Document Visual Question Answering): Este parâmetro de referência avalia a capacidade do modelo para ler e compreender informações textuais em documentos, tais como formulários ou páginas digitalizadas.
TextVQA (Text-based Visual Question Answering): Avalia a capacidade do modelo para interpretar imagens que contêm texto incorporado e responder com exatidão a perguntas relacionadas.
GQA (Graph Question Answering): Esta tarefa testa as capacidades de raciocínio do modelo, exigindo-lhe que compreenda as relações entre objectos e cenas dentro de uma imagem.
MMMU (Massive Multi-discipline Multimodal Understanding): Mede o desempenho do modelo numa vasta gama de disciplinas e formatos académicos, combinando a compreensão visual e textual.
SeedBench (Standard Evaluation of Enhanced Data for Benchmarking): Este parâmetro de referência explora as capacidades gerais do modelo na compreensão visual e no raciocínio em vários domínios.
Em todos esses benchmarks, o FastVLM obteve resultados competitivos, utilizando menos recursos. Traz a IA visual prática para dispositivos do quotidiano, como telemóveis, tablets e computadores portáteis.
O codificador de visão eficiente FastVLM: FastViTHD
De seguida, vamos analisar mais detalhadamente o FastViTHD, o codificador de visão que desempenha um papel crucial no desempenho do processamento de imagem do FastVLM.
A maioria dos modelos de linguagem de visão divide uma imagem em milhares de pequenos fragmentos chamados tokens. Quanto mais tokens, mais tempo e potência o modelo necessita para compreender a imagem. Isto pode tornar as coisas lentas, especialmente em telemóveis ou computadores portáteis.
Fig. 3. Como um codificador de visão processa uma imagem.(Fonte)
O FastViTHD evita o abrandamento resultante do processamento de demasiados tokens, utilizando menos tokens, sem deixar de compreender a imagem completa. Combina duas abordagens: transformadores, que são bons na modelação de padrões e relações, e camadas convolucionais, que são eficientes no processamento de dados visuais. O resultado é um sistema que funciona mais rapidamente e utiliza menos memória.
De acordo com a Apple, o FastViTHD é até 3,4 vezes mais pequeno do que alguns codificadores de visão tradicionais, mantendo uma elevada precisão. Em vez de se basear em técnicas de otimização de modelos, como a poda de token (remoção de fragmentos de imagem menos importantes para acelerar o processamento), consegue a eficiência através de uma arquitetura mais simples e optimizada.
Variantes do modelo FastVLM e pipeline de treino
A Apple lançou o FastVLM em três tamanhos diferentes: 0,5B, 1,5B e 7B parâmetros (onde "B" significa biliões, referindo-se ao número de pesos treináveis no modelo). Cada versão foi concebida para se adaptar a diferentes tipos de dispositivos. Os modelos mais pequenos podem ser executados em telemóveis e tablets, enquanto o modelo maior de 7B é mais adequado para computadores de secretária ou tarefas mais exigentes.
Isto dá aos programadores a flexibilidade para escolherem o que funciona melhor para as suas aplicações. Podem construir algo rápido e leve para dispositivos móveis ou algo mais complexo para sistemas maiores, tudo isto utilizando a mesma arquitetura de modelo subjacente.
A Apple treinou as variantes do modelo FastVLM utilizando o pipeline LLaVA-1.5, uma estrutura para alinhar modelos de visão e de linguagem. Para a componente de linguagem, avaliaram o FastVLM utilizando modelos de código aberto existentes, como o Qwen e o Vicuna, que são conhecidos por gerar texto natural e coerente. Esta configuração permite que o FastVLM processe imagens simples e complexas e produza respostas legíveis e relevantes.
O significado do FastVLM: a abordagem eficiente da Apple à IA
Poderá estar a perguntar-se, porque é que o processamento de imagem eficiente do FastVLM é importante? A questão é a facilidade com que as aplicações podem funcionar em tempo real sem depender da nuvem. O FastVLM pode processar imagens de alta resolução, até 1152 por 1152 pixéis, mantendo-se suficientemente rápido e leve para ser executado diretamente no seu dispositivo.
Isto significa que as aplicações podem descrever o que a câmara vê, digitalizar recibos à medida que são capturados ou responder a alterações no ecrã, mantendo tudo localmente. É especialmente útil para áreas como a educação, a acessibilidade, a produtividade e a fotografia.
Uma vez que o FastViTHD é eficiente, mesmo quando se trata de imagens de grandes dimensões, ajuda a manter os dispositivos com boa capacidade de resposta e frescos. Funciona com todos os tamanhos de modelos, incluindo o mais pequeno, que funciona em iPhones de entrada de gama. Isto significa que as mesmas funcionalidades de IA podem funcionar em telemóveis, tablets e Macs.
Aplicações do FastVLM
O FastVLM pode alimentar uma vasta gama de aplicações, graças às suas principais vantagens, como a velocidade, a eficiência e a privacidade no dispositivo. Aqui estão algumas formas de o utilizar:
Leitura de documentos: Pode digitalizar recibos, formulários ou cartões de identificação e extrair apenas as informações relevantes. Pode focar-se em áreas específicas de uma imagem, o que é útil para aplicações que necessitem de uma extração de texto rápida e precisa.
Legendas de imagens: Ao analisar uma fotografia, pode gerar uma descrição clara do que está na imagem. Isto suporta funcionalidades em aplicações de câmara, galerias de fotografias ou qualquer ferramenta que beneficie da compreensão visual em tempo real.
Suporte à acessibilidade: O FastVLM pode descrever o conteúdo no ecrã para utilizadores cegos ou com baixa visão, tornando os botões, menus e elementos de apresentação mais fáceis de navegar e utilizar.
Assistentes de IA no dispositivo: O FastVLM pode funcionar bem com assistentes de IA que precisam de compreender rapidamente o que está no ecrã. Uma vez que é executado diretamente no dispositivo e mantém os dados privados, pode ajudar em tarefas como a leitura de texto, a identificação de botões ou ícones e a orientação dos utilizadores em tempo real, sem necessidade de enviar informações para a nuvem.
Fig. 4. O FastVLM pode ser utilizado para reconhecimento de texto e resposta a perguntas visuais.(Fonte)
Principais conclusões
O FastVLM traz a IA em linguagem de visão para os dispositivos Apple, combinando velocidade, privacidade e eficiência. Com um design leve e uma versão de código aberto, permite a compreensão de imagens em tempo real em aplicações móveis e de secretária.
Isto ajuda a tornar a IA mais prática e acessível para a utilização quotidiana e dá aos programadores uma base sólida para a criação de aplicações úteis e centradas na privacidade. Olhando para o futuro, é provável que os modelos de visão-linguagem venham a desempenhar um papel importante na forma como interagimos com a tecnologia, tornando a IA mais reactiva, consciente do contexto e útil em situações quotidianas.