Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Apple revela o FastVLM na CVPR 2025. Este modelo de visão-linguagem de código aberto apresenta o codificador FastViTHD, oferecendo até 85 × mais rápido o tempo para o primeiro token.
Na conferência CVPR 2025, a Apple apresentou um novo modelo de IA de código aberto chamado FastVLM. Ele é construído para entender tanto imagens quanto linguagem e é executado em dispositivos Apple como iPhones, iPads e Macs. Isso significa que ele pode fornecer resultados inteligentes rapidamente, sem enviar seus dados para a nuvem.
O que torna o FastVLM particularmente interessante é a sua rapidez e eficiência. A Apple desenvolveu um novo codificador de visão chamado FastViTHD, que ajuda o modelo a interpretar imagens de alta qualidade, utilizando menos memória e energia. Todo o processamento ocorre localmente no dispositivo, resultando em tempos de resposta mais rápidos, preservando a privacidade do utilizador.
Neste artigo, exploraremos como o FastVLM funciona, o que o diferencia e por que este lançamento da Apple pode ser um passo significativo para aplicações de IA cotidianas em seus dispositivos.
Compreendendo modelos de linguagem de visão (VLMs)
Antes de nos aprofundarmos no que torna o FastVLM especial, vamos explicar o que significa o "VLM" em seu nome. Ele se refere a um modelo de visão-linguagem, que é projetado para entender e conectar conteúdo visual com linguagem.
Os VLMs reúnem a compreensão visual e a linguagem, permitindo-lhes realizar tarefas como descrever uma foto, responder a perguntas sobre uma captura de tela ou extrair texto de um documento. Os modelos de visão-linguagem normalmente funcionam em duas partes: uma processa a imagem e converte-a em dados, enquanto a outra interpreta esses dados para gerar uma resposta que você pode ler ou ouvir.
Você já pode ter usado este tipo de inovação de IA sem sequer se aperceber. Aplicações que digitalizam recibos, leem cartões de identificação, geram legendas de imagens ou ajudam pessoas com baixa visão a interagir com os seus ecrãs recorrem frequentemente a modelos de visão-linguagem que funcionam silenciosamente em segundo plano.
O que é FastVLM?
A Apple construiu o FastVLM para executar as mesmas tarefas que outros modelos de visão-linguagem, mas com maior velocidade, privacidade mais forte e desempenho otimizado em seus próprios dispositivos. Ele pode entender o conteúdo de uma imagem e responder com texto, mas, ao contrário de muitos modelos que dependem de servidores em nuvem, o FastVLM pode ser executado inteiramente no seu iPhone, iPad ou Mac.
Os VLMs geralmente têm um melhor desempenho com imagens de alta resolução. Por exemplo, como mostrado abaixo, o FastVLM só conseguiu identificar corretamente uma placa de rua como “Não Entre” quando recebeu uma versão de alta resolução da imagem. No entanto, entradas de alta resolução geralmente tornam os modelos mais lentos. É aqui que o FastViTHD faz a diferença.
Fig. 1. Desempenho do FastVLM em imagens de baixa versus alta resolução. (Fonte)
O novo codificador de visão da Apple, FastViTHD, ajuda o FastVLM a processar imagens de alta qualidade de forma mais eficiente, usando menos memória e energia. Especificamente, o FastViTHD é leve o suficiente para ser executado sem problemas, mesmo em dispositivos menores.
Além disso, o FastVLM está disponível publicamente no repositório FastVLM do GitHub, onde os desenvolvedores podem acessar o código-fonte, fazer alterações e usá-lo em seus próprios aplicativos de acordo com os termos da licença da Apple.
Comparando o FastVLM com outros modelos VLM
Em comparação com outros modelos de visão-linguagem, o FastVLM é otimizado para ser executado em dispositivos cotidianos, como smartphones e laptops. Em testes de desempenho, o FastVLM gerou sua primeira palavra ou saída até 85 vezes mais rápido do que modelos como o LLaVA-OneVision-0.5B.
Fig 2. Comparando o desempenho do FastVLM com outros modelos. (Fonte)
Aqui está um vislumbre de alguns dos benchmarks padrão nos quais o FastVLM foi avaliado:
DocVQA (Document Visual Question Answering - Resposta Visual a Perguntas sobre Documentos): Este benchmark avalia o quão bem o modelo consegue ler e entender informações textuais em documentos, como formulários ou páginas digitalizadas.
TextVQA (Resposta a Perguntas Visuais Baseada em Texto): Avalia a capacidade do modelo de interpretar imagens que contêm texto incorporado e responder a perguntas relacionadas com precisão.
GQA (Graph Question Answering - Resposta a Perguntas em Grafos): Esta tarefa testa as habilidades de raciocínio do modelo, exigindo que ele entenda as relações entre objetos e cenas dentro de uma imagem.
MMMU (Massive Multi-discipline Multimodal Understanding - Compreensão Multimodal Multidisciplinar Massiva): Ele mede o desempenho do modelo em uma ampla gama de disciplinas e formatos acadêmicos, combinando compreensão visual e textual.
SeedBench (Avaliação Padrão de Dados Aprimorados para Benchmarking): Este benchmark explora as capacidades gerais do modelo na compreensão visual e raciocínio em vários domínios.
Em todos estes benchmarks, o FastVLM alcançou resultados competitivos utilizando menos recursos. Ele traz IA visual prática para dispositivos do dia a dia, como telefones, tablets e laptops.
Codificador de visão eficiente do FastVLM: FastViTHD
Em seguida, vamos dar uma olhada mais de perto no FastViTHD, o codificador de visão que desempenha um papel crucial no desempenho do processamento de imagem do FastVLM.
A maioria dos modelos de linguagem visual divide uma imagem em milhares de pequenos patches chamados tokens. Quanto mais tokens, mais tempo e energia o modelo precisa para entender a imagem. Isso pode tornar as coisas lentas, especialmente em telefones ou laptops.
Fig. 3. Como um codificador de visão processa uma imagem. (Source)
O FastViTHD evita a desaceleração que vem com o processamento de muitos tokens usando menos deles, enquanto ainda entende a imagem completa. Ele combina duas abordagens: transformers, que são bons em modelar padrões e relacionamentos, e camadas convolucionais, que são eficientes no processamento de dados visuais. O resultado é um sistema que funciona mais rápido e usa menos memória.
De acordo com a Apple, o FastViTHD é até 3,4 vezes menor do que alguns codificadores de visão tradicionais, mantendo ainda alta precisão. Em vez de depender de técnicas de otimização de modelo, como pruning de tokens (remoção de patches de imagem menos importantes para acelerar o processamento), ele alcança eficiência por meio de uma arquitetura mais simples e otimizada.
Variantes de modelo e pipeline de treinamento do FastVLM
A Apple lançou o FastVLM em três tamanhos diferentes: 0,5B, 1,5B e 7B parâmetros (onde "B" significa bilhão, referindo-se ao número de pesos treináveis no modelo). Cada versão é projetada para se adequar a diferentes tipos de dispositivos. Os modelos menores podem ser executados em telefones e tablets, enquanto o modelo maior de 7B é mais adequado para desktops ou tarefas mais exigentes.
Isso dá aos desenvolvedores a flexibilidade de escolher o que funciona melhor para seus aplicativos. Eles podem construir algo rápido e leve para dispositivos móveis ou algo mais complexo para sistemas maiores, tudo isso usando a mesma arquitetura de modelo subjacente.
A Apple treinou variantes do modelo FastVLM usando o pipeline LLaVA‑1.5, uma estrutura para alinhar visão e modelos de linguagem. Para o componente de linguagem, eles avaliaram o FastVLM usando modelos de código aberto existentes, como Qwen e Vicuna, que são conhecidos por gerar texto natural e coerente. Esta configuração permite que o FastVLM processe imagens simples e complexas e produza respostas legíveis e relevantes.
A importância do FastVLM: a visão eficiente da Apple sobre IA
Você pode estar se perguntando, por que o processamento de imagem eficiente do FastVLM é importante? Tudo se resume a quão suavemente os aplicativos podem funcionar em tempo real sem depender da nuvem. O FastVLM pode lidar com imagens de alta resolução, até 1152 por 1152 pixels, enquanto permanece rápido e leve o suficiente para ser executado diretamente no seu dispositivo.
Isso significa que os aplicativos podem descrever o que a câmera vê, digitalizar recibos conforme são capturados ou responder a alterações na tela, tudo mantendo tudo local. É especialmente útil para áreas como educação, acessibilidade, produtividade e fotografia.
Como o FastViTHD é eficiente mesmo quando se trata de imagens grandes, ele ajuda a manter os dispositivos responsivos e frios. Ele funciona com todos os tamanhos de modelo, incluindo o menor, que é executado em iPhones de nível básico. Isso significa que os mesmos recursos de IA podem funcionar em telefones, tablets e Macs.
Aplicações do FastVLM
O FastVLM pode impulsionar uma ampla gama de aplicações, graças aos seus principais benefícios como velocidade, eficiência e privacidade no dispositivo. Aqui estão algumas maneiras pelas quais ele pode ser usado:
Leitura de documentos: Ele pode digitalizar recibos, formulários ou carteiras de identidade e extrair apenas as informações relevantes. Ele pode se concentrar em áreas específicas de uma imagem, o que é útil para aplicativos que precisam de extração de texto rápida e precisa.
Legendas de imagens: Ao analisar uma foto, pode gerar uma descrição clara do que está na imagem. Isso oferece suporte a recursos em aplicativos de câmera, galerias de fotos ou qualquer ferramenta que se beneficie da compreensão visual em tempo real.
Suporte de acessibilidade: O FastVLM pode descrever o conteúdo na tela para usuários cegos ou com baixa visão, tornando os botões, menus e elementos de layout mais fáceis de navegar e usar.
Assistentes de IA no dispositivo: O FastVLM pode funcionar bem com assistentes de IA que precisam entender rapidamente o que está na tela. Como ele é executado diretamente no dispositivo e mantém os dados privados, pode ajudar em tarefas como ler texto, identificar botões ou ícones e orientar os usuários em tempo real, sem precisar enviar informações para a nuvem.
Fig 4. O FastVLM pode ser usado para reconhecimento de texto e resposta visual a perguntas. (Source)
Principais conclusões
O FastVLM traz IA de visão-linguagem no dispositivo para dispositivos Apple, combinando velocidade, privacidade e eficiência. Com seu design leve e lançamento de código aberto, ele permite a compreensão de imagens em tempo real em aplicativos móveis e de desktop.
Isso ajuda a tornar a IA mais prática e acessível para o uso diário e oferece aos desenvolvedores uma base sólida para a construção de aplicativos úteis e com foco na privacidade. Olhando para o futuro, é provável que os modelos de visão-linguagem desempenhem um papel importante na forma como interagimos com a tecnologia, tornando a IA mais responsiva, consciente do contexto e útil em situações cotidianas.