Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

FastVLM: A Apple apresenta o seu novo modelo rápido de visão e linguagem

Apple revela o FastVLM na CVPR 2025. Este modelo de visão e linguagem de código aberto apresenta o codificador FastViTHD, oferecendo um tempo até o primeiro token até 85 × mais rápido.

ABAbirami Vina
4 min read
O modelo rápido de visão e linguagem FastVLM da Apple

Na conferência CVPR 2025, a Apple apresentou um novo modelo de IA de código aberto chamado FastVLM. Ele foi criado para entender imagens e linguagem, e roda em dispositivos Apple, como iPhones, iPads e Macs. Isso significa que ele pode entregar resultados inteligentes rapidamente, sem enviar seus dados para a nuvem.

O que torna o FastVLM particularmente interessante é sua velocidade e eficiência. A Apple desenvolveu um novo codificador de visão chamado FastViTHD, que ajuda o modelo a interpretar imagens de alta qualidade usando menos memória e energia. Todo o processamento ocorre localmente no dispositivo, resultando em tempos de resposta mais rápidos e preservando a privacidade do usuário.

Neste artigo, exploraremos como o FastVLM funciona, o que o diferencia e por que este lançamento da Apple pode ser um passo significativo para aplicações de IA no dia a dia em seus dispositivos.

Link to this sectionEntendendo modelos de linguagem de visão (VLMs)#

Antes de mergulharmos no que torna o FastVLM especial, vamos explicar o que o termo "VLM" significa. Refere-se a um modelo de linguagem de visão, projetado para entender e conectar conteúdo visual com linguagem.

Os VLMs unem a compreensão visual e a linguagem, permitindo que realizem tarefas como descrever uma foto, responder perguntas sobre uma captura de tela ou extrair texto de um documento. Modelos de linguagem de visão geralmente funcionam em duas partes: uma processa a imagem e a converte em dados, enquanto a outra interpreta esses dados para gerar uma resposta que você pode ler ou ouvir.

Você pode já ter usado esse tipo de inovação em IA sem perceber. Aplicativos que escaneiam recibos, leem cartões de identificação, geram legendas para imagens ou ajudam pessoas com baixa visão a interagir com suas telas geralmente dependem de modelos de linguagem de visão rodando silenciosamente em segundo plano.

Link to this sectionO que é o FastVLM?#

A Apple criou o FastVLM para realizar as mesmas tarefas que outros modelos de linguagem de visão, mas com maior velocidade, privacidade mais forte e desempenho otimizado em seus próprios dispositivos. Ele pode entender o conteúdo de uma imagem e responder com texto, mas, ao contrário de muitos modelos que dependem de servidores em nuvem, o FastVLM pode rodar inteiramente no seu iPhone, iPad ou Mac.

Os VLMs geralmente têm um desempenho melhor com imagens de alta resolução. Por exemplo, como mostrado abaixo, o FastVLM só conseguiu identificar corretamente uma placa de trânsito como "Proibido Entrar" ao receber uma versão de alta resolução da imagem. No entanto, entradas de alta resolução geralmente diminuem a velocidade dos modelos. É aqui que o FastViTHD faz a diferença.

Desempenho do FastVLM em imagens de baixa vs. alta resolução

Fig 1. Desempenho do FastVLM em imagens de baixa vs. alta resolução. (Fonte)

O novo codificador de visão da Apple, FastViTHD, ajuda o FastVLM a processar imagens de alta qualidade com mais eficiência, usando menos memória e energia. Especificamente, o FastViTHD é leve o suficiente para rodar suavemente até mesmo em dispositivos menores.

Além disso, o FastVLM está disponível publicamente no repositório GitHub do FastVLM, onde desenvolvedores podem acessar o código-fonte, fazer alterações e usá-lo em seus próprios aplicativos de acordo com os termos de licença da Apple.

Link to this sectionComparando o FastVLM com outros modelos VLM#

Em comparação com outros modelos de linguagem de visão, o FastVLM é otimizado para rodar em dispositivos do dia a dia, como smartphones e laptops. Em testes de desempenho, o FastVLM gerou sua primeira palavra ou saída até 85 vezes mais rápido do que modelos como o LLaVA-OneVision-0.5B.

Comparando o desempenho do FastVLM com outros modelos

Fig 2. Comparando o desempenho do FastVLM com outros modelos. (Fonte)

Aqui está uma visão geral de alguns dos benchmarks padrão nos quais o FastVLM foi avaliado:

  • DocVQA (Document Visual Question Answering): Este benchmark avalia o quão bem o modelo consegue ler e entender informações textuais em documentos, como formulários escaneados ou páginas.
  • TextVQA (Text-based Visual Question Answering): Avalia a capacidade do modelo de interpretar imagens que contêm texto embutido e responder a perguntas relacionadas com precisão.
  • GQA (Graph Question Answering): Esta tarefa testa as habilidades de raciocínio do modelo, exigindo que ele entenda relacionamentos entre objetos e cenas dentro de uma imagem.
  • MMMU (Massive Multi-discipline Multimodal Understanding): Mede o desempenho do modelo em uma ampla gama de disciplinas acadêmicas e formatos, combinando compreensão visual e textual.
  • SeedBench (Standard Evaluation of Enhanced Data for Benchmarking): Este benchmark explora as capacidades gerais do modelo em compreensão e raciocínio visual em vários domínios.

Nesses benchmarks, o FastVLM alcançou resultados competitivos usando menos recursos. Ele traz IA de visão prática para dispositivos do dia a dia como celulares, tablets e laptops.

Link to this sectionO codificador de visão eficiente do FastVLM: FastViTHD#

A seguir, vamos analisar mais de perto o FastViTHD, o codificador de visão que desempenha um papel crucial no desempenho de processamento de imagem do FastVLM.

A maioria dos modelos de linguagem de visão divide uma imagem em milhares de pequenos pedaços chamados tokens. Quanto mais tokens, mais tempo e energia o modelo precisa para entender a imagem. Isso pode deixar as coisas lentas, especialmente em celulares ou laptops.

Como um codificador de visão processa uma imagem

Fig 3. Como um codificador de visão processa uma imagem. (Fonte)

O FastViTHD evita a lentidão que vem com o processamento de muitos tokens usando menos deles, enquanto ainda entende a imagem completa. Ele combina duas abordagens: transformers, que são bons em modelar padrões e relacionamentos, e camadas convolucionais, que são eficientes no processamento de dados visuais. O resultado é um sistema que funciona mais rápido e usa menos memória.

De acordo com a Apple, o FastViTHD é até 3,4 vezes menor do que alguns codificadores de visão tradicionais, mantendo uma alta precisão. Em vez de depender de técnicas de otimização de modelo como poda de tokens (remover pedaços de imagem menos importantes para acelerar o processamento), ele alcança eficiência através de uma arquitetura mais simples e simplificada.

Link to this sectionVariantes do modelo FastVLM e pipeline de treinamento#

A Apple lançou o FastVLM em três tamanhos diferentes: 0.5B, 1.5B e 7B parâmetros (onde "B" significa bilhão, referindo-se ao número de pesos treináveis no modelo). Cada versão é projetada para se adequar a diferentes tipos de dispositivos. Os modelos menores podem rodar em celulares e tablets, enquanto o modelo 7B maior é mais adequado para desktops ou tarefas mais exigentes.

Isso dá aos desenvolvedores a flexibilidade de escolher o que funciona melhor para seus aplicativos. Eles podem criar algo rápido e leve para dispositivos móveis ou algo mais complexo para sistemas maiores, tudo usando a mesma arquitetura de modelo subjacente.

A Apple treinou as variantes do modelo FastVLM usando o pipeline LLaVA‑1.5, uma estrutura para alinhar visão e modelos de linguagem. Para o componente de linguagem, eles avaliaram o FastVLM usando modelos de código aberto existentes, como Qwen e Vicuna, conhecidos por gerar texto natural e coerente. Essa configuração permite que o FastVLM processe imagens simples e complexas e produza respostas legíveis e relevantes.

Link to this sectionO significado do FastVLM: a abordagem eficiente da Apple para IA#

Você pode estar se perguntando: por que o processamento eficiente de imagem do FastVLM é importante? Tudo se resume a quão suavemente os aplicativos podem funcionar em tempo real sem depender da nuvem. O FastVLM pode lidar com imagens de alta resolução, até 1152 por 1152 pixels, enquanto permanece rápido e leve o suficiente para rodar diretamente no seu dispositivo.

Isso significa que os aplicativos podem descrever o que a câmera vê, escanear recibos conforme são capturados ou responder a mudanças na tela, mantendo tudo local. É especialmente útil para áreas como educação, acessibilidade, produtividade e fotografia.

Como o FastViTHD é eficiente mesmo com imagens grandes, ele ajuda a manter os dispositivos responsivos e resfriados. Ele funciona com todos os tamanhos de modelo, incluindo o menor, que roda em iPhones básicos. Isso significa que os mesmos recursos de IA podem funcionar em celulares, tablets e Macs.

Link to this sectionAplicações do FastVLM#

O FastVLM pode potencializar uma ampla gama de aplicações, graças aos seus principais benefícios, como velocidade, eficiência e privacidade no dispositivo. Aqui estão algumas maneiras pelas quais ele pode ser usado:

  • Leitura de documentos: Ele pode escanear recibos, formulários ou cartões de identificação e extrair apenas as informações relevantes. Ele pode focar em áreas específicas de uma imagem, o que é útil para aplicativos que precisam de extração de texto rápida e precisa.

  • Legendas de imagem: Ao analisar uma foto, ele pode gerar uma descrição clara do que há na imagem. Isso oferece suporte a recursos em aplicativos de câmera, galerias de fotos ou qualquer ferramenta que se beneficie da compreensão visual em tempo real.

  • Suporte de acessibilidade: O FastVLM pode descrever o conteúdo na tela para usuários cegos ou com baixa visão, tornando botões, menus e elementos de layout mais fáceis de navegar e usar.

  • Assistentes de IA no dispositivo: O FastVLM pode funcionar bem com assistentes de IA que precisam entender rapidamente o que está na tela. Como ele roda diretamente no dispositivo e mantém os dados privados, ele pode ajudar em tarefas como ler texto, identificar botões ou ícones e orientar os usuários em tempo real sem a necessidade de enviar informações para a nuvem.

FastVLM pode ser usado para reconhecimento de texto e resposta a perguntas visuais

Fig 4. O FastVLM pode ser usado para reconhecimento de texto e perguntas e respostas visuais. (Fonte)

Link to this sectionPrincipais pontos#

O FastVLM traz IA de linguagem de visão no dispositivo para dispositivos Apple, combinando velocidade, privacidade e eficiência. Com seu design leve e lançamento de código aberto, ele permite a compreensão de imagens em tempo real em aplicativos móveis e de desktop.

Isso ajuda a tornar a IA mais prática e acessível para o uso diário e oferece aos desenvolvedores uma base sólida para criar aplicativos úteis e focados em privacidade. Olhando para o futuro, é provável que os modelos de linguagem de visão desempenhem um papel importante em como interagimos com a tecnologia, tornando a IA mais responsiva, consciente do contexto e útil em situações do dia a dia.

Explore nosso repositório GitHub para aprender mais sobre IA. Junte-se à nossa comunidade ativa e descubra inovações em setores como IA na indústria automotiva e IA de visão na manufatura. Para começar com visão computacional hoje, confira nossas opções de licenciamento.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática