IA de visão

Coloque a mão na massa com o Google Gemini 2.5 para tarefas de visão computacional

Veja como você pode colocar a mão na massa com o Google Gemini 2.5 para tarefas de visão computacional, como detecção de objetos, legendagem de imagens e OCR para soluções de Vision AI.

ABAbirami Vina

5 min readMarch 31, 2025

Usando o Google Gemini 2.5 para tarefas de visão computacional

Os avanços em IA estão acontecendo rapidamente, com novas inovações ganhando as manchetes quase todos os dias. Um desses avanços recentes é o Gemini 2.5, o mais novo modelo multimodal do Google DeepMind, lançado em 26 de março. Embora os Grandes Modelos de Linguagem (LLMs) tradicionais possam aprender com grandes quantidades de dados para gerar textos semelhantes aos humanos, o Gemini 2.5 vai além disso.

Ele foi projetado como um "modelo de pensamento" que pode processar imagens, áudio e vídeo. Possui habilidades aprimoradas de raciocínio e codificação. Curiosamente, ele também apresenta um desempenho excepcionalmente bom em tarefas de visão computacional, onde máquinas interpretam e analisam dados visuais, como detecção de objetos, legendagem de imagens e reconhecimento óptico de caracteres (OCR).

Usando o Gemini 2.5 para entender o conteúdo de uma imagem

Fig 1. Um exemplo de uso do Gemini 2.5 para entender o conteúdo de uma imagem.

Neste artigo, vamos percorrer um dos notebooks da Ultralytics que pode te ajudar a colocar a mão na massa com os recursos de visão computacional do Gemini 2.5. Também daremos uma olhada mais de perto nos principais recursos do Gemini 2.5 e mostraremos como ele pode ser usado para construir soluções de visão computacional para aplicações do mundo real. Vamos começar!

Link to this sectionVisão geral do Gemini 2.5: recursos e capacidades#

A primeira versão da série de modelos Gemini 2.5 que acabou de ser lançada é uma versão experimental do Gemini 2.5 Pro. Ele foi projetado para lidar com problemas complexos pensando em suas respostas antes de dar uma solução. Ele usa métodos como aprendizado por reforço (onde o modelo aprende com o feedback) e chain-of-thought prompting (uma abordagem passo a passo para resolver problemas).

Um de seus principais recursos é sua enorme janela de contexto, que pode armazenar 1 milhão de tokens (aproximadamente um milhão de palavras ou partes de palavras) e espera-se que cresça para 2 milhões. Isso significa que o modelo pode absorver muitas informações de uma só vez, levando a resultados mais detalhados e precisos.

Além de processar linguagem, o Gemini 2.5 pode ser usado para as seguintes tarefas de visão computacional:

Detecção de objetos: É o processo de identificar e localizar objetos dentro de uma imagem. Pode ser usado em aplicações como vigilância ou carros autônomos.
Legendagem de imagens: Esta tarefa envolve a geração de um texto descritivo para uma imagem. Ela torna o conteúdo visual mais acessível e fácil de entender.
Reconhecimento óptico de caracteres: Esta tecnologia converte o texto encontrado em imagens em texto editável e legível por máquina. É útil para digitalizar documentos e automatizar a entrada de dados.

Link to this sectionBenchmarking e comparação do Google Gemini 2.5 com outros modelos#

Existem vários modelos multimodais disponíveis no espaço de IA hoje, por isso é importante entender como o Gemini 2.5 Pro se compara a eles. Com base nos resultados de benchmarking compartilhados pelo Google DeepMind, o Gemini 2.5 Pro apresenta um desempenho impressionante em uma série de tarefas.

Por exemplo, em um teste chamado Humanity’s Last Exam, que simula um exame desafiador cobrindo muitos assuntos e testa raciocínio avançado e conhecimento geral, o Gemini 2.5 Pro pontua cerca de 18,8%, superando modelos como o o3-mini da OpenAI, que pontua cerca de 14%.

Uma visão geral do desempenho de benchmark do Gemini 2.5 Pro

Fig 2. Uma visão geral do desempenho de benchmark do Gemini 2.5 Pro.

Ele também tem um desempenho muito bom em desafios de matemática e codificação, muitas vezes igualando ou excedendo o desempenho de modelos como OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta e DeepSeek R1, demonstrando sua capacidade de lidar com tarefas complexas e processar grandes quantidades de dados.

Link to this sectionColocando a mão na massa com o Gemini 2.5: Como usar a Google Gemini API#

O Gemini 2.5 Pro está disponível em várias plataformas. Você pode experimentar no Google AI Studio e acessá-lo através do aplicativo Gemini para usuários do Gemini Advanced. Em seu anúncio de lançamento, o Google DeepMind também mencionou que o modelo será suportado no Vertex AI em breve. Esses pontos de acesso facilitam para os desenvolvedores usarem o Gemini 2.5 Pro para aplicações de IA no mundo real.

No entanto, se você quiser usar a Google Gemini API e começar em apenas alguns minutos sem uma configuração complicada e estiver procurando entender melhor suas capacidades de visão computacional, você pode conferir o notebook da Ultralytics que mostra tarefas como detecção de objetos e legendagem de imagens usando o Gemini 2.5 Pro. Vamos ver detalhadamente o que você pode esperar no notebook.

Link to this sectionConfigurando a inferência com o notebook do Google Gemini 2.5#

Para começar com o notebook da Ultralytics e usar o Google Gemini 2.5, você primeiro precisará gerar uma chave de API através do Google AI Studio. Esta chave te dá acesso à Gemini API para que você possa usar o modelo.

Assim que tiver sua chave de API, certifique-se de que seu ambiente tenha as bibliotecas necessárias instaladas - elas incluem pacotes da Ultralytics e o kit de ferramentas de IA do Google. Este passo está claramente descrito no notebook, para que você possa seguir facilmente as instruções para configurar seu espaço de trabalho.

Com tudo configurado, você pode se conectar à Gemini API inserindo sua chave de API (conforme mostrado abaixo), o que cria um link entre seu espaço de trabalho e o modelo. Depois disso, você estará pronto para enviar imagens e comandos de texto para o Gemini 2.5.

Essencialmente, você pode fornecer uma imagem e uma instrução simples (como "detecte objetos nesta imagem" ou "descreva o que você vê") para o modelo, e ele retorna os resultados de que você precisa. Esse processo direto facilita o início da exploração das capacidades de visão computacional do Gemini 2.5.

Link to this sectionDetecção de objetos com o Google Gemini 2.5#

Um dos principais exemplos no notebook é a detecção de objetos usando o Gemini 2.5 Pro. Neste exemplo, você fornece ao modelo uma imagem e um comando simples para detectar objetos.

O modelo processa a imagem e retorna um conjunto de coordenadas e rótulos para cada objeto que encontra; essas coordenadas são fornecidas em forma normalizada. Funções do pacote Python da Ultralytics são então usadas para converter esses valores normalizados para corresponder às dimensões reais da imagem e desenhar caixas delimitadoras (bounding boxes) claras ao redor de cada objeto, conforme mostrado abaixo.

Usando o Google Gemini 2.5 para detecção de objetos

Fig 3. Usando o Google Gemini 2.5 para detecção de objetos.

Link to this sectionLegendagem de imagens usando o Gemini 2.5#

Outro exemplo interessante no notebook é a legendagem de imagens usando o Gemini 2.5 Pro. Neste exemplo, você fornece ao modelo uma imagem e um comando pedindo que ele gere uma legenda detalhada que descreva o que está na imagem.

O modelo então analisa o conteúdo visual e retorna uma narrativa, muitas vezes formatada como várias frases, que captura tanto o conteúdo quanto o contexto da imagem. Este recurso é útil para melhorar a acessibilidade, resumir informações visuais e até mesmo aprimorar a narrativa criativa.

Link to this sectionAprimorando a precisão do OCR com modelos do Google Gemini#

Uma tarefa de visão computacional que usa a capacidade do Gemini 2.5 Pro de ler texto em imagens é o OCR. No notebook, você pode fornecer ao modelo uma imagem contendo texto junto com um comando para extrair esse texto. O modelo processa a imagem e retorna tanto o texto detectado quanto as coordenadas onde o texto está localizado, como mostrado abaixo.

Funções do pacote Python da Ultralytics são então usadas para converter essas coordenadas normalizadas nas dimensões reais da imagem e desenhar caixas delimitadoras ao redor das regiões de texto. Este resultado anotado deixa claro onde o texto está localizado, o que é útil para digitalizar documentos, automatizar a entrada de dados e melhorar a acessibilidade.

Extraindo dados textuais em uma imagem usando o Google Gemini 2.5

Fig 4. Extraindo dados textuais em uma imagem usando o Google Gemini 2.5.

Link to this sectionAplicações do mundo real do Google Gemini 2.5#

Agora que percorremos como o Google Gemini 2.5 Pro pode ser usado para várias tarefas de visão computacional, vamos explorar algumas aplicações do mundo real onde esses recursos podem ser utilizados.

A capacidade de detecção de objetos do Gemini 2.5 Pro, por exemplo, pode ajudar a rotular e organizar automaticamente grandes conjuntos de imagens, tornando tarefas como a criação de datasets ou o gerenciamento de conteúdo muito mais rápidas. Ele também pode ser usado para analisar imagens em áreas como varejo e agricultura - por exemplo, detectando produtos em prateleiras ou identificando sinais de estresse em plantações em fotos de fazendas.

Gemini 2.5 Pro analisando a saúde de uma planta

Fig 5. Gemini 2.5 Pro analisando a saúde de uma planta.

Enquanto isso, o recurso de legendagem de imagens do modelo pode ajudar usuários com deficiência visual a entender o que está em uma imagem. Por exemplo, se você tiver uma foto de uma rua movimentada, o modelo pode produzir uma legenda que descreve a cena em detalhes, mencionando os tipos de veículos, a atividade dos pedestres e até mesmo a hora do dia com base em pistas de iluminação.

Além disso, a funcionalidade de OCR do Gemini 2.5 pode ser usada em uma variedade de aplicações. Por exemplo, você pode digitalizar documentos impressos escaneando páginas ou recibos. Essa capacidade é ideal para automatizar tarefas de entrada de dados, processar formulários ou até mesmo ler texto de cartões de visita e sinalização.

No geral, o Google Gemini 2.5 Pro abre as portas para uma ampla gama de aplicações práticas de IA.

Link to this sectionPrincipais pontos#

Indo além da geração e análise de texto, o Google Gemini 2.5 Pro pode ser usado para tarefas de visão computacional como detecção de objetos, legendagem de imagens e OCR. Com sua enorme janela de contexto e habilidades de raciocínio aprimoradas, ele produz resultados detalhados e conscientes do contexto que funcionam bem em cenários do mundo real.

À medida que os modelos de IA continuam a evoluir, ferramentas como o Gemini 2.5 Pro estão tornando mais fácil resolver problemas complexos em todos os setores. É provável que vejamos uma adoção ainda mais ampla da IA à medida que mais organizações buscam soluções multimodais flexíveis que possam lidar com uma ampla gama de tarefas, desde a compreensão visual até o processamento de linguagem.

Faça parte da nossa comunidade e aprenda sobre projetos de IA de ponta em nosso repositório GitHub. Veja as aplicações de IA de visão na agricultura e o papel da IA na manufatura em nossas páginas de soluções. Explore nossos planos de licenciamento e construa soluções de visão computacional hoje mesmo!