Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Experimente o Google Gemini 2.5 para tarefas de visão computacional

Abirami Vina

Leitura de 5 minutos

31 de março de 2025

Veja como você pode ter experiência prática com o Google Gemini 2.5 para tarefas de visão computacional, como detecção de objetos, legendagem de imagens e OCR para soluções de IA de Visão.

Os avanços da IA estão se movendo rapidamente, com novas inovações chegando às manchetes quase todos os dias. Uma dessas recentes descobertas é o Gemini 2.5, o mais recente modelo multimodal do Google DeepMind, lançado em 26 de março. Enquanto os Modelos de Linguagem Grandes (LLMs) tradicionais podem aprender com grandes quantidades de dados para gerar texto semelhante ao humano, o Gemini 2.5 vai além disso. 

Ele foi projetado como um “modelo de pensamento” que pode processar imagens, áudio e vídeo. Ele tem habilidades aprimoradas de raciocínio e codificação. Curiosamente, ele também tem um desempenho excepcionalmente bom em relação às tarefas de visão computacional, onde as máquinas interpretam e analisam dados visuais, como detecção de objetos, legendagem de imagens e reconhecimento óptico de caracteres (OCR).

__wf_reserved_inherit
Fig 1. Um exemplo de como usar o Gemini 2.5 para entender o conteúdo de uma imagem.

Neste artigo, vamos apresentar um dos notebooks da Ultralytics que pode ajudá-lo a ter experiência prática com os recursos de visão computacional do Gemini 2.5. Também vamos analisar mais de perto os principais recursos do Gemini 2.5 e mostrar como ele pode ser usado para construir soluções de visão computacional para aplicações do mundo real. Vamos começar!

Visão geral do Gemini 2.5: recursos e capacidades

A primeira versão da série de modelos Gemini 2.5 que acaba de ser lançada é uma versão experimental do Gemini 2.5 Pro. Ele foi projetado para lidar com problemas complexos, ponderando suas respostas antes de dá-las. Ele usa métodos como aprendizado por reforço (onde o modelo aprende com o feedback) e _chain-of-thought prompting_ (uma abordagem passo a passo para resolver problemas).

Um de seus principais recursos é sua enorme janela de contexto, que pode conter 1 milhão de tokens (aproximadamente um milhão de palavras ou partes de palavras) e espera-se que cresça para 2 milhões. Isso significa que o modelo pode receber muita informação de uma vez, levando a resultados mais detalhados e precisos.

Além de processar linguagem, o Gemini 2.5 pode ser usado para as seguintes tarefas de visão computacional:

  • Detecção de objetos: É o processo de identificar e localizar objetos dentro de uma imagem. Pode ser usado em aplicações como vigilância ou carros autônomos.
  • Legenda de imagens: Esta tarefa envolve gerar um texto descritivo para uma imagem. Torna o conteúdo visual mais acessível e fácil de entender.
  • Reconhecimento óptico de caracteres: Esta tecnologia converte texto encontrado em imagens em texto editável e legível por máquina. É útil para digitalizar documentos e automatizar a entrada de dados.

Benchmarking e comparação do Google Gemini 2.5 com outros modelos

Existem vários modelos multimodais disponíveis no espaço de IA hoje, por isso é importante entender como o Gemini 2.5 Pro se compara a eles. Com base nos resultados de _benchmarking_ compartilhados pelo DeepMind do Google, o Gemini 2.5 Pro mostra um desempenho impressionante em uma variedade de tarefas. 

Por exemplo, em um teste chamado Humanity’s Last Exam, que simula um exame desafiador que abrange muitas disciplinas e testa raciocínio avançado e conhecimento geral, o Gemini 2.5 Pro pontua cerca de 18,8%, superando modelos como o3-mini da OpenAI, que pontua cerca de 14%. 

__wf_reserved_inherit
Fig 2. Uma visão geral do desempenho de _benchmark_ do Gemini 2.5 Pro.

Ele também tem um desempenho muito bom em desafios de matemática e codificação, muitas vezes igualando ou excedendo o desempenho de modelos como OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta e DeepSeek R1, demonstrando sua capacidade de lidar com tarefas complexas e processar grandes quantidades de dados.

Começando a usar o Gemini 2.5: Como usar a API do Google Gemini

O Gemini 2.5 Pro está disponível em várias plataformas. Você pode experimentar no Google AI Studio e acessá-lo através do aplicativo Gemini para usuários do Gemini Advanced. Em seu anúncio de lançamento, o Google DeepMind também mencionou que o modelo será suportado no Vertex AI em breve. Esses pontos de acesso facilitam o uso do Gemini 2.5 Pro por desenvolvedores para aplicações de IA do mundo real. 

No entanto, se você quiser usar a API do Google Gemini e começar em apenas alguns minutos, sem configuração complicada, e estiver procurando obter uma melhor compreensão de seus recursos de visão computacional, você pode consultar o notebook da Ultralytics que mostra tarefas como detecção de objetos e legenda de imagens usando o Gemini 2.5 Pro. Vamos detalhar o que você pode esperar no notebook.

Configurando a inferência com o notebook do Google Gemini 2.5

Para começar a usar o notebook da Ultralytics e usar o Google Gemini 2.5, você precisará primeiro gerar uma chave de API através do Google AI Studio. Esta chave lhe dá acesso à API do Gemini para que você possa usar o modelo.

Depois de ter sua chave de API, certifique-se de que seu ambiente tenha as bibliotecas necessárias instaladas - estes incluem pacotes da Ultralytics e do _toolkit_ de IA do Google. Esta etapa está claramente descrita no notebook, para que você possa seguir facilmente as instruções para configurar seu espaço de trabalho.

Com tudo configurado, você pode se conectar à API do Gemini inserindo sua chave de API (como mostrado abaixo), o que cria um link entre seu espaço de trabalho e o modelo. Depois disso, você estará pronto para enviar imagens e _prompts_ de texto para o Gemini 2.5.

Essencialmente, você pode fornecer uma imagem e uma instrução simples (como “detectar objetos nesta imagem” ou “descrever o que você vê”) para o modelo, e ele retorna os resultados que você precisa. Este processo direto torna mais fácil começar a explorar os recursos de visão computacional do Gemini 2.5.

Detecção de objetos com o Google Gemini 2.5

Um dos principais exemplos no notebook é a detecção de objetos usando o Gemini 2.5 Pro. Neste exemplo, você fornece ao modelo uma imagem e um _prompt_ simples para detectar objetos. 

O modelo processa a imagem e retorna um conjunto de coordenadas e rótulos para cada objeto que encontra; estas coordenadas são dadas de forma normalizada. Funções do pacote Python da Ultralytics são então usadas para converter esses valores normalizados para corresponder às dimensões reais da imagem e desenhar caixas delimitadoras claras ao redor de cada objeto, como mostrado abaixo.

__wf_reserved_inherit
Fig 3. Utilização do Google Gemini 2.5 para deteção de objetos.

Legenda de imagens usando o Gemini 2.5

Outro exemplo interessante no notebook é a legendagem de imagens usando o Gemini 2.5 Pro. Neste exemplo, você fornece ao modelo uma imagem e um prompt solicitando que ele gere uma legenda detalhada que descreva o que está na imagem. 

O modelo então analisa o conteúdo visual e retorna uma narrativa, frequentemente formatada como várias frases, que captura tanto o conteúdo quanto o contexto da imagem. Este recurso é útil para melhorar a acessibilidade, resumir informações visuais e até mesmo aprimorar a narrativa criativa.

Aprimorando a precisão do OCR com os modelos Google Gemini

Uma tarefa de visão computacional que utiliza a capacidade do Gemini 2.5 Pro de ler texto em imagens é o OCR. No notebook, você pode fornecer ao modelo uma imagem contendo texto junto com um prompt para extrair esse texto. O modelo processa a imagem e retorna tanto o texto detetado quanto as coordenadas onde o texto está localizado, conforme mostrado abaixo.

Funções do pacote Ultralytics Python são então usadas para converter essas coordenadas normalizadas nas dimensões reais da imagem e desenhar bounding boxes ao redor das regiões de texto. Esta saída anotada deixa claro onde o texto está localizado, o que é útil para digitalizar documentos, automatizar a entrada de dados e melhorar a acessibilidade.

__wf_reserved_inherit
Fig 4. Extração de dados textuais em uma imagem usando o Google Gemini 2.5.

Aplicações do Google Gemini 2.5 no mundo real

Agora que percorremos como o Google Gemini 2.5 Pro pode ser usado para várias tarefas de visão computacional, vamos explorar algumas aplicações do mundo real onde essas capacidades podem ser utilizadas.

A capacidade de deteção de objetos do Gemini 2.5 Pro, por exemplo, pode ajudar a rotular e organizar automaticamente grandes conjuntos de imagens, tornando tarefas como a criação de datasets ou a gestão de conteúdo muito mais rápidas. Ele também pode ser usado para analisar imagens em áreas como o varejo e a agricultura - por exemplo, detetando produtos em prateleiras ou identificando sinais de stress em plantações em fotos de fazendas.

__wf_reserved_inherit
Fig 5. Gemini 2.5 Pro analisando a saúde de uma planta.

Enquanto isso, o recurso de legendagem de imagens do modelo pode ajudar usuários com deficiência visual a entender o que está em uma imagem. Por exemplo, se você tiver uma foto de uma rua movimentada, o modelo pode produzir uma legenda que descreve a cena em detalhes, mencionando os tipos de veículos, a atividade de pedestres e até mesmo a hora do dia com base em pistas de iluminação. 

Além disso, a funcionalidade OCR do Gemini 2.5 pode ser usada em diversas aplicações. Por exemplo, você pode digitalizar documentos impressos digitalizando páginas ou recibos. Essa capacidade é ideal para automatizar tarefas de entrada de dados, processar formulários ou até mesmo ler textos de cartões de visita e sinalização. 

No geral, o Google Gemini 2.5 Pro abre as portas para uma ampla gama de aplicações práticas de IA.

Principais conclusões

Indo além da geração e análise de texto, o Google Gemini 2.5 Pro pode ser usado para tarefas de visão computacional como deteção de objetos, legendagem de imagens e OCR. Com sua enorme janela de contexto e capacidades de raciocínio aprimoradas, ele produz resultados detalhados e conscientes do contexto que funcionam bem em cenários do mundo real. 

À medida que os modelos de IA continuam a evoluir, ferramentas como o Gemini 2.5 Pro estão facilitando a resolução de problemas complexos em vários setores. É provável que vejamos uma adoção ainda maior de IA à medida que mais organizações procuram soluções flexíveis e multimodais que possam lidar com uma ampla gama de tarefas, desde a compreensão visual até o processamento de linguagem.

Faça parte da nossa comunidade e aprenda sobre projetos de IA de ponta em nosso repositório GitHub. Veja as aplicações da Visão de IA na agricultura e o papel da IA na manufatura em nossas páginas de soluções. Explore nossos planos de licenciamento e construa soluções de visão computacional hoje!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência